modify the API files
This commit is contained in:
parent
f7f458ca13
commit
ee2fc4bb50
|
@ -14,17 +14,15 @@ mindspore.dataset.audio.AllpassBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -7,23 +7,21 @@ mindspore.dataset.audio.AmplitudeToDB
|
|||
|
||||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度,取值可为ScaleType.MAGNITUDE或ScaleType.POWER,默认值:ScaleType.POWER。
|
||||
- **ref_value** (float, 可选) - 系数参考值,默认值:1.0,用于计算分贝系数 `db_multiplier` ,公式为
|
||||
|
||||
- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度,取值可为ScaleType.MAGNITUDE或ScaleType.POWER,默认值:ScaleType.POWER。
|
||||
- **ref_value** (float, 可选) - 系数参考值,默认值:1.0,用于计算分贝系数 `db_multiplier` ,公式为
|
||||
:math:`db\_multiplier = Log10(max(ref\_value, amin))`。
|
||||
|
||||
:math:`db\_multiplier = Log10(max(ref\_value, amin))`。
|
||||
- **amin** (float, 可选) - 波形取值下界,低于该值的波形将会被裁切,取值必须大于0,默认值:1e-10。
|
||||
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数,默认值:80.0。
|
||||
|
||||
- **amin** (float, 可选) - 波形取值下界,低于该值的波形将会被裁切,取值必须大于0,默认值:1e-10。
|
||||
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数,默认值:80.0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType` 。
|
||||
- **TypeError** - 当 `ref_value` 的类型不为float。
|
||||
- **ValueError** - 当 `ref_value` 不为正数。
|
||||
- **TypeError** - 当 `amin` 的类型不为float。
|
||||
- **ValueError** - 当 `amin` 不为正数。
|
||||
- **TypeError** - 当 `top_db` 的类型不为float。
|
||||
- **ValueError** - 当 `top_db` 不为正数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType` 。
|
||||
- **TypeError** - 当 `ref_value` 的类型不为float。
|
||||
- **ValueError** - 当 `ref_value` 不为正数。
|
||||
- **TypeError** - 当 `amin` 的类型不为float。
|
||||
- **ValueError** - 当 `amin` 不为正数。
|
||||
- **TypeError** - 当 `top_db` 的类型不为float。
|
||||
- **ValueError** - 当 `top_db` 不为正数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
|
|
|
@ -7,6 +7,5 @@ mindspore.dataset.audio.Angle
|
|||
|
||||
.. note:: 待处理音频维度需为(..., complex=2),其中第0维代表实部,第1维代表虚部。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
|
||||
异常:
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
|
||||
|
|
|
@ -11,19 +11,17 @@ mindspore.dataset.audio.BandBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **noise** (bool, 可选) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式,默认值:False。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **noise** (bool, 可选) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式,默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **TypeError** - 当 `noise` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **TypeError** - 当 `noise` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -19,19 +19,17 @@ mindspore.dataset.audio.BandpassBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **const_skirt_gain** (bool, 可选) - 若为True,则使用恒定裙边增益(峰值增益为Q);若为False,则使用恒定的0dB峰值增益。默认值:False。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **const_skirt_gain** (bool, 可选) - 若为True,则使用恒定裙边增益(峰值增益为Q);若为False,则使用恒定的0dB峰值增益。默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **TypeError** - 当 `const_skirt_gain` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **TypeError** - 当 `const_skirt_gain` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -16,17 +16,15 @@ mindspore.dataset.audio.BandrejectBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -14,19 +14,17 @@ mindspore.dataset.audio.BassBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz),默认值:100.0。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz),默认值:100.0。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `gain` 的类型不为float。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `gain` 的类型不为float。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -7,12 +7,10 @@ mindspore.dataset.audio.ComplexNorm
|
|||
|
||||
.. note:: 待处理音频维度需为(..., complex=2),其中第0维代表实部,第1维代表虚部。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **power** (float, 可选) - 范数的幂,取值必须非负,默认值:1.0。
|
||||
|
||||
- **power** (float, 可选) - 范数的幂,取值必须非负,默认值:1.0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `power` 的类型不为float。
|
||||
- **ValueError** - 当 `power` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
|
||||
异常:
|
||||
- **TypeError** - 当 `power` 的类型不为float。
|
||||
- **ValueError** - 当 `power` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
|
||||
|
|
|
@ -11,12 +11,10 @@ mindspore.dataset.audio.Contrast
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100],默认值:75.0。请注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。
|
||||
|
||||
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100],默认值:75.0。请注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `enhancement_amount` 的类型不为float。
|
||||
- **ValueError** - 当 `enhancement_amount` 取值不在[0, 100]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `enhancement_amount` 的类型不为float。
|
||||
- **ValueError** - 当 `enhancement_amount` 取值不在[0, 100]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -7,23 +7,21 @@ mindspore.dataset.audio.FrequencyMasking
|
|||
|
||||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
- **TypeError** - 当 `freq_mask_param` 的类型不为int。
|
||||
- **ValueError** - 当 `freq_mask_param` 大于音频频域长度。
|
||||
- **TypeError** - 当 `mask_start` 的类型不为int。
|
||||
- **ValueError** - 当 `mask_start` 为负数。
|
||||
- **TypeError** - 当 `mask_value` 的类型不为float。
|
||||
- **ValueError** - 当 `mask_value` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
- **TypeError** - 当 `freq_mask_param` 的类型不为int。
|
||||
- **ValueError** - 当 `freq_mask_param` 大于音频频域长度。
|
||||
- **TypeError** - 当 `mask_start` 的类型不为int。
|
||||
- **ValueError** - 当 `mask_start` 为负数。
|
||||
- **TypeError** - 当 `mask_value` 的类型不为float。
|
||||
- **ValueError** - 当 `mask_value` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
|
||||
.. image:: frequency_masking_original.png
|
||||
|
||||
|
|
|
@ -14,17 +14,15 @@ mindspore.dataset.audio.LowpassBiquad
|
|||
|
||||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **cutoff_freq** (float) - 滤波器截止频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1],默认值:0.707。
|
||||
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **cutoff_freq** (float) - 滤波器截止频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1],默认值:0.707。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
- **ValueError** - 当 `sample_rate` 的数值为0。
|
||||
- **TypeError** - 当 `central_freq` 的类型不为float。
|
||||
- **TypeError** - 当 `Q` 的类型不为float。
|
||||
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -7,23 +7,21 @@ mindspore.dataset.audio.TimeMasking
|
|||
|
||||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **time_mask_param** (int, 可选): 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
- **TypeError** - 当 `time_mask_param` 的类型不为int。
|
||||
- **ValueError** - 当 `time_mask_param` 大于音频时域长度。
|
||||
- **TypeError** - 当 `mask_start` 的类型不为int。
|
||||
- **ValueError** - 当 `mask_start` 为负数。
|
||||
- **TypeError** - 当 `mask_value` 的类型不为float。
|
||||
- **ValueError** - 当 `mask_value` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
异常:
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
- **TypeError** - 当 `time_mask_param` 的类型不为int。
|
||||
- **ValueError** - 当 `time_mask_param` 大于音频时域长度。
|
||||
- **TypeError** - 当 `mask_start` 的类型不为int。
|
||||
- **ValueError** - 当 `mask_start` 为负数。
|
||||
- **TypeError** - 当 `mask_value` 的类型不为float。
|
||||
- **ValueError** - 当 `mask_value` 为负数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
|
||||
|
||||
.. image:: time_masking_original.png
|
||||
|
||||
|
|
|
@ -7,21 +7,19 @@ mindspore.dataset.audio.TimeStretch
|
|||
|
||||
.. note:: 待处理音频维度需为(..., freq, time, complex=2),其中第0维代表实部,第1维代表虚部。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **hop_length** (int, 可选) - STFT窗之间每跳的长度,即连续帧之间的样本数,默认值:None,表示取 `n_freq - 1`。
|
||||
- **n_freq** (int, 可选) - STFT中的滤波器组数,默认值:201。
|
||||
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例,默认值:None,表示保持原始速率。
|
||||
|
||||
- **hop_length** (int, 可选) - STFT窗之间每跳的长度,即连续帧之间的样本数,默认值:None,表示取 `n_freq - 1`。
|
||||
- **n_freq** (int, 可选) - STFT中的滤波器组数,默认值:201。
|
||||
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例,默认值:None,表示保持原始速率。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `hop_length` 的类型不为int。
|
||||
- **ValueError** - 当 `hop_length` 不为正数。
|
||||
- **TypeError** - 当 `n_freq` 的类型不为int。
|
||||
- **ValueError** - 当 `n_freq` 不为正数。
|
||||
- **TypeError** - 当 `fixed_rate` 的类型不为float。
|
||||
- **ValueError** - 当 `fixed_rate` 不为正数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, num_frame, complex=2>。
|
||||
异常:
|
||||
- **TypeError** - 当 `hop_length` 的类型不为int。
|
||||
- **ValueError** - 当 `hop_length` 不为正数。
|
||||
- **TypeError** - 当 `n_freq` 的类型不为int。
|
||||
- **ValueError** - 当 `n_freq` 不为正数。
|
||||
- **TypeError** - 当 `fixed_rate` 的类型不为float。
|
||||
- **ValueError** - 当 `fixed_rate` 不为正数。
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., freq, num_frame, complex=2>。
|
||||
|
||||
.. image:: time_stretch_rate1.5.png
|
||||
|
||||
|
|
|
@ -7,26 +7,24 @@
|
|||
|
||||
.. note:: Windows平台尚不支持 `BasicTokenizer` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **lower_case** (bool,可选) - 是否对字符串进行小写转换处理。若为True,会将字符串转换为小写并删除重音字符;若为False,将只对字符串进行规范化处理,其模式由 `normalization_form` 指定。默认值:False。
|
||||
- **keep_whitespace** (bool,可选) - 是否在分词输出中保留空格。默认值:False。
|
||||
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效,取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值:NormalizeForm.NONE。
|
||||
|
||||
- **lower_case** (bool,可选) - 是否对字符串进行小写转换处理。若为True,会将字符串转换为小写并删除重音字符;若为False,将只对字符串进行规范化处理,其模式由 `normalization_form` 指定。默认值:False。
|
||||
- **keep_whitespace** (bool,可选) - 是否在分词输出中保留空格。默认值:False。
|
||||
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效,取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值:NormalizeForm.NONE。
|
||||
- NormalizeForm.NONE:不进行规范化处理。
|
||||
- NormalizeForm.NFC:先以标准等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFKC:先以兼容等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFD:以标准等价方式分解。
|
||||
- NormalizeForm.NFKD:以兼容等价方式分解。
|
||||
|
||||
- NormalizeForm.NONE:不进行规范化处理。
|
||||
- NormalizeForm.NFC:先以标准等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFKC:先以兼容等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFD:以标准等价方式分解。
|
||||
- NormalizeForm.NFKD:以兼容等价方式分解。
|
||||
- **preserve_unused_token** (bool,可选) - 是否保留特殊词汇。若为True,将不会对特殊词汇进行分词,如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值:True。
|
||||
- **with_offsets** (bool,可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
- **preserve_unused_token** (bool,可选) - 是否保留特殊词汇。若为True,将不会对特殊词汇进行分词,如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值:True。
|
||||
- **with_offsets** (bool,可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `lower_case` 的类型不为bool。
|
||||
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入Tensor的数据类型不为str。
|
||||
异常:
|
||||
- **TypeError** - 当 `lower_case` 的类型不为bool。
|
||||
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
- **RuntimeError** - 当输入Tensor的数据类型不为str。
|
||||
|
|
|
@ -7,34 +7,32 @@ mindspore.dataset.text.BertTokenizer
|
|||
|
||||
.. note:: Windows平台尚不支持 `BertTokenizer` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **vocab** (:class:`mindspore.dataset.text.Vocab`) - 用于查词的词汇表。
|
||||
- **suffix_indicator** (str,可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
|
||||
- **max_bytes_per_token** (int,可选) - 分词最大长度,超过此长度的词汇将不会被拆分。默认值:100。
|
||||
- **unknown_token** (str,可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
|
||||
- **lower_case** (bool,可选) - 是否对字符串进行小写转换处理。若为True,会将字符串转换为小写并删除重音字符;若为False,将只对字符串进行规范化处理,其模式由 `normalization_form` 指定。默认值:False。
|
||||
- **keep_whitespace** (bool,可选) - 是否在分词输出中保留空格。默认值:False。
|
||||
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效,取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值:NormalizeForm.NONE。
|
||||
|
||||
- **vocab** (:class:`mindspore.dataset.text.Vocab`) - 用于查词的词汇表。
|
||||
- **suffix_indicator** (str,可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
|
||||
- **max_bytes_per_token** (int,可选) - 分词最大长度,超过此长度的词汇将不会被拆分。默认值:100。
|
||||
- **unknown_token** (str,可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
|
||||
- **lower_case** (bool,可选) - 是否对字符串进行小写转换处理。若为True,会将字符串转换为小写并删除重音字符;若为False,将只对字符串进行规范化处理,其模式由 `normalization_form` 指定。默认值:False。
|
||||
- **keep_whitespace** (bool,可选) - 是否在分词输出中保留空格。默认值:False。
|
||||
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效,取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值:NormalizeForm.NONE。
|
||||
- NormalizeForm.NONE:不进行规范化处理。
|
||||
- NormalizeForm.NFC:先以标准等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFKC:先以兼容等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFD:以标准等价方式分解。
|
||||
- NormalizeForm.NFKD:以兼容等价方式分解。
|
||||
|
||||
- NormalizeForm.NONE:不进行规范化处理。
|
||||
- NormalizeForm.NFC:先以标准等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFKC:先以兼容等价方式分解,再以标准等价方式重组。
|
||||
- NormalizeForm.NFD:以标准等价方式分解。
|
||||
- NormalizeForm.NFKD:以兼容等价方式分解。
|
||||
- **preserve_unused_token** (bool,可选) - 是否保留特殊词汇。若为True,将不会对特殊词汇进行分词,如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值:True。
|
||||
- **with_offsets** (bool,可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
- **preserve_unused_token** (bool,可选) - 是否保留特殊词汇。若为True,将不会对特殊词汇进行分词,如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值:True。
|
||||
- **with_offsets** (bool,可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `vocab` 的类型不为 :class:`mindspore.dataset.text.Vocab` 。
|
||||
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
|
||||
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
|
||||
- **ValueError** - 当 `max_bytes_per_token` 为负数。
|
||||
- **TypeError** - 当 `unknown_token` 的类型不为str。
|
||||
- **TypeError** - 当 `lower_case` 的类型不为bool。
|
||||
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
异常:
|
||||
- **TypeError** - 当 `vocab` 的类型不为 :class:`mindspore.dataset.text.Vocab` 。
|
||||
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
|
||||
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
|
||||
- **ValueError** - 当 `max_bytes_per_token` 为负数。
|
||||
- **TypeError** - 当 `unknown_token` 的类型不为str。
|
||||
- **TypeError** - 当 `lower_case` 的类型不为bool。
|
||||
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
|
|
|
@ -7,35 +7,32 @@ mindspore.dataset.text.JiebaTokenizer
|
|||
|
||||
.. note:: 必须保证隐式马尔科夫模型分词(HMMSEgment)和最大概率法分词(MPSegment)所使用的词典文件的完整性。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **hmm_path** (str) - 隐式马尔科夫模型分词算法使用的词典文件路径,词典可在cppjieba官网获取,
|
||||
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_ 。
|
||||
- **mp_path** (str) - 最大概率法分词算法使用的词典文件路径,词典可在cppjieba官网获取,
|
||||
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_ 。
|
||||
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式,可以取值为JiebaMode.MP、JiebaMode.HMM或JiebaMode.MIX。默认值:JiebaMode.MIX。
|
||||
|
||||
- **hmm_path** (str) - 隐式马尔科夫模型分词算法使用的词典文件路径,词典可在cppjieba官网获取,
|
||||
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_ 。
|
||||
- **mp_path** (str) - 最大概率法分词算法使用的词典文件路径,词典可在cppjieba官网获取,
|
||||
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_ 。
|
||||
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式,可以取值为JiebaMode.MP、JiebaMode.HMM或JiebaMode.MIX。默认值:JiebaMode.MIX。
|
||||
- **JiebaMode.MP**:使用最大概率法算法进行分词。
|
||||
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
|
||||
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
|
||||
|
||||
- **JiebaMode.MP**:使用最大概率法算法进行分词。
|
||||
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
|
||||
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
|
||||
- **ValueError** - 没有提供参数 `mp_path` 或为None。
|
||||
- **TypeError** - 参数 `hmm_path` 和 `mp_path` 类型不为str。
|
||||
- **TypeError** - 参数 `with_offsets` 类型不为bool。
|
||||
异常:
|
||||
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
|
||||
- **ValueError** - 没有提供参数 `mp_path` 或为None。
|
||||
- **TypeError** - 参数 `hmm_path` 和 `mp_path` 类型不为str。
|
||||
- **TypeError** - 参数 `with_offsets` 类型不为bool。
|
||||
|
||||
.. py:method:: add_dict(user_dict)
|
||||
|
||||
将用户定义的词添加到 `JiebaTokenizer` 的字典中。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **user_dict** (Union[str, dict]) - 有两种输入方式。可以通过指定jieba字典格式的文件路径加载。
|
||||
要求的jieba字典格式为:[word,freq],如:
|
||||
参数:
|
||||
- **user_dict** (Union[str, dict]) - 有两种输入方式。可以通过指定jieba字典格式的文件路径加载。
|
||||
要求的jieba字典格式为:[word,freq],如:
|
||||
|
||||
.. code-block::
|
||||
|
||||
|
@ -50,7 +47,6 @@ mindspore.dataset.text.JiebaTokenizer
|
|||
|
||||
将用户定义的词添加到 JiebaTokenizer 的字典中。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **word** (str) - 要添加到 `JiebaTokenizer` 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
|
||||
- **freq** (int,可选) - 要添加的单词的频率。频率越高,单词被分词的机会越大。默认值:None,使用默认频率。
|
||||
参数:
|
||||
- **word** (str) - 要添加到 `JiebaTokenizer` 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
|
||||
- **freq** (int,可选) - 要添加的单词的频率。频率越高,单词被分词的机会越大。默认值:None,使用默认频率。
|
||||
|
|
|
@ -5,16 +5,14 @@ mindspore.dataset.text.Lookup
|
|||
|
||||
根据词表,将分词标记(token)映射到其索引值(id)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **vocab** (Vocab) - 词表对象,用于存储分词和索引的映射。
|
||||
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
|
||||
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
|
||||
如果单词不在词汇表中,且未指定 `unknown_token` ,将抛出运行时错误。默认值:None,不指定该参数。
|
||||
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型,默认值:mindspore.int32。
|
||||
|
||||
- **vocab** (Vocab) - 词表对象,用于存储分词和索引的映射。
|
||||
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
|
||||
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
|
||||
如果单词不在词汇表中,且未指定 `unknown_token` ,将抛出运行时错误。默认值:None,不指定该参数。
|
||||
- **data_type** (mindspore.dtype, 可选): Lookup输出的数据类型,默认值:mindspore.int32。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab` 。
|
||||
- **TypeError** - 参数 `unknown_token` 类型不为str。
|
||||
- **TypeError** - 参数 `data_type` 类型不为 :class:`mindspore.dtype` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab` 。
|
||||
- **TypeError** - 参数 `unknown_token` 类型不为str。
|
||||
- **TypeError** - 参数 `data_type` 类型不为 :class:`mindspore.dtype` 。
|
||||
|
|
|
@ -7,21 +7,19 @@ mindspore.dataset.text.Ngram
|
|||
|
||||
关于N-gram是什么以及它是如何工作的,请参阅 `N-gram <https://en.wikipedia.org/wiki/N-gram#Examples>`_ 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **n** (list[int]) - n-gram 中的 n,它是一个正整数列表。例如 n=[4, 3],结果将是Tensor包含一个4-gram和一个3-gram的字符串。
|
||||
如果输入的字符不足以构造一个n-gram,则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
|
||||
- **left_pad** (tuple, 可选) - 指定序列的左侧填充,传入tuple的形式为 ("pad_token",pad_width)。
|
||||
pad_width 的上限值为 `n` -1。例如,指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值:("", 0)。
|
||||
- **right_pad** (tuple, 可选) - 指定序列的右侧填充,传入tuple的形式为 ("pad_token", pad_width)。
|
||||
pad_width 的上限值为 `n` -1。例如,指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值:("", 0)。
|
||||
- **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
|
||||
例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为"-",结果将是 ["mindspore-amazing"]。默认值:" ",使用空格作为分隔符。
|
||||
|
||||
- **n** (list[int]) - n-gram 中的 n,它是一个正整数列表。例如 n=[4, 3],结果将是Tensor包含一个4-gram和一个3-gram的字符串。
|
||||
如果输入的字符不足以构造一个n-gram,则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
|
||||
- **left_pad** (tuple, 可选) - 指定序列的左侧填充,传入tuple的形式为 ("pad_token",pad_width)。
|
||||
pad_width 的上限值为 `n` -1。例如,指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值:("", 0)。
|
||||
- **right_pad** (tuple, 可选) - 指定序列的右侧填充,传入tuple的形式为 ("pad_token",pad_width)。
|
||||
pad_width 的上限值为 `n` -1。例如,指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值:("", 0)。
|
||||
- **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
|
||||
例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为"-",结果将是 ["mindspore-amazing"]。默认值:" ",使用空格作为分隔符。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `n` 包含的值类型不为int。
|
||||
- **ValueError** - 参数 `n` 包含的值不为正数。
|
||||
- **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]。
|
||||
- **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]。
|
||||
- **TypeError** - 参数 `separator` 的类型不是str。
|
||||
异常:
|
||||
- **TypeError** - 参数 `n` 包含的值类型不为int。
|
||||
- **ValueError** - 参数 `n` 包含的值不为正数。
|
||||
- **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]。
|
||||
- **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]。
|
||||
- **TypeError** - 参数 `separator` 的类型不是str。
|
||||
|
|
|
@ -7,20 +7,18 @@ mindspore.dataset.text.NormalizeUTF8
|
|||
|
||||
.. note:: Windows平台尚不支持 `NormalizeUTF8` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
|
||||
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
|
||||
任何一种形式,默认值:NormalizeForm.NFKC。
|
||||
|
||||
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
|
||||
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
|
||||
任何一种形式,默认值:NormalizeForm.NFKC。
|
||||
|
||||
- NormalizeForm.NONE,对输入字符串不做任何处理。
|
||||
- NormalizeForm.NFC,对输入字符串进行C形式规范化。
|
||||
- NormalizeForm.NFKC,对输入字符串进行KC形式规范化。
|
||||
- NormalizeForm.NFD,对输入字符串进行D形式规范化。
|
||||
- NormalizeForm.NFKD,对输入字符串进行KD形式规范化。
|
||||
- NormalizeForm.NONE,对输入字符串不做任何处理。
|
||||
- NormalizeForm.NFC,对输入字符串进行C形式规范化。
|
||||
- NormalizeForm.NFKC,对输入字符串进行KC形式规范化。
|
||||
- NormalizeForm.NFD,对输入字符串进行D形式规范化。
|
||||
- NormalizeForm.NFKD,对输入字符串进行KD形式规范化。
|
||||
|
||||
有关规范化详细信息,请参阅 http://unicode.org/reports/tr15/。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `normalize_form` 的类型不是 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `normalize_form` 的类型不是 :class:`mindspore.dataset.text.NormalizeForm` 。
|
||||
|
|
|
@ -5,10 +5,8 @@ mindspore.dataset.text.PythonTokenizer
|
|||
|
||||
使用用户自定义的分词器对输入字符串进行分词。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **tokenizer** (Callable) - Python可调用对象,要求接收一个string参数作为输入,并返回一个包含多个string的列表作为返回值。
|
||||
|
||||
- **tokenizer** (Callable) - Python可调用对象,要求接收一个string参数作为输入,并返回一个包含多个string的列表作为返回值。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `tokenizer` 不是一个可调用的Python对象。
|
||||
异常:
|
||||
- **TypeError** - 参数 `tokenizer` 不是一个可调用的Python对象。
|
||||
|
|
|
@ -9,14 +9,12 @@ mindspore.dataset.text.RegexReplace
|
|||
|
||||
.. note:: Windows平台尚不支持 `RegexReplace` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **pattern** (str) - 正则表达式的模式。
|
||||
- **replace** (str) - 替换匹配元素的字符串。
|
||||
- **replace_all** (bool, 可选) - 如果为False,只替换第一个匹配的元素; 如果为True,则替换所有匹配的元素。默认值:True。
|
||||
|
||||
- **pattern** (str) - 正则表达式的模式。
|
||||
- **replace** (str) - 替换匹配元素的字符串。
|
||||
- **replace_all** (bool, 可选): 如果为False,只替换第一个匹配的元素; 如果为True,则替换所有匹配的元素。默认值:True。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `replace` 的类型不是str。
|
||||
- **TypeError** - 参数 `replace_all` 的类型不是bool。
|
||||
异常:
|
||||
- **TypeError** - 参数 `pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `replace` 的类型不是str。
|
||||
- **TypeError** - 参数 `replace_all` 的类型不是bool。
|
||||
|
|
|
@ -9,15 +9,13 @@ mindspore.dataset.text.RegexTokenizer
|
|||
|
||||
.. note:: Windows平台尚不支持 `RegexTokenizer` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
|
||||
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
|
||||
默认值:''(空字符),即分隔符不会作为输出标记保留。
|
||||
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量,默认值:False,不输出。
|
||||
|
||||
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
|
||||
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
|
||||
默认值:''(空字符),即分隔符不会作为输出标记保留。
|
||||
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量,默认值:False,不输出。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不是bool。
|
||||
异常:
|
||||
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不是bool。
|
||||
|
|
|
@ -5,17 +5,15 @@ mindspore.dataset.text.SentencePieceTokenizer
|
|||
|
||||
使用SentencePiece分词器对字符串进行分词。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **mode** (Union[str, SentencePieceVocab]) - SentencePiece模型。
|
||||
如果输入是字符串类型,则代表要加载的SentencePiece模型文件的路径;
|
||||
如果输入是SentencePieceVocab类型,则要求是构造好的 :class:`mindspore.dataset.text.SentencePieceVocab` 对象。
|
||||
- **out_type** (SPieceTokenizerOutType) - 分词器输出的类型,可以取值为 SPieceTokenizerOutType.STRING 或 SPieceTokenizerOutType.INT。
|
||||
|
||||
- SPieceTokenizerOutType.STRING,表示SentencePice分词器的输出类型是str。
|
||||
- SPieceTokenizerOutType.INT,表示SentencePice分词器的输出类型是int。
|
||||
|
||||
- **mode** (Union[str, SentencePieceVocab]) - SentencePiece模型。
|
||||
如果输入是字符串类型,则代表要加载的SentencePiece模型文件的路径;
|
||||
如果输入是SentencePieceVocab类型,则要求是构造好的 :class:`mindspore.dataset.text.SentencePieceVocab` 对象。
|
||||
- **out_type** (SPieceTokenizerOutType) - 分词器输出的类型,可以取值为 SPieceTokenizerOutType.STRING 或 SPieceTokenizerOutType.INT。
|
||||
|
||||
- SPieceTokenizerOutType.STRING,表示SentencePice分词器的输出类型是str。
|
||||
- SPieceTokenizerOutType.INT,表示SentencePice分词器的输出类型是int。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab` 。
|
||||
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab` 。
|
||||
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType` 。
|
||||
|
|
|
@ -9,53 +9,48 @@
|
|||
|
||||
从数据集构建SentencePiece。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
|
||||
- **col_names** (list) - 表示列名称的列表。
|
||||
- **vocab_size** (int) - 表示词汇大小。
|
||||
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
|
||||
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值:SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
|
||||
|
||||
- **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
|
||||
- **col_names** (list) - 表示列名称的列表。
|
||||
- **vocab_size** (int) - 表示词汇大小。
|
||||
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
|
||||
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值:SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
|
||||
- SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
|
||||
- SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
|
||||
- SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
|
||||
- SentencePieceModel.WORD:引用基于单词的SentencePiece模型类型。
|
||||
|
||||
- SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
|
||||
- SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
|
||||
- SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
|
||||
- SentencePieceModel.WORD:引用基于单词的SentencePiece模型类型。
|
||||
- **params** (dict) - 表示没有传入参数的字典。
|
||||
|
||||
- **params** (dict):表示没有传入参数的字典。
|
||||
|
||||
**返回:**
|
||||
|
||||
SentencePieceVocab,从数据集构建的Vocab对象。
|
||||
返回:
|
||||
SentencePieceVocab,从数据集构建的Vocab对象。
|
||||
|
||||
.. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params)
|
||||
|
||||
从文件中构建一个SentencePiece对象。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
|
||||
- **vocab_size** (int) - 表示词汇大小。
|
||||
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
|
||||
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
|
||||
|
||||
- **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
|
||||
- **vocab_size** (int) - 表示词汇大小。
|
||||
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
|
||||
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
|
||||
- SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
|
||||
- SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
|
||||
- SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
|
||||
- SentencePieceModel.WORD:引用基于单词的SentencePiece模型类型。
|
||||
|
||||
- SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
|
||||
- SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
|
||||
- SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
|
||||
- SentencePieceModel.WORD:引用基于单词的SentencePiece模型类型。
|
||||
- **params** (dict) - 表示没有传入参数的字典(参数派生自SentencePiece库)。
|
||||
|
||||
- **params** (dict):表示没有传入参数的字典(参数派生自SentencePiece库)。
|
||||
|
||||
**返回:**
|
||||
|
||||
SentencePieceVocab,表示从文件中构建的Vocab对象。
|
||||
返回:
|
||||
SentencePieceVocab,表示从文件中构建的Vocab对象。
|
||||
|
||||
.. py:method:: save_model(vocab, path, filename)
|
||||
|
||||
将模型保存到给定的文件路径。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
|
||||
- **path** (str) - 表示存储模型的路径。
|
||||
- **filename** (str) - 表示文件名称。
|
||||
参数:
|
||||
- **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
|
||||
- **path** (str) - 表示存储模型的路径。
|
||||
- **filename** (str) - 表示文件名称。
|
||||
|
|
|
@ -5,13 +5,11 @@ mindspore.dataset.text.SlidingWindow
|
|||
|
||||
在输入数据的某个维度上进行滑窗切分处理,当前仅支持处理1-D的Tensor。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **width** (str) - 窗口的宽度,它必须是整数并且大于零。
|
||||
- **axis** (int, 可选) - 计算滑动窗口的轴,默认值:0。
|
||||
|
||||
- **width** (str) - 窗口的宽度,它必须是整数并且大于零。
|
||||
- **axis** (int, 可选) - 计算滑动窗口的轴,默认值:0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `width` 的类型不为int。
|
||||
- **ValueError** - 参数 `width` 的值不为正数。
|
||||
- **TypeError** - 参数 `axis` 的类型不为int。
|
||||
异常:
|
||||
- **TypeError** - 参数 `width` 的类型不为int。
|
||||
- **ValueError** - 参数 `width` 的值不为正数。
|
||||
- **TypeError** - 参数 `axis` 的类型不为int。
|
||||
|
|
|
@ -9,11 +9,9 @@ mindspore.dataset.text.ToNumber
|
|||
https://en.cppreference.com/w/cpp/string/basic_string/stof,
|
||||
https://en.cppreference.com/w/cpp/string/basic_string/stoul。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 :class:`mindspore.dtype` 定义的数值类型。
|
||||
|
||||
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 :class:`mindspore.dtype` 定义的数值类型。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `data_type` 不是 :class:`mindspore.dtype` 类型。
|
||||
- **RuntimeError** - 字符串类型转换失败,或类型转换时出现溢出。
|
||||
异常:
|
||||
- **TypeError** - 参数 `data_type` 不是 :class:`mindspore.dtype` 类型。
|
||||
- **RuntimeError** - 字符串类型转换失败,或类型转换时出现溢出。
|
||||
|
|
|
@ -7,10 +7,8 @@ mindspore.dataset.text.TruncateSequencePair
|
|||
|
||||
TruncateSequencePair接收两个Tensor作为输入并返回两个Tensor作为输出。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **max_length** (int) - 最大截断长度。
|
||||
|
||||
- **max_length** (int) - 最大截断长度。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `max_length` 的类型不是int。
|
||||
异常:
|
||||
- **TypeError** - 参数 `max_length` 的类型不是int。
|
||||
|
|
|
@ -5,10 +5,8 @@ mindspore.dataset.text.UnicodeCharTokenizer
|
|||
|
||||
使用Unicode分词器将字符串分词为Unicode字符。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
异常:
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
|
|
|
@ -7,12 +7,10 @@ mindspore.dataset.text.UnicodeScriptTokenizer
|
|||
|
||||
.. note:: Windows平台尚不支持 `UnicodeScriptTokenizer` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **keep_whitespace** (bool, 可选) - 是否输出空白标记(token),默认值:False。
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
- **keep_whitespace** (bool, 可选) - 是否输出空白标记(token),默认值:False。
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
异常:
|
||||
- **TypeError** - 参数 `keep_whitespace` 的类型不为bool。
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
|
|
|
@ -14,89 +14,76 @@
|
|||
获得数据集中的所有唯一单词,并在 `freq_range` 中用户指定的频率范围内返回一个vocab。如果没有单词在该频率上,用户将收到预警信息。
|
||||
vocab中的单词按最高频率到最低频率的顺序进行排列。具有相同频率的单词将按词典顺序进行排列。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset** (Dataset) - 表示要从中构建vocab的数据集。
|
||||
- **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表,默认值:None。
|
||||
- **freq_range** (tuple,可选) - 表示整数元组(min_frequency,max_frequency)。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None,分别对应于0和total_words,默认值:None。
|
||||
- **top_k** (int,可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k` 在 `freq_range` 之后取用。如果没有足够的 `top_k` ,所有单词都将被取用,默认值:None。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
- **dataset** (Dataset) - 表示要从中构建vocab的数据集。
|
||||
- **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表,默认值:None。
|
||||
- **freq_range** (tuple,可选) - 表示整数元组(min_frequency,max_frequency)。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None,分别对应于0和total_words,默认值:None。
|
||||
- **top_k** (int,可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k` 在 `freq_range` 之后取用。如果没有足够的 `top_k` ,所有单词都将被取用,默认值:None。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
**返回:**
|
||||
|
||||
Vocab,从数据集构建的Vocab对象。
|
||||
返回:
|
||||
Vocab,从数据集构建的Vocab对象。
|
||||
|
||||
.. py:method:: from_dict(word_dict)
|
||||
|
||||
通过字典构建Vocab对象。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **word_dict** (dict) - 字典包含word和ID对,其中 `word` 应是string类型, `ID` 应是int类型。至于 `ID` ,建议从0开始并且不断续。如果 `ID` 为负数,将引发ValueError。
|
||||
|
||||
- **word_dict** (dict) - 字典包含word和ID对,其中 `word` 应是string类型, `ID` 应是int类型。至于 `ID` ,建议从0开始并且不断续。如果 `ID` 为负数,将引发ValueError。
|
||||
|
||||
**返回:**
|
||||
|
||||
Vocab,从字典构建的Vocab对象。
|
||||
返回:
|
||||
Vocab,从字典构建的Vocab对象。
|
||||
|
||||
.. py:method:: from_file(file_path, delimiter="", vocab_size=None, special_tokens=None, special_first=True)
|
||||
|
||||
通过文件构建Vocab对象。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **file_path** (str) - 表示包含vocab文件路径的一个列表。
|
||||
- **delimiter** (str,可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。
|
||||
- **vocab_size** (int,可选) - 表示要从 `file_path` 读取的字数,默认值:None,表示读取所有的字。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (list,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
- **file_path** (str) - 表示包含vocab文件路径的一个列表。
|
||||
- **delimiter** (str,可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。
|
||||
- **vocab_size** (int,可选) - 表示要从 `file_path` 读取的字数,默认值:None,表示读取所有的字。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (list,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
**返回:**
|
||||
|
||||
Vocab,从文件构建的Vocab对象。
|
||||
返回:
|
||||
Vocab,从文件构建的Vocab对象。
|
||||
|
||||
.. py:method:: from_list(word_list, special_tokens=None, special_first=True)
|
||||
|
||||
从单词列表构建一个vocab对象。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **word_list** (list) - 输入单词列表,每个单词需要为字符串类型。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
- **word_list** (list) - 输入单词列表,每个单词需要为字符串类型。
|
||||
- **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
|
||||
- **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
|
||||
|
||||
**返回:**
|
||||
|
||||
Vocab,从单词列表构建的Vocab对象。
|
||||
返回:
|
||||
Vocab,从单词列表构建的Vocab对象。
|
||||
|
||||
.. py:method:: ids_to_tokens(ids)
|
||||
|
||||
将输入索引转换为对应的分词,支持传入单个索引或一个包含多个索引的序列。如果索引不存在,则返回空字符串。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。
|
||||
|
||||
- **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。
|
||||
|
||||
**返回:**
|
||||
|
||||
解码的分词(token)。
|
||||
返回:
|
||||
解码的分词(token)。
|
||||
|
||||
.. py:method:: tokens_to_ids(tokens)
|
||||
|
||||
将输入分词(token)转换为对应的索引(id),支持传入单个分词或一个包含多个分词的列表。如果分词不存在,则返回-1。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **tokens** (Union[str, list[str]]) - 一个或多个要转换为分词(token)id(s)的分词(token)。
|
||||
|
||||
- **tokens** (Union[str, list[str]]) - 一个或多个要转换为分词(token)id(s)的分词(token)。
|
||||
|
||||
**返回:**
|
||||
|
||||
分词(token)id或分词(token)id列表。
|
||||
返回:
|
||||
分词(token)id或分词(token)id列表。
|
||||
|
||||
.. py:method:: vocab()
|
||||
|
||||
获取dict类型的词汇表。
|
||||
|
||||
**返回:**
|
||||
|
||||
由word和id对组成的词汇表。
|
||||
返回:
|
||||
由word和id对组成的词汇表。
|
||||
|
|
|
@ -7,10 +7,8 @@ mindspore.dataset.text.WhitespaceTokenizer
|
|||
|
||||
.. note:: Windows平台尚不支持 `WhitespaceTokenizer` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
异常:
|
||||
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
|
||||
|
|
|
@ -5,19 +5,17 @@ mindspore.dataset.text.WordpieceTokenizer
|
|||
|
||||
将输入的字符串切分为子词。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **vocab** (Vocab) - 用于查词的词汇表。
|
||||
- **suffix_indicator** (str, 可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
|
||||
- **max_bytes_per_token** (int,可选) - 分词最大长度,超过此长度的词汇将不会被拆分。默认值:100。
|
||||
- **unknown_token** (str,可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
|
||||
- **with_offsets** (bool, 可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
- **vocab** (Vocab) - 用于查词的词汇表。
|
||||
- **suffix_indicator** (str, 可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
|
||||
- **max_bytes_per_token** (int,可选) - 分词最大长度,超过此长度的词汇将不会被拆分。默认值:100。
|
||||
- **unknown_token** (str,可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
|
||||
- **with_offsets** (bool, 可选) - 是否输出词汇在字符串中的偏移量。默认值:False。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `vocab` 不为 :class:`mindspore.dataset.text.Vocab` 类型。
|
||||
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
|
||||
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
|
||||
- **TypeError** - 当 `unknown_token` 的类型不为str。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
- **ValueError** - 当 `max_bytes_per_token` 为负数。
|
||||
异常:
|
||||
- **TypeError** - 当 `vocab` 不为 :class:`mindspore.dataset.text.Vocab` 类型。
|
||||
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
|
||||
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
|
||||
- **TypeError** - 当 `unknown_token` 的类型不为str。
|
||||
- **TypeError** - 当 `with_offsets` 的类型不为bool。
|
||||
- **ValueError** - 当 `max_bytes_per_token` 为负数。
|
||||
|
|
|
@ -5,11 +5,9 @@
|
|||
|
||||
基于 `encoding` 字符集对每个元素进行编码,将 `string` 的NumPy数组转换为 `bytes` 的数组。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。
|
||||
- **encoding** (str) - 表示用于编码的字符集,默认值:'utf8'。
|
||||
|
||||
- **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。
|
||||
- **encoding** (str) - 表示用于编码的字符集,默认值:'utf8'。
|
||||
|
||||
**返回:**
|
||||
|
||||
numpy.ndarray,表示 `bytes` 的NumPy数组。
|
||||
返回:
|
||||
numpy.ndarray,表示 `bytes` 的NumPy数组。
|
||||
|
|
|
@ -5,11 +5,9 @@
|
|||
|
||||
基于 `encoding` 字符集对每个元素进行解码,借此将 `bytes` 的NumPy数组转换为 `string` 的数组。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。
|
||||
- **encoding** (str) - 表示用于解码的字符集,默认值:'utf8'。
|
||||
|
||||
- **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。
|
||||
- **encoding** (str) - 表示用于解码的字符集,默认值:'utf8'。
|
||||
|
||||
**返回:**
|
||||
|
||||
numpy.ndarray,表示 `str` 的NumPy数组。
|
||||
返回:
|
||||
numpy.ndarray,表示 `str` 的NumPy数组。
|
||||
|
|
|
@ -9,36 +9,30 @@ mindspore.dataset.transforms.Compose
|
|||
Compose可以将 `mindspore.dataset.transforms` / `mindspore.dataset.vision` 等模块中的数据增强算子以及用户自定义的Python可调用对象
|
||||
合并成单个数据增强。对于用户定义的Python可调用对象,要求其返回值是numpy.ndarray类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python的可调用对象或audio/text/transforms/vision模块中的数据增强方法。
|
||||
异常:
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python的可调用对象或audio/text/transforms/vision模块中的数据增强方法。
|
||||
|
||||
.. py:method:: decompose(operations)
|
||||
|
||||
从给定的操作列表中删除所有 compose 操作。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **operations** (list) - 变换列表。
|
||||
|
||||
- **operations** (list) - 变换列表。
|
||||
|
||||
**返回:**
|
||||
|
||||
没有组合操作的操作列表。
|
||||
返回:
|
||||
没有组合操作的操作列表。
|
||||
|
||||
.. py:method:: reduce(operations)
|
||||
|
||||
在 Compose 中包装相邻的 Python 操作,以允许混合 Python 和 C++ 操作。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **operations** (list) - Tensor操作列表。
|
||||
|
||||
- **operations** (list) - Tensor操作列表。
|
||||
|
||||
**返回:**
|
||||
|
||||
list,简化的操作列表。
|
||||
返回:
|
||||
list,简化的操作列表。
|
||||
|
|
|
@ -5,14 +5,12 @@ mindspore.dataset.transforms.Concatenate
|
|||
|
||||
在Tensor的某一个轴上进行元素拼接。目前仅支持拼接形状为1D的Tensor。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **axis** (int, 可选) - 指定一个轴用于拼接Tensor,默认值:0。
|
||||
- **prepend** (numpy.ndarray, 可选) - 指定拼接在最前面的Tensor,默认值:None,不指定。
|
||||
- **append** (numpy.ndarray, 可选) - 指定拼接在最后面的Tensor,默认值:None,不指定。
|
||||
|
||||
- **axis** (int, 可选) - 指定一个轴用于拼接Tensor,默认值:0。
|
||||
- **prepend** (numpy.ndarray, 可选) - 指定拼接在最前面的Tensor,默认值:None,不指定。
|
||||
- **append** (numpy.ndarray, 可选) - 指定拼接在最后面的Tensor,默认值:None,不指定。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `axis` 的类型不为int。
|
||||
- **TypeError** - 参数 `prepend` 的类型不为 `numpy.ndarray` 。
|
||||
- **TypeError** - 参数 `append` 的类型不为 `numpy.ndarray` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `axis` 的类型不为int。
|
||||
- **TypeError** - 参数 `prepend` 的类型不为 `numpy.ndarray` 。
|
||||
- **TypeError** - 参数 `append` 的类型不为 `numpy.ndarray` 。
|
||||
|
|
|
@ -5,6 +5,5 @@ mindspore.dataset.transforms.Duplicate
|
|||
|
||||
将输入的数据列复制得到新的数据列,每次仅可以输入1个数据列进行复制。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - 输入数据列数量大于1。
|
||||
异常:
|
||||
- **RuntimeError** - 输入数据列数量大于1。
|
||||
|
|
|
@ -5,10 +5,8 @@ mindspore.dataset.transforms.Fill
|
|||
|
||||
将Tensor的所有元素都赋值为指定的值,输出Tensor将与输入Tensor具有与具有相同的shape和数据类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **fill_value** (Union[str, bytes, int, float, bool]) - 用于填充Tensor的值。
|
||||
|
||||
- **fill_value** (Union[str, bytes, int, float, bool]) - 用于填充Tensor的值。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `fill_value` 类型不为str、float、bool、int或bytes。
|
||||
异常:
|
||||
- **TypeError** - 参数 `fill_value` 类型不为str、float、bool、int或bytes。
|
||||
|
|
|
@ -5,14 +5,12 @@ mindspore.dataset.transforms.Mask
|
|||
|
||||
用给条件判断输入Tensor的内容,并返回一个掩码Tensor。Tensor中任何符合条件的元素都将被标记为True,否则为False。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **operator** (:class:`mindspore.dataset.transforms.c_transforms.Relational`) - 关系操作符,可以取值为Relational.EQ、Relational.NE、Relational.LT、Relational.GT、Relational.LE、Relational.GE。以Relational.EQ为例,将找出Tensor中与 `constant` 相等的元素。
|
||||
- **constant** (Union[str, int, float, bool]) - 与输入Tensor进行比较的基准值。
|
||||
- **dtype** (:class:`mindspore.dtype`, 可选) - 生成的掩码Tensor的数据类型,默认值::class:`mindspore.dtype.bool_` 。
|
||||
|
||||
- **operator** (:class:`mindspore.dataset.transforms.c_transforms.Relational`) - 关系操作符,可以取值为Relational.EQ、Relational.NE、Relational.LT、Relational.GT、Relational.LE、Relational.GE。以Relational.EQ为例,将找出Tensor中与 `constant` 相等的元素。
|
||||
- **constant** (Union[str, int, float, bool]) - 与输入Tensor进行比较的基准值。
|
||||
- **dtype** (:class:`mindspore.dtype`, 可选) - 生成的掩码Tensor的数据类型,默认值::class:`mindspore.dtype.bool_` 。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `operator` 类型不为 :class:`mindspore.dataset.transforms.c_transforms.Relational` 。
|
||||
- **TypeError** - 参数 `constant` 类型不为str、int、float或bool。
|
||||
- **TypeError** - 参数 `dtype` 类型不为 :class:`mindspore.dtype` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `operator` 类型不为 :class:`mindspore.dataset.transforms.c_transforms.Relational` 。
|
||||
- **TypeError** - 参数 `constant` 类型不为str、int、float或bool。
|
||||
- **TypeError** - 参数 `dtype` 类型不为 :class:`mindspore.dtype` 。
|
||||
|
|
|
@ -5,15 +5,13 @@ mindspore.dataset.transforms.OneHot
|
|||
|
||||
将Tensor进行OneHot编码。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **num_classes** (int) - 数据集的类别数,它应该大于数据集中最大的label编号。
|
||||
- **smoothing_rate** (float,可选) - 标签平滑的系数,默认值:0.0。
|
||||
|
||||
- **num_classes** (int) - 数据集的类别数,它应该大于数据集中最大的label编号。
|
||||
- **smoothing_rate** (float,可选) - 标签平滑的系数,默认值:0.0。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `num_classes` 类型不为int。
|
||||
- **TypeError** - 参数 `smoothing_rate` 类型不为float。
|
||||
- **ValueError** - 参数 `smoothing_rate` 取值范围不为[0.0, 1.0]。
|
||||
- **RuntimeError** - 输入Tensor的数据类型不为int。
|
||||
- **RuntimeError** - 参数Tensor的shape不是1-D。
|
||||
异常:
|
||||
- **TypeError** - 参数 `num_classes` 类型不为int。
|
||||
- **TypeError** - 参数 `smoothing_rate` 类型不为float。
|
||||
- **ValueError** - 参数 `smoothing_rate` 取值范围不为[0.0, 1.0]。
|
||||
- **RuntimeError** - 输入Tensor的数据类型不为int。
|
||||
- **RuntimeError** - 参数Tensor的shape不是1-D。
|
||||
|
|
|
@ -5,18 +5,16 @@ mindspore.dataset.transforms.PadEnd
|
|||
|
||||
对输入Tensor进行填充,要求 `pad_shape` 与输入Tensor的维度保持一致。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **pad_shape** (list(int)) - 指定填充的shape。维度设置为'None'时将不会被填充,设置为较小的维数时该维度的元素将被截断。
|
||||
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值:None,表示不指定填充值。
|
||||
当指定为默认值,输入Tensor为数值型时默认填充0,输入Tensor为字符型时填充空字符串。
|
||||
|
||||
- **pad_shape** (list(int)) - 指定填充的shape。维度设置为'None'时将不会被填充,设置为较小的维数时该维度的元素将被截断。
|
||||
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值:None,表示不指定填充值。
|
||||
当指定为默认值,输入Tensor为数值型时默认填充0,输入Tensor为字符型时填充空字符串。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `pad_shape` 的类型不为list。
|
||||
- **TypeError** - 参数 `pad_value` 的类型不为str、float、bool、int或bytes。
|
||||
- **TypeError** - 参数 `pad_shape` 的元素类型不为int。
|
||||
- **ValueError** - 参数 `pad_shape` 的元素不为正数。
|
||||
异常:
|
||||
- **TypeError** - 参数 `pad_shape` 的类型不为list。
|
||||
- **TypeError** - 参数 `pad_value` 的类型不为str、float、bool、int或bytes。
|
||||
- **TypeError** - 参数 `pad_shape` 的元素类型不为int。
|
||||
- **ValueError** - 参数 `pad_shape` 的元素不为正数。
|
||||
|
||||
|
||||
|
||||
|
|
|
@ -5,15 +5,13 @@ mindspore.dataset.transforms.RandomApply
|
|||
|
||||
指定一组数据增强处理及其被应用的概率,在运算时按概率随机应用其中的增强处理。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
- **prob** (float, 可选) - 随机应用某个数据增强的概率,默认值:0.5。
|
||||
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
- **prob** (float, 可选) - 随机应用某个数据增强的概率,默认值:0.5。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 的长度为空。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
- **TypeError** - 参数 `prob` 的类型不为float。
|
||||
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。
|
||||
异常:
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 的长度为空。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
- **TypeError** - 参数 `prob` 的类型不为float。
|
||||
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。
|
||||
|
|
|
@ -5,12 +5,10 @@ mindspore.dataset.transforms.RandomChoice
|
|||
|
||||
在一组数据增强中随机选择部分增强处理进行应用。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
异常:
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
|
|
|
@ -5,12 +5,10 @@ mindspore.dataset.transforms.RandomOrder
|
|||
|
||||
给一个数据增强的列表,随机打乱数据增强处理的顺序。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
- **transforms** (list) - 一个数据增强的列表。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
异常:
|
||||
- **TypeError** - 参数 `transforms` 类型不为list。
|
||||
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
|
||||
- **ValueError** - 参数 `transforms` 是空的list。
|
||||
|
|
|
@ -5,16 +5,14 @@ mindspore.dataset.transforms.Slice
|
|||
|
||||
对Tensor进行切片操作,功能类似于NumPy的索引(目前只支持1D形状的Tensor)。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **slices** ((Union[int, list[int], slice, None, Ellipsis]) - 指定切片的信息,可以为
|
||||
|
||||
- **slices** ((Union[int, list[int], slice, None, Ellipsis]) - 指定切片的信息,可以为
|
||||
|
||||
- 1. :py:obj:`int`: 沿着第一个维度切片对索引进行切片,支持负索引。
|
||||
- 2. :py:obj:`list(int)`: 沿着第一个维度切片所有索引进行切片,支持负号索引。
|
||||
- 3. :py:obj:`slice`: 沿着第一个维度对 `slice <https://docs.python.org/zh-cn/3.7/library/functions.html?highlight=slice#slice>`_ 对象生成的索引进行切片。
|
||||
- 4. :py:obj:`None`: 切片整个维度,类似于Python索引中的语法 :py:obj:`[:]` 。
|
||||
- 5. :py:obj:`Ellipsis`: 切片整个维度,效果与 `None` 相同。
|
||||
- 1. :py:obj:`int`: 沿着第一个维度切片对索引进行切片,支持负索引。
|
||||
- 2. :py:obj:`list(int)`: 沿着第一个维度切片所有索引进行切片,支持负号索引。
|
||||
- 3. :py:obj:`slice`: 沿着第一个维度对 `slice <https://docs.python.org/zh-cn/3.7/library/functions.html?highlight=slice#slice>`_ 对象生成的索引进行切片。
|
||||
- 4. :py:obj:`None`: 切片整个维度,类似于Python索引中的语法 :py:obj:`[:]` 。
|
||||
- 5. :py:obj:`Ellipsis`: 切片整个维度,效果与 `None` 相同。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 参数 `slices` 类型不为int、list[int]、:py:obj:`slice` 、:py:obj:`None` 或 :py:obj:`Ellipsis` 。
|
||||
异常:
|
||||
- **TypeError** - 参数 `slices` 类型不为int、list[int]、:py:obj:`slice` 、:py:obj:`None` 或 :py:obj:`Ellipsis` 。
|
|
@ -7,10 +7,8 @@ mindspore.dataset.transforms.TypeCast
|
|||
|
||||
.. note:: 此操作支持通过 Offload 在 Ascend 或 GPU 平台上运行。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **data_type** (Union[mindspore.dtype, numpy.dtype]) - 指定要转换的数据类型。
|
||||
|
||||
- **data_type** (Union[mindspore.dtype, numpy.dtype]) - 指定要转换的数据类型。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - 当 `data_type` 的类型不为 :class:`mindspore.dtype` 或 :class:`numpy.dtype` 。
|
||||
异常:
|
||||
- **TypeError** - 当 `data_type` 的类型不为 :class:`mindspore.dtype` 或 :class:`numpy.dtype` 。
|
||||
|
|
|
@ -13,7 +13,6 @@ mindspore.dataset.transforms.Unique
|
|||
|
||||
.. note:: 需要在 `batch` 操作之后调用该运算。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - 当输入的Tensor具有两列。
|
||||
异常:
|
||||
- **RuntimeError** - 当输入的Tensor具有两列。
|
||||
|
||||
|
|
|
@ -33,7 +33,7 @@ mindspore_lite.DataType
|
|||
``DataType.FLOAT16`` 16位浮点数
|
||||
``DataType.FLOAT32`` 32位浮点数
|
||||
``DataType.FLOAT64`` 64位浮点数
|
||||
``DataType.INVALID`` ``DataType``的最大阈值,用于防止无效类型,对应于C++中的 ``INT32_MAX``
|
||||
``DataType.INVALID`` ``DataType`` 的最大阈值,用于防止无效类型,对应于C++中的 ``INT32_MAX``
|
||||
=========================== ================================================================
|
||||
|
||||
* **用法**
|
||||
|
|
|
@ -109,5 +109,5 @@ mindspore_lite.Model
|
|||
- **TypeError** - `dims` 不是list类型。
|
||||
- **TypeError** - `dims` 是list类型,但元素不是list类型。
|
||||
- **TypeError** - `dims` 是list类型,元素是list类型,但元素的元素不是int类型。
|
||||
- **ValueError** - `inputs` 的size不等于`dims` 的size。
|
||||
- **ValueError** - `inputs` 的元素的size不等于`dims` 的元素的size。
|
||||
- **ValueError** - `inputs` 的size不等于 `dims` 的size。
|
||||
- **ValueError** - `inputs` 的元素的size不等于 `dims` 的元素的size。
|
||||
|
|
Loading…
Reference in New Issue