modify the API files

This commit is contained in:
zhangyi 2022-07-08 16:45:20 +08:00
parent f7f458ca13
commit ee2fc4bb50
49 changed files with 486 additions and 597 deletions

View File

@ -14,17 +14,15 @@ mindspore.dataset.audio.AllpassBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -7,23 +7,21 @@ mindspore.dataset.audio.AmplitudeToDB
.. note:: 待处理音频维度需为(..., freq, time)。
**参数:**
参数:
- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度取值可为ScaleType.MAGNITUDE或ScaleType.POWER默认值ScaleType.POWER。
- **ref_value** (float, 可选) - 系数参考值默认值1.0,用于计算分贝系数 `db_multiplier` ,公式为
- **stype** ( :class:`mindspore.dataset.audio.utils.ScaleType` , 可选) - 输入音频的原始标度取值可为ScaleType.MAGNITUDE或ScaleType.POWER默认值ScaleType.POWER。
- **ref_value** (float, 可选) - 系数参考值默认值1.0,用于计算分贝系数 `db_multiplier` ,公式为
:math:`db\_multiplier = Log10(max(ref\_value, amin))`
:math:`db\_multiplier = Log10(max(ref\_value, amin))`
- **amin** (float, 可选) - 波形取值下界低于该值的波形将会被裁切取值必须大于0默认值1e-10。
- **top_db** (float, 可选) - 最小截止分贝值取值为非负数默认值80.0。
- **amin** (float, 可选) - 波形取值下界低于该值的波形将会被裁切取值必须大于0默认值1e-10。
- **top_db** (float, 可选) - 最小截止分贝值取值为非负数默认值80.0。
**异常:**
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType`
- **TypeError** - 当 `ref_value` 的类型不为float。
- **ValueError** - 当 `ref_value` 不为正数。
- **TypeError** - 当 `amin` 的类型不为float。
- **ValueError** - 当 `amin` 不为正数。
- **TypeError** - 当 `top_db` 的类型不为float。
- **ValueError** - 当 `top_db` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
异常:
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType`
- **TypeError** - 当 `ref_value` 的类型不为float。
- **ValueError** - 当 `ref_value` 不为正数。
- **TypeError** - 当 `amin` 的类型不为float。
- **ValueError** - 当 `amin` 不为正数。
- **TypeError** - 当 `top_db` 的类型不为float。
- **ValueError** - 当 `top_db` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。

View File

@ -7,6 +7,5 @@ mindspore.dataset.audio.Angle
.. note:: 待处理音频维度需为(..., complex=2)其中第0维代表实部第1维代表虚部。
**异常:**
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
异常:
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。

View File

@ -11,19 +11,17 @@ mindspore.dataset.audio.BandBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **noise** (bool, 可选) - 若为True则使用非音调音频如打击乐模式若为False则使用音调音频如语音、歌曲或器乐模式默认值False。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **noise** (bool, 可选) - 若为True则使用非音调音频如打击乐模式若为False则使用音调音频如语音、歌曲或器乐模式默认值False。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `noise` 的类型不为bool。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `noise` 的类型不为bool。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -19,19 +19,17 @@ mindspore.dataset.audio.BandpassBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **const_skirt_gain** (bool, 可选) - 若为True则使用恒定裙边增益峰值增益为Q若为False则使用恒定的0dB峰值增益。默认值False。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **const_skirt_gain** (bool, 可选) - 若为True则使用恒定裙边增益峰值增益为Q若为False则使用恒定的0dB峰值增益。默认值False。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `const_skirt_gain` 的类型不为bool。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `const_skirt_gain` 的类型不为bool。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -16,17 +16,15 @@ mindspore.dataset.audio.BandrejectBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -14,19 +14,17 @@ mindspore.dataset.audio.BassBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **gain** (float) - 期望提升或衰减的音频增益单位dB
- **central_freq** (float, 可选) - 中心频率单位Hz默认值100.0。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **gain** (float) - 期望提升或衰减的音频增益单位dB
- **central_freq** (float, 可选) - 中心频率单位Hz默认值100.0。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `gain` 的类型不为float。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `gain` 的类型不为float。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -7,12 +7,10 @@ mindspore.dataset.audio.ComplexNorm
.. note:: 待处理音频维度需为(..., complex=2)其中第0维代表实部第1维代表虚部。
**参数:**
参数:
- **power** (float, 可选) - 范数的幂取值必须非负默认值1.0。
- **power** (float, 可选) - 范数的幂取值必须非负默认值1.0。
**异常:**
- **TypeError** - 当 `power` 的类型不为float。
- **ValueError** - 当 `power` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。
异常:
- **TypeError** - 当 `power` 的类型不为float。
- **ValueError** - 当 `power` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。

View File

@ -11,12 +11,10 @@ mindspore.dataset.audio.Contrast
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100]默认值75.0。请注意当 `enhancement_amount` 等于0时对比度增强效果仍然会很显著。
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100]默认值75.0。请注意当 `enhancement_amount` 等于0时对比度增强效果仍然会很显著。
**异常:**
- **TypeError** - 当 `enhancement_amount` 的类型不为float。
- **ValueError** - 当 `enhancement_amount` 取值不在[0, 100]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `enhancement_amount` 的类型不为float。
- **ValueError** - 当 `enhancement_amount` 取值不在[0, 100]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -7,23 +7,21 @@ mindspore.dataset.audio.FrequencyMasking
.. note:: 待处理音频维度需为(..., freq, time)。
**参数:**
参数:
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
**异常:**
- **TypeError** - 当 `iid_masks` 的类型不为bool。
- **TypeError** - 当 `freq_mask_param` 的类型不为int。
- **ValueError** - 当 `freq_mask_param` 大于音频频域长度。
- **TypeError** - 当 `mask_start` 的类型不为int。
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为float。
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
异常:
- **TypeError** - 当 `iid_masks` 的类型不为bool。
- **TypeError** - 当 `freq_mask_param` 的类型不为int。
- **ValueError** - 当 `freq_mask_param` 大于音频频域长度。
- **TypeError** - 当 `mask_start` 的类型不为int。
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为float。
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
.. image:: frequency_masking_original.png

View File

@ -14,17 +14,15 @@ mindspore.dataset.audio.LowpassBiquad
.. note:: 待处理音频维度需为(..., time)。
**参数:**
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **cutoff_freq** (float) - 滤波器截止频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1]默认值0.707。
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **cutoff_freq** (float) - 滤波器截止频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1]默认值0.707。
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float。
- **TypeError** - 当 `Q` 的类型不为float。
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -7,23 +7,21 @@ mindspore.dataset.audio.TimeMasking
.. note:: 待处理音频维度需为(..., freq, time)。
**参数:**
参数:
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **time_mask_param** (int, 可选): 当 `iid_masks` 为True时掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
**异常:**
- **TypeError** - 当 `iid_masks` 的类型不为bool。
- **TypeError** - 当 `time_mask_param` 的类型不为int。
- **ValueError** - 当 `time_mask_param` 大于音频时域长度。
- **TypeError** - 当 `mask_start` 的类型不为int。
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为float。
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
异常:
- **TypeError** - 当 `iid_masks` 的类型不为bool。
- **TypeError** - 当 `time_mask_param` 的类型不为int。
- **ValueError** - 当 `time_mask_param` 大于音频时域长度。
- **TypeError** - 当 `mask_start` 的类型不为int。
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为float。
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。
.. image:: time_masking_original.png

View File

@ -7,21 +7,19 @@ mindspore.dataset.audio.TimeStretch
.. note:: 待处理音频维度需为(..., freq, time, complex=2)其中第0维代表实部第1维代表虚部。
**参数:**
参数:
- **hop_length** (int, 可选) - STFT窗之间每跳的长度即连续帧之间的样本数默认值None表示取 `n_freq - 1`
- **n_freq** (int, 可选) - STFT中的滤波器组数默认值201。
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例默认值None表示保持原始速率。
- **hop_length** (int, 可选) - STFT窗之间每跳的长度即连续帧之间的样本数默认值None表示取 `n_freq - 1`
- **n_freq** (int, 可选) - STFT中的滤波器组数默认值201。
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例默认值None表示保持原始速率。
**异常:**
- **TypeError** - 当 `hop_length` 的类型不为int。
- **ValueError** - 当 `hop_length` 不为正数。
- **TypeError** - 当 `n_freq` 的类型不为int。
- **ValueError** - 当 `n_freq` 不为正数。
- **TypeError** - 当 `fixed_rate` 的类型不为float。
- **ValueError** - 当 `fixed_rate` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, num_frame, complex=2>。
异常:
- **TypeError** - 当 `hop_length` 的类型不为int。
- **ValueError** - 当 `hop_length` 不为正数。
- **TypeError** - 当 `n_freq` 的类型不为int。
- **ValueError** - 当 `n_freq` 不为正数。
- **TypeError** - 当 `fixed_rate` 的类型不为float。
- **ValueError** - 当 `fixed_rate` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, num_frame, complex=2>。
.. image:: time_stretch_rate1.5.png

View File

@ -7,26 +7,24 @@
.. note:: Windows平台尚不支持 `BasicTokenizer`
**参数:**
参数:
- **lower_case** (bool可选) - 是否对字符串进行小写转换处理。若为True会将字符串转换为小写并删除重音字符若为False将只对字符串进行规范化处理其模式由 `normalization_form` 指定。默认值False。
- **keep_whitespace** (bool可选) - 是否在分词输出中保留空格。默认值False。
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值NormalizeForm.NONE。
- **lower_case** (bool可选) - 是否对字符串进行小写转换处理。若为True会将字符串转换为小写并删除重音字符若为False将只对字符串进行规范化处理其模式由 `normalization_form` 指定。默认值False。
- **keep_whitespace** (bool可选) - 是否在分词输出中保留空格。默认值False。
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值NormalizeForm.NONE。
- NormalizeForm.NONE不进行规范化处理。
- NormalizeForm.NFC先以标准等价方式分解再以标准等价方式重组。
- NormalizeForm.NFKC先以兼容等价方式分解再以标准等价方式重组。
- NormalizeForm.NFD以标准等价方式分解。
- NormalizeForm.NFKD以兼容等价方式分解。
- NormalizeForm.NONE不进行规范化处理。
- NormalizeForm.NFC先以标准等价方式分解再以标准等价方式重组。
- NormalizeForm.NFKC先以兼容等价方式分解再以标准等价方式重组。
- NormalizeForm.NFD以标准等价方式分解。
- NormalizeForm.NFKD以兼容等价方式分解。
- **preserve_unused_token** (bool可选) - 是否保留特殊词汇。若为True将不会对特殊词汇进行分词如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值True。
- **with_offsets** (bool可选) - 是否输出词汇在字符串中的偏移量。默认值False。
- **preserve_unused_token** (bool可选) - 是否保留特殊词汇。若为True将不会对特殊词汇进行分词如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值True。
- **with_offsets** (bool可选) - 是否输出词汇在字符串中的偏移量。默认值False。
**异常:**
- **TypeError** - 当 `lower_case` 的类型不为bool。
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm`
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
- **TypeError** - 当 `with_offsets` 的类型不为bool。
- **RuntimeError** - 当输入Tensor的数据类型不为str。
异常:
- **TypeError** - 当 `lower_case` 的类型不为bool。
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm`
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
- **TypeError** - 当 `with_offsets` 的类型不为bool。
- **RuntimeError** - 当输入Tensor的数据类型不为str。

View File

@ -7,34 +7,32 @@ mindspore.dataset.text.BertTokenizer
.. note:: Windows平台尚不支持 `BertTokenizer`
**参数:**
参数:
- **vocab** (:class:`mindspore.dataset.text.Vocab`) - 用于查词的词汇表。
- **suffix_indicator** (str可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
- **max_bytes_per_token** (int可选) - 分词最大长度超过此长度的词汇将不会被拆分。默认值100。
- **unknown_token** (str可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
- **lower_case** (bool可选) - 是否对字符串进行小写转换处理。若为True会将字符串转换为小写并删除重音字符若为False将只对字符串进行规范化处理其模式由 `normalization_form` 指定。默认值False。
- **keep_whitespace** (bool可选) - 是否在分词输出中保留空格。默认值False。
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值NormalizeForm.NONE。
- **vocab** (:class:`mindspore.dataset.text.Vocab`) - 用于查词的词汇表。
- **suffix_indicator** (str可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
- **max_bytes_per_token** (int可选) - 分词最大长度超过此长度的词汇将不会被拆分。默认值100。
- **unknown_token** (str可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
- **lower_case** (bool可选) - 是否对字符串进行小写转换处理。若为True会将字符串转换为小写并删除重音字符若为False将只对字符串进行规范化处理其模式由 `normalization_form` 指定。默认值False。
- **keep_whitespace** (bool可选) - 是否在分词输出中保留空格。默认值False。
- **normalization_form** (:class:`mindspore.dataset.text.NormalizeForm`,可选) - `Unicode规范化模式 <http://unicode.org/reports/tr15/>`_,仅当 `lower_case` 为False时生效取值可为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD或NormalizeForm.NFKD。默认值NormalizeForm.NONE。
- NormalizeForm.NONE不进行规范化处理。
- NormalizeForm.NFC先以标准等价方式分解再以标准等价方式重组。
- NormalizeForm.NFKC先以兼容等价方式分解再以标准等价方式重组。
- NormalizeForm.NFD以标准等价方式分解。
- NormalizeForm.NFKD以兼容等价方式分解。
- NormalizeForm.NONE不进行规范化处理。
- NormalizeForm.NFC先以标准等价方式分解再以标准等价方式重组。
- NormalizeForm.NFKC先以兼容等价方式分解再以标准等价方式重组。
- NormalizeForm.NFD以标准等价方式分解。
- NormalizeForm.NFKD以兼容等价方式分解。
- **preserve_unused_token** (bool可选) - 是否保留特殊词汇。若为True将不会对特殊词汇进行分词如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值True。
- **with_offsets** (bool可选) - 是否输出词汇在字符串中的偏移量。默认值False。
- **preserve_unused_token** (bool可选) - 是否保留特殊词汇。若为True将不会对特殊词汇进行分词如 '[CLS]', '[SEP]', '[UNK]', '[PAD]', '[MASK]' 等。默认值True。
- **with_offsets** (bool可选) - 是否输出词汇在字符串中的偏移量。默认值False。
**异常:**
- **TypeError** - 当 `vocab` 的类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
- **ValueError** - 当 `max_bytes_per_token` 为负数。
- **TypeError** - 当 `unknown_token` 的类型不为str。
- **TypeError** - 当 `lower_case` 的类型不为bool。
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm`
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
- **TypeError** - 当 `with_offsets` 的类型不为bool。
异常:
- **TypeError** - 当 `vocab` 的类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
- **ValueError** - 当 `max_bytes_per_token` 为负数。
- **TypeError** - 当 `unknown_token` 的类型不为str。
- **TypeError** - 当 `lower_case` 的类型不为bool。
- **TypeError** - 当 `keep_whitespace` 的类型不为bool。
- **TypeError** - 当 `normalization_form` 的类型不为 :class:`mindspore.dataset.text.NormalizeForm`
- **TypeError** - 当 `preserve_unused_token` 的类型不为bool。
- **TypeError** - 当 `with_offsets` 的类型不为bool。

View File

@ -7,35 +7,32 @@ mindspore.dataset.text.JiebaTokenizer
.. note:: 必须保证隐式马尔科夫模型分词HMMSEgment和最大概率法分词MPSegment所使用的词典文件的完整性。
**参数:**
参数:
- **hmm_path** (str) - 隐式马尔科夫模型分词算法使用的词典文件路径词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mp_path** (str) - 最大概率法分词算法使用的词典文件路径词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式可以取值为JiebaMode.MP、JiebaMode.HMM或JiebaMode.MIX。默认值JiebaMode.MIX。
- **hmm_path** (str) - 隐式马尔科夫模型分词算法使用的词典文件路径词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mp_path** (str) - 最大概率法分词算法使用的词典文件路径词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式可以取值为JiebaMode.MP、JiebaMode.HMM或JiebaMode.MIX。默认值JiebaMode.MIX。
- **JiebaMode.MP**:使用最大概率法算法进行分词。
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
- **JiebaMode.MP**:使用最大概率法算法进行分词。
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
**异常:**
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
- **ValueError** - 没有提供参数 `mp_path` 或为None。
- **TypeError** - 参数 `hmm_path``mp_path` 类型不为str。
- **TypeError** - 参数 `with_offsets` 类型不为bool。
异常:
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
- **ValueError** - 没有提供参数 `mp_path` 或为None。
- **TypeError** - 参数 `hmm_path``mp_path` 类型不为str。
- **TypeError** - 参数 `with_offsets` 类型不为bool。
.. py:method:: add_dict(user_dict)
将用户定义的词添加到 `JiebaTokenizer` 的字典中。
**参数:**
- **user_dict** (Union[str, dict]) - 有两种输入方式。可以通过指定jieba字典格式的文件路径加载。
要求的jieba字典格式为[wordfreq],如:
参数:
- **user_dict** (Union[str, dict]) - 有两种输入方式。可以通过指定jieba字典格式的文件路径加载。
要求的jieba字典格式为[wordfreq],如:
.. code-block::
@ -50,7 +47,6 @@ mindspore.dataset.text.JiebaTokenizer
将用户定义的词添加到 JiebaTokenizer 的字典中。
**参数:**
- **word** (str) - 要添加到 `JiebaTokenizer` 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
- **freq** (int可选) - 要添加的单词的频率。频率越高单词被分词的机会越大。默认值None使用默认频率。
参数:
- **word** (str) - 要添加到 `JiebaTokenizer` 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
- **freq** (int可选) - 要添加的单词的频率。频率越高单词被分词的机会越大。默认值None使用默认频率。

View File

@ -5,16 +5,14 @@ mindspore.dataset.text.Lookup
根据词表,将分词标记(token)映射到其索引值(id)。
**参数:**
参数:
- **vocab** (Vocab) - 词表对象,用于存储分词和索引的映射。
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
如果单词不在词汇表中,且未指定 `unknown_token` 将抛出运行时错误。默认值None不指定该参数。
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型默认值mindspore.int32。
- **vocab** (Vocab) - 词表对象,用于存储分词和索引的映射。
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
如果单词不在词汇表中,且未指定 `unknown_token` 将抛出运行时错误。默认值None不指定该参数。
- **data_type** (mindspore.dtype, 可选): Lookup输出的数据类型默认值mindspore.int32。
**异常:**
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 参数 `unknown_token` 类型不为str。
- **TypeError** - 参数 `data_type` 类型不为 :class:`mindspore.dtype`
异常:
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 参数 `unknown_token` 类型不为str。
- **TypeError** - 参数 `data_type` 类型不为 :class:`mindspore.dtype`

View File

@ -7,21 +7,19 @@ mindspore.dataset.text.Ngram
关于N-gram是什么以及它是如何工作的请参阅 `N-gram <https://en.wikipedia.org/wiki/N-gram#Examples>`_
**参数:**
参数:
- **n** (list[int]) - n-gram 中的 n它是一个正整数列表。例如 n=[4, 3]结果将是Tensor包含一个4-gram和一个3-gram的字符串。
如果输入的字符不足以构造一个n-gram则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
- **left_pad** (tuple, 可选) - 指定序列的左侧填充传入tuple的形式为 ("pad_token",pad_width)。
pad_width 的上限值为 `n` -1。例如指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值:("", 0)。
- **right_pad** (tuple, 可选) - 指定序列的右侧填充传入tuple的形式为 ("pad_token", pad_width)。
pad_width 的上限值为 `n` -1。例如指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值:("", 0)。
- **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为"-",结果将是 ["mindspore-amazing"]。默认值:" ",使用空格作为分隔符。
- **n** (list[int]) - n-gram 中的 n它是一个正整数列表。例如 n=[4, 3]结果将是Tensor包含一个4-gram和一个3-gram的字符串。
如果输入的字符不足以构造一个n-gram则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
- **left_pad** (tuple, 可选) - 指定序列的左侧填充传入tuple的形式为 ("pad_token",pad_width)。
pad_width 的上限值为 `n` -1。例如指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值:("", 0)。
- **right_pad** (tuple, 可选) - 指定序列的右侧填充传入tuple的形式为 ("pad_token",pad_width)。
pad_width 的上限值为 `n` -1。例如指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值:("", 0)。
- **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为"-",结果将是 ["mindspore-amazing"]。默认值:" ",使用空格作为分隔符。
**异常:**
- **TypeError** - 参数 `n` 包含的值类型不为int。
- **ValueError** - 参数 `n` 包含的值不为正数。
- **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]。
- **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]。
- **TypeError** - 参数 `separator` 的类型不是str。
异常:
- **TypeError** - 参数 `n` 包含的值类型不为int。
- **ValueError** - 参数 `n` 包含的值不为正数。
- **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]。
- **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]。
- **TypeError** - 参数 `separator` 的类型不是str。

View File

@ -7,20 +7,18 @@ mindspore.dataset.text.NormalizeUTF8
.. note:: Windows平台尚不支持 `NormalizeUTF8`
**参数:**
参数:
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
任何一种形式默认值NormalizeForm.NFKC。
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
任何一种形式默认值NormalizeForm.NFKC。
- NormalizeForm.NONE对输入字符串不做任何处理。
- NormalizeForm.NFC对输入字符串进行C形式规范化。
- NormalizeForm.NFKC对输入字符串进行KC形式规范化。
- NormalizeForm.NFD对输入字符串进行D形式规范化。
- NormalizeForm.NFKD对输入字符串进行KD形式规范化。
- NormalizeForm.NONE对输入字符串不做任何处理。
- NormalizeForm.NFC对输入字符串进行C形式规范化。
- NormalizeForm.NFKC对输入字符串进行KC形式规范化。
- NormalizeForm.NFD对输入字符串进行D形式规范化。
- NormalizeForm.NFKD对输入字符串进行KD形式规范化。
有关规范化详细信息,请参阅 http://unicode.org/reports/tr15/。
**异常:**
- **TypeError** - 参数 `normalize_form` 的类型不是 :class:`mindspore.dataset.text.NormalizeForm`
异常:
- **TypeError** - 参数 `normalize_form` 的类型不是 :class:`mindspore.dataset.text.NormalizeForm`

View File

@ -5,10 +5,8 @@ mindspore.dataset.text.PythonTokenizer
使用用户自定义的分词器对输入字符串进行分词。
**参数:**
参数:
- **tokenizer** (Callable) - Python可调用对象要求接收一个string参数作为输入并返回一个包含多个string的列表作为返回值。
- **tokenizer** (Callable) - Python可调用对象要求接收一个string参数作为输入并返回一个包含多个string的列表作为返回值。
**异常:**
- **TypeError** - 参数 `tokenizer` 不是一个可调用的Python对象。
异常:
- **TypeError** - 参数 `tokenizer` 不是一个可调用的Python对象。

View File

@ -9,14 +9,12 @@ mindspore.dataset.text.RegexReplace
.. note:: Windows平台尚不支持 `RegexReplace`
**参数:**
参数:
- **pattern** (str) - 正则表达式的模式。
- **replace** (str) - 替换匹配元素的字符串。
- **replace_all** (bool, 可选) - 如果为False只替换第一个匹配的元素 如果为True则替换所有匹配的元素。默认值True。
- **pattern** (str) - 正则表达式的模式。
- **replace** (str) - 替换匹配元素的字符串。
- **replace_all** (bool, 可选): 如果为False只替换第一个匹配的元素 如果为True则替换所有匹配的元素。默认值True。
**异常:**
- **TypeError** - 参数 `pattern` 的类型不是str。
- **TypeError** - 参数 `replace` 的类型不是str。
- **TypeError** - 参数 `replace_all` 的类型不是bool。
异常:
- **TypeError** - 参数 `pattern` 的类型不是str。
- **TypeError** - 参数 `replace` 的类型不是str。
- **TypeError** - 参数 `replace_all` 的类型不是bool。

View File

@ -9,15 +9,13 @@ mindspore.dataset.text.RegexTokenizer
.. note:: Windows平台尚不支持 `RegexTokenizer`
**参数:**
参数:
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
默认值:''(空字符),即分隔符不会作为输出标记保留。
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量默认值False不输出。
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
默认值:''(空字符),即分隔符不会作为输出标记保留。
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量默认值False不输出。
**异常:**
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
- **TypeError** - 参数 `with_offsets` 的类型不是bool。
异常:
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
- **TypeError** - 参数 `with_offsets` 的类型不是bool。

View File

@ -5,17 +5,15 @@ mindspore.dataset.text.SentencePieceTokenizer
使用SentencePiece分词器对字符串进行分词。
**参数:**
参数:
- **mode** (Union[str, SentencePieceVocab]) - SentencePiece模型。
如果输入是字符串类型则代表要加载的SentencePiece模型文件的路径
如果输入是SentencePieceVocab类型则要求是构造好的 :class:`mindspore.dataset.text.SentencePieceVocab` 对象。
- **out_type** (SPieceTokenizerOutType) - 分词器输出的类型,可以取值为 SPieceTokenizerOutType.STRING 或 SPieceTokenizerOutType.INT。
- SPieceTokenizerOutType.STRING表示SentencePice分词器的输出类型是str。
- SPieceTokenizerOutType.INT表示SentencePice分词器的输出类型是int。
- **mode** (Union[str, SentencePieceVocab]) - SentencePiece模型。
如果输入是字符串类型则代表要加载的SentencePiece模型文件的路径
如果输入是SentencePieceVocab类型则要求是构造好的 :class:`mindspore.dataset.text.SentencePieceVocab` 对象。
- **out_type** (SPieceTokenizerOutType) - 分词器输出的类型,可以取值为 SPieceTokenizerOutType.STRING 或 SPieceTokenizerOutType.INT。
- SPieceTokenizerOutType.STRING表示SentencePice分词器的输出类型是str。
- SPieceTokenizerOutType.INT表示SentencePice分词器的输出类型是int。
**异常:**
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab`
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType`
异常:
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab`
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType`

View File

@ -9,53 +9,48 @@
从数据集构建SentencePiece。
**参数:**
参数:
- **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
- **col_names** (list) - 表示列名称的列表。
- **vocab_size** (int) - 表示词汇大小。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为0.9995适用于具有丰富字符集的语言如日文或中文1.0适用于具有小字符集的其他语言。
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD默认值SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时必须预先标记输入句子。
- **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
- **col_names** (list) - 表示列名称的列表。
- **vocab_size** (int) - 表示词汇大小。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为0.9995适用于具有丰富字符集的语言如日文或中文1.0适用于具有小字符集的其他语言。
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD默认值SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时必须预先标记输入句子。
- SentencePieceModel.UNIGRAMUnigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
- SentencePieceModel.BPE指字节对编码算法它取代了最频繁的对句子中的字节数其中包含一个未使用的字节。
- SentencePieceModel.CHAR引用基于字符的SentencePiece模型类型。
- SentencePieceModel.WORD引用基于单词的SentencePiece模型类型。
- SentencePieceModel.UNIGRAMUnigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
- SentencePieceModel.BPE指字节对编码算法它取代了最频繁的对句子中的字节数其中包含一个未使用的字节。
- SentencePieceModel.CHAR引用基于字符的SentencePiece模型类型。
- SentencePieceModel.WORD引用基于单词的SentencePiece模型类型。
- **params** (dict) - 表示没有传入参数的字典。
- **params** (dict):表示没有传入参数的字典。
**返回:**
SentencePieceVocab从数据集构建的Vocab对象。
返回:
SentencePieceVocab从数据集构建的Vocab对象。
.. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params)
从文件中构建一个SentencePiece对象。
**参数:**
参数:
- **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
- **vocab_size** (int) - 表示词汇大小。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为0.9995适用于具有丰富字符集的语言如日文或中文1.0适用于具有小字符集的其他语言。
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时必须预先标记输入句子。
- **file_path** (list) - 表示包含SentencePiece文件路径的一个列表。
- **vocab_size** (int) - 表示词汇大小。
- **character_coverage** (float) - 表示模型涵盖的字符数量。推荐的默认值为0.9995适用于具有丰富字符集的语言如日文或中文1.0适用于具有小字符集的其他语言。
- **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时必须预先标记输入句子
- SentencePieceModel.UNIGRAMUnigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词
- SentencePieceModel.BPE指字节对编码算法它取代了最频繁的对句子中的字节数其中包含一个未使用的字节
- SentencePieceModel.CHAR引用基于字符的SentencePiece模型类型
- SentencePieceModel.WORD引用基于单词的SentencePiece模型类型
- SentencePieceModel.UNIGRAMUnigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
- SentencePieceModel.BPE指字节对编码算法它取代了最频繁的对句子中的字节数其中包含一个未使用的字节。
- SentencePieceModel.CHAR引用基于字符的SentencePiece模型类型。
- SentencePieceModel.WORD引用基于单词的SentencePiece模型类型。
- **params** (dict) - 表示没有传入参数的字典参数派生自SentencePiece库
- **params** (dict)表示没有传入参数的字典参数派生自SentencePiece库
**返回:**
SentencePieceVocab表示从文件中构建的Vocab对象。
返回:
SentencePieceVocab表示从文件中构建的Vocab对象。
.. py:method:: save_model(vocab, path, filename)
将模型保存到给定的文件路径。
**参数:**
- **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
- **path** (str) - 表示存储模型的路径。
- **filename** (str) - 表示文件名称。
参数:
- **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
- **path** (str) - 表示存储模型的路径。
- **filename** (str) - 表示文件名称。

View File

@ -5,13 +5,11 @@ mindspore.dataset.text.SlidingWindow
在输入数据的某个维度上进行滑窗切分处理当前仅支持处理1-D的Tensor。
**参数:**
参数:
- **width** (str) - 窗口的宽度,它必须是整数并且大于零。
- **axis** (int, 可选) - 计算滑动窗口的轴默认值0。
- **width** (str) - 窗口的宽度,它必须是整数并且大于零。
- **axis** (int, 可选) - 计算滑动窗口的轴默认值0。
**异常:**
- **TypeError** - 参数 `width` 的类型不为int。
- **ValueError** - 参数 `width` 的值不为正数。
- **TypeError** - 参数 `axis` 的类型不为int。
异常:
- **TypeError** - 参数 `width` 的类型不为int。
- **ValueError** - 参数 `width` 的值不为正数。
- **TypeError** - 参数 `axis` 的类型不为int。

View File

@ -9,11 +9,9 @@ mindspore.dataset.text.ToNumber
https://en.cppreference.com/w/cpp/string/basic_string/stof
https://en.cppreference.com/w/cpp/string/basic_string/stoul。
**参数:**
参数:
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 :class:`mindspore.dtype` 定义的数值类型。
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 :class:`mindspore.dtype` 定义的数值类型。
**异常:**
- **TypeError** - 参数 `data_type` 不是 :class:`mindspore.dtype` 类型。
- **RuntimeError** - 字符串类型转换失败,或类型转换时出现溢出。
异常:
- **TypeError** - 参数 `data_type` 不是 :class:`mindspore.dtype` 类型。
- **RuntimeError** - 字符串类型转换失败,或类型转换时出现溢出。

View File

@ -7,10 +7,8 @@ mindspore.dataset.text.TruncateSequencePair
TruncateSequencePair接收两个Tensor作为输入并返回两个Tensor作为输出。
**参数:**
参数:
- **max_length** (int) - 最大截断长度。
- **max_length** (int) - 最大截断长度。
**异常:**
- **TypeError** - 参数 `max_length` 的类型不是int。
异常:
- **TypeError** - 参数 `max_length` 的类型不是int。

View File

@ -5,10 +5,8 @@ mindspore.dataset.text.UnicodeCharTokenizer
使用Unicode分词器将字符串分词为Unicode字符。
**参数:**
参数:
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
**异常:**
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
异常:
- **TypeError** - 参数 `with_offsets` 的类型不为bool。

View File

@ -7,12 +7,10 @@ mindspore.dataset.text.UnicodeScriptTokenizer
.. note:: Windows平台尚不支持 `UnicodeScriptTokenizer`
**参数:**
参数:
- **keep_whitespace** (bool, 可选) - 是否输出空白标记(token)默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
- **keep_whitespace** (bool, 可选) - 是否输出空白标记(token)默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
**异常:**
- **TypeError** - 参数 `keep_whitespace` 的类型不为bool。
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
异常:
- **TypeError** - 参数 `keep_whitespace` 的类型不为bool。
- **TypeError** - 参数 `with_offsets` 的类型不为bool。

View File

@ -14,89 +14,76 @@
获得数据集中的所有唯一单词,并在 `freq_range` 中用户指定的频率范围内返回一个vocab。如果没有单词在该频率上用户将收到预警信息。
vocab中的单词按最高频率到最低频率的顺序进行排列。具有相同频率的单词将按词典顺序进行排列。
**参数:**
参数:
- **dataset** (Dataset) - 表示要从中构建vocab的数据集。
- **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表默认值None。
- **freq_range** (tuple可选) - 表示整数元组min_frequencymax_frequency。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None分别对应于0和total_words默认值None。
- **top_k** (int可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k``freq_range` 之后取用。如果没有足够的 `top_k` 所有单词都将被取用默认值None。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (bool可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
- **dataset** (Dataset) - 表示要从中构建vocab的数据集。
- **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表默认值None。
- **freq_range** (tuple可选) - 表示整数元组min_frequencymax_frequency。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None分别对应于0和total_words默认值None。
- **top_k** (int可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k``freq_range` 之后取用。如果没有足够的 `top_k` 所有单词都将被取用默认值None。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (bool可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
**返回:**
Vocab从数据集构建的Vocab对象。
返回:
Vocab从数据集构建的Vocab对象。
.. py:method:: from_dict(word_dict)
通过字典构建Vocab对象。
**参数:**
参数:
- **word_dict** (dict) - 字典包含word和ID对其中 `word` 应是string类型 `ID` 应是int类型。至于 `ID` 建议从0开始并且不断续。如果 `ID` 为负数将引发ValueError。
- **word_dict** (dict) - 字典包含word和ID对其中 `word` 应是string类型 `ID` 应是int类型。至于 `ID` 建议从0开始并且不断续。如果 `ID` 为负数将引发ValueError。
**返回:**
Vocab从字典构建的Vocab对象。
返回:
Vocab从字典构建的Vocab对象。
.. py:method:: from_file(file_path, delimiter="", vocab_size=None, special_tokens=None, special_first=True)
通过文件构建Vocab对象。
**参数:**
参数:
- **file_path** (str) - 表示包含vocab文件路径的一个列表。
- **delimiter** (str可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。
- **vocab_size** (int可选) - 表示要从 `file_path` 读取的字数默认值None表示读取所有的字。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (list可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
- **file_path** (str) - 表示包含vocab文件路径的一个列表。
- **delimiter** (str可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。
- **vocab_size** (int可选) - 表示要从 `file_path` 读取的字数默认值None表示读取所有的字。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (list可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
**返回:**
Vocab从文件构建的Vocab对象。
返回:
Vocab从文件构建的Vocab对象。
.. py:method:: from_list(word_list, special_tokens=None, special_first=True)
从单词列表构建一个vocab对象。
**参数:**
参数:
- **word_list** (list) - 输入单词列表,每个单词需要为字符串类型。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (bool可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
- **word_list** (list) - 输入单词列表,每个单词需要为字符串类型。
- **special_tokens** (list可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值None表示不添加特殊分词token
- **special_first** (bool可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前否则添加到词典的最后。默认值True。
**返回:**
Vocab从单词列表构建的Vocab对象。
返回:
Vocab从单词列表构建的Vocab对象。
.. py:method:: ids_to_tokens(ids)
将输入索引转换为对应的分词,支持传入单个索引或一个包含多个索引的序列。如果索引不存在,则返回空字符串。
**参数:**
参数:
- **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。
- **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。
**返回:**
解码的分词token
返回:
解码的分词token
.. py:method:: tokens_to_ids(tokens)
将输入分词(token)转换为对应的索引(id),支持传入单个分词或一个包含多个分词的列表。如果分词不存在,则返回-1。
**参数:**
参数:
- **tokens** (Union[str, list[str]]) - 一个或多个要转换为分词tokenid(s)的分词token
- **tokens** (Union[str, list[str]]) - 一个或多个要转换为分词tokenid(s)的分词token
**返回:**
分词tokenid或分词tokenid列表。
返回:
分词tokenid或分词tokenid列表。
.. py:method:: vocab()
获取dict类型的词汇表。
**返回:**
由word和id对组成的词汇表。
返回:
由word和id对组成的词汇表。

View File

@ -7,10 +7,8 @@ mindspore.dataset.text.WhitespaceTokenizer
.. note:: Windows平台尚不支持 `WhitespaceTokenizer`
**参数:**
参数:
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
**异常:**
- **TypeError** - 参数 `with_offsets` 的类型不为bool。
异常:
- **TypeError** - 参数 `with_offsets` 的类型不为bool。

View File

@ -5,19 +5,17 @@ mindspore.dataset.text.WordpieceTokenizer
将输入的字符串切分为子词。
**参数:**
参数:
- **vocab** (Vocab) - 用于查词的词汇表。
- **suffix_indicator** (str, 可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
- **max_bytes_per_token** (int可选) - 分词最大长度超过此长度的词汇将不会被拆分。默认值100。
- **unknown_token** (str可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
- **with_offsets** (bool, 可选) - 是否输出词汇在字符串中的偏移量。默认值False。
- **vocab** (Vocab) - 用于查词的词汇表。
- **suffix_indicator** (str, 可选) - 用于指示子词后缀的前缀标志。默认值:'##'。
- **max_bytes_per_token** (int可选) - 分词最大长度超过此长度的词汇将不会被拆分。默认值100。
- **unknown_token** (str可选) - 对未知词汇的分词输出。当设置为空字符串时,直接返回对应未知词汇作为分词输出;否则,返回该字符串作为分词输出。默认值:'[UNK]'。
- **with_offsets** (bool, 可选) - 是否输出词汇在字符串中的偏移量。默认值False。
**异常:**
- **TypeError** - 当 `vocab` 不为 :class:`mindspore.dataset.text.Vocab` 类型。
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
- **TypeError** - 当 `unknown_token` 的类型不为str。
- **TypeError** - 当 `with_offsets` 的类型不为bool。
- **ValueError** - 当 `max_bytes_per_token` 为负数。
异常:
- **TypeError** - 当 `vocab` 不为 :class:`mindspore.dataset.text.Vocab` 类型。
- **TypeError** - 当 `suffix_indicator` 的类型不为str。
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int。
- **TypeError** - 当 `unknown_token` 的类型不为str。
- **TypeError** - 当 `with_offsets` 的类型不为bool。
- **ValueError** - 当 `max_bytes_per_token` 为负数。

View File

@ -5,11 +5,9 @@
基于 `encoding` 字符集对每个元素进行编码,将 `string` 的NumPy数组转换为 `bytes` 的数组。
**参数:**
参数:
- **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。
- **encoding** (str) - 表示用于编码的字符集,默认值:'utf8'。
- **array** (numpy.ndarray) - 表示 `string` 类型的数组,代表字符串。
- **encoding** (str) - 表示用于编码的字符集,默认值:'utf8'。
**返回:**
numpy.ndarray表示 `bytes` 的NumPy数组。
返回:
numpy.ndarray表示 `bytes` 的NumPy数组。

View File

@ -5,11 +5,9 @@
基于 `encoding` 字符集对每个元素进行解码,借此将 `bytes` 的NumPy数组转换为 `string` 的数组。
**参数:**
参数:
- **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。
- **encoding** (str) - 表示用于解码的字符集,默认值:'utf8'。
- **array** (numpy.ndarray) - 表示 `bytes` 类型的数组,代表字符串。
- **encoding** (str) - 表示用于解码的字符集,默认值:'utf8'。
**返回:**
numpy.ndarray表示 `str` 的NumPy数组。
返回:
numpy.ndarray表示 `str` 的NumPy数组。

View File

@ -9,36 +9,30 @@ mindspore.dataset.transforms.Compose
Compose可以将 `mindspore.dataset.transforms` / `mindspore.dataset.vision` 等模块中的数据增强算子以及用户自定义的Python可调用对象
合并成单个数据增强。对于用户定义的Python可调用对象要求其返回值是numpy.ndarray类型。
**参数:**
参数:
- **transforms** (list) - 一个数据增强的列表。
- **transforms** (list) - 一个数据增强的列表。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list。
- **TypeError** - 参数 `transforms` 的元素不是Python的可调用对象或audio/text/transforms/vision模块中的数据增强方法。
异常:
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list。
- **TypeError** - 参数 `transforms` 的元素不是Python的可调用对象或audio/text/transforms/vision模块中的数据增强方法。
.. py:method:: decompose(operations)
从给定的操作列表中删除所有 compose 操作。
**参数:**
参数:
- **operations** (list) - 变换列表。
- **operations** (list) - 变换列表。
**返回:**
没有组合操作的操作列表。
返回:
没有组合操作的操作列表。
.. py:method:: reduce(operations)
在 Compose 中包装相邻的 Python 操作,以允许混合 Python 和 C++ 操作。
**参数:**
参数:
- **operations** (list) - Tensor操作列表。
- **operations** (list) - Tensor操作列表。
**返回:**
list简化的操作列表。
返回:
list简化的操作列表。

View File

@ -5,14 +5,12 @@ mindspore.dataset.transforms.Concatenate
在Tensor的某一个轴上进行元素拼接。目前仅支持拼接形状为1D的Tensor。
**参数:**
参数:
- **axis** (int, 可选) - 指定一个轴用于拼接Tensor默认值0。
- **prepend** (numpy.ndarray, 可选) - 指定拼接在最前面的Tensor默认值None不指定。
- **append** (numpy.ndarray, 可选) - 指定拼接在最后面的Tensor默认值None不指定。
- **axis** (int, 可选) - 指定一个轴用于拼接Tensor默认值0。
- **prepend** (numpy.ndarray, 可选) - 指定拼接在最前面的Tensor默认值None不指定。
- **append** (numpy.ndarray, 可选) - 指定拼接在最后面的Tensor默认值None不指定。
**异常:**
- **TypeError** - 参数 `axis` 的类型不为int。
- **TypeError** - 参数 `prepend` 的类型不为 `numpy.ndarray`
- **TypeError** - 参数 `append` 的类型不为 `numpy.ndarray`
异常:
- **TypeError** - 参数 `axis` 的类型不为int。
- **TypeError** - 参数 `prepend` 的类型不为 `numpy.ndarray`
- **TypeError** - 参数 `append` 的类型不为 `numpy.ndarray`

View File

@ -5,6 +5,5 @@ mindspore.dataset.transforms.Duplicate
将输入的数据列复制得到新的数据列每次仅可以输入1个数据列进行复制。
**异常:**
- **RuntimeError** - 输入数据列数量大于1。
异常:
- **RuntimeError** - 输入数据列数量大于1。

View File

@ -5,10 +5,8 @@ mindspore.dataset.transforms.Fill
将Tensor的所有元素都赋值为指定的值输出Tensor将与输入Tensor具有与具有相同的shape和数据类型。
**参数:**
参数:
- **fill_value** (Union[str, bytes, int, float, bool]) - 用于填充Tensor的值。
- **fill_value** (Union[str, bytes, int, float, bool]) - 用于填充Tensor的值。
**异常:**
- **TypeError** - 参数 `fill_value` 类型不为str、float、bool、int或bytes。
异常:
- **TypeError** - 参数 `fill_value` 类型不为str、float、bool、int或bytes。

View File

@ -5,14 +5,12 @@ mindspore.dataset.transforms.Mask
用给条件判断输入Tensor的内容并返回一个掩码Tensor。Tensor中任何符合条件的元素都将被标记为True否则为False。
**参数:**
参数:
- **operator** (:class:`mindspore.dataset.transforms.c_transforms.Relational`) - 关系操作符可以取值为Relational.EQ、Relational.NE、Relational.LT、Relational.GT、Relational.LE、Relational.GE。以Relational.EQ为例将找出Tensor中与 `constant` 相等的元素。
- **constant** (Union[str, int, float, bool]) - 与输入Tensor进行比较的基准值。
- **dtype** (:class:`mindspore.dtype`, 可选) - 生成的掩码Tensor的数据类型默认值:class:`mindspore.dtype.bool_`
- **operator** (:class:`mindspore.dataset.transforms.c_transforms.Relational`) - 关系操作符可以取值为Relational.EQ、Relational.NE、Relational.LT、Relational.GT、Relational.LE、Relational.GE。以Relational.EQ为例将找出Tensor中与 `constant` 相等的元素。
- **constant** (Union[str, int, float, bool]) - 与输入Tensor进行比较的基准值。
- **dtype** (:class:`mindspore.dtype`, 可选) - 生成的掩码Tensor的数据类型默认值:class:`mindspore.dtype.bool_`
**异常:**
- **TypeError** - 参数 `operator` 类型不为 :class:`mindspore.dataset.transforms.c_transforms.Relational`
- **TypeError** - 参数 `constant` 类型不为str、int、float或bool。
- **TypeError** - 参数 `dtype` 类型不为 :class:`mindspore.dtype`
异常:
- **TypeError** - 参数 `operator` 类型不为 :class:`mindspore.dataset.transforms.c_transforms.Relational`
- **TypeError** - 参数 `constant` 类型不为str、int、float或bool。
- **TypeError** - 参数 `dtype` 类型不为 :class:`mindspore.dtype`

View File

@ -5,15 +5,13 @@ mindspore.dataset.transforms.OneHot
将Tensor进行OneHot编码。
**参数:**
参数:
- **num_classes** (int) - 数据集的类别数它应该大于数据集中最大的label编号。
- **smoothing_rate** (float可选) - 标签平滑的系数默认值0.0。
- **num_classes** (int) - 数据集的类别数它应该大于数据集中最大的label编号。
- **smoothing_rate** (float可选) - 标签平滑的系数默认值0.0。
**异常:**
- **TypeError** - 参数 `num_classes` 类型不为int。
- **TypeError** - 参数 `smoothing_rate` 类型不为float。
- **ValueError** - 参数 `smoothing_rate` 取值范围不为[0.0, 1.0]。
- **RuntimeError** - 输入Tensor的数据类型不为int。
- **RuntimeError** - 参数Tensor的shape不是1-D。
异常:
- **TypeError** - 参数 `num_classes` 类型不为int。
- **TypeError** - 参数 `smoothing_rate` 类型不为float。
- **ValueError** - 参数 `smoothing_rate` 取值范围不为[0.0, 1.0]。
- **RuntimeError** - 输入Tensor的数据类型不为int。
- **RuntimeError** - 参数Tensor的shape不是1-D。

View File

@ -5,18 +5,16 @@ mindspore.dataset.transforms.PadEnd
对输入Tensor进行填充要求 `pad_shape` 与输入Tensor的维度保持一致。
**参数:**
参数:
- **pad_shape** (list(int)) - 指定填充的shape。维度设置为'None'时将不会被填充,设置为较小的维数时该维度的元素将被截断。
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值None表示不指定填充值。
当指定为默认值输入Tensor为数值型时默认填充0输入Tensor为字符型时填充空字符串。
- **pad_shape** (list(int)) - 指定填充的shape。维度设置为'None'时将不会被填充,设置为较小的维数时该维度的元素将被截断。
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值None表示不指定填充值。
当指定为默认值输入Tensor为数值型时默认填充0输入Tensor为字符型时填充空字符串。
**异常:**
- **TypeError** - 参数 `pad_shape` 的类型不为list。
- **TypeError** - 参数 `pad_value` 的类型不为str、float、bool、int或bytes。
- **TypeError** - 参数 `pad_shape` 的元素类型不为int。
- **ValueError** - 参数 `pad_shape` 的元素不为正数。
异常:
- **TypeError** - 参数 `pad_shape` 的类型不为list。
- **TypeError** - 参数 `pad_value` 的类型不为str、float、bool、int或bytes。
- **TypeError** - 参数 `pad_shape` 的元素类型不为int。
- **ValueError** - 参数 `pad_shape` 的元素不为正数。

View File

@ -5,15 +5,13 @@ mindspore.dataset.transforms.RandomApply
指定一组数据增强处理及其被应用的概率,在运算时按概率随机应用其中的增强处理。
**参数:**
参数:
- **transforms** (list) - 一个数据增强的列表。
- **prob** (float, 可选) - 随机应用某个数据增强的概率默认值0.5。
- **transforms** (list) - 一个数据增强的列表。
- **prob** (float, 可选) - 随机应用某个数据增强的概率默认值0.5。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 的长度为空。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
- **TypeError** - 参数 `prob` 的类型不为float。
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。
异常:
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 的长度为空。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
- **TypeError** - 参数 `prob` 的类型不为float。
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。

View File

@ -5,12 +5,10 @@ mindspore.dataset.transforms.RandomChoice
在一组数据增强中随机选择部分增强处理进行应用。
**参数:**
参数:
- **transforms** (list) - 一个数据增强的列表。
- **transforms** (list) - 一个数据增强的列表。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
异常:
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。

View File

@ -5,12 +5,10 @@ mindspore.dataset.transforms.RandomOrder
给一个数据增强的列表,随机打乱数据增强处理的顺序。
**参数:**
参数:
- **transforms** (list) - 一个数据增强的列表。
- **transforms** (list) - 一个数据增强的列表。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
- **ValueError** - 参数 `transforms` 是空的list。
异常:
- **TypeError** - 参数 `transforms` 类型不为list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或audio/text/transforms/vision模块中的数据处理操作。
- **ValueError** - 参数 `transforms` 是空的list。

View File

@ -5,16 +5,14 @@ mindspore.dataset.transforms.Slice
对Tensor进行切片操作功能类似于NumPy的索引(目前只支持1D形状的Tensor)。
**参数:**
参数:
- **slices** ((Union[int, list[int], slice, None, Ellipsis]) - 指定切片的信息,可以为
- **slices** ((Union[int, list[int], slice, None, Ellipsis]) - 指定切片的信息,可以为
- 1. :py:obj:`int`: 沿着第一个维度切片对索引进行切片,支持负索引。
- 2. :py:obj:`list(int)`: 沿着第一个维度切片所有索引进行切片,支持负号索引。
- 3. :py:obj:`slice`: 沿着第一个维度对 `slice <https://docs.python.org/zh-cn/3.7/library/functions.html?highlight=slice#slice>`_ 对象生成的索引进行切片。
- 4. :py:obj:`None`: 切片整个维度类似于Python索引中的语法 :py:obj:`[:]`
- 5. :py:obj:`Ellipsis`: 切片整个维度,效果与 `None` 相同。
- 1. :py:obj:`int`: 沿着第一个维度切片对索引进行切片,支持负索引。
- 2. :py:obj:`list(int)`: 沿着第一个维度切片所有索引进行切片,支持负号索引。
- 3. :py:obj:`slice`: 沿着第一个维度对 `slice <https://docs.python.org/zh-cn/3.7/library/functions.html?highlight=slice#slice>`_ 对象生成的索引进行切片。
- 4. :py:obj:`None`: 切片整个维度类似于Python索引中的语法 :py:obj:`[:]`
- 5. :py:obj:`Ellipsis`: 切片整个维度,效果与 `None` 相同。
**异常:**
- **TypeError** - 参数 `slices` 类型不为int、list[int]、:py:obj:`slice`:py:obj:`None`:py:obj:`Ellipsis`
异常:
- **TypeError** - 参数 `slices` 类型不为int、list[int]、:py:obj:`slice`:py:obj:`None`:py:obj:`Ellipsis`

View File

@ -7,10 +7,8 @@ mindspore.dataset.transforms.TypeCast
.. note:: 此操作支持通过 Offload 在 Ascend 或 GPU 平台上运行。
**参数:**
参数:
- **data_type** (Union[mindspore.dtype, numpy.dtype]) - 指定要转换的数据类型。
- **data_type** (Union[mindspore.dtype, numpy.dtype]) - 指定要转换的数据类型。
**异常:**
- **TypeError** - 当 `data_type` 的类型不为 :class:`mindspore.dtype`:class:`numpy.dtype`
异常:
- **TypeError** - 当 `data_type` 的类型不为 :class:`mindspore.dtype`:class:`numpy.dtype`

View File

@ -13,7 +13,6 @@ mindspore.dataset.transforms.Unique
.. note:: 需要在 `batch` 操作之后调用该运算。
**异常:**
- **RuntimeError** - 当输入的Tensor具有两列。
异常:
- **RuntimeError** - 当输入的Tensor具有两列。

View File

@ -33,7 +33,7 @@ mindspore_lite.DataType
``DataType.FLOAT16`` 16位浮点数
``DataType.FLOAT32`` 32位浮点数
``DataType.FLOAT64`` 64位浮点数
``DataType.INVALID`` ``DataType``的最大阈值用于防止无效类型对应于C++中的 ``INT32_MAX``
``DataType.INVALID`` ``DataType`` 的最大阈值用于防止无效类型对应于C++中的 ``INT32_MAX``
=========================== ================================================================
* **用法**

View File

@ -109,5 +109,5 @@ mindspore_lite.Model
- **TypeError** - `dims` 不是list类型。
- **TypeError** - `dims` 是list类型但元素不是list类型。
- **TypeError** - `dims` 是list类型元素是list类型但元素的元素不是int类型。
- **ValueError** - `inputs` 的size不等于`dims` 的size。
- **ValueError** - `inputs` 的元素的size不等于`dims` 的元素的size。
- **ValueError** - `inputs` 的size不等于 `dims` 的size。
- **ValueError** - `inputs` 的元素的size不等于 `dims` 的元素的size。