Fix chinese api issue

This commit is contained in:
YangLuo 2022-03-26 21:10:33 +08:00
parent ac4365c38a
commit 9a8bb15cd9
65 changed files with 330 additions and 291 deletions

View File

@ -3,8 +3,8 @@ mindspore.dataset.BatchInfo
.. py:class:: mindspore.dataset.BatchInfo
此类提供了两种方法获取数据集的批处理数量batch size和迭代数epoch
用于 `batch` 操作中的输入参数 `batch_size``per_batch_map`
此类提供了两种方法获取数据集的批处理数量batch size和迭代数epoch属性。
这些属性可以用于 `batch` 操作中的输入参数 `batch_size``per_batch_map`
.. py:method:: get_batch_num()

View File

@ -12,7 +12,7 @@ mindspore.dataset.CityscapesDataset
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为'fine'时,此参数可取值为'train'、'test'、'val'或'all'。
在参数 `quality_mode` 的其他取值下,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。
当参数 `quality_mode` 取值为'coarse'时,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。
- **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为'fine'或'coarse'。默认值:'fine'。
- **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。

View File

@ -4,4 +4,4 @@
**参数:**
- **new_sampler** (Sampler) :作用于当前数据集对象的采样器。
- **new_sampler** (Sampler) 指定作用于当前数据集对象的采样器。

View File

@ -16,7 +16,7 @@
- **pad_info** (dict, 可选) - 对指定数据列进行填充。通过传入dict来指定列信息与填充信息要求dict的键是要填充的数据列名dict的值是包含2个元素的元组。
元组中第1个元素表示要扩展至的目标shape第2个元素表示要填充的值。
如果某一个数据列未指定将要填充后的shape和填充值则该列中的每条数据都将填充至该批次中最长数据的长度且填充值为0。
注意,`pad_info` 中任何填充shape为None的列其每条数据长度都将被填充为当前批处理中最数据的长度除非指定 `pad_to_bucket_boundary` 为True。默认值None不填充。
注意,`pad_info` 中任何填充shape为None的列其每条数据长度都将被填充为当前批处理中最数据的长度,除非指定 `pad_to_bucket_boundary` 为True。默认值None不填充。
- **pad_to_bucket_boundary** (bool, 可选) - 如果为True`pad_info` 中填充shape为None的列会被填充至由参数 `bucket_batch_sizes` 指定的对应分桶长度-1的长度。
如果有任何数据落入最后一个分桶中则将报错。默认值False。
- **drop_remainder** (bool, 可选) - 当每个分桶中的最后一个批处理数据数据条目小于 `bucket_batch_sizes`是否丢弃该批处理数据。默认值False不丢弃。

View File

@ -32,7 +32,7 @@
.. py:method:: create_tuple_iterator(columns=None, num_epochs=-1, output_numpy=False, do_copy=True)
基于数据集对象创建迭代器输出数据为ndarray组成的列表。
基于数据集对象创建迭代器,输出数据为 `numpy.ndarray` 组成的列表。
可以通过参数 `columns` 指定输出的所有列名及列的顺序。如果columns未指定列的顺序将保持不变。
@ -95,7 +95,7 @@
**参数:**
- **func** (function) - 数据处理函数,要求输入必须为一个'ndarray',返回值是一个'Dataset'对象。
- **func** (function) - 数据处理函数,要求输入必须为一个 `numpy.ndarray` ,返回值是一个 `Dataset` 对象。
**返回:**
@ -104,7 +104,7 @@
**异常:**
- **TypeError** - `func` 不是函数。
- **TypeError** - `func` 的返回值不是数据集对象。
- **TypeError** - `func` 的返回值不是 `Dataset` 对象。
.. py:method:: get_batch_size()
@ -120,7 +120,7 @@
**返回:**
dict描述类别名称到索引的键值对映射关系通常为str-to-int格式。针对COCO数据集类别名称到索引映射关系描述形式为str-to-list<int>格式,列表中的第二个数字表示超类别。
dict描述类别名称到索引的键值对映射关系通常为str-to-int格式。针对COCO数据集类别名称到索引映射关系描述形式为str-to-list<int>格式,列表中的第二个数字表示超类别。
.. py:method:: get_col_names()
@ -150,11 +150,11 @@
.. py:method:: input_indexs
:property:
获取input index信息。
数据集的input index信息。
**返回:**
input index信息的元组
tuple数据集的input index信息。
.. py:method:: map(operations, input_columns=None, output_columns=None, column_order=None, num_parallel_workers=None, python_multiprocessing=False, cache=None, callbacks=None, max_rowsize=16, offload=None)
@ -239,7 +239,7 @@
.. py:method:: repeat(count=None)
重复此数据集 `count` 次。如果 `count` 为None或-1则无限重复。
重复此数据集 `count` 次。如果 `count` 为None或-1则无限重复迭代
.. note::
repeat和batch的顺序反映了batch的数量。建议repeat操作在batch操作之后使用。
@ -391,10 +391,10 @@
**异常:**
- **RuntimeError** - 数据集对象不支持 `get_dataset_size` 或者 `get_dataset_size` 返回None。
- **RuntimeError** - sizes是整数列表并且size中所有元素的总和不等于数据集大小。
- **RuntimeError** - sizes是float列表并且计算后存在大小为0的拆分子数据集。
- **RuntimeError** - `sizes` 是list[int],并且 `sizes` 中所有元素的总和不等于数据集大小。
- **RuntimeError** - `sizes` 是list[float]并且计算后存在大小为0的拆分子数据集。
- **RuntimeError** - 数据集对象在调用拆分之前已进行分片。
- **ValueError** - sizes是float列表且并非所有float数都在0和1之间或者float数的总和不等于1。
- **ValueError** - `sizes` 是list[float]且并非所有float数值都在0和1之间或者float数值的总和不等于1。
**返回:**

View File

@ -13,7 +13,7 @@
**异常:**
- **TypeError** - `apply_func` 的类型不是函数。
- **TypeError** - `apply_func` 未返回Dataset对象。
- **TypeError** - `apply_func` 未返回 `Dataset` 对象。
.. py:method:: batch(batch_size, drop_remainder=False, num_parallel_workers=None, per_batch_map=None, input_columns=None, output_columns=None, column_order=None, pad_info=None, python_multiprocessing=False, max_rowsize=16)
@ -44,7 +44,7 @@
如果 `input_column` 长度不等于 `output_column` 长度,则此参数必须指定。
注意:列名不限定在 `input_columns``output_columns` 中指定的列也可以是上一个操作输出的未被处理的数据列详细可参阅使用样例4。默认值None按照原输入顺序排列。
- **pad_info** (dict, 可选) - 对给定数据列进行填充。通过传入dict来指定列信息与填充信息例如 `pad_info={"col1":([224,224],0)}`
则将列名为"col1"的数据列扩充到shape为[224,224]的Tensor缺失的值使用0填充。默认值None不填充。
则将列名为"col1"的数据列扩充到shape为(224, 224)的Tensor缺失的值使用0填充。默认值None不填充。
- **python_multiprocessing** (bool, 可选) - 启动Python多进程模式并行执行 `per_batch_map` 。如果 `per_batch_map` 的计算量很大此选项可能会很有用。默认值False不启用多进程。
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间,仅当 `python_multiprocessing` 为True时该选项有效。默认值16单位为MB。

View File

@ -15,11 +15,11 @@ mindspore.dataset.DistributedSampler
**异常:**
- **TypeError** - `num_shards` 不是整数值
- **TypeError** - `shard_id` 不是整数值
- **TypeError** - `shuffle` 不是Boolean值
- **TypeError** - `num_samples` 不是整数值
- **TypeError** - `offset` 不是整数值
- **TypeError** - `num_shards` 的类型不是int
- **TypeError** - `shard_id` 的类型不是int
- **TypeError** - `shuffle` 的类型不是bool
- **TypeError** - `num_samples` 的类型不是int
- **TypeError** - `offset` 的类型不是int
- **ValueError** - `num_samples` 为负值。
- **RuntimeError** - `num_shards` 不是正值。
- **RuntimeError** - `shard_id` 小于0或大于等于 `num_shards`

View File

@ -15,9 +15,9 @@ mindspore.dataset.PKSampler
**异常:**
- **TypeError** `shuffle` 不是bool
- **TypeError** `class_column` 不是str
- **TypeError** `num_samples` 不是整数值
- **TypeError** `shuffle` 的类型不是bool。
- **TypeError** `class_column` 的类型不是str。
- **TypeError** `num_samples` 的类型不是int
- **NotImplementedError** `num_class` 不为None。
- **RuntimeError** `num_val` 不是正值。
- **ValueError** `num_samples` 为负值。

View File

@ -13,7 +13,7 @@ mindspore.dataset.PaddedDataset
- **TypeError** - `padded_samples` 的类型不为list。
- **TypeError** - `padded_samples` 的元素类型不为dict。
- **ValueError** - `padded_samples` 为空列表
- **ValueError** - `padded_samples` 为空的list
.. include:: mindspore.dataset.Dataset.add_sampler.rst

View File

@ -7,7 +7,7 @@ mindspore.dataset.RandomSampler
**参数:**
- **replacement** (bool, 可选): 是否将样本ID放回下一次采样默认值True放回采样。
- **replacement** (bool, 可选): 是否将样本ID放回下一次采样默认值False放回采样。
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**

View File

@ -12,8 +12,8 @@ mindspore.dataset.SequentialSampler
**异常:**
- **TypeError** `start_index` 不是整数值
- **TypeError** `num_samples` 不是整数值
- **TypeError** `start_index` 的类型不是int
- **TypeError** `num_samples` 的类型不是int
- **RuntimeError** `start_index` 为负值。
- **ValueError** `num_samples` 为负值。

View File

@ -12,8 +12,8 @@ mindspore.dataset.SubsetRandomSampler
**异常:**
- **TypeError** `indices` 的类型不是整数
- **TypeError** `num_samples` 不是整数值
- **TypeError** `indices` 的类型不是int
- **TypeError** `num_samples` 的类型不是int
- **ValueError** `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -12,8 +12,8 @@ mindspore.dataset.SubsetSampler
**异常:**
- **TypeError** `indices` 的类型不是整数
- **TypeError** `num_samples` 不是整数值
- **TypeError** `indices` 的类型不是int
- **TypeError** `num_samples` 的类型不是int
- **ValueError** `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -13,9 +13,9 @@ mindspore.dataset.WeightedRandomSampler
**异常:**
- **TypeError** `weights` 元素的类型不是数
- **TypeError** `num_samples` 不是整数值
- **TypeError** `replacement` 不是布尔值
- **TypeError** `weights` 元素的类型不是数值类型
- **TypeError** `num_samples` 的类型不是int
- **TypeError** `replacement` 的类型不是bool
- **RuntimeError** `weights` 为空或全为零。
- **ValueError** `num_samples` 为负值。

View File

@ -34,10 +34,10 @@
- **AssertionError** - 当 `bboxes` 的格式不为(N, 4)或(N, 5)。
- **AssertionError** - 当 `labels` 的格式不为(N, 1)。
- **AssertionError** - 当 `segm` 的格式不为(M, H, W)。
- **AssertionError** - 当 `class_names` 的类型不为列表、元组或字典
- **AssertionError** - 当 `bbox_color` 不为(B, G, R)格式的元组
- **AssertionError** - 当 `text_color` 不为(B, G, R)格式的元组
- **AssertionError** - 当 `mask_color` 不为(B, G, R)格式的元组
- **AssertionError** - 当 `class_names` 的类型不为list、tuple或dict
- **AssertionError** - 当 `bbox_color` 不为(B, G, R)格式的tuple
- **AssertionError** - 当 `text_color` 不为(B, G, R)格式的tuple
- **AssertionError** - 当 `mask_color` 不为(B, G, R)格式的tuple
**imshow_det_bbox在VOC2012数据集的使用图示**

View File

@ -7,7 +7,7 @@ mindspore.dataset.zip
**参数:**
- **datasets** (tuple of class Dataset) - 输入元组格式的多个dataset对象。 `datasets` 参数的长度必须大于1。
- **datasets** (tuple[Dataset]) - 要合并的多个dataset对象。 `datasets` 参数的长度必须大于1。
**返回:**
@ -15,5 +15,5 @@ mindspore.dataset.zip
**异常:**
- **ValueError** - datasets参数的长度为1。
- **TypeError** - datasets参数不是元组
- **ValueError** - `datasets` 参数的长度为1。
- **TypeError** - datasets参数不是tuple

View File

@ -22,9 +22,9 @@ mindspore.dataset.audio.transforms.AllpassBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -15,15 +15,15 @@ mindspore.dataset.audio.transforms.AmplitudeToDB
:math:`db\_multiplier = Log10(max(ref\_value, amin))`
- **amin** (float, 可选) - 波形取值下界低于该值的波形将会被裁切取值必须大于0默认值1e-10。
- **top_db** (float, 可选) - 最小截止分贝值默认值80.0。
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数默认值80.0。
**异常:**
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType`
- **TypeError** - 当 `ref_value` 的类型不为浮点型
- **TypeError** - 当 `ref_value` 的类型不为float
- **ValueError** - 当 `ref_value` 不为正数。
- **TypeError** - 当 `amin` 的类型不为浮点型
- **TypeError** - 当 `amin` 的类型不为float
- **ValueError** - 当 `amin` 不为正数。
- **TypeError** - 当 `top_db` 的类型不为浮点型
- **TypeError** - 当 `top_db` 的类型不为float
- **ValueError** - 当 `top_db` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。

View File

@ -20,10 +20,10 @@ mindspore.dataset.audio.transforms.BandBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `noise` 的类型不为布尔型
- **TypeError** - 当 `noise` 的类型不为bool
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -28,10 +28,10 @@ mindspore.dataset.audio.transforms.BandpassBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **TypeError** - 当 `const_skirt_gain` 的类型不为布尔型
- **TypeError** - 当 `const_skirt_gain` 的类型不为bool
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -24,9 +24,9 @@ mindspore.dataset.audio.transforms.BandrejectBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -23,10 +23,10 @@ mindspore.dataset.audio.transforms.BassBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `gain` 的类型不为浮点型
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `gain` 的类型不为float
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -13,6 +13,6 @@ mindspore.dataset.audio.transforms.ComplexNorm
**异常:**
- **TypeError** - 当 `power` 的类型不为浮点型
- **TypeError** - 当 `power` 的类型不为float
- **ValueError** - 当 `power` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., complex=2>。

View File

@ -17,6 +17,6 @@ mindspore.dataset.audio.transforms.Contrast
**异常:**
- **TypeError** - 当 `enhancement_amount` 的类型不为浮点型
- **TypeError** - 当 `enhancement_amount` 的类型不为float
- **ValueError** - 当 `enhancement_amount` 取值不在[0, 100]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -16,12 +16,12 @@ mindspore.dataset.audio.transforms.FrequencyMasking
**异常:**
- **TypeError** - 当 `iid_masks` 的类型不为布尔型
- **TypeError** - 当 `freq_mask_param` 的类型不为整型
- **TypeError** - 当 `iid_masks` 的类型不为bool
- **TypeError** - 当 `freq_mask_param` 的类型不为int
- **ValueError** - 当 `freq_mask_param` 大于音频频域长度。
- **TypeError** - 当 `mask_start` 的类型不为整型
- **TypeError** - 当 `mask_start` 的类型不为int
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为浮点型
- **TypeError** - 当 `mask_value` 的类型不为float
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。

View File

@ -22,9 +22,9 @@ mindspore.dataset.audio.transforms.LowpassBiquad
**异常:**
- **TypeError** - 当 `sample_rate` 的类型不为整型
- **ValueError** - 当 `sample_rate` 为0。
- **TypeError** - 当 `central_freq` 的类型不为浮点型
- **TypeError** - 当 `Q` 的类型不为浮点型
- **TypeError** - 当 `sample_rate` 的类型不为int
- **ValueError** - 当 `sample_rate` 的数值为0。
- **TypeError** - 当 `central_freq` 的类型不为float
- **TypeError** - 当 `Q` 的类型不为float
- **ValueError** - 当 `Q` 取值不在(0, 1]范围内。
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -16,12 +16,12 @@ mindspore.dataset.audio.transforms.TimeMasking
**异常:**
- **TypeError** - 当 `iid_masks` 的类型不为布尔型
- **TypeError** - 当 `time_mask_param` 的类型不为整型
- **TypeError** - 当 `iid_masks` 的类型不为bool
- **TypeError** - 当 `time_mask_param` 的类型不为int
- **ValueError** - 当 `time_mask_param` 大于音频时域长度。
- **TypeError** - 当 `mask_start` 的类型不为整型
- **TypeError** - 当 `mask_start` 的类型不为int
- **ValueError** - 当 `mask_start` 为负数。
- **TypeError** - 当 `mask_value` 的类型不为浮点型
- **TypeError** - 当 `mask_value` 的类型不为float
- **ValueError** - 当 `mask_value` 为负数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, time>。

View File

@ -15,11 +15,11 @@ mindspore.dataset.audio.transforms.TimeStretch
**异常:**
- **TypeError** - 当 `hop_length` 的类型不为整型
- **TypeError** - 当 `hop_length` 的类型不为int
- **ValueError** - 当 `hop_length` 不为正数。
- **TypeError** - 当 `n_freq` 的类型不为整型
- **TypeError** - 当 `n_freq` 的类型不为int
- **ValueError** - 当 `n_freq` 不为正数。
- **TypeError** - 当 `fixed_rate` 的类型不为浮点型
- **TypeError** - 当 `fixed_rate` 的类型不为float
- **ValueError** - 当 `fixed_rate` 不为正数。
- **RuntimeError** - 当输入音频的shape不为<..., freq, num_frame, complex=2>。

View File

@ -3,6 +3,8 @@ mindspore.dataset.text.transforms.CaseFold
.. py:class:: mindspore.dataset.text.transforms.CaseFold()
对UTF-8字符串进行大小写转换相比 :func:`str.lower` 支持更多字符。
.. note:: Windows 平台尚不支持 CaseFold。
将UTF-8编码字符串中的字符规范化为小写相比 :func:`str.lower` 支持更多字符。
支持的输入规范化形式详见 `ICU_Normalizer2 <https://unicode-org.github.io/icu-docs/apidoc/released/icu4c/classicu_1_1Normalizer2.html>`_
.. note:: Windows平台尚不支持 `CaseFold`

View File

@ -5,19 +5,19 @@ mindspore.dataset.text.transforms.JiebaTokenizer
使用Jieba分词器对中文字符串进行分词。
.. note:: 必须保证 HMMSEgment 算法和 MPSegment 算法所使用的字典文件的完整性。
.. note:: 必须保证隐式马尔科夫模型分词HMMSEgment和最大概率法分词MPSegment所使用的词典文件的完整性。
**参数:**
- **hmm_path** (str) - HMMSegment 算法使用的字典文件路径,字典可在cppjieba官网获取
- **hmm_path** (str) - 隐式马尔科夫模型分词算法使用的词典文件路径,词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mp_path** (str) - MPSegment 算法使用的字典文件路径,字典可在cppjieba官网获取
- **mp_path** (str) - 最大概率法分词算法使用的词典文件路径,词典可在cppjieba官网获取
详见 `cppjieba_github <https://github.com/yanyiwu/cppjieba/tree/master/dict>`_
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式可以取值为 JiebaMode.MP、JiebaMode.HMM JiebaMode.MIX。默认值JiebaMode.MIX。
- **mode** (JiebaMode, 可选) - Jieba分词使用的模式可以取值为JiebaMode.MP、JiebaMode.HMM或JiebaMode.MIX。默认值JiebaMode.MIX。
- **JiebaMode.MP**:使用最大概率法算法进行分词。
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
- **JiebaMode.MIX**:使用 MPSegment 和 HMMSegment 算法混合进行分词。
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
@ -25,12 +25,12 @@ mindspore.dataset.text.transforms.JiebaTokenizer
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
- **ValueError** - 没有提供参数 `mp_path` 或为None。
- **TypeError** - 参数 `hmm_path``mp_path` 类型不为string
- **TypeError** - 参数 `hmm_path``mp_path` 类型不为str。
- **TypeError** - 参数 `with_offsets` 类型不为bool。
.. py:method:: add_dict(user_dict)
将用户定义的词添加到 JiebaTokenizer 的字典中。
将用户定义的词添加到 `JiebaTokenizer` 的字典中。
**参数:**
@ -43,8 +43,8 @@ mindspore.dataset.text.transforms.JiebaTokenizer
word2 None
word3 freq3
也可以通过Python dict加载要求的 Python 字典格式为:{word1:freq1, word2:freq2,...}
只有用户提供的文件中有效的词对才会被添加到字典中,无的效输入行将被忽略,且不返回错误或警告状态。
在提供的jieba字典文件中只有有效的词对才会被添加到字典中无效的输入行将被忽略且不返回错误或警告状态
同时用户也可以通过Python dict定义要添加的词汇要求的Python字典格式为{word1:freq1, word2:freq2,...}。
.. py:method:: add_word(word, freq=None)
@ -52,5 +52,5 @@ mindspore.dataset.text.transforms.JiebaTokenizer
**参数:**
- **word** (str) - 要添加到 JiebaTokenizer 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
- **word** (str) - 要添加到 `JiebaTokenizer` 词典中的单词,注意通过此接口添加的单词不会被写入本地的模型文件中。
- **freq** (int可选) - 要添加的单词的频率。频率越高单词被分词的机会越大。默认值None使用默认频率。

View File

@ -8,13 +8,13 @@ mindspore.dataset.text.transforms.Lookup
**参数:**
- **vocab** (Vocab) - 词表对象,用于存储分词和索引的映射。
- **unknown_token** (str, 可选) - 备用词汇,用于在单词不在词汇表中的情况
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
如果如果单词不在词汇表中,且未指定 `unknown_token` 将抛出运行时错误。默认值None不指定该参数。
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
如果单词不在词汇表中,且未指定 `unknown_token` 将抛出运行时错误。默认值None不指定该参数。
- **data_type** (mindspore.dtype, 可选): Lookup输出的数据类型默认值mindspore.int32。
**异常:**
- **TypeError** - 参数 `vocab` 类型不为 text.Vocab。
- **TypeError** - 参数 `unknown_token` 类型不为string
- **TypeError** - 参数 `data_type` 类型不为 mindspore.dtype。
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 参数 `unknown_token` 类型不为str。
- **TypeError** - 参数 `data_type` 类型不为 :class:`mindspore.dtype`

View File

@ -12,9 +12,9 @@ mindspore.dataset.text.transforms.Ngram
- **n** (list[int]) - n-gram 中的 n它是一个正整数列表。例如 n=[4, 3]结果将是Tensor包含一个4-gram和一个3-gram的字符串。
如果输入的字符不足以构造一个n-gram则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
- **left_pad** (tuple, 可选) - 指定序列的左侧填充传入tuple的形式为 ("pad_token",pad_width)。
pad_width 的上限值为 `n` -1。例如指定 left_pad=("_", 2) 将用 "__" 填充序列的左侧。默认值:("", 0)。
pad_width 的上限值为 `n` -1。例如指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值:("", 0)。
- **right_pad** (tuple, 可选) - 指定序列的右侧填充传入tuple的形式为 ("pad_token",pad_width)。
pad_width 的上限值为 `n` -1。例如指定 left_pad=("_", 2) 将用 "__" 填充序列的右侧。默认值:("", 0)。
pad_width 的上限值为 `n` -1。例如指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值:("", 0)。
- **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为"-",结果将是 ["mindspore-amazing"]。默认值:" ",使用空格作为分隔符。
@ -22,6 +22,6 @@ mindspore.dataset.text.transforms.Ngram
- **TypeError** - 参数 `n` 包含的值类型不为int。
- **ValueError** - 参数 `n` 包含的值不为正数。
- **ValueError** - 参数 `left_pad` 不是一个长度2的tuple
- **ValueError** - 参数 `right_pad` 不是一个长度2的tuple
- **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]
- **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]
- **TypeError** - 参数 `separator` 的类型不是bool。

View File

@ -5,12 +5,12 @@ mindspore.dataset.text.transforms.NormalizeUTF8
对UTF-8编码的字符串进行规范化处理。
.. note:: Windows 平台尚不支持 NormalizeUTF8。
.. note:: Windows平台尚不支持 `NormalizeUTF8`
**参数:**
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD 此四种unicode中的
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
任何一种形式默认值NormalizeForm.NFKC。
- NormalizeForm.NONE对输入字符串不做任何处理。
@ -23,4 +23,4 @@ mindspore.dataset.text.transforms.NormalizeUTF8
**异常:**
- **TypeError** - 参数 `normalize_form` 的类型不是NormalizeForm。
- **TypeError** - 参数 `normalize_form` 的类型不是 :class:`mindspore.dataset.text.NormalizeForm`

View File

@ -7,7 +7,7 @@ mindspore.dataset.text.transforms.RegexReplace
有关支持的正则表达式的模式,请参阅 https://unicode-org.github.io/icu/userguide/strings/regexp.html。
.. note:: Windows 平台尚不支持 RegexReplace。
.. note:: Windows平台尚不支持 `RegexReplace`
**参数:**
@ -17,6 +17,6 @@ mindspore.dataset.text.transforms.RegexReplace
**异常:**
- **TypeError** - 参数 `pattern` 的类型不是string
- **TypeError** - 参数 `replace` 的类型不是string
- **TypeError** - 参数 `pattern` 的类型不是str。
- **TypeError** - 参数 `replace` 的类型不是str。
- **TypeError** - 参数 `separator` 的类型不是bool。

View File

@ -7,17 +7,17 @@ mindspore.dataset.text.transforms.RegexTokenizer
有关支持的正则表达式的模式,请参阅 https://unicode-org.github.io/icu/userguide/strings/regexp.html。
.. note:: Windows 平台尚不支持 RegexTokenizer。
.. note:: Windows平台尚不支持 `RegexTokenizer`
**参数:**
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
默认值:'',即分隔符不会作为输出标记保留。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False不输出。
默认值:''(空字符),即分隔符不会作为输出标记保留。
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量默认值False不输出。
**异常:**
- **TypeError** - 参数 `delim_pattern` 的类型不是string
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是string
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
- **TypeError** - 参数 `keep_delim_pattern` 的类型不是str。
- **TypeError** - 参数 `with_offsets` 的类型不是bool。

View File

@ -7,14 +7,15 @@ mindspore.dataset.text.transforms.SentencePieceTokenizer
**参数:**
- **mode** (Union[str, SentencePieceVocab]) - 如果输入是字符串则代表SentencePiece模型文件的路径
如果输入是SentencePieceVocab类型则代表一个SentencePieceVocab 对象。
- **mode** (Union[str, SentencePieceVocab]) - SentencePiece模型。
如果输入是字符串类型则代表要加载的SentencePiece模型文件的路径
如果输入是SentencePieceVocab类型则要求是构造好的 :class:`mindspore.dataset.text.SentencePieceVocab` 对象。
- **out_type** (SPieceTokenizerOutType) - 分词器输出的类型,可以取值为 SPieceTokenizerOutType.STRING 或 SPieceTokenizerOutType.INT。
- SPieceTokenizerOutType.STRING表示 SentencePice分词器 的输出类型是字符串
- SPieceTokenizerOutType.INT表示 SentencePice分词器 的输出类型是整型
- SPieceTokenizerOutType.STRING表示SentencePice分词器的输出类型是str
- SPieceTokenizerOutType.INT表示SentencePice分词器的输出类型是int
**异常:**
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab`
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType`
- **TypeError** - 参数 `mode` 的类型不是字符串或 :class:`mindspore.dataset.text.SentencePieceVocab`
- **TypeError** - 参数 `out_type` 的类型不是 :class::`mindspore.dataset.text.SPieceTokenizerOutType`

View File

@ -3,7 +3,7 @@ mindspore.dataset.text.transforms.SlidingWindow
.. py:class:: mindspore.dataset.text.transforms.SlidingWindow(width, axis=0)
在输入数据的某个维度上进行滑窗切分处理。
在输入数据的某个维度上进行滑窗切分处理当前仅支持处理1-D的Tensor
**参数:**
@ -12,6 +12,6 @@ mindspore.dataset.text.transforms.SlidingWindow
**异常:**
- **TypeError** - 参数 `width` 的类型不为整型
- **ValueError** - 参数 `width` 不为正数。
- **TypeError** - 参数 `axis` 的类型不为整型
- **TypeError** - 参数 `width` 的类型不为int
- **ValueError** - 参数 `width` 的值不为正数。
- **TypeError** - 参数 `axis` 的类型不为int

View File

@ -11,9 +11,9 @@ mindspore.dataset.text.transforms.ToNumber
**参数:**
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 mindspore.dtype 定义的数值类型。
- **data_type** (mindspore.dtype) - 要转换为的数值类型,需要是在 :class:`mindspore.dtype` 定义的数值类型。
**异常:**
- **TypeError** - 参数 `data_type` 的类型不是mindspore.dtype。
- **TypeError** - 参数 `data_type` 不是 :class:`mindspore.dtype` 类型
- **RuntimeError** - 字符串类型转换失败,或类型转换时出现溢出。

View File

@ -3,9 +3,9 @@ mindspore.dataset.text.transforms.UnicodeScriptTokenizer
.. py:class:: mindspore.dataset.text.transforms.UnicodeScriptTokenizer(keep_whitespace=False, with_offsets=False)
使用UnicodeScript分词器对字符串进行分词。
使用UnicodeScript分词器对UTF-8编码的字符串进行分词。
.. note:: Windows 平台尚不支持 UnicodeScriptTokenizer。
.. note:: Windows平台尚不支持 `UnicodeScriptTokenizer`
**参数:**

View File

@ -5,7 +5,7 @@ mindspore.dataset.text.transforms.WhitespaceTokenizer
基于ICU4C定义的空白字符' ', '\\\\t', '\\\\r', '\\\\n')对输入字符串进行分词。
.. note:: Windows 平台尚不支持 WhitespaceTokenizer。
.. note:: Windows平台尚不支持 `WhitespaceTokenizer`
**参数:**

View File

@ -15,9 +15,9 @@ mindspore.dataset.text.transforms.WordpieceTokenizer
**异常:**
- **TypeError** - 当 `vocab` 的类型不为 :class:`mindspore.dataset.text.Vocab`
- **TypeError** - 当 `suffix_indicator` 的类型不为字符串
- **TypeError** - 当 `max_bytes_per_token` 的类型不为整型
- **TypeError** - 当 `unknown_token` 的类型不为字符串
- **TypeError** - 当 `with_offsets` 的类型不为布尔型
- **TypeError** - 当 `vocab` 不为 :class:`mindspore.dataset.text.Vocab` 类型
- **TypeError** - 当 `suffix_indicator` 的类型不为str
- **TypeError** - 当 `max_bytes_per_token` 的类型不为int
- **TypeError** - 当 `unknown_token` 的类型不为str
- **TypeError** - 当 `with_offsets` 的类型不为bool
- **ValueError** - 当 `max_bytes_per_token` 为负数。

View File

@ -11,6 +11,6 @@ mindspore.dataset.transforms.c_transforms.Compose
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **ValueError** - 参数 `transforms` 的长度为空
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或c_transforms模块中的数据处理操作。

View File

@ -8,11 +8,11 @@ mindspore.dataset.transforms.c_transforms.Concatenate
**参数:**
- **axis** (int, 可选) - 指定一个轴用于拼接Tensor默认值0。
- **prepend** (numpy.array, 可选) - 指定拼接在最前面的Tensor默认值None不指定。
- **append** (numpy.array, 可选) - 指定拼接在最后面的Tensor默认值None不指定。
- **prepend** (numpy.ndarray, 可选) - 指定拼接在最前面的Tensor默认值None不指定。
- **append** (numpy.ndarray, 可选) - 指定拼接在最后面的Tensor默认值None不指定。
**异常:**
- **TypeError** - 参数 `axis` 的类型不为 int。
- **TypeError** - 参数 `prepend` 的类型不为 numpy.array。
- **TypeError** - 参数 `append` 的类型不为 numpy.array。
- **TypeError** - 参数 `axis` 的类型不为int。
- **TypeError** - 参数 `prepend` 的类型不为 `numpy.ndarray`
- **TypeError** - 参数 `append` 的类型不为 `numpy.ndarray`

View File

@ -3,7 +3,7 @@ mindspore.dataset.transforms.c_transforms.Fill
.. py:class:: mindspore.dataset.transforms.c_transforms.Fill(fill_value)
将Tensor的所有元素都赋值为指定的值输出Tensor将具有与输入Tensor具有相同的shape和数据类型。
将Tensor的所有元素都赋值为指定的值输出Tensor将与输入Tensor具有与具有相同的shape和数据类型。
**参数:**
@ -11,4 +11,4 @@ mindspore.dataset.transforms.c_transforms.Fill
**异常:**
- **TypeError** - 参数 `fill_value` 类型不为 str、float、bool、int bytes。
- **TypeError** - 参数 `fill_value` 类型不为str、float、bool、int或bytes。

View File

@ -8,11 +8,11 @@ mindspore.dataset.transforms.c_transforms.Mask
**参数:**
- **operator** (:class:`mindspore.dataset.transforms.c_transforms.Relational`) - 关系操作符可以取值为Relational.EQ、Relational.NE、Relational.LT、Relational.GT、Relational.LE、Relational.GE。以Relational.EQ为例将找出Tensor中与 `constant` 相等的元素。
- **constant** (Union[str, int, float, bool]) - 进行比较的基准值。
- **constant** (Union[str, int, float, bool]) - 与输入Tensor进行比较的基准值。
- **dtype** (:class:`mindspore.dtype`, 可选) - 生成的掩码Tensor的数据类型默认值:class:`mindspore.dtype.bool_`
**异常:**
- **TypeError** - 参数 `operator` 类型不为 Relational。
- **TypeError** - 参数 `constant` 类型不为 string, int, float 或 bool。
- **TypeError** - 参数 `dtype` 类型不为 mindspore.dtype。
- **TypeError** - 参数 `operator` 类型不为 :class:`mindspore.dataset.transforms.c_transforms.Relational`
- **TypeError** - 参数 `constant` 类型不为str、int、float或bool。
- **TypeError** - 参数 `dtype` 类型不为 :class:`mindspore.dtype`

View File

@ -11,6 +11,6 @@ mindspore.dataset.transforms.c_transforms.OneHot
**异常:**
- **TypeError** - 参数 `num_classes` 类型不为 int。
- **RuntimeError** - 输入Tensor的类型不为 int。
- **TypeError** - 参数 `num_classes` 类型不为int。
- **RuntimeError** - 输入Tensor的数据类型不为int。
- **RuntimeError** - 参数Tensor的shape不是1-D。

View File

@ -3,19 +3,20 @@ mindspore.dataset.transforms.c_transforms.PadEnd
.. py:class:: mindspore.dataset.transforms.c_transforms.PadEnd(pad_shape, pad_value=None)
对输入Tensor进行填充要求填充值与Tensor的shape一致。
对输入Tensor进行填充要求 `pad_shape` 与输入Tensor的维度保持一致。
**参数:**
- **pad_shape** (list(int)) - 指定填充的shape。维度设置为'None'时将不会被填充,设置为较小的维数时该维度的元素将被截断。
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值None未指定填充值。
- **pad_value** (Union[str, bytes, int, float, bool], 可选) - 用于填充的值。默认值None表示不指定填充值。
当指定为默认值输入Tensor为数值型时默认填充0输入Tensor为字符型时填充空字符串。
**异常:**
- **TypeError** - 参数 `pad_shape` 的类型不为 list。
- **TypeError** - 参数 `pad_value` 的类型不为 string, float, bool, int 或 bytes。
- **TypeError** - 参数 `pad_value` 的元素类型不为 int。
- **ValueError** - 参数 `pad_value` 的元素类型不为正数。
- **TypeError** - 参数 `pad_shape` 的类型不为list。
- **TypeError** - 参数 `pad_value` 的类型不为str、float、bool、int或bytes。
- **TypeError** - 参数 `pad_shape` 的元素类型不为int。
- **ValueError** - 参数 `pad_shape` 的元素类型不为正数。

View File

@ -3,17 +3,17 @@ mindspore.dataset.transforms.c_transforms.RandomApply
.. py:class:: mindspore.dataset.transforms.c_transforms.RandomApply(transforms, prob=0.5)
在一组数据增强中按概率应用其中的增强处理。
指定一组数据增强处理及其被应用的概率,在运算时按概率随机应用其中的增强处理。
**参数:**
- **transforms** (transforms) - 一个数据增强的列表。
- **transforms** (list) - 一个数据增强的列表。
- **prob** (float, 可选) - 随机应用某个数据增强的概率默认值0.5。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **ValueError** - 参数 `transforms` 的长度为空
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或c_transforms模块中的数据处理操作。
- **TypeError** - 参数 `prob` 的类型不为float。
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。

View File

@ -11,6 +11,6 @@ mindspore.dataset.transforms.c_transforms.RandomChoice
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **ValueError** - 参数 `transforms` 的长度为空
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或c_transforms模块中的数据处理操作。

View File

@ -1,7 +1,7 @@
mindspore.dataset.transforms.c_transforms.Relational
====================================================
.. py:class:: mindspore.dataset.transforms.c_transforms.Relational()
.. py:class:: mindspore.dataset.transforms.c_transforms.Relational
关系操作符可以取值为Relational.EQ、Relational.NE、Relational.GT、Relational.GE、Relational.LT、Relational.LE。

View File

@ -9,12 +9,12 @@ mindspore.dataset.transforms.c_transforms.Slice
- **slices** ((Union[int, list[int], slice, None, Ellipsis]) - 指定切片的信息,可以为
- 1. :py:obj: 'int': 沿着第一个维度切片对索引进行切片,支持负索引。
- 2. :py:obj: 'list(int)': 沿着第一个维度切片所有索引进行切片,支持负号索引。
- 3. :py:obj: 'slice': 沿着第一个维度对slice对象生成的索引进行切片。
- 4. :py:obj: 'None': 切片整个维度类似于Python索引中的语法:py:obj: '[:]'。
- 5. :py:obj: 'Ellipsis': 切片整个维度,效果与'None '相同。
- 1. :py:obj:'int': 沿着第一个维度切片对索引进行切片,支持负索引。
- 2. :py:obj:'list(int)': 沿着第一个维度切片所有索引进行切片,支持负号索引。
- 3. :py:obj:'slice': 沿着第一个维度对 `slice <https://docs.python.org/zh-cn/3.7/library/functions.html?highlight=slice#slice>`_ 对象生成的索引进行切片。
- 4. :py:obj:'None': 切片整个维度类似于Python索引中的语法:py:obj:'[:]'。
- 5. :py:obj:'Ellipsis': 切片整个维度,效果与 `None` 相同。
**异常:**
- **TypeError** - 参数 `slices` 类型不为 int, list[int], slice, None 或 Ellipsis
- **TypeError** - 参数 `slices` 类型不为int、list[int]、:py:obj:'slice'、:py:obj:'None'或:py:obj:'Ellipsis'

View File

@ -11,4 +11,4 @@ mindspore.dataset.transforms.c_transforms.TypeCast
**异常:**
- **TypeError** - 参数 `data_type` 类型不为 MindSpore支持的数据类型如bool、int、float 或 string
- **TypeError** - 参数 `data_type` 类型不为MindSpore支持的数据类型 :class:`mindspore.dtype`

View File

@ -7,15 +7,13 @@ mindspore.dataset.transforms.c_transforms.Unique
Unique将返回3个Tensor: 运算结果Tensor索引Tensor计数Tensor。
运算结果Tensor包含输入张量的所有唯一元素且和输入张量的顺序是一样的。
- 运算结果Tensor包含输入张量的所有唯一元素且和输入张量的顺序是一样的。
- 索引Tensor包含输入Tensor的每个元素在运算结果中的索引。
- 计数Tensor包含运算结果Tensor的每个元素的计数。
索引Tensor包含输入Tensor的每个元素在运算结果中的索引。
计数Tensor包含运算结果Tensor的每个元素的计数。
.. note:: 这个操作需要在batch操作之后调用.
.. note:: 需要在 :method:`batch` 操作之后调用该运算。
**异常:**
- **RuntimeError** - 当给定Tensor具有两列。
- **RuntimeError** - 当输入的Tensor具有两列。

View File

@ -16,9 +16,9 @@ mindspore.dataset.transforms.py_transforms.Compose
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **ValueError** - 参数 `transforms` 的长度为空
- **TypeError** - 参数 `transforms` 的元素不是Python的callable对象。
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 是空的list
- **TypeError** - 参数 `transforms` 的元素不是Python的可调用对象。
.. py:method:: reduce(operations)

View File

@ -12,6 +12,6 @@ mindspore.dataset.transforms.py_transforms.OneHotOp
**异常:**
- **TypeError** - 参数 `num_classes` 类型不为 int。
- **TypeError** - 参数 `smoothing_rate` 类型不为 float。
- **TypeError** - 参数 `num_classes` 类型不为int。
- **TypeError** - 参数 `smoothing_rate` 类型不为float。
- **ValueError** - 参数 `smoothing_rate` 取值范围不为[0.0, 1.0]。

View File

@ -3,17 +3,17 @@ mindspore.dataset.transforms.py_transforms.RandomApply
.. py:class:: mindspore.dataset.transforms.py_transforms.RandomApply(transforms, prob=0.5)
在一组数据增强中按概率应用其中的增强处理。
指定一组数据增强处理及其被应用的概率,在运算时按概率随机应用其中的增强处理。
**参数:**
- **transforms** (transforms) - 一个数据增强的列表。
- **transforms** (list) - 一个数据增强的列表。
- **prob** (float, 可选) - 随机应用某个数据增强的概率默认值0.5。
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **ValueError** - 参数 `transforms` 的长度为空。
- **TypeError** - 参数 `transforms` 类型不为list。
- **ValueError** - 参数 `transforms` 为空的list
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或py_transforms模块中的数据处理操作。
- **TypeError** - 参数 `prob` 的类型不为bool
- **TypeError** - 参数 `prob` 的类型不为float
- **ValueError** - 参数 `prob` 的取值范围不为[0.0, 1.0]。

View File

@ -11,6 +11,6 @@ mindspore.dataset.transforms.py_transforms.RandomChoice
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **TypeError** - 参数 `transforms` 类型不为list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或py_transforms模块中的数据处理操作。
- **ValueError** - 参数 `transforms` 的长度为空
- **ValueError** - 参数 `transforms` 是空的list

View File

@ -3,7 +3,7 @@ mindspore.dataset.transforms.py_transforms.RandomOrder
.. py:class:: mindspore.dataset.transforms.py_transforms.RandomOrder(transforms)
将数据增强列表中的处理随机打乱,然后应用
给一个数据增强的列表,随机打乱数据增强处理的顺序
**参数:**
@ -11,6 +11,6 @@ mindspore.dataset.transforms.py_transforms.RandomOrder
**异常:**
- **TypeError** - 参数 `transforms` 类型不为 list。
- **TypeError** - 参数 `transforms` 类型不为list。
- **TypeError** - 参数 `transforms` 的元素不是Python可调用对象或py_transforms模块中的数据处理操作。
- **ValueError** - 参数 `transforms` 的长度为空
- **ValueError** - 参数 `transforms` 是空的list

View File

@ -115,7 +115,7 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - `numa_enable` 不是布尔数据类型。
- **TypeError** - `numa_enable` 不是bool类型。
.. py:function:: mindspore.dataset.config.get_numa_enable()
@ -186,7 +186,7 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - enable不是布尔类型。
- **TypeError** - `enable` 不是bool类型。
.. py:function:: mindspore.dataset.config.get_auto_num_workers()
@ -209,7 +209,7 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - `enable` 不是布尔数据类型。
- **TypeError** - `enable` 不是bool类型。
.. py:function:: mindspore.dataset.config.get_enable_shared_mem()
@ -237,9 +237,9 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - 当 `enable` 的类型不为布尔型
- **TypeError** - 当 `json_filepath` 的类型不为字符串
- **RuntimeError** - 当 `json_filepath` 为空字符串
- **TypeError** - 当 `enable` 的类型不为bool
- **TypeError** - 当 `json_filepath` 的类型不为str
- **RuntimeError** - 当 `json_filepath` 字符长度为0
- **RuntimeError** - 当 `json_filepath` 为目录。
- **RuntimeError** - 当 `json_filepath` 路径不存在。
- **RuntimeError** - 当 `json_filepath` 没有写入权限。
@ -266,8 +266,8 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - 当 `interval` 类型不为整型
- **ValueError** - 当 `interval` 不为非负数
- **TypeError** - 当 `interval` 类型不为int
- **ValueError** - 当 `interval` 的值小于零
.. py:function:: mindspore.dataset.config.get_autotune_interval()
@ -277,6 +277,28 @@ API示例所需模块的导入代码如下
int自动数据加速的配置调整step间隔。
.. py:function:: mindspore.dataset.config.set_auto_offload(offload)
设置是否开启数据异构加速。
数据异构加速可以自动将数据处理的部分运算分配到不同的异构硬件GPU或Ascend以提高数据处理的速度。
**参数:**
- **offload** (bool) - 是否开启数据异构加速。
**异常:**
- **TypeError** - 当 `offload` 的类型不为bool。
.. py:function:: mindspore.dataset.config.get_auto_offload()
获取当前是否开启数据异构加速。
**返回:**
bool表示是否开启数据异构加速。
.. py:function:: mindspore.dataset.config.set_enable_watchdog(enable)
设置watchdog Python线程是否启用。默认情况下watchdog Python线程是启用的。watchdog Python线程负责清理卡死或假死的子进程。
@ -287,7 +309,7 @@ API示例所需模块的导入代码如下
**异常:**
- **TypeError** - `enable` 不是布尔数据类型。
- **TypeError** - `enable` 不是bool类型。
.. py:function:: mindspore.dataset.config.get_enable_watchdog()

View File

@ -107,8 +107,8 @@ def set_seed(seed):
seed(int): Random number seed. It is used to generate deterministic random numbers.
Raises:
TypeError: If seed isn't of type int.
ValueError: If seed < 0 or seed > UINT32_MAX(4294967295).
TypeError: If `seed` isn't of type int.
ValueError: If `seed` < 0 or `seed` > UINT32_MAX(4294967295).
Examples:
>>> # Set a new global configuration value for the seed value.
@ -150,8 +150,8 @@ def set_prefetch_size(size):
size (int): The length of the cache queue.
Raises:
TypeError: If size is not of type int.
ValueError: If size <= 0 or size > INT32_MAX(2147483647).
TypeError: If `size` is not of type int.
ValueError: If `size` <= 0 or `size` > INT32_MAX(2147483647).
Note:
Since total memory used for prefetch can grow very large with high number of workers,
@ -193,8 +193,8 @@ def set_num_parallel_workers(num):
num (int): Number of parallel workers to be used as a default for each operation.
Raises:
TypeError: If num is not of type int.
ValueError: If num <= 0 or num > INT32_MAX(2147483647).
TypeError: If `num` is not of type int.
ValueError: If `num` <= 0 or `num` > INT32_MAX(2147483647).
Examples:
>>> # Set a new global configuration value for the number of parallel workers.
@ -234,7 +234,7 @@ def set_numa_enable(numa_enable):
numa_enable (bool): Whether to use numa bind feature.
Raises:
TypeError: If numa_enable is not a boolean data type.
TypeError: If `numa_enable` is not a boolean data type.
Examples:
>>> # Set a new global configuration value for the state of numa enabled.
@ -269,8 +269,8 @@ def set_monitor_sampling_interval(interval):
interval (int): Interval (in milliseconds) to be used for performance monitor sampling.
Raises:
TypeError: If interval is not type int.
ValueError: If interval <= 0 or interval > INT32_MAX(2147483647).
TypeError: If `interval` is not type int.
ValueError: If `interval` <= 0 or `interval` > INT32_MAX(2147483647).
Examples:
>>> # Set a new global configuration value for the monitor sampling interval.
@ -314,7 +314,7 @@ def set_auto_num_workers(enable):
enable (bool): Whether to enable auto num_workers feature or not.
Raises:
TypeError: If enable is not of boolean type.
TypeError: If `enable` is not of boolean type.
Examples:
>>> # Enable auto_num_worker feature, this might override the num_parallel_workers passed in by user
@ -336,11 +336,13 @@ def _set_auto_workers_config(option):
Option #4 leaf_num_workers:batch_num_workers:map_num_workers=2:2:1
Option #5 leaf_num_workers:batch_num_workers:map_num_workers=2:1:2
Option #6 leaf_num_workers:batch_num_workers:map_num_workers=1:2:2
Args:
option (int): The id of the profile to use.
Raises:
TypeError: If option is not of type int.
ValueError: If option is not within the range of [0, 6].
TypeError: If `option` is not of type int.
ValueError: If `option` is not within the range of [0, 6].
"""
if not isinstance(option, int) or isinstance(option, bool):
raise TypeError("option isn't of type int.")
@ -372,8 +374,8 @@ def set_callback_timeout(timeout):
timeout (int): Timeout (in seconds) to be used to end the wait in DSWaitedCallback in case of a deadlock.
Raises:
TypeError: If timeout is not type int.
ValueError: If timeout <= 0 or timeout > INT32_MAX(2147483647).
TypeError: If `timeout` is not type int.
ValueError: If `timeout` <= 0 or `timeout` > INT32_MAX(2147483647).
Examples:
>>> # Set a new global configuration value for the timeout value.
@ -420,7 +422,7 @@ def load(file):
file (str): Path of the configuration file to be loaded.
Raises:
RuntimeError: If file is invalid and parsing fails.
RuntimeError: If `file` is invalid and parsing fails.
Examples:
>>> # Set new default configuration according to values in the configuration file.
@ -577,7 +579,7 @@ def set_enable_shared_mem(enable):
enable (bool): Whether to use shared memory in operators when python_multiprocessing=True.
Raises:
TypeError: If enable is not a boolean data type.
TypeError: If `enable` is not a boolean data type.
Examples:
>>> # Enable shared memory feature to improve the performance of Python multiprocessing.
@ -605,7 +607,7 @@ def set_sending_batches(batch_num):
increase, default is 0 which means will send all batches in dataset.
Raises:
TypeError: If batch_num is not of type int.
TypeError: If `batch_num` is not of type int.
Examples:
>>> # Set a new global configuration value for the sending batches
@ -659,7 +661,7 @@ def set_enable_watchdog(enable):
enable (bool): Whether to launch a watchdog Python thread. System default: True.
Raises:
TypeError: If enable is not a boolean data type.
TypeError: If `enable` is not a boolean data type.
Examples:
>>> # Set a new global configuration value for the state of watchdog Python thread as enabled.
@ -695,7 +697,8 @@ def set_multiprocessing_timeout_interval(interval):
process/thread gets data from subprocess/child threads. System default: 300s.
Raises:
ValueError: If interval <= 0 or interval > INT32_MAX(2147483647).
TypeError: If `interval` is not of type int.
ValueError: If `interval` <= 0 or `interval` > INT32_MAX(2147483647).
Examples:
>>> # Set a new global configuration value for multiprocessing/multithreading timeout when getting data.

View File

@ -194,7 +194,7 @@ def zip(datasets):
Zip the datasets in the input tuple of datasets.
Args:
datasets (tuple of class Dataset): A tuple of datasets to be zipped together.
datasets (tuple[Dataset]): A tuple of datasets to be zipped together.
The number of datasets must be more than 1.
Returns:
@ -596,10 +596,11 @@ class Dataset:
BatchDataset, dataset batched.
Examples:
>>> # Create a dataset where every 100 rows are combined into a batch
>>> # 1) Create a dataset where every 100 rows are combined into a batch
>>> # and drops the last incomplete batch if there is one.
>>> dataset = dataset.batch(100, True)
>>> # resize image according to its batch number, if it's 5-th batch, resize to (5^2, 5^2) = (25, 25)
>>>
>>> # 2resize image according to its batch number, if it's 5-th batch, resize to (5^2, 5^2) = (25, 25)
>>> def np_resize(col, BatchInfo):
... output = col.copy()
... s = (BatchInfo.get_batch_num() + 1) ** 2
@ -611,6 +612,16 @@ class Dataset:
... index += 1
... return (output,)
>>> dataset = dataset.batch(batch_size=8, input_columns=["image"], per_batch_map=np_resize)
>>>
>>> # 3Create a dataset where its batch size is dynamic
>>> # Define a callable batch size function and let batch size increase 1 each time.
>>> def add_one(BatchInfo):
... return BatchInfo.get_batch_num() + 1
>>> dataset = dataset.batch(batch_size=add_one, drop_remainder=True)
>>>
>>> # 4Create a dataset with batch, then specify the column order.
>>> # Assume that the original coulmn order is ["image", "label"] and change to ["label", "image"].
>>> dataset = dataset.batch(32, column_order=["label", "image"])
"""
return BatchDataset(self, batch_size, drop_remainder, num_parallel_workers, per_batch_map, input_columns,
output_columns, column_order, pad_info, python_multiprocessing, max_rowsize)

View File

@ -326,31 +326,31 @@ class DistributedSampler(BuiltinSampler):
Args:
num_shards (int): Number of shards to divide the dataset into.
shard_id (int): Shard ID of the current shard, which should within the range of [0, num_shards-1].
shard_id (int): Shard ID of the current shard, which should within the range of [0, `num_shards`-1].
shuffle (bool, optional): If True, the indices are shuffled, otherwise it will not be shuffled(default=True).
num_samples (int, optional): The number of samples to draw (default=None, which means sample all elements).
offset(int, optional): The starting shard ID where the elements in the dataset are sent to, which
should be no more than num_shards. This parameter is only valid when a ConcatDataset takes
should be no more than `num_shards`. This parameter is only valid when a ConcatDataset takes
a DistributedSampler as its sampler. It will affect the number of samples of per shard
(default=-1, which means each shard has the same number of samples).
Raises:
TypeError: If `num_shards` is not of type int.
TypeError: If `shard_id` is not of type int.
TypeError: If `shuffle` is not of type bool.
TypeError: If `num_samples` is not of type int.
TypeError: If `offset` is not of type int.
ValueError: If `num_samples` is a negative value.
RuntimeError: If `num_shards` is not a positive value.
RuntimeError: If `shard_id` is smaller than 0 or equal to `num_shards` or larger than `num_shards`.
RuntimeError: If `offset` is greater than `num_shards`.
Examples:
>>> # creates a distributed sampler with 10 shards in total. This shard is shard 5.
>>> sampler = ds.DistributedSampler(10, 5)
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If num_shards is not an integer value.
TypeError: If shard_id is not an integer value.
TypeError: If shuffle is not a boolean value.
TypeError: If num_samples is not an integer value.
TypeError: If offset is not an integer value.
ValueError: If num_samples is a negative value.
RuntimeError: If num_shards is not a positive value.
RuntimeError: If shard_id is smaller than 0 or equal to num_shards or larger than num_shards.
RuntimeError: If offset is greater than num_shards.
"""
def __init__(self, num_shards, shard_id, shuffle=True, num_samples=None, offset=-1):
@ -434,20 +434,20 @@ class PKSampler(BuiltinSampler):
class_column (str, optional): Name of column with class labels for MindDataset (default='label').
num_samples (int, optional): The number of samples to draw (default=None, which means sample all elements).
Raises:
TypeError: If `shuffle` is not of type bool.
TypeError: If `class_column` is not of type str.
TypeError: If `num_samples` is not of type int.
NotImplementedError: If `num_class` is not None.
RuntimeError: If `num_val` is not a positive value.
ValueError: If `num_samples` is a negative value.
Examples:
>>> # creates a PKSampler that will get 3 samples from every class.
>>> sampler = ds.PKSampler(3)
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If shuffle is not a boolean value.
TypeError: If class_column is not a str value.
TypeError: If num_samples is not an integer value.
NotImplementedError: If num_class is not None.
RuntimeError: If num_val is not a positive value.
ValueError: If num_samples is a negative value.
"""
def __init__(self, num_val, num_class=None, shuffle=False, class_column='label', num_samples=None):
@ -517,17 +517,17 @@ class RandomSampler(BuiltinSampler):
replacement (bool, optional): If True, put the sample ID back for the next draw (default=False).
num_samples (int, optional): Number of elements to sample (default=None, which means sample all elements).
Raises:
TypeError: If `replacement` is not of type bool.
TypeError: If `num_samples` is not of type int.
ValueError: If `num_samples` is a negative value.
Examples:
>>> # creates a RandomSampler
>>> sampler = ds.RandomSampler()
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If replacement is not a boolean value.
TypeError: If num_samples is not an integer value.
ValueError: If num_samples is a negative value.
"""
def __init__(self, replacement=False, num_samples=None):
@ -582,18 +582,18 @@ class SequentialSampler(BuiltinSampler):
start_index (int, optional): Index to start sampling at. (default=None, start at first ID)
num_samples (int, optional): Number of elements to sample (default=None, which means sample all elements).
Raises:
TypeError: If `start_index` is not of type int.
TypeError: If `num_samples` is not of type int.
RuntimeError: If `start_index` is a negative value.
ValueError: If `num_samples` is a negative value.
Examples:
>>> # creates a SequentialSampler
>>> sampler = ds.SequentialSampler()
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If start_index is not an integer value.
TypeError: If num_samples is not an integer value.
RuntimeError: If start_index is a negative value.
ValueError: If num_samples is a negative value.
"""
def __init__(self, start_index=None, num_samples=None):
@ -650,6 +650,11 @@ class SubsetSampler(BuiltinSampler):
indices (Any iterable Python object but string): A sequence of indices.
num_samples (int, optional): Number of elements to sample (default=None, which means sample all elements).
Raises:
TypeError: If elements of `indices` are not of type number.
TypeError: If `num_samples` is not of type int.
ValueError: If `num_samples` is a negative value.
Examples:
>>> indices = [0, 1, 2, 3, 4, 5]
>>>
@ -658,11 +663,6 @@ class SubsetSampler(BuiltinSampler):
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If type of indices element is not a number.
TypeError: If num_samples is not an integer value.
ValueError: If num_samples is a negative value.
"""
def __init__(self, indices, num_samples=None):
@ -738,17 +738,17 @@ class SubsetRandomSampler(SubsetSampler):
indices (Any iterable Python object but string): A sequence of indices.
num_samples (int, optional): Number of elements to sample (default=None, which means sample all elements).
Raises:
TypeError: If elements of `indices` are not of type number.
TypeError: If `num_samples` is not of type int.
ValueError: If `num_samples` is a negative value.
Examples:
>>> indices = [0, 1, 2, 3, 7, 88, 119]
>>>
>>> # create a SubsetRandomSampler, will sample from the provided indices
>>> sampler = ds.SubsetRandomSampler(indices)
>>> data = ds.ImageFolderDataset(image_folder_dataset_dir, num_parallel_workers=8, sampler=sampler)
Raises:
TypeError: If type of indices element is not a number.
TypeError: If num_samples is not an integer value.
ValueError: If num_samples is a negative value.
"""
def parse(self):
@ -815,6 +815,13 @@ class WeightedRandomSampler(BuiltinSampler):
num_samples (int, optional): Number of elements to sample (default=None, which means sample all elements).
replacement (bool): If True, put the sample ID back for the next draw (default=True).
Raises:
TypeError: If elements of `weights` are not of type number.
TypeError: If `num_samples` is not of type int.
TypeError: If `replacement` is not of type bool.
RuntimeError: If `weights` is empty or all zero.
ValueError: If `num_samples` is a negative value.
Examples:
>>> weights = [0.9, 0.01, 0.4, 0.8, 0.1, 0.1, 0.3]
>>>
@ -823,13 +830,6 @@ class WeightedRandomSampler(BuiltinSampler):
>>> dataset = ds.ImageFolderDataset(image_folder_dataset_dir,
... num_parallel_workers=8,
... sampler=sampler)
Raises:
TypeError: If type of weights element is not a number.
TypeError: If num_samples is not an integer value.
TypeError: If replacement is not a boolean value.
RuntimeError: If `weights` is empty or all zero.
ValueError: If num_samples is a negative value.
"""
def __init__(self, weights, num_samples=None, replacement=True):

View File

@ -356,8 +356,9 @@ class SentencePieceTokenizer(TextTensorOperation):
Tokenize scalar token or 1-D tokens to tokens by sentencepiece.
Args:
mode (Union[str, SentencePieceVocab]): If the input parameter is a file, then its type should be string.
If the input parameter is a SentencePieceVocab object, then its type should be SentencePieceVocab.
mode (Union[str, SentencePieceVocab]): SentencePiece model.
If the input parameter is a file, it represents the path of SentencePiece mode to be loaded.
If the input parameter is a SentencePieceVocab object, it should be constructed in advanced.
out_type (SPieceTokenizerOutType): The type of output, it can be any of [SPieceTokenizerOutType.STRING,
SPieceTokenizerOutType.INT].
@ -847,7 +848,8 @@ if platform.system().lower() != 'windows':
class CaseFold(TextTensorOperation):
"""
Apply case fold operation on UTF-8 string tensor, which is aggressive that can convert more characters into
lower case.
lower case. Supported normalization forms please refer to
`ICU_Normalizer2 <https://unicode-org.github.io/icu-docs/apidoc/released/icu4c/classicu_1_1Normalizer2.html>`_ .
Note:
CaseFold is not supported on Windows platform yet.

View File

@ -195,13 +195,14 @@ class Slice(TensorOperation):
1. :py:obj:`int`: Slice this index only along the first dimension. Negative index is supported.
2. :py:obj:`list(int)`: Slice these indices along the first dimension. Negative indices are supported.
3. :py:obj:`slice`: Slice the generated indices from the slice object along the first dimension.
Similar to start:stop:step.
3. :py:obj:`slice`: Slice the generated indices from the
`slice <https://docs.python.org/3.7/library/functions.html?highlight=slice#slice>`_ object along the
first dimension. Similar to start:stop:step.
4. :py:obj:`None`: Slice the whole dimension. Similar to :py:obj:`[:]` in Python indexing.
5. :py:obj:`Ellipsis`: Slice the whole dimension, same result with `None`.
Raises:
TypeError: If `slices` is not of type int, list[int], slice, None or Ellipsis.
TypeError: If `slices` is not of type int, list[int], :py:obj:'slice', :py:obj:'None' or :py:obj:'Ellipsis'.
Supported Platforms:
``CPU``
@ -433,12 +434,10 @@ class Unique(TensorOperation):
Return 3 tensor: unique output tensor, index tensor, count tensor.
Unique output tensor contains all the unique elements of the input tensor
in the same order that they occur in the input tensor.
Index tensor that contains the index of each element of the input tensor in the unique output tensor.
Count tensor that contains the count of each element of the output tensor in the input tensor.
- Output tensor contains all the unique elements of the input tensor
in the same order that they occur in the input tensor.
- Index tensor that contains the index of each element of the input tensor in the unique output tensor.
- Count tensor that contains the count of each element of the output tensor in the input tensor.
Note:
Call batch op before calling this function.

View File

@ -99,7 +99,7 @@ class OneHotOp(PyTensorOperation):
Raises:
TypeError: `num_classes` is not of type int.
TypeError: `smoothing_rate` is not of type float.
ValueError: `prob` is not in range [0.0, 1.0]
ValueError: `smoothing_rate` is not in range [0.0, 1.0].
Supported Platforms:
``CPU``