modify Quotes format

This commit is contained in:
huodagu 2022-11-21 18:55:50 +08:00
parent 392c27085f
commit 6f30cbabb5
48 changed files with 137 additions and 137 deletions

View File

@ -3,11 +3,11 @@ mindspore.dataset.Dataset.save
.. py:method:: mindspore.dataset.Dataset.save(file_name, num_files=1, file_type='mindrecord')
将数据处理管道中正处理的数据保存为通用的数据集格式。数据集格式仅支持:'mindrecord'。可以使用'MindDataset'类来读取保存的'mindrecord'文件。
将数据处理管道中正处理的数据保存为通用的数据集格式。数据集格式仅支持:'mindrecord'。可以使用 'MindDataset'类来读取保存的 'mindrecord'文件。
将数据保存为'mindrecord'格式时存在隐式类型转换。转换表展示如何执行类型转换。
将数据保存为 'mindrecord'格式时存在隐式类型转换。转换表展示如何执行类型转换。
.. list-table:: 保存为'mindrecord'格式时的隐式类型转换
.. list-table:: 保存为 'mindrecord'格式时的隐式类型转换
:widths: 25 25 50
:header-rows: 1

View File

@ -11,8 +11,8 @@ mindspore.dataset.TextBaseDataset.build_sentencepiece_vocab
- **vocab_size** (int) - 词汇表的容量。
- **character_coverage** (float) - 模型涵盖的字符百分比必须介于0.98和1.0之间。
对于具有丰富字符集的语言如日语或中文字符集推荐使用0.9995对于其他字符集较小的语言比如英语或拉丁文推荐使用1.0。
- **model_type** (SentencePieceModel) - 训练的SentencePiece模型类型可取值为'SentencePieceModel.UNIGRAM'、'SentencePieceModel.BPE'、'SentencePieceModel.CHAR'或'SentencePieceModel.WORD'。
当取值为'SentencePieceModel.WORD'时输入的数据必须进行预分词pretokenize。默认值SentencePieceModel.UNIGRAM。
- **model_type** (SentencePieceModel) - 训练的SentencePiece模型类型可取值为 'SentencePieceModel.UNIGRAM'、 'SentencePieceModel.BPE'、 'SentencePieceModel.CHAR'或 'SentencePieceModel.WORD'。
当取值为 'SentencePieceModel.WORD'时输入的数据必须进行预分词pretokenize。默认值SentencePieceModel.UNIGRAM。
- **params** (dict) - 如果希望使用SentencePiece的其他参数可以构造一个dict进行传入键为SentencePiece库接口的输入参数名值为参数值。
返回:

View File

@ -14,7 +14,7 @@ mindspore.dataset.TextBaseDataset.build_vocab
取值范围需满足0 <= min_frequency <= max_frequency <= 单词总数其中min_frequency、max_frequency的默认值分别设置为0、单词总数。
- **top_k** (int) - 使用 `top_k` 个最常见的单词构建词汇表。假如指定了参数 `freq_range` ,则优先统计给定频率范围内的词汇,再根据参数 `top_k` 选取最常见的单词构建词汇表。
如果 `top_k` 的值大于单词总数,则取所有单词构建词汇表。
- **special_tokens** (list[str]) - 指定词汇表的特殊标记special token如'[UNK]'、'[SEP]'。
- **special_tokens** (list[str]) - 指定词汇表的特殊标记special token '[UNK]'、 '[SEP]'。
- **special_first** (bool) - 是否将参数 `special_tokens` 指定的特殊标记添加到词汇表的开头。如果为True则放到开头否则放到词汇表的结尾。
返回:

View File

@ -9,7 +9,7 @@ mindspore.dataset.AGNewsDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -9,9 +9,9 @@ mindspore.dataset.AmazonReviewDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。
对于Polarity数据集'train'将读取360万个训练样本'test'将读取40万个测试样本'all'将读取所有400万个样本。
对于Full数据集'train'将读取300万个训练样本'test'将读取65万个测试样本'all'将读取所有365万个样本。默认值None读取所有样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。
对于Polarity数据集 'train'将读取360万个训练样本 'test'将读取40万个测试样本 'all'将读取所有400万个样本。
对于Full数据集 'train'将读取300万个训练样本 'test'将读取65万个测试样本 'all'将读取所有365万个样本。默认值None读取所有样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -5,12 +5,12 @@ mindspore.dataset.CLUEDataset
读取和解析CLUE数据集的源文件构建数据集。
目前支持的CLUE分类任务包括'AFQMC'、'TNEWS 、'IFLYTEK'、'CMNLI'、'WSC'和'CSL'。更多CLUE数据集的说明详见 `CLUE GitHub <https://github.com/CLUEbenchmark/CLUE>`_
目前支持的CLUE分类任务包括'AFQMC'、 'TNEWS 、'IFLYTEK'、 'CMNLI'、 'WSC'和 'CSL'。更多CLUE数据集的说明详见 `CLUE GitHub <https://github.com/CLUEbenchmark/CLUE>`_
参数:
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'eval'。默认值:'train'。
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、 'TNEWS'、 'IFLYTEK'、 'CMNLI'、 'WSC' 或 'CSL'。默认值:'AFQMC'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'eval'。默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值mindspore.dataset.Shuffle.GLOBAL。
@ -168,8 +168,8 @@ mindspore.dataset.CLUEDataset
异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
- **ValueError** - `task` 参数不为 'AFQMC'、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。
- **ValueError** - `usage` 参数不为 'train'、'test' 或 'eval'。
- **ValueError** - `task` 参数不为 'AFQMC'、 'TNEWS'、 'IFLYTEK'、 'CMNLI'、 'WSC' 或 'CSL'。
- **ValueError** - `usage` 参数不为 'train'、 'test' 或 'eval'。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -16,9 +16,9 @@ mindspore.dataset.Caltech101Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径该路径下将包含2个子目录目录101_ObjectCategories用于存储图像
目录Annotations用于存储图像的标注。
- **target_type** (str, 可选) - 指定数据集的子集,可取值为'category'、'annotation' 或 'all'。
取值为'category'时将读取图像的类别标注作为label取值为'annotation'时将读取图像的轮廓标注作为label
取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值None表示'category'。
- **target_type** (str, 可选) - 指定数据集的子集,可取值为 'category'、 'annotation' 或 'all'。
取值为 'category'时将读取图像的类别标注作为label取值为 'annotation'时将读取图像的轮廓标注作为label
取值为 'all'时将同时输出图像的类别标注和轮廓标注。默认值None表示 'category'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -34,7 +34,7 @@ mindspore.dataset.Caltech101Dataset
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。
- **ValueError** - `target_type` 参数取值不为 'category'、 'annotation'或 'all'。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -25,7 +25,7 @@ mindspore.dataset.Caltech256Dataset
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。
- **ValueError** - `target_type` 参数取值不为 'category'、 'annotation'或 'all'。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -11,7 +11,7 @@ mindspore.dataset.CelebADataset
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值:'all',全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'valid' 'test'或 'all'。默认值:'all',全部样本图片。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值False不解码。
- **extensions** (list[str], 可选) - 指定文件的扩展名仅读取与指定扩展名匹配的文件到数据集中。默认值None。
@ -29,7 +29,7 @@ mindspore.dataset.CelebADataset
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `usage` 参数取值不为'train'、'valid'、'test'或'all'。
- **ValueError** - `usage` 参数取值不为 'train'、 'valid'、 'test'或 'all'。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -9,8 +9,8 @@ mindspore.dataset.Cifar100Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。
取值为'train'时将会读取50,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。
取值为 'train'时将会读取50,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -27,7 +27,7 @@ mindspore.dataset.Cifar100Dataset
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -9,8 +9,8 @@ mindspore.dataset.Cifar10Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。
取值为'train'时将会读取50,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。
取值为 'train'时将会读取50,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -27,7 +27,7 @@ mindspore.dataset.Cifar10Dataset
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -6,14 +6,14 @@ mindspore.dataset.CityscapesDataset
读取和解析Cityscapes数据集的源文件构建数据集。
生成的数据集有两列 `[image, task]`
`image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当参数 `task` 取值为'polygon'列的数据类型为string其他取值下列的数据类型为uint8。
`image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当参数 `task` 取值为 'polygon'列的数据类型为string其他取值下列的数据类型为uint8。
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为'fine'时,此参数可取值为'train'、'test'、'val'或'all'。
当参数 `quality_mode` 取值为'coarse'时,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。
- **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为'fine'或'coarse'。默认值:'fine'。
- **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。
- **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为 'fine'时,此参数可取值为 'train'、 'test'、 'val'或 'all'。
当参数 `quality_mode` 取值为 'coarse'时,此参数可取值为 'train'、 'train_extra'、 'val'或 'all'。默认值:'train',全部样本图片。
- **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为 'fine'或 'coarse'。默认值:'fine'。
- **task** (str, 可选) - 指定数据集的任务类型,可取值为 'instance'、 'semantic'、 'polygon'或 'color'。默认值:'instance'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -31,8 +31,8 @@ mindspore.dataset.CityscapesDataset
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `dataset_dir` 路径非法或不存在。
- **ValueError** - `task` 参数取值不为'instance'、'semantic'、'polygon'或'color'。
- **ValueError** - `quality_mode` 参数取值不为'fine'或'coarse'。
- **ValueError** - `task` 参数取值不为 'instance'、 'semantic'、 'polygon'或 'color'。
- **ValueError** - `quality_mode` 参数取值不为 'fine'或 'coarse'。
- **ValueError** - `usage` 参数取值不在给定的字段中。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`

View File

@ -9,8 +9,8 @@ mindspore.dataset.CoNLL2000Dataset
参数:
- **dataset_dir** (str) - 包含CoNLL2000分块数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。
'train'将读取8936个训练样本'test'将读取2,012个测试样本中'all'将读取所有1,0948个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。
'train'将读取8936个训练样本 'test'将读取2,012个测试样本中 'all'将读取所有1,0948个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式。默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗。如果 `shuffle` 为True执行全局混洗。

View File

@ -8,7 +8,7 @@
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **annotation_file** (str) - 数据集标注JSON文件的路径。
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括'Detection'、 'Stuff' 、 'Panoptic'和 'Keypoint'。默认值:'Detection'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None表2中会展示不同参数配置的预期行为。
@ -70,7 +70,7 @@
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
.. note::
- 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-'
- 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-'
否则迭代得到的数据行中不会出现此额外数据列。
- CocoDataset的 `sampler` 参数不支持指定PKSampler。
- 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -9,8 +9,8 @@ mindspore.dataset.DBpediaDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。
'train'将读取560,000个训练样本'test'将读取70,000个测试样本中'all'将读取所有630,000个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。
'train'将读取560,000个训练样本 'test'将读取70,000个测试样本中 'all'将读取所有630,000个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -9,10 +9,10 @@ mindspore.dataset.DIV2KDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集。可取值为'train'、'valid'或'all'。默认值:'train'。
- **downgrade** (str, 可选) - 指定数据集的下采样的模式,可取值为'bicubic'、'unknown'、'mild'、'difficult'或'wild'。默认值:'bicubic'。
- **scale** (str, 可选) - 指定数据集的缩放尺度。当参数 `downgrade` 取值为'bicubic'时此参数可以取值为2、3、4、8。
当参数 `downgrade` 取值为'unknown'时此参数可以取值为2、3、4。当参数 `downgrade` 取值为'mild'、'difficult'、'wild'时此参数仅可以取值为4。默认值2。
- **usage** (str, 可选) - 指定数据集的子集。可取值为 'train'、 'valid'或 'all'。默认值:'train'。
- **downgrade** (str, 可选) - 指定数据集的下采样的模式,可取值为 'bicubic'、 'unknown'、 'mild'、 'difficult'或 'wild'。默认值:'bicubic'。
- **scale** (str, 可选) - 指定数据集的缩放尺度。当参数 `downgrade` 取值为 'bicubic'时此参数可以取值为2、3、4、8。
当参数 `downgrade` 取值为 'unknown'时此参数可以取值为2、3、4。当参数 `downgrade` 取值为 'mild'、 'difficult'、 'wild'时此参数仅可以取值为4。默认值2。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -30,11 +30,11 @@ mindspore.dataset.DIV2KDataset
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `dataset_dir` 路径非法或不存在。
- **ValueError** - `usage` 参数取值不为'train'、'valid'或'all'。
- **ValueError** - `downgrade` 参数取值不为'bicubic'、'unknown'、'mild'、'difficult'或'wild'。
- **ValueError** - `usage` 参数取值不为 'train'、 'valid'或 'all'。
- **ValueError** - `downgrade` 参数取值不为 'bicubic'、 'unknown'、 'mild'、 'difficult'或 'wild'。
- **ValueError** - `scale` 参数取值不在给定的字段中,或与 `downgrade` 参数的值不匹配。
- **ValueError** - `scale` 参数取值为8`downgrade` 参数的值不为 'bicubic'。
- **ValueError** - `downgrade` 参数取值为'mild'、'difficult'或'wild',但 `scale` 参数的值不为4。
- **ValueError** - `downgrade` 参数取值为 'mild'、 'difficult'或 'wild',但 `scale` 参数的值不为4。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -9,9 +9,9 @@ mindspore.dataset.EMnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **name** (str) - 按给定规则对数据集进行拆分,可以是'byclass'、'bymerge'、'balanced'、'letters'、'digits'或'mnist'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **name** (str) - 按给定规则对数据集进行拆分,可以是 'byclass'、 'bymerge'、 'balanced'、 'letters'、 'digits'或 'mnist'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
取值为 'train'时将会读取60,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -10,8 +10,8 @@ mindspore.dataset.EnWik9Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
对于Polarity数据集'train'将读取360万个训练样本'test'将读取40万个测试样本'all'将读取所有400万个样本。
对于Full数据集'train'将读取300万个训练样本'test'将读取65万个测试样本'all'将读取所有365万个样本。默认值None读取所有样本。
对于Polarity数据集 'train'将读取360万个训练样本 'test'将读取40万个测试样本 'all'将读取所有400万个样本。
对于Full数据集 'train'将读取300万个训练样本 'test'将读取65万个测试样本 'all'将读取所有365万个样本。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值True。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -9,8 +9,8 @@ mindspore.dataset.FashionMnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
取值为 'train'时将会读取60,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -12,8 +12,8 @@ mindspore.dataset.Flowers102Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **task** (str, 可选) - 指定读取数据的任务类型,支持'Classification'和'Segmentation'。默认值:'Classification'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值:'all',读取全部样本。
- **task** (str, 可选) - 指定读取数据的任务类型,支持 'Classification'和 'Segmentation'。默认值:'Classification'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'valid' 'test'或 'all'。默认值:'all',读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值1。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -9,13 +9,13 @@ mindspore.dataset.Graph
参数:
- **edges** (Union[list, numpy.ndarray]) - 以COO格式表示的边shape为 [2, num_edges]。
- **node_feat** (dict, 可选) - 节点的特征输入数据格式应该是dict其中key表示特征的类型用字符串表示比如'weight'等value应该是shape为 [num_nodes, num_node_features] 的NumPy数组。
- **edge_feat** (dict, 可选) - 边的特征输入数据格式应该是dict其中key表示特征的类型用字符串表示比如'weight'等value应该是shape为 [num_edges, num_edge_features] 的NumPy数组。
- **node_feat** (dict, 可选) - 节点的特征输入数据格式应该是dict其中key表示特征的类型用字符串表示比如 'weight'等value应该是shape为 [num_nodes, num_node_features] 的NumPy数组。
- **edge_feat** (dict, 可选) - 边的特征输入数据格式应该是dict其中key表示特征的类型用字符串表示比如 'weight'等value应该是shape为 [num_edges, num_edge_features] 的NumPy数组。
- **graph_feat** (dict, 可选) - 附加特征,不能分配给 `node_feat` 或者 `edge_feat` 输入数据格式应该是dictkey是特征的类型用字符串表示; value应该是NumPy数组其shape可以不受限制。
- **node_type** (Union[list, numpy.ndarray], 可选) - 节点的类型每个元素都是字符串表示每个节点的类型。如果未提供则每个节点的默认类型为“0”。
- **edge_type** (Union[list, numpy.ndarray], 可选) - 边的类型每个元素都是字符串表示每条边的类型。如果未提供则每条边的默认类型为“0”。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
- **working_mode** (str, 可选) - 设置工作模式,目前支持 'local'/'client'/'server'。默认值:'local'。
- **local**:用于非分布式训练场景。
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
@ -34,7 +34,7 @@ mindspore.dataset.Graph
- **TypeError** - 如果提供了 `node_type` 但不是list或NumPy array类型。
- **TypeError** - 如果提供了 `edge_type` 但不是list或 NumPy array类型。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `working_mode` 参数取值不为'local', 'client' 或 'server'。
- **ValueError** - `working_mode` 参数取值不为 'local', 'client' 或 'server'。
- **TypeError** - `hostname` 参数类型错误。
- **ValueError** - `port` 参数不在范围[1024, 65535]内。
- **ValueError** - `num_client` 参数不在范围[1, 255]内。

View File

@ -9,7 +9,7 @@ mindspore.dataset.GraphData
参数:
- **dataset_file** (str) - 数据集文件路径。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
- **working_mode** (str, 可选) - 设置工作模式,目前支持 'local'/'client'/'server'。默认值:'local'。
- **local**:用于非分布式训练场景。
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
@ -23,7 +23,7 @@ mindspore.dataset.GraphData
异常:
- **ValueError** - `dataset_file` 路径下数据文件不存在或无效。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `working_mode` 参数取值不为'local', 'client' 或 'server'。
- **ValueError** - `working_mode` 参数取值不为 'local', 'client' 或 'server'。
- **TypeError** - `hostname` 参数类型错误。
- **ValueError** - `port` 参数不在范围[1024, 65535]内。
- **ValueError** - `num_client` 参数不在范围[1, 255]内。

View File

@ -9,10 +9,10 @@ mindspore.dataset.IMDBDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
对于Polarity数据集'train'将读取360万个训练样本'test'将读取40万个测试样本'all'将读取所有400万个样本。
对于Full数据集'train'将读取300万个训练样本'test'将读取65万个测试样本'all'将读取所有365万个样本。默认值None读取所有样本。
对于Polarity数据集 'train'将读取360万个训练样本 'test'将读取40万个测试样本 'all'将读取所有400万个样本。
对于Full数据集 'train'将读取300万个训练样本 'test'将读取65万个测试样本 'all'将读取所有365万个样本。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。

View File

@ -9,10 +9,10 @@ mindspore.dataset.IWSLT2016Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值None读取全部样本。
- **language_pair** (sequence, 可选) - 包含源语言和目标语言的序列,支持的值为('en''fr')、('en''de')、('en''cs')、('en''ar')、('de''en')、('cs''en')、('ar''en')。默认值:('de''en')。
- **valid_set** (str, 可选) - 标识验证集的字符串,支持的值为'dev2010'、'tst2010'、'tst2011'、'tst2012'、'tst2013'和'tst2014'。默认值:'tst2013'。
- **test_set** (str, 可选) - 识别测试集的字符串,支持的值为'dev2010'、'tst2010'、'tst2011'、'tst'2012、'tst2013'和'tst2014'。默认值:'tst2014'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'valid' 'test'或 'all'。默认值None读取全部样本。
- **language_pair** (sequence, 可选) - 包含源语言和目标语言的序列,支持的值为('en' 'fr')、('en' 'de')、('en' 'cs')、('en' 'ar')、('de' 'en')、('cs' 'en')、('ar' 'en')。默认值:('de' 'en')。
- **valid_set** (str, 可选) - 标识验证集的字符串,支持的值为 'dev2010'、 'tst2010'、 'tst2011'、 'tst2012'、 'tst2013'和 'tst2014'。默认值:'tst2013'。
- **test_set** (str, 可选) - 识别测试集的字符串,支持的值为 'dev2010'、 'tst2010'、 'tst2011'、 'tst'2012、 'tst2013'和 'tst2014'。默认值:'tst2014'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -9,11 +9,11 @@ mindspore.dataset.IWSLT2017Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'valid' 'test'或 'all'。默认值None读取全部样本。
- **language_pair** (sequence, 可选) - 包含源语和目标语的语言列表,支持的语言对有('en', 'nl')、
'en', 'de')、('en', 'it')、('en', 'ro')、('nl', 'en')、('nl', 'de')、('nl', 'it')、('nl', 'ro')、
'de', 'en')、('de', 'nl')、('de', 'it')、('de', 'ro')、('it', 'en')、('it', 'nl')、('it', 'de')、
'it', 'ro')、('ro', 'en')、('ro', 'nl')、('ro', 'de')、('ro', 'it')。默认值:('de''en')。
'it', 'ro')、('ro', 'en')、('ro', 'nl')、('ro', 'de')、('ro', 'it')。默认值:('de' 'en')。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -9,8 +9,8 @@ mindspore.dataset.KMnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
取值为 'train'时将会读取60,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -9,7 +9,7 @@
参数:
- **dataset_file** (str) - 数据集文件的目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference'。默认值:'train'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'eval' 或 'inference'。默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -60,5 +60,5 @@
- False
- 不允许
.. include:: mindspore.dataset.api_list_vision.rst
.. include:: mindspore.dataset.api_list_vision.rst

View File

@ -9,8 +9,8 @@ mindspore.dataset.MnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
取值为 'train'时将会读取60,000个训练样本取值为 'test'时将会读取10,000个测试样本取值为 'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -22,7 +22,7 @@ mindspore.dataset.MnistDataset
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。
- **RuntimeError** - 同时指定了 `sampler``num_shards` 参数或同时指定了 `sampler``shard_id` 参数。
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -9,8 +9,8 @@ mindspore.dataset.PennTreebankDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test''valid'或'all'。
取值为'train'将读取42,068个样本'test'将读取3,370个样本'test'将读取3,761个样本'all'将读取所有49,199个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test' 'valid'或 'all'。
取值为 'train'将读取42,068个样本 'test'将读取3,370个样本 'test'将读取3,761个样本 'all'将读取所有49,199个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -11,10 +11,10 @@ mindspore.dataset.PhotoTourDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **name** (str) - 要加载的数据集内容名称,可以取值为'notredame'、'yosemite'、'liberty'、'notredame_harris'、'yosemite_harris' 或 'liberty_harris'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'或'test'。默认值None将被设置为'train'。
取值为'train'时,每个 `name` 的数据集样本数分别为{'notredame': 468159, 'yosemite': 633587, 'liberty': 450092, 'liberty_harris': 379587, 'yosemite_harris': 450912, 'notredame_harris': 325295}。
取值为'test'时将读取100,000个测试样本。
- **name** (str) - 要加载的数据集内容名称,可以取值为 'notredame'、 'yosemite'、 'liberty'、 'notredame_harris'、 'yosemite_harris' 或 'liberty_harris'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'或 'test'。默认值None将被设置为 'train'。
取值为 'train'时,每个 `name` 的数据集样本数分别为{'notredame': 468159, 'yosemite': 633587, 'liberty': 450092, 'liberty_harris': 379587, 'yosemite_harris': 450912, 'notredame_harris': 325295}。
取值为 'test'时将读取100,000个测试样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -10,7 +10,7 @@ mindspore.dataset.Places365Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val'。默认值:'train-standard'。
- **usage** (str, 可选) - 'train-standard'、 'train-challenge'或 'val'。默认值:'train-standard'。
- **small** (bool, 可选) - 是否使用256*256的低分辨率图像True或高分辨率图像False。默认值False使用低分辨率图像。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值False不解码。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。

View File

@ -9,7 +9,7 @@ mindspore.dataset.QMnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all'。默认值None读取所有子集。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'test10k'、 'test50k'、 'nist'或 'all'。默认值None读取所有子集。
- **compat** (bool, 可选) - 指定每个样本的标签是类别号compat=True还是完整的QMNIST信息compat=False。默认值True标签为类别号。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。

View File

@ -12,8 +12,8 @@ mindspore.dataset.SBDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **task** (str, 可选) - 指定读取SB数据集的任务类型支持'Boundaries'和'Segmentation'。默认值:'Boundaries'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'val'、'train_noval'和'all'。默认值:'train'。
- **task** (str, 可选) - 指定读取SB数据集的任务类型支持 'Boundaries'和 'Segmentation'。默认值:'Boundaries'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'val'、 'train_noval'和 'all'。默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值1使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -59,7 +59,7 @@ mindspore.dataset.SBUDataset
SBU数据集是一个带字幕的大型照片集。它包含一百万张带有视觉相关标注的图像。
你需要使用官方的download.m手动下载图片将'urls{i}(24, end)'替换为'urls{i}(24:1:end)',并将目录保持如下。
你需要使用官方的download.m手动下载图片 'urls{i}(24, end)'替换为 'urls{i}(24:1:end)',并将目录保持如下。
.. code-block::

View File

@ -9,9 +9,9 @@ mindspore.dataset.STL10Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'unlabeled'、'train+unlabeled'或'all'。
取值为'train'时将会读取5,000个样本取值为'test'时将会读取8,000个样本取值为'unlabeled'时将会读取100,000个样本取值为'train+unlabeled'时将会读取10,5000个样本
取值为'all'时将会读取全部类型的样本。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'unlabeled'、 'train+unlabeled'或 'all'。
取值为 'train'时将会读取5,000个样本取值为 'test'时将会读取8,000个样本取值为 'unlabeled'时将会读取100,000个样本取值为 'train+unlabeled'时将会读取10,5000个样本
取值为 'all'时将会读取全部类型的样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -9,7 +9,7 @@ mindspore.dataset.SVHNDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'extra'或'all'。默认值None读取全部样本图片。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'extra'或 'all'。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值1使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -45,8 +45,8 @@ mindspore.dataset.Schema
参数:
- **columns** (Union[dict, list[dict], tuple[dict]]) - 数据集属性信息从schema文件解码。
- **list** [dict]'name'和'type'必须为key值'shape'可选。
- **dict** columns.keys()作为名称columns.values()是dict其中包含'type''shape'可选。
- **list** [dict]'name'和 'type'必须为key值 'shape'可选。
- **dict** columns.keys()作为名称columns.values()是dict其中包含 'type' 'shape'可选。
异常:
- **RuntimeError** - 解析列失败。

View File

@ -9,8 +9,8 @@ mindspore.dataset.SogouNewsDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。默认值None读取全部样本。
取值为'train'时将会读取45万个训练样本取值为'test'时将会读取6万个测试样本取值为'all'时将会读取全部51万个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。默认值None读取全部样本。
取值为 'train'时将会读取45万个训练样本取值为 'test'时将会读取6万个测试样本取值为 'all'时将会读取全部51万个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None 读取全部样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值 `Shuffle.GLOBAL`
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -10,8 +10,8 @@ mindspore.dataset.SpeechCommandsDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test''valid'或'all'。默认值None读取全部样本。
取值为'train'时将会读取84,843个训练样本取值为'test'时将会读取11,005个测试样本取值为'valid'时将会读取9,981个测试样本取值为'all'时将会读取全部105,829个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test' 'valid'或 'all'。默认值None读取全部样本。
取值为 'train'时将会读取84,843个训练样本取值为 'test'时将会读取11,005个测试样本取值为 'valid'时将会读取9,981个测试样本取值为 'all'时将会读取全部105,829个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。
@ -59,7 +59,7 @@ mindspore.dataset.SpeechCommandsDataset
**关于SpeechCommands数据集**
SpeechCommands语音命令数据是用于有限词汇语音识别的数据集包含105,829个'.wav'格式的音频样本。
SpeechCommands语音命令数据是用于有限词汇语音识别的数据集包含105,829个 '.wav'格式的音频样本。
以下是原始SpeechCommands的数据集结构。可以将数据集文件解压缩成此目录结构并由MindSpore的API读取。

View File

@ -10,10 +10,10 @@ mindspore.dataset.TedliumDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **release** (str) - 指定数据集的发布版本,可以取值为'release1'、'release2'或'release3'。
- **release** (str) - 指定数据集的发布版本,可以取值为 'release1'、 'release2'或 'release3'。
- **usage** (str, 可选) - 指定数据集的子集。
对于 `release` 为'release1'或'release2' `usage` 可以是'train'、'test'、'dev'或'all'。
对于 `release` 为'release3' `usage` 只能是'all'。默认值None读取全部样本。
对于 `release` 'release1'或 'release2' `usage` 可以是 'train'、 'test'、 'dev'或 'all'。
对于 `release` 'release3' `usage` 只能是 'all'。默认值None读取全部样本。
- **extensions** (str, 可选) - 指定SPH文件的扩展名。默认值'.sph'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。

View File

@ -9,8 +9,8 @@ mindspore.dataset.UDPOSDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
取值为'train'时将会读取12,543个样本取值为'test'时将会读取2,077个测试样本取值为'valid'时将会读取2,002个样本取值为'all'时将会读取全部16,622个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。
取值为 'train'时将会读取12,543个样本取值为 'test'时将会读取2,077个测试样本取值为 'valid'时将会读取2,002个样本取值为 'all'时将会读取全部16,622个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值 `Shuffle.GLOBAL`
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -9,8 +9,8 @@ mindspore.dataset.USPSDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、或'all'。
取值为'train'时将会读取7,291个样本取值为'test'时将会读取2,007个测试样本取值为'all'时将会读取全部9,298个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、或 'all'。
取值为 'train'时将会读取7,291个样本取值为 'test'时将会读取2,007个测试样本取值为 'all'时将会读取全部9,298个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -12,7 +12,7 @@ mindspore.dataset.VOCDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **task** (str, 可选) - 指定读取VOC数据的任务类型现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
- **task** (str, 可选) - 指定读取VOC数据的任务类型现在只支持 'Segmentation'和 'Detection'。默认值:'Segmentation'。
- **usage** (str, 可选) - 指定数据集的子集。默认值:'train'。
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息
@ -40,13 +40,13 @@ mindspore.dataset.VOCDataset
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - 指定的任务不为'Segmentation'或'Detection'。
- **ValueError** - 指定任务为'Segmentation'时, `class_indexing` 参数不为None。
- **ValueError** - 指定的任务不为 'Segmentation'或 'Detection'。
- **ValueError** - 指定任务为 'Segmentation'时, `class_indexing` 参数不为None。
- **ValueError** - 与 `usage` 参数相关的txt文件不存在。
- **ValueError** - `shard_id` 参数错误小于0或者大于等于 `num_shards`
.. note::
- 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-'
- 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-'
否则迭代得到的数据行中不会出现此额外数据列。
- 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -10,8 +10,8 @@ mindspore.dataset.WIDERFaceDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
取值为'train'时将会读取12,880个样本取值为'test'时将会读取16,097个样本取值为'valid'时将会读取3,226个样本取值为'all'时将会读取全部类别样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。
取值为 'train'时将会读取12,880个样本取值为 'test'时将会读取16,097个样本取值为 'valid'时将会读取3,226个样本取值为 'all'时将会读取全部类别样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None。下表中会展示不同参数配置的预期行为。

View File

@ -9,7 +9,7 @@ mindspore.dataset.WikiTextDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -9,8 +9,8 @@ mindspore.dataset.YahooAnswersDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'或'all'。
取值为'train'时将会读取1,400,000个训练样本取值为'test'时将会读取60,000个测试样本取值为'all'时将会读取全部1,460,000个样本。默认值None读取全部样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'或 'all'。
取值为 'train'时将会读取1,400,000个训练样本取值为 'test'时将会读取60,000个测试样本取值为 'all'时将会读取全部1,460,000个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`

View File

@ -9,9 +9,9 @@ mindspore.dataset.YelpReviewDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'all'。默认值None读取全部样本。
对于Polarity数据集'train'将读取560,000个训练样本'test'将读取38,000个测试样本'all'将读取所有598,000个样本。
对于Full数据集'train'将读取650,000个训练样本'test'将读取50,000个测试样本'all'将读取所有700,000个样本。默认值None读取所有样本。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train' 'test'或 'all'。默认值None读取全部样本。
对于Polarity数据集 'train'将读取560,000个训练样本 'test'将读取38,000个测试样本 'all'将读取所有598,000个样本。
对于Full数据集 'train'将读取650,000个训练样本 'test'将读取50,000个测试样本 'all'将读取所有700,000个样本。默认值None读取所有样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定。默认值`Shuffle.GLOBAL`
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。

View File

@ -64,14 +64,14 @@ mindspore.common.initializer
.. math::
boundary = \text{gain} \times \sqrt{\frac{3}{fan\_mode}}
:math:`gain` 是一个可选的缩放因子。如果 :math:`fan\_mode` 是'fan_in'是权重Tensor中输入单元的数量。如果:math:`fan\_mode` 是'fan_out'则是权重Tensor中输出单元的数量。
:math:`gain` 是一个可选的缩放因子。如果 :math:`fan\_mode` 'fan_in'是权重Tensor中输入单元的数量。如果 :math:`fan\_mode` 'fan_out'则是权重Tensor中输出单元的数量。
有关HeUniform算法详情可参考 https://arxiv.org/abs/1502.01852。
参数:
- **negative_slope** (int, float, bool) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数'leaky_relu'默认值为0。
- **mode** (str) - 可选'fan_in'或'fan_out''fan_in'会保留前向传递中权重方差的量级,'fan_out'会保留反向传递的量级,默认为'fan_in'。
- **nonlinearity** (str) - 非线性激活函数,推荐使用'relu'或'leaky_relu',默认为'leaky_relu'。
- **negative_slope** (int, float, bool) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数 'leaky_relu'默认值为0。
- **mode** (str) - 可选 'fan_in'或 'fan_out' 'fan_in'会保留前向传递中权重方差的量级, 'fan_out'会保留反向传递的量级,默认为 'fan_in'。
- **nonlinearity** (str) - 非线性激活函数,推荐使用 'relu'或 'leaky_relu',默认为 'leaky_relu'。
.. py:class:: mindspore.common.initializer.HeNormal(negative_slope=0, mode='fan_in', nonlinearity='leaky_relu')
@ -80,15 +80,15 @@ mindspore.common.initializer
.. math::
sigma = \frac{gain} {\sqrt{fan\_mode}}
其中, :math:`gain` 是一个可选的缩放因子。如果 `mode` 是'fan_in',则 :math:`fan\_mode` 是权重Tensor中输入单元的数量如果 `mode` 是'fan_out'
其中, :math:`gain` 是一个可选的缩放因子。如果 `mode` 'fan_in',则 :math:`fan\_mode` 是权重Tensor中输入单元的数量如果 `mode` 'fan_out'
:math:`fan\_mode` 是权重Tensor中输出单元的数量。
HeNormal 算法的详细信息,请查看 https://arxiv.org/abs/1502.01852。
参数:
- **negative_slope** (int, float) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数'leaky_relu'默认值为0。
- **mode** (str) - 可选'fan_in'或'fan_out''fan_in'会保留前向传递中权重方差的量级,'fan_out'会保留反向传递的量级,默认为'fan_in'。
- **nonlinearity** (str) - 非线性激活函数,推荐使用'relu'或'leaky_relu',默认为'leaky_relu'。
- **negative_slope** (int, float) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数 'leaky_relu'默认值为0。
- **mode** (str) - 可选 'fan_in'或 'fan_out' 'fan_in'会保留前向传递中权重方差的量级, 'fan_out'会保留反向传递的量级,默认为 'fan_in'。
- **nonlinearity** (str) - 非线性激活函数,推荐使用 'relu'或 'leaky_relu',默认为 'leaky_relu'。
.. py:class:: mindspore.common.initializer.XavierNormal(gain=1)
@ -180,20 +180,20 @@ mindspore.common.initializer
.. py:class:: mindspore.common.initializer.VarianceScaling(scale=1.0, mode='fan_in', distribution='truncated_normal')
生成一个随机的矩阵用于初始化Tensor。
`distribution` 是'truncated_normal'或者'untruncated_normal'时矩阵中的值将服从均值为0标准差
:math:`stddev = \sqrt{\frac{scale}{n}}` 的截断或者非截断正态分布。如果 `mode` 是'fan_in' :math:`n` 是输入单元的数量;
如果 `mode` 是'fan_out' :math:`n` 是输出单元的数量;如果 `mode` 是'fan_avg' :math:`n` 是输入输出单元数量的均值。
`distribution` 是'uniform'时,矩阵中的值将服从均匀分布 :math:`[-\sqrt{\frac{3*scale}{n}}, \sqrt{\frac{3*scale}{n}}]`
`distribution` 'truncated_normal'或者 'untruncated_normal'时矩阵中的值将服从均值为0标准差
:math:`stddev = \sqrt{\frac{scale}{n}}` 的截断或者非截断正态分布。如果 `mode` 'fan_in' :math:`n` 是输入单元的数量;
如果 `mode` 'fan_out' :math:`n` 是输出单元的数量;如果 `mode` 'fan_avg' :math:`n` 是输入输出单元数量的均值。
`distribution` 'uniform'时,矩阵中的值将服从均匀分布 :math:`[-\sqrt{\frac{3*scale}{n}}, \sqrt{\frac{3*scale}{n}}]`
参数:
- **scale** (float) - 比例因子默认值为1.0。
- **mode** (str) - 其值应为'fan_in''fan_out'或者'fan_avg',默认值为'fan_in'。
- **distribution** (str) - 用于采样的分布类型。它可以是 'uniform''truncated_normal'或'untruncated_normal',默认值为'truncated_normal'。
- **mode** (str) - 其值应为 'fan_in' 'fan_out'或者 'fan_avg',默认值为 'fan_in'。
- **distribution** (str) - 用于采样的分布类型。它可以是 'uniform' 'truncated_normal'或 'untruncated_normal',默认值为 'truncated_normal'。
异常:
- **ValueError** - `scale` 小于等于0。
- **ValueError** - `mode` 不是'fan_in''fan_out'或者'fan_avg'。
- **ValueError** - `distribution` 不是'truncated_normal''untruncated_normal'或者'uniform'。
- **ValueError** - `mode` 不是 'fan_in' 'fan_out'或者 'fan_avg'。
- **ValueError** - `distribution` 不是 'truncated_normal' 'untruncated_normal'或者 'uniform'。