modify Quotes format
This commit is contained in:
parent
392c27085f
commit
6f30cbabb5
|
@ -3,11 +3,11 @@ mindspore.dataset.Dataset.save
|
|||
|
||||
.. py:method:: mindspore.dataset.Dataset.save(file_name, num_files=1, file_type='mindrecord')
|
||||
|
||||
将数据处理管道中正处理的数据保存为通用的数据集格式。数据集格式仅支持:'mindrecord'。可以使用'MindDataset'类来读取保存的'mindrecord'文件。
|
||||
将数据处理管道中正处理的数据保存为通用的数据集格式。数据集格式仅支持:'mindrecord'。可以使用 'MindDataset'类来读取保存的 'mindrecord'文件。
|
||||
|
||||
将数据保存为'mindrecord'格式时存在隐式类型转换。转换表展示如何执行类型转换。
|
||||
将数据保存为 'mindrecord'格式时存在隐式类型转换。转换表展示如何执行类型转换。
|
||||
|
||||
.. list-table:: 保存为'mindrecord'格式时的隐式类型转换
|
||||
.. list-table:: 保存为 'mindrecord'格式时的隐式类型转换
|
||||
:widths: 25 25 50
|
||||
:header-rows: 1
|
||||
|
||||
|
|
|
@ -11,8 +11,8 @@ mindspore.dataset.TextBaseDataset.build_sentencepiece_vocab
|
|||
- **vocab_size** (int) - 词汇表的容量。
|
||||
- **character_coverage** (float) - 模型涵盖的字符百分比,必须介于0.98和1.0之间。
|
||||
对于具有丰富字符集的语言,如日语或中文字符集,推荐使用0.9995;对于其他字符集较小的语言,比如英语或拉丁文,推荐使用1.0。
|
||||
- **model_type** (SentencePieceModel) - 训练的SentencePiece模型类型,可取值为'SentencePieceModel.UNIGRAM'、'SentencePieceModel.BPE'、'SentencePieceModel.CHAR'或'SentencePieceModel.WORD'。
|
||||
当取值为'SentencePieceModel.WORD'时,输入的数据必须进行预分词(pretokenize)。默认值:SentencePieceModel.UNIGRAM。
|
||||
- **model_type** (SentencePieceModel) - 训练的SentencePiece模型类型,可取值为 'SentencePieceModel.UNIGRAM'、 'SentencePieceModel.BPE'、 'SentencePieceModel.CHAR'或 'SentencePieceModel.WORD'。
|
||||
当取值为 'SentencePieceModel.WORD'时,输入的数据必须进行预分词(pretokenize)。默认值:SentencePieceModel.UNIGRAM。
|
||||
- **params** (dict) - 如果希望使用SentencePiece的其他参数,可以构造一个dict进行传入,键为SentencePiece库接口的输入参数名,值为参数值。
|
||||
|
||||
返回:
|
||||
|
|
|
@ -14,7 +14,7 @@ mindspore.dataset.TextBaseDataset.build_vocab
|
|||
取值范围需满足:0 <= min_frequency <= max_frequency <= 单词总数,其中min_frequency、max_frequency的默认值分别设置为0、单词总数。
|
||||
- **top_k** (int) - 使用 `top_k` 个最常见的单词构建词汇表。假如指定了参数 `freq_range` ,则优先统计给定频率范围内的词汇,再根据参数 `top_k` 选取最常见的单词构建词汇表。
|
||||
如果 `top_k` 的值大于单词总数,则取所有单词构建词汇表。
|
||||
- **special_tokens** (list[str]) - 指定词汇表的特殊标记(special token),如'[UNK]'、'[SEP]'。
|
||||
- **special_tokens** (list[str]) - 指定词汇表的特殊标记(special token),如 '[UNK]'、 '[SEP]'。
|
||||
- **special_first** (bool) - 是否将参数 `special_tokens` 指定的特殊标记添加到词汇表的开头。如果为True则放到开头,否则放到词汇表的结尾。
|
||||
|
||||
返回:
|
||||
|
|
|
@ -9,7 +9,7 @@ mindspore.dataset.AGNewsDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -9,9 +9,9 @@ mindspore.dataset.AmazonReviewDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。
|
||||
对于Polarity数据集,'train'将读取360万个训练样本,'test'将读取40万个测试样本,'all'将读取所有400万个样本。
|
||||
对于Full数据集,'train'将读取300万个训练样本,'test'将读取65万个测试样本,'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。
|
||||
对于Polarity数据集, 'train'将读取360万个训练样本, 'test'将读取40万个测试样本, 'all'将读取所有400万个样本。
|
||||
对于Full数据集, 'train'将读取300万个训练样本, 'test'将读取65万个测试样本, 'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -5,12 +5,12 @@ mindspore.dataset.CLUEDataset
|
|||
|
||||
读取和解析CLUE数据集的源文件构建数据集。
|
||||
|
||||
目前支持的CLUE分类任务包括:'AFQMC'、'TNEWS 、'IFLYTEK'、'CMNLI'、'WSC'和'CSL'。更多CLUE数据集的说明详见 `CLUE GitHub <https://github.com/CLUEbenchmark/CLUE>`_ 。
|
||||
目前支持的CLUE分类任务包括:'AFQMC'、 'TNEWS 、'IFLYTEK'、 'CMNLI'、 'WSC'和 'CSL'。更多CLUE数据集的说明详见 `CLUE GitHub <https://github.com/CLUEbenchmark/CLUE>`_ 。
|
||||
|
||||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'eval'。默认值:'train'。
|
||||
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、 'TNEWS'、 'IFLYTEK'、 'CMNLI'、 'WSC' 或 'CSL'。默认值:'AFQMC'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'eval'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
@ -168,8 +168,8 @@ mindspore.dataset.CLUEDataset
|
|||
|
||||
异常:
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `task` 参数不为 'AFQMC'、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。
|
||||
- **ValueError** - `usage` 参数不为 'train'、'test' 或 'eval'。
|
||||
- **ValueError** - `task` 参数不为 'AFQMC'、 'TNEWS'、 'IFLYTEK'、 'CMNLI'、 'WSC' 或 'CSL'。
|
||||
- **ValueError** - `usage` 参数不为 'train'、 'test' 或 'eval'。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
|
|
|
@ -16,9 +16,9 @@ mindspore.dataset.Caltech101Dataset
|
|||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径,该路径下将包含2个子目录,目录101_ObjectCategories用于存储图像,
|
||||
目录Annotations用于存储图像的标注。
|
||||
- **target_type** (str, 可选) - 指定数据集的子集,可取值为'category'、'annotation' 或 'all'。
|
||||
取值为'category'时将读取图像的类别标注作为label,取值为'annotation'时将读取图像的轮廓标注作为label,
|
||||
取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值:None,表示'category'。
|
||||
- **target_type** (str, 可选) - 指定数据集的子集,可取值为 'category'、 'annotation' 或 'all'。
|
||||
取值为 'category'时将读取图像的类别标注作为label,取值为 'annotation'时将读取图像的轮廓标注作为label,
|
||||
取值为 'all'时将同时输出图像的类别标注和轮廓标注。默认值:None,表示 'category'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -34,7 +34,7 @@ mindspore.dataset.Caltech101Dataset
|
|||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。
|
||||
- **ValueError** - `target_type` 参数取值不为 'category'、 'annotation'或 'all'。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
|
|
@ -25,7 +25,7 @@ mindspore.dataset.Caltech256Dataset
|
|||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。
|
||||
- **ValueError** - `target_type` 参数取值不为 'category'、 'annotation'或 'all'。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
|
|
@ -11,7 +11,7 @@ mindspore.dataset.CelebADataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'valid', 'test'或 'all'。默认值:'all',全部样本图片。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中。默认值:None。
|
||||
|
@ -29,7 +29,7 @@ mindspore.dataset.CelebADataset
|
|||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'valid'、'test'或'all'。
|
||||
- **ValueError** - `usage` 参数取值不为 'train'、 'valid'、 'test'或 'all'。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.Cifar100Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。
|
||||
取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。
|
||||
取值为 'train'时将会读取50,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -27,7 +27,7 @@ mindspore.dataset.Cifar100Dataset
|
|||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
|
||||
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.Cifar10Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。
|
||||
取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。
|
||||
取值为 'train'时将会读取50,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -27,7 +27,7 @@ mindspore.dataset.Cifar10Dataset
|
|||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
|
||||
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -6,14 +6,14 @@ mindspore.dataset.CityscapesDataset
|
|||
读取和解析Cityscapes数据集的源文件构建数据集。
|
||||
|
||||
生成的数据集有两列 `[image, task]` 。
|
||||
`image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当参数 `task` 取值为'polygon',列的数据类型为string,其他取值下,列的数据类型为uint8。
|
||||
`image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当参数 `task` 取值为 'polygon',列的数据类型为string,其他取值下,列的数据类型为uint8。
|
||||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为'fine'时,此参数可取值为'train'、'test'、'val'或'all'。
|
||||
当参数 `quality_mode` 取值为'coarse'时,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。
|
||||
- **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为'fine'或'coarse'。默认值:'fine'。
|
||||
- **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为 'fine'时,此参数可取值为 'train'、 'test'、 'val'或 'all'。
|
||||
当参数 `quality_mode` 取值为 'coarse'时,此参数可取值为 'train'、 'train_extra'、 'val'或 'all'。默认值:'train',全部样本图片。
|
||||
- **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为 'fine'或 'coarse'。默认值:'fine'。
|
||||
- **task** (str, 可选) - 指定数据集的任务类型,可取值为 'instance'、 'semantic'、 'polygon'或 'color'。默认值:'instance'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -31,8 +31,8 @@ mindspore.dataset.CityscapesDataset
|
|||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `dataset_dir` 路径非法或不存在。
|
||||
- **ValueError** - `task` 参数取值不为'instance'、'semantic'、'polygon'或'color'。
|
||||
- **ValueError** - `quality_mode` 参数取值不为'fine'或'coarse'。
|
||||
- **ValueError** - `task` 参数取值不为 'instance'、 'semantic'、 'polygon'或 'color'。
|
||||
- **ValueError** - `quality_mode` 参数取值不为 'fine'或 'coarse'。
|
||||
- **ValueError** - `usage` 参数取值不在给定的字段中。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.CoNLL2000Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含CoNLL2000分块数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。
|
||||
'train'将读取8936个训练样本,'test'将读取2,012个测试样本中,'all'将读取所有1,0948个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。
|
||||
'train'将读取8936个训练样本, 'test'将读取2,012个测试样本中, 'all'将读取所有1,0948个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗。如果 `shuffle` 为True,执行全局混洗。
|
||||
|
|
|
@ -8,7 +8,7 @@
|
|||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **annotation_file** (str) - 数据集标注JSON文件的路径。
|
||||
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括:'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。
|
||||
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括:'Detection'、 'Stuff' 、 'Panoptic'和 'Keypoint'。默认值:'Detection'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,表2中会展示不同参数配置的预期行为。
|
||||
|
@ -70,7 +70,7 @@
|
|||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
|
||||
.. note::
|
||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-',
|
||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
||||
否则迭代得到的数据行中不会出现此额外数据列。
|
||||
- CocoDataset的 `sampler` 参数不支持指定PKSampler。
|
||||
- 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.DBpediaDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。
|
||||
'train'将读取560,000个训练样本,'test'将读取70,000个测试样本中,'all'将读取所有630,000个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。
|
||||
'train'将读取560,000个训练样本, 'test'将读取70,000个测试样本中, 'all'将读取所有630,000个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -9,10 +9,10 @@ mindspore.dataset.DIV2KDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。可取值为'train'、'valid'或'all'。默认值:'train'。
|
||||
- **downgrade** (str, 可选) - 指定数据集的下采样的模式,可取值为'bicubic'、'unknown'、'mild'、'difficult'或'wild'。默认值:'bicubic'。
|
||||
- **scale** (str, 可选) - 指定数据集的缩放尺度。当参数 `downgrade` 取值为'bicubic'时,此参数可以取值为2、3、4、8。
|
||||
当参数 `downgrade` 取值为'unknown'时,此参数可以取值为2、3、4。当参数 `downgrade` 取值为'mild'、'difficult'、'wild'时,此参数仅可以取值为4。默认值:2。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。可取值为 'train'、 'valid'或 'all'。默认值:'train'。
|
||||
- **downgrade** (str, 可选) - 指定数据集的下采样的模式,可取值为 'bicubic'、 'unknown'、 'mild'、 'difficult'或 'wild'。默认值:'bicubic'。
|
||||
- **scale** (str, 可选) - 指定数据集的缩放尺度。当参数 `downgrade` 取值为 'bicubic'时,此参数可以取值为2、3、4、8。
|
||||
当参数 `downgrade` 取值为 'unknown'时,此参数可以取值为2、3、4。当参数 `downgrade` 取值为 'mild'、 'difficult'、 'wild'时,此参数仅可以取值为4。默认值:2。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -30,11 +30,11 @@ mindspore.dataset.DIV2KDataset
|
|||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `dataset_dir` 路径非法或不存在。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'valid'或'all'。
|
||||
- **ValueError** - `downgrade` 参数取值不为'bicubic'、'unknown'、'mild'、'difficult'或'wild'。
|
||||
- **ValueError** - `usage` 参数取值不为 'train'、 'valid'或 'all'。
|
||||
- **ValueError** - `downgrade` 参数取值不为 'bicubic'、 'unknown'、 'mild'、 'difficult'或 'wild'。
|
||||
- **ValueError** - `scale` 参数取值不在给定的字段中,或与 `downgrade` 参数的值不匹配。
|
||||
- **ValueError** - `scale` 参数取值为8,但 `downgrade` 参数的值不为 'bicubic'。
|
||||
- **ValueError** - `downgrade` 参数取值为'mild'、'difficult'或'wild',但 `scale` 参数的值不为4。
|
||||
- **ValueError** - `downgrade` 参数取值为 'mild'、 'difficult'或 'wild',但 `scale` 参数的值不为4。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
|
|
@ -9,9 +9,9 @@ mindspore.dataset.EMnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **name** (str) - 按给定规则对数据集进行拆分,可以是'byclass'、'bymerge'、'balanced'、'letters'、'digits'或'mnist'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **name** (str) - 按给定规则对数据集进行拆分,可以是 'byclass'、 'bymerge'、 'balanced'、 'letters'、 'digits'或 'mnist'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
|
||||
取值为 'train'时将会读取60,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -10,8 +10,8 @@ mindspore.dataset.EnWik9Dataset
|
|||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
对于Polarity数据集,'train'将读取360万个训练样本,'test'将读取40万个测试样本,'all'将读取所有400万个样本。
|
||||
对于Full数据集,'train'将读取300万个训练样本,'test'将读取65万个测试样本,'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
对于Polarity数据集, 'train'将读取360万个训练样本, 'test'将读取40万个测试样本, 'all'将读取所有400万个样本。
|
||||
对于Full数据集, 'train'将读取300万个训练样本, 'test'将读取65万个测试样本, 'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:True。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.FashionMnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
|
||||
取值为 'train'时将会读取60,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -12,8 +12,8 @@ mindspore.dataset.Flowers102Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取数据的任务类型,支持'Classification'和'Segmentation'。默认值:'Classification'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',读取全部样本。
|
||||
- **task** (str, 可选) - 指定读取数据的任务类型,支持 'Classification'和 'Segmentation'。默认值:'Classification'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'valid', 'test'或 'all'。默认值:'all',读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:1。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -9,13 +9,13 @@ mindspore.dataset.Graph
|
|||
|
||||
参数:
|
||||
- **edges** (Union[list, numpy.ndarray]) - 以COO格式表示的边,shape为 [2, num_edges]。
|
||||
- **node_feat** (dict, 可选) - 节点的特征,输入数据格式应该是dict,其中key表示特征的类型,用字符串表示,比如'weight'等;value应该是shape为 [num_nodes, num_node_features] 的NumPy数组。
|
||||
- **edge_feat** (dict, 可选) - 边的特征,输入数据格式应该是dict,其中key表示特征的类型,用字符串表示,比如'weight'等;value应该是shape为 [num_edges, num_edge_features] 的NumPy数组。
|
||||
- **node_feat** (dict, 可选) - 节点的特征,输入数据格式应该是dict,其中key表示特征的类型,用字符串表示,比如 'weight'等;value应该是shape为 [num_nodes, num_node_features] 的NumPy数组。
|
||||
- **edge_feat** (dict, 可选) - 边的特征,输入数据格式应该是dict,其中key表示特征的类型,用字符串表示,比如 'weight'等;value应该是shape为 [num_edges, num_edge_features] 的NumPy数组。
|
||||
- **graph_feat** (dict, 可选) - 附加特征,不能分配给 `node_feat` 或者 `edge_feat` ,输入数据格式应该是dict,key是特征的类型,用字符串表示; value应该是NumPy数组,其shape可以不受限制。
|
||||
- **node_type** (Union[list, numpy.ndarray], 可选) - 节点的类型,每个元素都是字符串,表示每个节点的类型。如果未提供,则每个节点的默认类型为“0”。
|
||||
- **edge_type** (Union[list, numpy.ndarray], 可选) - 边的类型,每个元素都是字符串,表示每条边的类型。如果未提供,则每条边的默认类型为“0”。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持 'local'/'client'/'server'。默认值:'local'。
|
||||
|
||||
- **local**:用于非分布式训练场景。
|
||||
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
|
||||
|
@ -34,7 +34,7 @@ mindspore.dataset.Graph
|
|||
- **TypeError** - 如果提供了 `node_type` 但不是list或NumPy array类型。
|
||||
- **TypeError** - 如果提供了 `edge_type` 但不是list或 NumPy array类型。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `working_mode` 参数取值不为'local', 'client' 或 'server'。
|
||||
- **ValueError** - `working_mode` 参数取值不为 'local', 'client' 或 'server'。
|
||||
- **TypeError** - `hostname` 参数类型错误。
|
||||
- **ValueError** - `port` 参数不在范围[1024, 65535]内。
|
||||
- **ValueError** - `num_client` 参数不在范围[1, 255]内。
|
||||
|
|
|
@ -9,7 +9,7 @@ mindspore.dataset.GraphData
|
|||
参数:
|
||||
- **dataset_file** (str) - 数据集文件路径。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持 'local'/'client'/'server'。默认值:'local'。
|
||||
|
||||
- **local**:用于非分布式训练场景。
|
||||
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
|
||||
|
@ -23,7 +23,7 @@ mindspore.dataset.GraphData
|
|||
异常:
|
||||
- **ValueError** - `dataset_file` 路径下数据文件不存在或无效。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `working_mode` 参数取值不为'local', 'client' 或 'server'。
|
||||
- **ValueError** - `working_mode` 参数取值不为 'local', 'client' 或 'server'。
|
||||
- **TypeError** - `hostname` 参数类型错误。
|
||||
- **ValueError** - `port` 参数不在范围[1024, 65535]内。
|
||||
- **ValueError** - `num_client` 参数不在范围[1, 255]内。
|
||||
|
|
|
@ -9,10 +9,10 @@ mindspore.dataset.IMDBDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
对于Polarity数据集,'train'将读取360万个训练样本,'test'将读取40万个测试样本,'all'将读取所有400万个样本。
|
||||
对于Full数据集,'train'将读取300万个训练样本,'test'将读取65万个测试样本,'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
对于Polarity数据集, 'train'将读取360万个训练样本, 'test'将读取40万个测试样本, 'all'将读取所有400万个样本。
|
||||
对于Full数据集, 'train'将读取300万个训练样本, 'test'将读取65万个测试样本, 'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
|
|
|
@ -9,10 +9,10 @@ mindspore.dataset.IWSLT2016Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:None,读取全部样本。
|
||||
- **language_pair** (sequence, 可选) - 包含源语言和目标语言的序列,支持的值为('en','fr')、('en','de')、('en','cs')、('en','ar')、('de','en')、('cs','en')、('ar','en')。默认值:('de','en')。
|
||||
- **valid_set** (str, 可选) - 标识验证集的字符串,支持的值为'dev2010'、'tst2010'、'tst2011'、'tst2012'、'tst2013'和'tst2014'。默认值:'tst2013'。
|
||||
- **test_set** (str, 可选) - 识别测试集的字符串,支持的值为'dev2010'、'tst2010'、'tst2011'、'tst'2012、'tst2013'和'tst2014'。默认值:'tst2014'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'valid', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
- **language_pair** (sequence, 可选) - 包含源语言和目标语言的序列,支持的值为('en', 'fr')、('en', 'de')、('en', 'cs')、('en', 'ar')、('de', 'en')、('cs', 'en')、('ar', 'en')。默认值:('de', 'en')。
|
||||
- **valid_set** (str, 可选) - 标识验证集的字符串,支持的值为 'dev2010'、 'tst2010'、 'tst2011'、 'tst2012'、 'tst2013'和 'tst2014'。默认值:'tst2013'。
|
||||
- **test_set** (str, 可选) - 识别测试集的字符串,支持的值为 'dev2010'、 'tst2010'、 'tst2011'、 'tst'2012、 'tst2013'和 'tst2014'。默认值:'tst2014'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -9,11 +9,11 @@ mindspore.dataset.IWSLT2017Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'valid', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
- **language_pair** (sequence, 可选) - 包含源语和目标语的语言列表,支持的语言对有('en', 'nl')、
|
||||
('en', 'de')、('en', 'it')、('en', 'ro')、('nl', 'en')、('nl', 'de')、('nl', 'it')、('nl', 'ro')、
|
||||
('de', 'en')、('de', 'nl')、('de', 'it')、('de', 'ro')、('it', 'en')、('it', 'nl')、('it', 'de')、
|
||||
('it', 'ro')、('ro', 'en')、('ro', 'nl')、('ro', 'de')、('ro', 'it')。默认值:('de','en')。
|
||||
('it', 'ro')、('ro', 'en')、('ro', 'nl')、('ro', 'de')、('ro', 'it')。默认值:('de', 'en')。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.KMnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
|
||||
取值为 'train'时将会读取60,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -9,7 +9,7 @@
|
|||
|
||||
参数:
|
||||
- **dataset_file** (str) - 数据集文件的目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference'。默认值:'train'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'eval' 或 'inference'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -60,5 +60,5 @@
|
|||
- False
|
||||
- 不允许
|
||||
|
||||
|
||||
.. include:: mindspore.dataset.api_list_vision.rst
|
||||
|
||||
.. include:: mindspore.dataset.api_list_vision.rst
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.MnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test' 或 'all'。
|
||||
取值为 'train'时将会读取60,000个训练样本,取值为 'test'时将会读取10,000个测试样本,取值为 'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -22,7 +22,7 @@ mindspore.dataset.MnistDataset
|
|||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
|
||||
- **ValueError** - `usage` 参数取值不为 'train'、 'test'或 'all'。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.PennTreebankDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test','valid'或'all'。
|
||||
取值为'train'将读取42,068个样本,'test'将读取3,370个样本,'test'将读取3,761个样本,'all'将读取所有49,199个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test', 'valid'或 'all'。
|
||||
取值为 'train'将读取42,068个样本, 'test'将读取3,370个样本, 'test'将读取3,761个样本, 'all'将读取所有49,199个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -11,10 +11,10 @@ mindspore.dataset.PhotoTourDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **name** (str) - 要加载的数据集内容名称,可以取值为'notredame'、'yosemite'、'liberty'、'notredame_harris'、'yosemite_harris' 或 'liberty_harris'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'或'test'。默认值:None,将被设置为'train'。
|
||||
取值为'train'时,每个 `name` 的数据集样本数分别为{'notredame': 468159, 'yosemite': 633587, 'liberty': 450092, 'liberty_harris': 379587, 'yosemite_harris': 450912, 'notredame_harris': 325295}。
|
||||
取值为'test'时,将读取100,000个测试样本。
|
||||
- **name** (str) - 要加载的数据集内容名称,可以取值为 'notredame'、 'yosemite'、 'liberty'、 'notredame_harris'、 'yosemite_harris' 或 'liberty_harris'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'或 'test'。默认值:None,将被设置为 'train'。
|
||||
取值为 'train'时,每个 `name` 的数据集样本数分别为{'notredame': 468159, 'yosemite': 633587, 'liberty': 450092, 'liberty_harris': 379587, 'yosemite_harris': 450912, 'notredame_harris': 325295}。
|
||||
取值为 'test'时,将读取100,000个测试样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -10,7 +10,7 @@ mindspore.dataset.Places365Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val'。默认值:'train-standard'。
|
||||
- **usage** (str, 可选) - 'train-standard'、 'train-challenge'或 'val'。默认值:'train-standard'。
|
||||
- **small** (bool, 可选) - 是否使用256*256的低分辨率图像(True)或高分辨率图像(False)。默认值:False,使用低分辨率图像。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
|
|
|
@ -9,7 +9,7 @@ mindspore.dataset.QMnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all'。默认值:None,读取所有子集。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'test10k'、 'test50k'、 'nist'或 'all'。默认值:None,读取所有子集。
|
||||
- **compat** (bool, 可选) - 指定每个样本的标签是类别号(compat=True)还是完整的QMNIST信息(compat=False)。默认值:True,标签为类别号。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
|
|
|
@ -12,8 +12,8 @@ mindspore.dataset.SBDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取SB数据集的任务类型,支持'Boundaries'和'Segmentation'。默认值:'Boundaries'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'val'、'train_noval'和'all'。默认值:'train'。
|
||||
- **task** (str, 可选) - 指定读取SB数据集的任务类型,支持 'Boundaries'和 'Segmentation'。默认值:'Boundaries'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'val'、 'train_noval'和 'all'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:1,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -59,7 +59,7 @@ mindspore.dataset.SBUDataset
|
|||
|
||||
SBU数据集是一个带字幕的大型照片集。它包含一百万张带有视觉相关标注的图像。
|
||||
|
||||
你需要使用官方的download.m手动下载图片,将'urls{i}(24, end)'替换为'urls{i}(24:1:end)',并将目录保持如下。
|
||||
你需要使用官方的download.m手动下载图片,将 'urls{i}(24, end)'替换为 'urls{i}(24:1:end)',并将目录保持如下。
|
||||
|
||||
.. code-block::
|
||||
|
||||
|
|
|
@ -9,9 +9,9 @@ mindspore.dataset.STL10Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'unlabeled'、'train+unlabeled'或'all'。
|
||||
取值为'train'时将会读取5,000个样本,取值为'test'时将会读取8,000个样本,取值为'unlabeled'时将会读取100,000个样本,取值为'train+unlabeled'时将会读取10,5000个样本,
|
||||
取值为'all'时将会读取全部类型的样本。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'unlabeled'、 'train+unlabeled'或 'all'。
|
||||
取值为 'train'时将会读取5,000个样本,取值为 'test'时将会读取8,000个样本,取值为 'unlabeled'时将会读取100,000个样本,取值为 'train+unlabeled'时将会读取10,5000个样本,
|
||||
取值为 'all'时将会读取全部类型的样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -9,7 +9,7 @@ mindspore.dataset.SVHNDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'extra'或'all'。默认值:None,读取全部样本图片。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'extra'或 'all'。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:1,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -45,8 +45,8 @@ mindspore.dataset.Schema
|
|||
参数:
|
||||
- **columns** (Union[dict, list[dict], tuple[dict]]) - 数据集属性信息,从schema文件解码。
|
||||
|
||||
- **list** [dict]:'name'和'type'必须为key值,'shape'可选。
|
||||
- **dict** :columns.keys()作为名称,columns.values()是dict,其中包含'type','shape'可选。
|
||||
- **list** [dict]:'name'和 'type'必须为key值, 'shape'可选。
|
||||
- **dict** :columns.keys()作为名称,columns.values()是dict,其中包含 'type', 'shape'可选。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - 解析列失败。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.SogouNewsDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。默认值:None,读取全部样本。
|
||||
取值为'train'时将会读取45万个训练样本,取值为'test'时将会读取6万个测试样本,取值为'all'时将会读取全部51万个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
取值为 'train'时将会读取45万个训练样本,取值为 'test'时将会读取6万个测试样本,取值为 'all'时将会读取全部51万个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None, 读取全部样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值: `Shuffle.GLOBAL` 。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -10,8 +10,8 @@ mindspore.dataset.SpeechCommandsDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test','valid'或'all'。默认值:None,读取全部样本。
|
||||
取值为'train'时将会读取84,843个训练样本,取值为'test'时将会读取11,005个测试样本,取值为'valid'时将会读取9,981个测试样本,取值为'all'时将会读取全部105,829个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test', 'valid'或 'all'。默认值:None,读取全部样本。
|
||||
取值为 'train'时将会读取84,843个训练样本,取值为 'test'时将会读取11,005个测试样本,取值为 'valid'时将会读取9,981个测试样本,取值为 'all'时将会读取全部105,829个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
@ -59,7 +59,7 @@ mindspore.dataset.SpeechCommandsDataset
|
|||
|
||||
**关于SpeechCommands数据集:**
|
||||
|
||||
SpeechCommands(语音命令)数据是用于有限词汇语音识别的数据集,包含105,829个'.wav'格式的音频样本。
|
||||
SpeechCommands(语音命令)数据是用于有限词汇语音识别的数据集,包含105,829个 '.wav'格式的音频样本。
|
||||
|
||||
以下是原始SpeechCommands的数据集结构。可以将数据集文件解压缩成此目录结构,并由MindSpore的API读取。
|
||||
|
||||
|
|
|
@ -10,10 +10,10 @@ mindspore.dataset.TedliumDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **release** (str) - 指定数据集的发布版本,可以取值为'release1'、'release2'或'release3'。
|
||||
- **release** (str) - 指定数据集的发布版本,可以取值为 'release1'、 'release2'或 'release3'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。
|
||||
对于 `release` 为'release1'或'release2', `usage` 可以是'train'、'test'、'dev'或'all'。
|
||||
对于 `release` 为'release3', `usage` 只能是'all'。默认值:None,读取全部样本。
|
||||
对于 `release` 为 'release1'或 'release2', `usage` 可以是 'train'、 'test'、 'dev'或 'all'。
|
||||
对于 `release` 为 'release3', `usage` 只能是 'all'。默认值:None,读取全部样本。
|
||||
- **extensions** (str, 可选) - 指定SPH文件的扩展名。默认值:'.sph'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.UDPOSDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
|
||||
取值为'train'时将会读取12,543个样本,取值为'test'时将会读取2,077个测试样本,取值为'valid'时将会读取2,002个样本,取值为'all'时将会读取全部16,622个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。
|
||||
取值为 'train'时将会读取12,543个样本,取值为 'test'时将会读取2,077个测试样本,取值为 'valid'时将会读取2,002个样本,取值为 'all'时将会读取全部16,622个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值: `Shuffle.GLOBAL` 。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.USPSDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、或'all'。
|
||||
取值为'train'时将会读取7,291个样本,取值为'test'时将会读取2,007个测试样本,取值为'all'时将会读取全部9,298个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、或 'all'。
|
||||
取值为 'train'时将会读取7,291个样本,取值为 'test'时将会读取2,007个测试样本,取值为 'all'时将会读取全部9,298个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -12,7 +12,7 @@ mindspore.dataset.VOCDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取VOC数据的任务类型,现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
|
||||
- **task** (str, 可选) - 指定读取VOC数据的任务类型,现在只支持 'Segmentation'和 'Detection'。默认值:'Segmentation'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。默认值:'train'。
|
||||
|
||||
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息;
|
||||
|
@ -40,13 +40,13 @@ mindspore.dataset.VOCDataset
|
|||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - 指定的任务不为'Segmentation'或'Detection'。
|
||||
- **ValueError** - 指定任务为'Segmentation'时, `class_indexing` 参数不为None。
|
||||
- **ValueError** - 指定的任务不为 'Segmentation'或 'Detection'。
|
||||
- **ValueError** - 指定任务为 'Segmentation'时, `class_indexing` 参数不为None。
|
||||
- **ValueError** - 与 `usage` 参数相关的txt文件不存在。
|
||||
- **ValueError** - `shard_id` 参数错误,小于0或者大于等于 `num_shards` 。
|
||||
|
||||
.. note::
|
||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-',
|
||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
||||
否则迭代得到的数据行中不会出现此额外数据列。
|
||||
- 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -10,8 +10,8 @@ mindspore.dataset.WIDERFaceDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
|
||||
取值为'train'时将会读取12,880个样本,取值为'test'时将会读取16,097个样本,取值为'valid'时将会读取3,226个样本,取值为'all'时将会读取全部类别样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。
|
||||
取值为 'train'时将会读取12,880个样本,取值为 'test'时将会读取16,097个样本,取值为 'valid'时将会读取3,226个样本,取值为 'all'时将会读取全部类别样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
|
|
|
@ -9,7 +9,7 @@ mindspore.dataset.WikiTextDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'、 'valid'或 'all'。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -9,8 +9,8 @@ mindspore.dataset.YahooAnswersDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'或'all'。
|
||||
取值为'train'时将会读取1,400,000个训练样本,取值为'test'时将会读取60,000个测试样本,取值为'all'时将会读取全部1,460,000个样本。默认值:None,读取全部样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、 'test'或 'all'。
|
||||
取值为 'train'时将会读取1,400,000个训练样本,取值为 'test'时将会读取60,000个测试样本,取值为 'all'时将会读取全部1,460,000个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
|
|
|
@ -9,9 +9,9 @@ mindspore.dataset.YelpReviewDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。默认值:None,读取全部样本。
|
||||
对于Polarity数据集,'train'将读取560,000个训练样本,'test'将读取38,000个测试样本,'all'将读取所有598,000个样本。
|
||||
对于Full数据集,'train'将读取650,000个训练样本,'test'将读取50,000个测试样本,'all'将读取所有700,000个样本。默认值:None,读取所有样本。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train', 'test'或 'all'。默认值:None,读取全部样本。
|
||||
对于Polarity数据集, 'train'将读取560,000个训练样本, 'test'将读取38,000个测试样本, 'all'将读取所有598,000个样本。
|
||||
对于Full数据集, 'train'将读取650,000个训练样本, 'test'将读取50,000个测试样本, 'all'将读取所有700,000个样本。默认值:None,读取所有样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:`Shuffle.GLOBAL` 。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
|
|
|
@ -64,14 +64,14 @@ mindspore.common.initializer
|
|||
.. math::
|
||||
boundary = \text{gain} \times \sqrt{\frac{3}{fan\_mode}}
|
||||
|
||||
:math:`gain` 是一个可选的缩放因子。如果 :math:`fan\_mode` 是'fan_in',是权重Tensor中输入单元的数量。如果:math:`fan\_mode` 是'fan_out',则是权重Tensor中输出单元的数量。
|
||||
:math:`gain` 是一个可选的缩放因子。如果 :math:`fan\_mode` 是 'fan_in',是权重Tensor中输入单元的数量。如果 :math:`fan\_mode` 是 'fan_out',则是权重Tensor中输出单元的数量。
|
||||
|
||||
有关HeUniform算法,详情可参考 https://arxiv.org/abs/1502.01852。
|
||||
|
||||
参数:
|
||||
- **negative_slope** (int, float, bool) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数'leaky_relu'),默认值为0。
|
||||
- **mode** (str) - 可选'fan_in'或'fan_out','fan_in'会保留前向传递中权重方差的量级,'fan_out'会保留反向传递的量级,默认为'fan_in'。
|
||||
- **nonlinearity** (str) - 非线性激活函数,推荐使用'relu'或'leaky_relu',默认为'leaky_relu'。
|
||||
- **negative_slope** (int, float, bool) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数 'leaky_relu'),默认值为0。
|
||||
- **mode** (str) - 可选 'fan_in'或 'fan_out', 'fan_in'会保留前向传递中权重方差的量级, 'fan_out'会保留反向传递的量级,默认为 'fan_in'。
|
||||
- **nonlinearity** (str) - 非线性激活函数,推荐使用 'relu'或 'leaky_relu',默认为 'leaky_relu'。
|
||||
|
||||
.. py:class:: mindspore.common.initializer.HeNormal(negative_slope=0, mode='fan_in', nonlinearity='leaky_relu')
|
||||
|
||||
|
@ -80,15 +80,15 @@ mindspore.common.initializer
|
|||
.. math::
|
||||
sigma = \frac{gain} {\sqrt{fan\_mode}}
|
||||
|
||||
其中, :math:`gain` 是一个可选的缩放因子。如果 `mode` 是'fan_in',则 :math:`fan\_mode` 是权重Tensor中输入单元的数量,如果 `mode` 是'fan_out',
|
||||
其中, :math:`gain` 是一个可选的缩放因子。如果 `mode` 是 'fan_in',则 :math:`fan\_mode` 是权重Tensor中输入单元的数量,如果 `mode` 是 'fan_out',
|
||||
:math:`fan\_mode` 是权重Tensor中输出单元的数量。
|
||||
|
||||
HeNormal 算法的详细信息,请查看 https://arxiv.org/abs/1502.01852。
|
||||
|
||||
参数:
|
||||
- **negative_slope** (int, float) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数'leaky_relu'),默认值为0。
|
||||
- **mode** (str) - 可选'fan_in'或'fan_out','fan_in'会保留前向传递中权重方差的量级,'fan_out'会保留反向传递的量级,默认为'fan_in'。
|
||||
- **nonlinearity** (str) - 非线性激活函数,推荐使用'relu'或'leaky_relu',默认为'leaky_relu'。
|
||||
- **negative_slope** (int, float) - 本层激活函数的负数区间斜率(仅适用于非线性激活函数 'leaky_relu'),默认值为0。
|
||||
- **mode** (str) - 可选 'fan_in'或 'fan_out', 'fan_in'会保留前向传递中权重方差的量级, 'fan_out'会保留反向传递的量级,默认为 'fan_in'。
|
||||
- **nonlinearity** (str) - 非线性激活函数,推荐使用 'relu'或 'leaky_relu',默认为 'leaky_relu'。
|
||||
|
||||
.. py:class:: mindspore.common.initializer.XavierNormal(gain=1)
|
||||
|
||||
|
@ -180,20 +180,20 @@ mindspore.common.initializer
|
|||
.. py:class:: mindspore.common.initializer.VarianceScaling(scale=1.0, mode='fan_in', distribution='truncated_normal')
|
||||
|
||||
生成一个随机的矩阵用于初始化Tensor。
|
||||
当 `distribution` 是'truncated_normal'或者'untruncated_normal'时,矩阵中的值将服从均值为0,标准差
|
||||
为 :math:`stddev = \sqrt{\frac{scale}{n}}` 的截断或者非截断正态分布。如果 `mode` 是'fan_in', :math:`n` 是输入单元的数量;
|
||||
如果 `mode` 是'fan_out', :math:`n` 是输出单元的数量;如果 `mode` 是'fan_avg', :math:`n` 是输入输出单元数量的均值。
|
||||
当 `distribution` 是'uniform'时,矩阵中的值将服从均匀分布 :math:`[-\sqrt{\frac{3*scale}{n}}, \sqrt{\frac{3*scale}{n}}]`。
|
||||
当 `distribution` 是 'truncated_normal'或者 'untruncated_normal'时,矩阵中的值将服从均值为0,标准差
|
||||
为 :math:`stddev = \sqrt{\frac{scale}{n}}` 的截断或者非截断正态分布。如果 `mode` 是 'fan_in', :math:`n` 是输入单元的数量;
|
||||
如果 `mode` 是 'fan_out', :math:`n` 是输出单元的数量;如果 `mode` 是 'fan_avg', :math:`n` 是输入输出单元数量的均值。
|
||||
当 `distribution` 是 'uniform'时,矩阵中的值将服从均匀分布 :math:`[-\sqrt{\frac{3*scale}{n}}, \sqrt{\frac{3*scale}{n}}]`。
|
||||
|
||||
参数:
|
||||
- **scale** (float) - 比例因子,默认值为1.0。
|
||||
- **mode** (str) - 其值应为'fan_in','fan_out'或者'fan_avg',默认值为'fan_in'。
|
||||
- **distribution** (str) - 用于采样的分布类型。它可以是 'uniform','truncated_normal'或'untruncated_normal',默认值为'truncated_normal'。
|
||||
- **mode** (str) - 其值应为 'fan_in', 'fan_out'或者 'fan_avg',默认值为 'fan_in'。
|
||||
- **distribution** (str) - 用于采样的分布类型。它可以是 'uniform', 'truncated_normal'或 'untruncated_normal',默认值为 'truncated_normal'。
|
||||
|
||||
异常:
|
||||
- **ValueError** - `scale` 小于等于0。
|
||||
- **ValueError** - `mode` 不是'fan_in','fan_out'或者'fan_avg'。
|
||||
- **ValueError** - `distribution` 不是'truncated_normal','untruncated_normal'或者'uniform'。
|
||||
- **ValueError** - `mode` 不是 'fan_in', 'fan_out'或者 'fan_avg'。
|
||||
- **ValueError** - `distribution` 不是 'truncated_normal', 'untruncated_normal'或者 'uniform'。
|
||||
|
||||
|
||||
|
||||
|
|
Loading…
Reference in New Issue