diff --git a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst index 2055cbdf28a..6e14e5e011b 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst @@ -38,6 +38,5 @@ - n/a - None - **返回:** - - int,样本数,可为None。 \ No newline at end of file + 返回: + int,样本数,可为None。 \ No newline at end of file diff --git a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.rst b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.rst index d4c227d596b..8e6d56a67af 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.rst @@ -2,9 +2,8 @@ 为给定采样器添加子采样器。子采样器接收父采样器输出数据作为输入,并应用其采样逻辑返回新的采样结果。 - **参数:** - - - **sampler** (Sampler) - 用于从数据集中选择样本的对象。仅支持内置采样器(DistributedSampler、PKSampler、RandomSampler、SequentialSampler、SubsetRandomSampler、WeightedRandomSampler)。 + 参数: + - **sampler** (Sampler) - 用于从数据集中选择样本的对象。仅支持内置采样器(DistributedSampler、PKSampler、RandomSampler、SequentialSampler、SubsetRandomSampler、WeightedRandomSampler)。 .. py:method:: get_child() diff --git a/docs/api/api_python/dataset/mindspore.dataset.CLUEDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CLUEDataset.rst index 9dd63e397b0..06aafc46cd5 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CLUEDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CLUEDataset.rst @@ -7,23 +7,22 @@ mindspore.dataset.CLUEDataset 目前支持的CLUE分类任务包括:'AFQMC'、'TNEWS 、'IFLYTEK'、'CMNLI'、'WSC'和'CSL'。更多CLUE数据集的说明详见 `CLUE GitHub `_ 。 - **参数:** + 参数: + - **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。 + - **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。 + - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'eval',默认值:'train'。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 + 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。 + 通过传入枚举变量设置数据混洗的模式: - - **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。 - - **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。 - - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'eval',默认值:'train'。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 - 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。 - 通过传入枚举变量设置数据混洗的模式: + - **Shuffle.GLOBAL**:混洗文件和样本。 + - **Shuffle.FILES**:仅混洗文件。 - - **Shuffle.GLOBAL**:混洗文件和样本。 - - **Shuffle.FILES**:仅混洗文件。 - - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列: @@ -167,15 +166,14 @@ mindspore.dataset.CLUEDataset | | | [label, dtype=string] | +-------------------------+------------------------------+-----------------------------+ - **异常:** - - - **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。 - - **ValueError** - `task` 参数不为 'AFQMC'、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。 - - **ValueError** - `usage` 参数不为 'train'、'test' 或 'eval'。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。 + - **ValueError** - `task` 参数不为 'AFQMC'、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。 + - **ValueError** - `usage` 参数不为 'train'、'test' 或 'eval'。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 **关于CLUE数据集:** diff --git a/docs/api/api_python/dataset/mindspore.dataset.CSVDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CSVDataset.rst index ed70d526563..54e903109d9 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CSVDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CSVDataset.rst @@ -5,33 +5,31 @@ 读取和解析CSV数据文件构建数据集。生成的数据集的列名和列类型取决于输入的CSV文件。 - **参数:** + 参数: + - **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。 + - **field_delim** (str, 可选) - 指定用于分隔字段的分隔符,默认值:','。 + - **column_defaults** (list, 可选) - 指定每个数据列的数据类型,有效的类型包括float、int或string。默认值:None,不指定。如果未指定该参数,则所有列的数据类型将被视为string。 + - **column_names** (list[str], 可选) - 指定数据集生成的列名。默认值:None,不指定。如果未指定该列表,则将CSV文件首行提供的字段作为列名生成。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 + 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。 + 通过传入枚举变量设置数据混洗的模式: - - **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。 - - **field_delim** (str, 可选) - 指定用于分隔字段的分隔符,默认值:','。 - - **column_defaults** (list, 可选) - 指定每个数据列的数据类型,有效的类型包括float、int或string。默认值:None,不指定。如果未指定该参数,则所有列的数据类型将被视为string。 - - **column_names** (list[str], 可选) - 指定数据集生成的列名。默认值:None,不指定。如果未指定该列表,则将CSV文件首行提供的字段作为列名生成。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 - 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。 - 通过传入枚举变量设置数据混洗的模式: + - **Shuffle.GLOBAL**:混洗文件和文件中的数据。 + - **Shuffle.FILES**:仅混洗文件。 - - **Shuffle.GLOBAL**:混洗文件和文件中的数据。 - - **Shuffle.FILES**:仅混洗文件。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **异常:** - - - **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。 - - **ValueError** - `field_delim` 参数无效。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。 + - **ValueError** - `field_delim` 参数无效。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 .. include:: mindspore.dataset.Dataset.rst diff --git a/docs/api/api_python/dataset/mindspore.dataset.Caltech101Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Caltech101Dataset.rst index 8e975d36bc1..877b154d81b 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Caltech101Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Caltech101Dataset.rst @@ -13,31 +13,29 @@ mindspore.dataset.Caltech101Dataset 列 'image' 为 uint8 类型,列 'category' 为 uint32 类型,列 'annotation' 是一个二维的ndarray,存储了图像的轮廓,由一系列的点组成。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径,该路径下将包含2个子目录,目录101_ObjectCategories用于存储图像, + 目录Annotations用于存储图像的标注。 + - **target_type** (str, 可选) - 指定数据集的子集,可取值为'category'、'annotation' 或 'all'。 + 取值为'category'时将读取图像的类别标注作为label,取值为'annotation'时将读取图像的轮廓标注作为label, + 取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值:None,表示'category'。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **dataset_dir** (str) - 包含数据集文件的根目录路径,该路径下将包含2个子目录,目录101_ObjectCategories用于存储图像, - 目录Annotations用于存储图像的标注。 - - **target_type** (str, 可选) - 指定数据集的子集,可取值为'category'、'annotation' 或 'all'。 - 取值为'category'时将读取图像的类别标注作为label,取值为'annotation'时将读取图像的轮廓标注作为label, - 取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值:None,表示'category'。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - - **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 + - **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 @@ -109,7 +107,7 @@ mindspore.dataset.Caltech101Dataset An Incremental Bayesian Approach Tested on 101 Object Categories}, journal = {Computer Vision and Pattern Recognition Workshop}, year = {2004}, - url = {http://www.vision.caltech.edu/Image_Datasets/Caltech101/}, + url = {http://data.caltech.edu/records/20086}, } .. include:: mindspore.dataset.Dataset.add_sampler.rst diff --git a/docs/api/api_python/dataset/mindspore.dataset.Caltech256Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Caltech256Dataset.rst index d3a9d796064..646506f78b4 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Caltech256Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Caltech256Dataset.rst @@ -7,28 +7,26 @@ mindspore.dataset.Caltech256Dataset 生成的数据集有两列 `[image, label]` 。 `image` 列的数据类型为uint8。`label` 列的数据类型为uint32。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **dataset_dir** (str) - 包含数据集文件的根目录路径。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - - **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 + - **ValueError** - `target_type` 参数取值不为'category'、'annotation'或'all'。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.CelebADataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CelebADataset.rst index 01e65c19edb..96b01f7874c 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CelebADataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CelebADataset.rst @@ -7,31 +7,29 @@ mindspore.dataset.CelebADataset 生成的数据集有两列 `[image, attr]` 。 `image` 列的数据类型为uint8。`attr` 列的数据类型为uint32,并以one-hot编码的形式生成。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',全部样本图片。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 + - **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 + - **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。 - - **dataset_dir** (str) - 包含数据集文件的根目录路径。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',全部样本图片。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **ValueError** - `usage` 参数取值不为'train'、'valid'、'test'或'all'。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **ValueError** - `usage` 参数取值不为'train'、'valid'、'test'或'all'。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst index fdb893f6292..23eb1b148d5 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst @@ -7,29 +7,27 @@ mindspore.dataset.Cifar100Dataset 生成的数据集有三列: `[image, coarse_label, fine_label]` 。 `image` 列的数据类型为uint8。 `coarse_label` 和 `fine_labels` 列的数据类型为uint32。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。 + 取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,全部样本图片。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **dataset_dir** (str): 包含数据集文件的根目录路径。 - - **usage** (str, 可选): 指定数据集的子集,可取值为'train','test'或'all'。 - 取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,全部样本图片。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards`)。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards`)。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.Cifar10Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Cifar10Dataset.rst index 19eb4a0eb27..699351071bb 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Cifar10Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Cifar10Dataset.rst @@ -7,29 +7,27 @@ mindspore.dataset.Cifar10Dataset 生成的数据集有两列: `[image, label]` 。 `image` 列的数据类型是uint8。`label` 列的数据类型是uint32。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'all'。 + 取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,全部样本图片。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **dataset_dir** (str): 包含数据集文件的根目录路径。 - - **usage** (str, 可选): 指定数据集的子集,可取值为'train','test'或'all'。 - 取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,全部样本图片。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst index 6aa5ac75da3..8a783bb9b3e 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst @@ -8,36 +8,33 @@ mindspore.dataset.CityscapesDataset 生成的数据集有两列 `[image, task]` 。 `image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当 参数 `task` 取值为'polygon',列的数据类型为string,其他取值下,列的数据类型为uint8。 - **参数:** + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为'fine'时,此参数可取值为'train'、'test'、'val'或'all'。 + 当参数 `quality_mode` 取值为'coarse'时,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。 + - **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为'fine'或'coarse'。默认值:'fine'。 + - **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 + - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **dataset_dir** (str) - 包含数据集文件的根目录路径。 - - **usage** (str, 可选) - 指定数据集的子集。当参数 `quality_mode` 取值为'fine'时,此参数可取值为'train'、'test'、'val'或'all'。 - 当参数 `quality_mode` 取值为'coarse'时,此参数可取值为'train'、'train_extra'、'val'或'all'。默认值:'train',全部样本图片。 - - **quality_mode** (str, 可选) - 指定数据集的质量模式,可取值为'fine'或'coarse'。默认值:'fine'。 - - **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **ValueError** - `dataset_dir` 路径非法或不存在。 - - **ValueError** - `task` 参数取值不为'instance'、'semantic'、'polygon'或'color'。 - - **ValueError** - `quality_mode` 参数取值不为'fine'或'coarse'。 - - **ValueError** - `usage` 参数取值不在给定的字段中。 - - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 - + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **ValueError** - `dataset_dir` 路径非法或不存在。 + - **ValueError** - `task` 参数取值不为'instance'、'semantic'、'polygon'或'color'。 + - **ValueError** - `quality_mode` 参数取值不为'fine'或'coarse'。 + - **ValueError** - `usage` 参数取值不在给定的字段中。 + - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 .. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.CocoDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CocoDataset.rst index f30ade3470b..ea9592bb6cf 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CocoDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CocoDataset.rst @@ -5,21 +5,20 @@ 读取和解析COCO数据集的源文件构建数据集。该API支持解析COCO2017数据集,支持四种类型的机器学习任务,分别是目标检测、关键点检测、物体分割和全景分割。 - **参数:** - - - **dataset_dir** (str) - 包含数据集文件的根目录路径。 - - **annotation_file** (str) - 数据集标注JSON文件的路径。 - - **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括:'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。 - - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,全部样本图片。 - - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,表2中会展示不同参数配置的预期行为。 - - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,表2中会展示不同配置的预期行为。 - - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 - - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 - - **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。 - - **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。 + 参数: + - **dataset_dir** (str) - 包含数据集文件的根目录路径。 + - **annotation_file** (str) - 数据集标注JSON文件的路径。 + - **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括:'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。 + - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,全部样本图片。 + - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:使用mindspore.dataset.config中配置的线程数。 + - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,表2中会展示不同参数配置的预期行为。 + - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 + - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,表2中会展示不同配置的预期行为。 + - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 + - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 + - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 `_ 。默认值:None,不使用缓存。 + - **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。 + - **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。 [表1] 根据不同 `task` 参数设置,生成数据集具有不同的输出列: @@ -57,19 +56,18 @@ | | [area, dtype=uint32] | +-------------------------+----------------------------------------------+ - **异常:** - - - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 - - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 - - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 - - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 - - **RuntimeError** - 解析 `annotation_file` 指定的JSON文件失败。 - - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 - - **ValueError** - `task` 参数取值不为 `Detection` 、 `Stuff` 、`Panoptic` 或 `Keypoint` 。 - - **ValueError** - `annotation_file` 参数对应的文件不存在。 - - **ValueError** - `dataset_dir` 参数路径不存在。 - - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 + 异常: + - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 + - **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。 + - **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。 + - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。 + - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。 + - **RuntimeError** - 解析 `annotation_file` 指定的JSON文件失败。 + - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。 + - **ValueError** - `task` 参数取值不为 `Detection` 、 `Stuff` 、`Panoptic` 或 `Keypoint` 。 + - **ValueError** - `annotation_file` 参数对应的文件不存在。 + - **ValueError** - `dataset_dir` 参数路径不存在。 + - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。 .. note:: - 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-', diff --git a/docs/api/api_python/dataset/mindspore.dataset.compare.rst b/docs/api/api_python/dataset/mindspore.dataset.compare.rst index fbc7fea61eb..b607ab1c595 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.compare.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.compare.rst @@ -5,11 +5,9 @@ mindspore.dataset.compare 比较两个数据处理管道是否相同。 - **参数:** + 参数: + - **pipeline1** (Dataset) - 数据处理管道。 + - **pipeline2** (Dataset) - 数据处理管道。 - - **pipeline1** (Dataset):数据处理管道。 - - **pipeline2** (Dataset):数据处理管道。 - - **返回:** - - bool,两个数据处理管道是否相等。 + 返回: + bool,两个数据处理管道是否相等。