format modification
This commit is contained in:
parent
3dad51973e
commit
1352f1a433
|
@ -7,31 +7,29 @@ mindspore.dataset.ImageFolderDataset
|
|||
|
||||
生成的数据集有两列:`[image, label]`。`image` 列的数据类型为uint8,`label` 列的数据类型为uint32。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。
|
||||
- **class_indexing** (dict, 可选) - 指定文件夹名称到label索引的映射,要求映射规则为string到int。文件夹名称将按字母顺序排列,索引值从0开始,并且要求每个文件夹名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。
|
||||
- **class_indexing** (dict, 可选) - 指定文件夹名称到label索引的映射,要求映射规则为string到int。文件夹名称将按字母顺序排列,索引值从0开始,并且要求每个文件夹名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **RuntimeError** - `class_indexing` 参数的类型不是dict。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **RuntimeError** - `class_indexing` 参数的类型不是dict。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. note::
|
||||
- 如果 `decode` 参数的值为False,则得到的 `image` 列的shape为[undecoded_image_size],如果为True则 `image` 列的shape为[H,W,C]。
|
||||
|
|
|
@ -7,30 +7,28 @@
|
|||
|
||||
生成的数据集有两列: `[image, label]` 。 `image` 列的数据类型为uint8类型。 `label` 列的数据类型为uint64类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_file** (str) - 数据集文件的目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference',默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射,要求映射规则为string到int。索引值从0开始,并且要求每个label名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
- **dataset_file** (str) - 数据集文件的目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference',默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射,要求映射规则为string到int。索引值从0开始,并且要求每个label名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **RuntimeError** - `class_indexing` 参数的类型不是dict。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards`)。
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **RuntimeError** - `class_indexing` 参数的类型不是dict。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards`)。
|
||||
|
||||
.. note::
|
||||
- 如果 `decode` 参数的值为False,则得到的 `image` 列的shape为[undecoded_image_size],如果为True则 `image` 列的shape为[H,W,C]。
|
||||
|
|
|
@ -5,34 +5,32 @@
|
|||
|
||||
读取和解析MindRecord数据文件构建数据集。生成的数据集的列名和列类型取决于MindRecord文件中的保存的列名与类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - MindRecord文件路径,支持单文件路径字符串、多文件路径字符串列表。如果 `dataset_files` 的类型是字符串,则它代表一组具有相同前缀名的MindRecord文件,同一路径下具有相同前缀名的其他MindRecord文件将会被自动寻找并加载。如果 `dataset_files` 的类型是列表,则它表示所需读取的MindRecord数据文件。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **dataset_files** (Union[str, list[str]]) - MindRecord文件路径,支持单文件路径字符串、多文件路径字符串列表。如果 `dataset_files` 的类型是字符串,则它代表一组具有相同前缀名的MindRecord文件,同一路径下具有相同前缀名的其他MindRecord文件将会被自动寻找并加载。如果 `dataset_files` 的类型是列表,则它表示所需读取的MindRecord数据文件。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器:SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
|
||||
- **padded_sample** (dict, 可选): 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `column_list` 指定的列名相同。默认值:None,不添加样本。需要与 `num_padded` 参数同时使用。
|
||||
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值:None,不添加样本。需要与 `padded_sample` 参数同时使用。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器:SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
|
||||
- **padded_sample** (dict, 可选): 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `column_list` 指定的列名相同。默认值:None,不添加样本。需要与 `num_padded` 参数同时使用。
|
||||
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值:None,不添加样本。需要与 `padded_sample` 参数同时使用。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -7,29 +7,27 @@ mindspore.dataset.MnistDataset
|
|||
|
||||
生成的数据集有两列: `[image, label]`。 `image` 列的数据类型为uint8。`label` 列的数据类型为uint32。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
|
||||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
@ -59,7 +57,7 @@ mindspore.dataset.MnistDataset
|
|||
- False
|
||||
- 不允许
|
||||
|
||||
**关于MNIST数据集:**
|
||||
**关于MNIST数据集:**
|
||||
|
||||
MNIST手写数字数据集是NIST数据集的子集,共有60,000个训练样本和10,000个测试样本。
|
||||
|
||||
|
|
|
@ -5,20 +5,19 @@ mindspore.dataset.NumpySlicesDataset
|
|||
|
||||
由Python数据构建数据集。生成的数据集的列名和列类型取决于用户传入的Python数据。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **data** (Union[list, tuple, dict]) - 输入的Python数据。支持的数据类型包括:list、tuple、dict和其他NumPy格式。
|
||||
输入数据将沿着第一个维度切片,并生成额外的行。如果输入是单个list,则将生成一个数据列,若是嵌套多个list,则生成多个数据列。不建议通过这种方式加载大量的数据,因为可能会在数据加载到内存时等待较长时间。
|
||||
- **column_names** (list[str], 可选) - 指定数据集生成的列名,默认值:None,不指定。
|
||||
如果未指定该参数,且当输入数据的类型是dict时,输出列名称将被命名为dict的键名,否则它们将被统一命名为column_0,column_1...。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:1。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
参数:
|
||||
- **data** (Union[list, tuple, dict]) - 输入的Python数据。支持的数据类型包括:list、tuple、dict和其他NumPy格式。
|
||||
输入数据将沿着第一个维度切片,并生成额外的行。如果输入是单个list,则将生成一个数据列,若是嵌套多个list,则生成多个数据列。不建议通过这种方式加载大量的数据,因为可能会在数据加载到内存时等待较长时间。
|
||||
- **column_names** (list[str], 可选) - 指定数据集生成的列名,默认值:None,不指定。
|
||||
如果未指定该参数,且当输入数据的类型是dict时,输出列名称将被命名为dict的键名,否则它们将被统一命名为column_0,column_1...。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:1。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
@ -48,15 +47,14 @@ mindspore.dataset.NumpySlicesDataset
|
|||
- False
|
||||
- 不允许
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `column_names` 列表的长度与数据的输出列表长度不匹配。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **ValueError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **ValueError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **ValueError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **RuntimeError** - `column_names` 列表的长度与数据的输出列表长度不匹配。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **ValueError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **ValueError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **ValueError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. include:: mindspore.dataset.Dataset.add_sampler.rst
|
||||
|
||||
|
|
|
@ -5,37 +5,35 @@
|
|||
|
||||
读取和解析存放在华为云OBS、Minio以及AWS S3等云存储上的MindRecord格式数据集。生成的数据集的列名和列类型取决于MindRecord文件中的保存的列名与类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_files** (list[str]) - 云存储上MindRecord格式数据集文件的路径列表,每个文件的路径格式为s3://bucketName/objectKey。
|
||||
- **server** (str) - 连接云存储的服务地址。可包含协议类型、域名、端口号。
|
||||
假如为华为云OBS,服务地址为:<obs.cn-north-4.myhuaweicloud.com>。
|
||||
假如为Minio,服务地址为:<https://your-endpoint:9000>。
|
||||
- **ak** (str) - 访问密钥中的AK。
|
||||
- **sk** (str) - 访问密钥中的SK。
|
||||
- **sync_obs_path** (str) - 用于同步操作云存储上的路径,用户需要提前创建,目录路径的格式为s3://bucketName/objectKey。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **dataset_files** (list[str]) - 云存储上MindRecord格式数据集文件的路径列表,每个文件的路径格式为s3://bucketName/objectKey。
|
||||
- **server** (str) - 连接云存储的服务地址。
|
||||
如果`server`的类型是华为云OBS,它的地址类似:<obs.cn-north-4.myhuaweicloud.com>(华为云华北四区域)。
|
||||
如果`server`是本地启动的Minio服务,服务地址为:<https://127.0.0.1:9000>。
|
||||
- **ak** (str) - 访问密钥中的AK。
|
||||
- **sk** (str) - 访问密钥中的SK。
|
||||
- **sync_obs_path** (str) - 用于同步操作云存储上的路径,用户需要提前创建,目录路径的格式为s3://bucketName/objectKey。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:True。
|
||||
如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。
|
||||
因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:True。
|
||||
如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。
|
||||
因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `sync_obs_path` 参数指定的目录不存在。
|
||||
- **ValueError** - `columns_list` 参数无效。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **RuntimeError** - `sync_obs_path` 参数指定的目录不存在。
|
||||
- **ValueError** - `columns_list` 参数无效。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. note::
|
||||
- 需要用户提前在云存储上创建同步用的目录,然后通过 `sync_obs_path` 指定。
|
||||
|
|
|
@ -5,22 +5,20 @@ mindspore.dataset.PKSampler
|
|||
|
||||
为数据集中每P个类别各采样K个样本。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **num_val** (int) - 每个类要采样的元素数量。
|
||||
- **num_class** (int, 可选) - 要采样的类数量,默认值:为None,采样所有类。当前不支持指定该参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本,默认值:False,不混洗样本。
|
||||
- **class_column** (str, 可选) - 指定label所属数据列的名称,将基于此列作为数据标签进行采样,默认值:'label'。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
- **num_val** (int): 每个类要采样的元素数量。
|
||||
- **num_class** (int, 可选): 要采样的类数量,默认值:为None,采样所有类。当前不支持指定该参数。
|
||||
- **shuffle** (bool, 可选): 是否混洗采样得到的样本,默认值:False,不混洗样本。
|
||||
- **class_column** (str, 可选): 指定label所属数据列的名称,将基于此列作为数据标签进行采样,默认值:'label'。
|
||||
- **num_samples** (int, 可选): 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `shuffle` 的类型不是bool。
|
||||
- **TypeError** `class_column` 的类型不是str。
|
||||
- **TypeError** `num_samples` 的类型不是int。
|
||||
- **NotImplementedError** `num_class` 不为None。
|
||||
- **RuntimeError** `num_val` 不是正值。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `shuffle` 的类型不是bool。
|
||||
- **TypeError** - `class_column` 的类型不是str。
|
||||
- **TypeError** - `num_samples` 的类型不是int。
|
||||
- **NotImplementedError** - `num_class` 不为None。
|
||||
- **RuntimeError** - `num_val` 不是正值。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
||||
|
|
|
@ -5,15 +5,13 @@ mindspore.dataset.PaddedDataset
|
|||
|
||||
由用户提供的填充数据构建数据集。可用于在分布式训练时给原始数据集添加样本,使数据集样本能平均分配给不同的分片。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **padded_samples** (list(dict)) - 用户提供的样本数据。
|
||||
|
||||
- **padded_samples** (list(dict)) - 用户提供的样本数据。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** - `padded_samples` 的类型不为list。
|
||||
- **TypeError** - `padded_samples` 的元素类型不为dict。
|
||||
- **ValueError** - `padded_samples` 为空的list。
|
||||
异常:
|
||||
- **TypeError** - `padded_samples` 的类型不为list。
|
||||
- **TypeError** - `padded_samples` 的元素类型不为dict。
|
||||
- **ValueError** - `padded_samples` 为空的list。
|
||||
|
||||
.. include:: mindspore.dataset.Dataset.add_sampler.rst
|
||||
|
||||
|
|
|
@ -5,16 +5,14 @@ mindspore.dataset.RandomSampler
|
|||
|
||||
随机采样器。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样,默认值:False,无放回采样。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
- **replacement** (bool, 可选): 是否将样本ID放回下一次采样,默认值:False,无放回采样。
|
||||
- **num_samples** (int, 可选): 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `replacement` 不是bool值。
|
||||
- **TypeError** `num_samples` 不是整数值。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `replacement` 不是bool值。
|
||||
- **TypeError** - `num_samples` 不是整数值。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
||||
|
|
|
@ -5,68 +5,58 @@ mindspore.dataset.Schema
|
|||
|
||||
用于解析和存储数据列属性的类。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **schema_file** (str) - schema文件的路径,默认值:None。
|
||||
|
||||
- **schema_file** (str): schema文件的路径,默认值:None。
|
||||
返回:
|
||||
schema对象,关于数据集的行列配置的策略信息。
|
||||
|
||||
**返回:**
|
||||
|
||||
schema对象,关于数据集的行列配置的策略信息。
|
||||
|
||||
**异常:**
|
||||
|
||||
**RuntimeError**: 模式文件加载失败。
|
||||
异常:
|
||||
- **RuntimeError** - 模式文件加载失败。
|
||||
|
||||
.. py:method:: add_column(name, de_type, shape=None)
|
||||
|
||||
向schema中添加新列。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **name** (str) - 列的新名称。
|
||||
- **de_type** (str) - 列的数据类型。
|
||||
- **shape** (list[int], 可选) - 列shape,默认值:None,-1表示该维度的shape是未知的。
|
||||
|
||||
- **name** (str): 列的新名称。
|
||||
- **de_type** (str): 列的数据类型。
|
||||
- **shape** (list[int], 可选): 列shape,默认值:None,-1表示该维度的shape是未知的。
|
||||
|
||||
**异常:**
|
||||
|
||||
**ValueError** 列类型未知。
|
||||
异常:
|
||||
- **ValueError** - 列类型未知。
|
||||
|
||||
.. py:method:: from_json(json_obj)
|
||||
|
||||
从JSON对象获取schema文件。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **json_obj** (dictionary) - 解析的JSON对象。
|
||||
|
||||
- **json_obj** (dictionary): 解析的JSON对象。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** 对象中存在未知的项。
|
||||
- **RuntimeError** 对象中缺少数据集类型。
|
||||
- **RuntimeError** 对象中缺少列。
|
||||
异常:
|
||||
- **RuntimeError** - 对象中存在未知的项。
|
||||
- **RuntimeError** - 对象中缺少数据集类型。
|
||||
- **RuntimeError** - 对象中缺少列。
|
||||
|
||||
.. py:method:: parse_columns(columns)
|
||||
|
||||
解析传入的数据列的属性并将其添加到自身的schema中。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **columns** (Union[dict, list[dict], tuple[dict]]) - 数据集属性信息,从schema文件解码。
|
||||
|
||||
- **columns** (Union[dict, list[dict], tuple[dict]]): 数据集属性信息,从schema文件解码。
|
||||
- **list** [dict]:'name'和'type'必须为key值,'shape'可选。
|
||||
- **dict** :columns.keys()作为名称,columns.values()是dict,其中包含'type','shape'可选。
|
||||
|
||||
- **list** [dict]:'name'和'type'必须为key值,'shape'可选。
|
||||
- **dict** :columns.keys()作为名称,columns.values()是dict,其中包含'type','shape'可选。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - 解析列失败。
|
||||
- **RuntimeError** - 列name字段缺失。
|
||||
- **RuntimeError** - 列type字段缺失。
|
||||
异常:
|
||||
- **RuntimeError** - 解析列失败。
|
||||
- **RuntimeError** - 列name字段缺失。
|
||||
- **RuntimeError** - 列type字段缺失。
|
||||
|
||||
.. py:method:: to_json()
|
||||
|
||||
获取schema的JSON字符串。
|
||||
|
||||
**返回:**
|
||||
|
||||
str,模式的JSON字符串。
|
||||
返回:
|
||||
str,模式的JSON字符串。
|
||||
|
|
@ -5,17 +5,15 @@ mindspore.dataset.SequentialSampler
|
|||
|
||||
按数据集的读取顺序采样数据集样本,相当于不使用采样器。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **start_index** (int, 可选) - 采样的起始样本ID,默认值:None,从数据集第一个样本开始采样。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
- **start_index** (int, 可选): 采样的起始样本ID,默认值:None,从数据集第一个样本开始采样。
|
||||
- **num_samples** (int, 可选): 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `start_index` 的类型不是int。
|
||||
- **TypeError** `num_samples` 的类型不是int。
|
||||
- **RuntimeError** `start_index` 为负值。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `start_index` 的类型不是int。
|
||||
- **TypeError** - `num_samples` 的类型不是int。
|
||||
- **RuntimeError** - `start_index` 为负值。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
||||
|
|
|
@ -5,15 +5,13 @@ mindspore.dataset.SubsetRandomSampler
|
|||
|
||||
给定样本的索引序列,从序列中随机获取索引对数据集进行采样。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **indices** (Iterable) - 样本索引的序列(除了string类型外的任意Python可迭代对象类型)。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
- **indices** (Iterable): 样本索引的序列(除了string类型外的任意Python可迭代对象类型)。
|
||||
- **num_samples** (int, 可选): 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `indices` 的类型不是int。
|
||||
- **TypeError** `num_samples` 的类型不是int。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `indices` 的类型不是int。
|
||||
- **TypeError** - `num_samples` 的类型不是int。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
|
|
@ -5,15 +5,13 @@ mindspore.dataset.SubsetSampler
|
|||
|
||||
给定样本的索引序列,对数据集采样指定索引的样本。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **indices** (Iterable) - 索引的序列(包括除了string类型的任意Python可迭代对象类型)。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
- **indices** (Iterable): 索引的序列(包括除了string类型的任意Python可迭代对象类型)。
|
||||
- **num_samples** (int, 可选): 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `indices` 的类型不是int。
|
||||
- **TypeError** `num_samples` 的类型不是int。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `indices` 的类型不是int。
|
||||
- **TypeError** - `num_samples` 的类型不是int。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
|
|
@ -5,37 +5,35 @@ mindspore.dataset.TFRecordDataset
|
|||
|
||||
读取和解析TFData格式的数据文件构建数据集。生成的数据集的列名和列类型取决于TFRecord文件中的保存的列名与类型。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
|
||||
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值:None,不指定。
|
||||
- **columns_list** (list[str], 可选) - 指定从TFRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,默认值:None,读取全部样本。
|
||||
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
|
||||
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值:None,不指定。
|
||||
- **columns_list** (list[str], 可选) - 指定从TFRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,默认值:None,读取全部样本。
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)不存在,则读取所有数据集;
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)的值大于0,则读取numRows条数据;
|
||||
- 如果 `num_samples` 和numRows字段(由参数 `schema` 定义)的值都大于0,此时仅有参数 `num_samples` 生效且读取给定数量的数据。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)不存在,则读取所有数据集;
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)的值大于0,则读取numRows条数据;
|
||||
- 如果 `num_samples` 和numRows字段(由参数 `schema` 定义)的值都大于0,此时仅有参数 `num_samples` 生效且读取给定数量的数据。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后,`num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:False。如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:False。如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. include:: mindspore.dataset.Dataset.rst
|
||||
|
||||
|
|
|
@ -3,31 +3,29 @@
|
|||
|
||||
.. py:class:: mindspore.dataset.TextFileDataset(dataset_files, num_samples=None, num_parallel_workers=None, shuffle=Shuffle.GLOBAL, num_shards=None, shard_id=None, cache=None)
|
||||
|
||||
读取和解析文本文件构建数据集。生成的数据集有一个数据列: `[text]` ,类型为string。
|
||||
读取和解析文本文件构建数据集。生成的数据集有一个数据列:`[text]` ,类型为string。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **num_samples** (int,可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **num_samples** (int,可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. include:: mindspore.dataset.Dataset.rst
|
||||
|
||||
|
|
|
@ -10,42 +10,40 @@ mindspore.dataset.VOCDataset
|
|||
- `task` = 'Detection',输出列: `[image, dtype=uint8]` , `[bbox, dtype=float32]` , `[label, dtype=uint32]` , `[difficult, dtype=uint32]` , `[truncate, dtype=uint32]` 。
|
||||
- `task` = 'Segmentation',输出列: `[image, dtype=uint8]` , `[target, dtype=uint8]` 。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取VOC数据的任务类型,现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,默认值:'train'。
|
||||
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取VOC数据的任务类型,现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,默认值:'train'。
|
||||
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息;
|
||||
- 如果 'task' 的值为 'Detection' ,则读取 'ImageSets/Main/' 目录下定义的图片和label信息。
|
||||
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射,要求映射规则为string到int。索引值从0开始,并且要求每个label名称对应的索引值唯一。
|
||||
仅在 'Detection' 任务中有效。默认值:None,不指定。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息;
|
||||
- 如果 'task' 的值为 'Detection' ,则读取 'ImageSets/Main/' 目录下定义的图片和label信息。
|
||||
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射,要求映射规则为string到int。索引值从0开始,并且要求每个label名称对应的索引值唯一。
|
||||
仅在 'Detection' 任务中有效。默认值:None,不指定。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||
- **RuntimeError** - 读取的xml文件格式异常或无效。
|
||||
- **RuntimeError** - 读取的xml文件缺失 `object` 属性。
|
||||
- **RuntimeError** - 读取的xml文件缺失 `bndbox` 属性。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - 指定的任务不为'Segmentation'或'Detection'。
|
||||
- **ValueError** - 指定任务为'Segmentation'时, `class_indexing` 参数不为None。
|
||||
- **ValueError** - 与 `usage` 参数相关的txt文件不存在。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||
- **RuntimeError** - 读取的xml文件格式异常或无效。
|
||||
- **RuntimeError** - 读取的xml文件缺失 `object` 属性。
|
||||
- **RuntimeError** - 读取的xml文件缺失 `bndbox` 属性。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||
- **RuntimeError** - 同时指定了 `sampler` 和 `num_shards` 参数或同时指定了 `sampler` 和 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
|
||||
- **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
|
||||
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
|
||||
- **ValueError** - 指定的任务不为'Segmentation'或'Detection'。
|
||||
- **ValueError** - 指定任务为'Segmentation'时, `class_indexing` 参数不为None。
|
||||
- **ValueError** - 与 `usage` 参数相关的txt文件不存在。
|
||||
- **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
|
||||
|
||||
.. note::
|
||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列'_meta-filename'的前缀'_meta-',
|
||||
|
|
|
@ -13,24 +13,21 @@ mindspore.dataset.WaitedDSCallback
|
|||
|
||||
.. note:: 注意,第2个step或epoch开始时才会触发该调用。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **step_size** (int, optional) - 每个step包含的数据行数。通常step_size与batch_size一致,默认值:1。
|
||||
参数:
|
||||
- **step_size** (int, optional) - 每个step包含的数据行数。通常step_size与batch_size一致,默认值:1。
|
||||
|
||||
.. py:method:: sync_epoch_begin(train_run_context, ds_run_context)
|
||||
|
||||
用于定义在数据epoch开始前,训练epoch结束后执行的回调方法。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **train_run_context**:包含前一个epoch的反馈信息的网络训练运行信息。
|
||||
- **ds_run_context**:数据处理管道运行信息。
|
||||
参数:
|
||||
- **train_run_context** - 包含前一个epoch的反馈信息的网络训练运行信息。
|
||||
- **ds_run_context** - 数据处理管道运行信息。
|
||||
|
||||
.. py:method:: sync_step_begin(train_run_context, ds_run_context)
|
||||
|
||||
用于定义在数据step开始前,训练step结束后执行的回调方法。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **train_run_context**:包含前一个step的反馈信息的网络训练运行信息。
|
||||
- **ds_run_context**:数据处理管道运行信息。
|
||||
参数:
|
||||
- **train_run_context** - 包含前一个step的反馈信息的网络训练运行信息。
|
||||
- **ds_run_context** - 数据处理管道运行信息。
|
||||
|
|
|
@ -5,19 +5,17 @@ mindspore.dataset.WeightedRandomSampler
|
|||
|
||||
给定样本的权重列表,根据权重决定样本的采样概率,随机采样[0,len(weights) - 1]中的样本。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **weights** (list[float, int]) - 权重序列,总和不一定为1。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
- **replacement** (bool) - 是否将样本ID放回下一次采样,默认值:True,有放回采样。
|
||||
|
||||
- **weights** (list[float, int]) - 权重序列,总和不一定为1。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
- **replacement** (bool) - 是否将样本ID放回下一次采样,默认值:True,有放回采样。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **TypeError** `weights` 元素的类型不是数值类型。
|
||||
- **TypeError** `num_samples` 的类型不是int。
|
||||
- **TypeError** `replacement` 的类型不是bool。
|
||||
- **RuntimeError** `weights` 为空或全为零。
|
||||
- **ValueError** `num_samples` 为负值。
|
||||
异常:
|
||||
- **TypeError** - `weights` 元素的类型不是数值类型。
|
||||
- **TypeError** - `num_samples` 的类型不是int。
|
||||
- **TypeError** - `replacement` 的类型不是bool。
|
||||
- **RuntimeError** - `weights` 为空或全为零。
|
||||
- **ValueError** - `num_samples` 为负值。
|
||||
|
||||
.. include:: mindspore.dataset.BuiltinSampler.rst
|
||||
|
||||
|
|
|
@ -8,15 +8,12 @@
|
|||
.. note::
|
||||
目前不支持某些Python对象序列化。对于map算子的自定义Python函数序列化, `mindspore.dataset.serialize` 仅返回其函数名称。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **dataset** (Dataset) - 数据处理管道对象。
|
||||
- **json_filepath** (str) - 生成序列化JSON文件的路径。
|
||||
|
||||
- **dataset** (Dataset): 数据处理管道对象。
|
||||
- **json_filepath** (str): 生成序列化JSON文件的路径。
|
||||
返回:
|
||||
Dict,包含序列化数据集图的字典。
|
||||
|
||||
**返回:**
|
||||
|
||||
Dict,包含序列化数据集图的字典。
|
||||
|
||||
**异常:**
|
||||
|
||||
**OSError** - 无法打开文件。
|
||||
异常:
|
||||
- **OSError** - 无法打开文件。
|
||||
|
|
|
@ -5,7 +5,6 @@ mindspore.dataset.show
|
|||
|
||||
将数据处理管道图写入MindSpore的INFO级别日志文件。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **dataset** (Dataset): 数据处理管道对象。
|
||||
- **indentation** (int, optional): 设置MindSpore的INFO级别日志文件打印时的缩进字符数。若为None,则不缩进。
|
||||
参数:
|
||||
- **dataset** (Dataset) - 数据处理管道对象。
|
||||
- **indentation** (int, optional) - 设置MindSpore的INFO级别日志文件打印时的缩进字符数。若为None,则不缩进。
|
||||
|
|
|
@ -7,8 +7,7 @@ mindspore.dataset.sync_wait_for_dataset
|
|||
|
||||
.. note:: 需要配合 `mindspore.dataset.OBSMindDataset` 使用,建议在每次epoch开始前调用。
|
||||
|
||||
**参数:**
|
||||
|
||||
- **rank_id** (int) - 当前卡的逻辑序号。
|
||||
- **rank_size** (int) - 卡的数量。
|
||||
- **current_epoch** (int) - 训练时当前的epoch数。
|
||||
参数:
|
||||
- **rank_id** (int) - 当前卡的逻辑序号。
|
||||
- **rank_size** (int) - 卡的数量。
|
||||
- **current_epoch** (int) - 训练时当前的epoch数。
|
||||
|
|
|
@ -5,39 +5,36 @@
|
|||
|
||||
使用给定的边界框和类别置信度绘制图像。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **image** (numpy.ndarray) - 待绘制的图像,shape为(C, H, W)或(H, W, C),通道顺序为RGB。
|
||||
- **bboxes** (numpy.ndarray) - 边界框(包含类别置信度),shape为(N, 4)或(N, 5),格式为(N,X,Y,W,H)。
|
||||
- **labels** (numpy.ndarray) - 边界框的类别,shape为(N, 1)。
|
||||
- **segm** (numpy.ndarray) - 图像分割掩码,shape为(M, H, W),M表示类别总数,默认值:None,不绘制掩码。
|
||||
- **class_names** (list[str], dict) - 类别索引到类别名的映射表,默认值:None,仅显示类别索引。
|
||||
- **score_threshold** (float) - 绘制边界框的类别置信度阈值,默认值:0,绘制所有边界框。
|
||||
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色,顺序为BGR,默认值:(0,255,0),表示绿色。
|
||||
- **text_color** (tuple(int)) - 指定类别文本的显示颜色,顺序为BGR,默认值:(203, 192, 255),表示粉色。
|
||||
- **mask_color** (tuple(int)) - 指定掩码的显示颜色,顺序为BGR,默认值:(128, 0, 128),表示紫色。
|
||||
- **thickness** (int) - 指定边界框和类别文本的线条粗细,默认值:2。
|
||||
- **font_size** (int, float) - 指定类别文本字体大小,默认值:0.8。
|
||||
- **show** (bool) - 是否显示图像,默认值:True。
|
||||
- **win_name** (str) - 指定窗口名称,默认值:"win"。
|
||||
- **wait_time** (int) - 指定cv2.waitKey的时延,单位为ms,即图像显示的自动切换间隔,默认值:2000,表示间隔为2000ms。
|
||||
- **out_file** (str, optional) - 输出图像的文件路径,用于在绘制后将结果存储到本地,默认值:None,不保存。
|
||||
|
||||
- **image** (numpy.ndarray) - 待绘制的图像,shape为(C, H, W)或(H, W, C),通道顺序为RGB。
|
||||
- **bboxes** (numpy.ndarray) - 边界框(包含类别置信度),shape为(N, 4)或(N, 5),格式为(N,X,Y,W,H)。
|
||||
- **labels** (numpy.ndarray) - 边界框的类别,shape为(N, 1)。
|
||||
- **segm** (numpy.ndarray) - 图像分割掩码,shape为(M, H, W),M表示类别总数,默认值:None,不绘制掩码。
|
||||
- **class_names** (list[str], dict) - 类别索引到类别名的映射表,默认值:None,仅显示类别索引。
|
||||
- **score_threshold** (float) - 绘制边界框的类别置信度阈值,默认值:0,绘制所有边界框。
|
||||
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色,顺序为BGR,默认值:(0,255,0),表示绿色。
|
||||
- **text_color** (tuple(int)) - 指定类别文本的显示颜色,顺序为BGR,默认值:(203, 192, 255),表示粉色。
|
||||
- **mask_color** (tuple(int)) - 指定掩码的显示颜色,顺序为BGR,默认值:(128, 0, 128),表示紫色。
|
||||
- **thickness** (int) - 指定边界框和类别文本的线条粗细,默认值:2。
|
||||
- **font_size** (int, float) - 指定类别文本字体大小,默认值:0.8。
|
||||
- **show** (bool) - 是否显示图像,默认值:True。
|
||||
- **win_name** (str) - 指定窗口名称,默认值:"win"。
|
||||
- **wait_time** (int) - 指定cv2.waitKey的时延,单位为ms,即图像显示的自动切换间隔,默认值:2000,表示间隔为2000ms。
|
||||
- **out_file** (str, optional) - 输出图像的文件路径,用于在绘制后将结果存储到本地,默认值:None,不保存。
|
||||
返回:
|
||||
numpy.ndarray,带边界框和类别置信度的图像。
|
||||
|
||||
**返回:**
|
||||
|
||||
numpy.ndarray,带边界框和类别置信度的图像。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ImportError** - 当未安装opencv-python库。
|
||||
- **AssertionError** - 当 `image` 的格式不为(H, W, C)或(C, H, W)。
|
||||
- **AssertionError** - 当 `bboxes` 的格式不为(N, 4)或(N, 5)。
|
||||
- **AssertionError** - 当 `labels` 的格式不为(N, 1)。
|
||||
- **AssertionError** - 当 `segm` 的格式不为(M, H, W)。
|
||||
- **AssertionError** - 当 `class_names` 的类型不为list、tuple或dict。
|
||||
- **AssertionError** - 当 `bbox_color` 不为(B, G, R)格式的tuple。
|
||||
- **AssertionError** - 当 `text_color` 不为(B, G, R)格式的tuple。
|
||||
- **AssertionError** - 当 `mask_color` 不为(B, G, R)格式的tuple。
|
||||
异常:
|
||||
- **ImportError** - 当未安装opencv-python库。
|
||||
- **AssertionError** - 当 `image` 的格式不为(H, W, C)或(C, H, W)。
|
||||
- **AssertionError** - 当 `bboxes` 的格式不为(N, 4)或(N, 5)。
|
||||
- **AssertionError** - 当 `labels` 的格式不为(N, 1)。
|
||||
- **AssertionError** - 当 `segm` 的格式不为(M, H, W)。
|
||||
- **AssertionError** - 当 `class_names` 的类型不为list、tuple或dict。
|
||||
- **AssertionError** - 当 `bbox_color` 不为(B, G, R)格式的tuple。
|
||||
- **AssertionError** - 当 `text_color` 不为(B, G, R)格式的tuple。
|
||||
- **AssertionError** - 当 `mask_color` 不为(B, G, R)格式的tuple。
|
||||
|
||||
**imshow_det_bbox在VOC2012数据集的使用图示:**
|
||||
|
||||
|
|
|
@ -5,15 +5,12 @@ mindspore.dataset.zip
|
|||
|
||||
将多个dataset对象按列进行合并压缩。
|
||||
|
||||
**参数:**
|
||||
参数:
|
||||
- **datasets** (tuple[Dataset]) - 要合并的多个dataset对象。 `datasets` 参数的长度必须大于1。
|
||||
|
||||
- **datasets** (tuple[Dataset]) - 要合并的多个dataset对象。 `datasets` 参数的长度必须大于1。
|
||||
返回:
|
||||
ZipDataset,合并后的dataset对象。
|
||||
|
||||
**返回:**
|
||||
|
||||
ZipDataset,合并后的dataset对象。
|
||||
|
||||
**异常:**
|
||||
|
||||
- **ValueError** - `datasets` 参数的长度为1。
|
||||
- **TypeError** - datasets参数不是tuple。
|
||||
异常:
|
||||
- **ValueError** - `datasets` 参数的长度为1。
|
||||
- **TypeError** - datasets参数不是tuple。
|
||||
|
|
Loading…
Reference in New Issue