format modification

This commit is contained in:
zhangyi 2022-07-07 17:18:09 +08:00
parent 3dad51973e
commit 1352f1a433
23 changed files with 353 additions and 409 deletions

View File

@ -7,8 +7,7 @@ mindspore.dataset.ImageFolderDataset
生成的数据集有两列:`[image, label]``image` 列的数据类型为uint8`label` 列的数据类型为uint32。
**参数:**
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
@ -22,8 +21,7 @@ mindspore.dataset.ImageFolderDataset
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。
**异常:**
异常:
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。

View File

@ -7,8 +7,7 @@
生成的数据集有两列: `[image, label]``image` 列的数据类型为uint8类型。 `label` 列的数据类型为uint64类型。
**参数:**
参数:
- **dataset_file** (str) - 数据集文件的目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference',默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
@ -21,8 +20,7 @@
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
**异常:**
异常:
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。

View File

@ -5,8 +5,7 @@
读取和解析MindRecord数据文件构建数据集。生成的数据集的列名和列类型取决于MindRecord文件中的保存的列名与类型。
**参数:**
参数:
- **dataset_files** (Union[str, list[str]]) - MindRecord文件路径支持单文件路径字符串、多文件路径字符串列表。如果 `dataset_files` 的类型是字符串则它代表一组具有相同前缀名的MindRecord文件同一路径下具有相同前缀名的其他MindRecord文件将会被自动寻找并加载。如果 `dataset_files` 的类型是列表则它表示所需读取的MindRecord数据文件。
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值None读取所有列。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
@ -26,8 +25,7 @@
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
**异常:**
异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
- **ValueError** - `num_parallel_workers` 参数超过最大线程数。
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -7,8 +7,7 @@ mindspore.dataset.MnistDataset
生成的数据集有两列: `[image, label]``image` 列的数据类型为uint8。`label` 列的数据类型为uint32。
**参数:**
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为 'train'、'test' 或 'all'。
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None全部样本图片。
@ -20,8 +19,7 @@ mindspore.dataset.MnistDataset
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
**异常:**
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - `usage` 参数取值不为'train'、'test'或'all'。
@ -59,7 +57,7 @@ mindspore.dataset.MnistDataset
- False
- 不允许
**关于MNIST数据集:**
**关于MNIST数据集**
MNIST手写数字数据集是NIST数据集的子集共有60,000个训练样本和10,000个测试样本。

View File

@ -5,8 +5,7 @@ mindspore.dataset.NumpySlicesDataset
由Python数据构建数据集。生成的数据集的列名和列类型取决于用户传入的Python数据。
**参数:**
参数:
- **data** (Union[list, tuple, dict]) - 输入的Python数据。支持的数据类型包括list、tuple、dict和其他NumPy格式。
输入数据将沿着第一个维度切片并生成额外的行。如果输入是单个list则将生成一个数据列若是嵌套多个list则生成多个数据列。不建议通过这种方式加载大量的数据因为可能会在数据加载到内存时等待较长时间。
- **column_names** (list[str], 可选) - 指定数据集生成的列名默认值None不指定。
@ -48,8 +47,7 @@ mindspore.dataset.NumpySlicesDataset
- False
- 不允许
**异常:**
异常:
- **RuntimeError** - `column_names` 列表的长度与数据的输出列表长度不匹配。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **ValueError** - 同时指定了 `sampler``shuffle` 参数。

View File

@ -5,12 +5,11 @@
读取和解析存放在华为云OBS、Minio以及AWS S3等云存储上的MindRecord格式数据集。生成的数据集的列名和列类型取决于MindRecord文件中的保存的列名与类型。
**参数:**
参数:
- **dataset_files** (list[str]) - 云存储上MindRecord格式数据集文件的路径列表每个文件的路径格式为s3://bucketName/objectKey。
- **server** (str) - 连接云存储的服务地址。
如果`server`的类型是华为云OBS它的地址类似<obs.cn-north-4.myhuaweicloud.com>(华为云华北四区域)
如果`server`是本地启动的Minio服务服务地址为<https://127.0.0.1:9000>。
- **server** (str) - 连接云存储的服务地址。可包含协议类型、域名、端口号。
假如为华为云OBS服务地址为<obs.cn-north-4.myhuaweicloud.com>
假如为Minio服务地址为<https://your-endpoint:9000>。
- **ak** (str) - 访问密钥中的AK。
- **sk** (str) - 访问密钥中的SK。
- **sync_obs_path** (str) - 用于同步操作云存储上的路径用户需要提前创建目录路径的格式为s3://bucketName/objectKey。
@ -29,8 +28,7 @@
如果 `shard_equal_rows` 为False则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。
因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为True。注意只有当指定了 `num_shards` 时才能指定此参数。
**异常:**
异常:
- **RuntimeError** - `sync_obs_path` 参数指定的目录不存在。
- **ValueError** - `columns_list` 参数无效。
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -5,22 +5,20 @@ mindspore.dataset.PKSampler
为数据集中每P个类别各采样K个样本。
**参数:**
参数:
- **num_val** (int) - 每个类要采样的元素数量。
- **num_class** (int, 可选) - 要采样的类数量默认值为None采样所有类。当前不支持指定该参数。
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本默认值False不混洗样本。
- **class_column** (str, 可选) - 指定label所属数据列的名称将基于此列作为数据标签进行采样默认值'label'。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **num_val** (int): 每个类要采样的元素数量。
- **num_class** (int, 可选): 要采样的类数量默认值为None采样所有类。当前不支持指定该参数。
- **shuffle** (bool, 可选): 是否混洗采样得到的样本默认值False不混洗样本。
- **class_column** (str, 可选): 指定label所属数据列的名称将基于此列作为数据标签进行采样默认值'label'。
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**
- **TypeError** `shuffle` 的类型不是bool。
- **TypeError** `class_column` 的类型不是str。
- **TypeError** `num_samples` 的类型不是int。
- **NotImplementedError** `num_class` 不为None。
- **RuntimeError** `num_val` 不是正值。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `shuffle` 的类型不是bool。
- **TypeError** - `class_column` 的类型不是str。
- **TypeError** - `num_samples` 的类型不是int。
- **NotImplementedError** - `num_class` 不为None。
- **RuntimeError** - `num_val` 不是正值。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -5,12 +5,10 @@ mindspore.dataset.PaddedDataset
由用户提供的填充数据构建数据集。可用于在分布式训练时给原始数据集添加样本,使数据集样本能平均分配给不同的分片。
**参数:**
参数:
- **padded_samples** (list(dict)) - 用户提供的样本数据。
**异常:**
异常:
- **TypeError** - `padded_samples` 的类型不为list。
- **TypeError** - `padded_samples` 的元素类型不为dict。
- **ValueError** - `padded_samples` 为空的list。

View File

@ -5,16 +5,14 @@ mindspore.dataset.RandomSampler
随机采样器。
**参数:**
参数:
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样默认值False无放回采样。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **replacement** (bool, 可选): 是否将样本ID放回下一次采样默认值False无放回采样。
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**
- **TypeError** `replacement` 不是bool值。
- **TypeError** `num_samples` 不是整数值。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `replacement` 不是bool值。
- **TypeError** - `num_samples` 不是整数值。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -5,59 +5,50 @@ mindspore.dataset.Schema
用于解析和存储数据列属性的类。
**参数:**
- **schema_file** (str): schema文件的路径默认值None。
**返回:**
参数:
- **schema_file** (str) - schema文件的路径默认值None。
返回:
schema对象关于数据集的行列配置的策略信息。
**异常:**
**RuntimeError** 模式文件加载失败。
异常:
- **RuntimeError** - 模式文件加载失败。
.. py:method:: add_column(name, de_type, shape=None)
向schema中添加新列。
**参数:**
参数:
- **name** (str) - 列的新名称。
- **de_type** (str) - 列的数据类型。
- **shape** (list[int], 可选) - 列shape默认值None-1表示该维度的shape是未知的。
- **name** (str): 列的新名称。
- **de_type** (str): 列的数据类型。
- **shape** (list[int], 可选): 列shape默认值None-1表示该维度的shape是未知的。
**异常:**
**ValueError** 列类型未知。
异常:
- **ValueError** - 列类型未知。
.. py:method:: from_json(json_obj)
从JSON对象获取schema文件。
**参数:**
参数:
- **json_obj** (dictionary) - 解析的JSON对象。
- **json_obj** (dictionary): 解析的JSON对象。
**异常:**
- **RuntimeError** 对象中存在未知的项。
- **RuntimeError** 对象中缺少数据集类型。
- **RuntimeError** 对象中缺少列。
异常:
- **RuntimeError** - 对象中存在未知的项。
- **RuntimeError** - 对象中缺少数据集类型。
- **RuntimeError** - 对象中缺少列。
.. py:method:: parse_columns(columns)
解析传入的数据列的属性并将其添加到自身的schema中。
**参数:**
- **columns** (Union[dict, list[dict], tuple[dict]]): 数据集属性信息从schema文件解码。
参数:
- **columns** (Union[dict, list[dict], tuple[dict]]) - 数据集属性信息从schema文件解码。
- **list** [dict]'name'和'type'必须为key值'shape'可选。
- **dict** columns.keys()作为名称columns.values()是dict其中包含'type''shape'可选。
**异常:**
异常:
- **RuntimeError** - 解析列失败。
- **RuntimeError** - 列name字段缺失。
- **RuntimeError** - 列type字段缺失。
@ -66,7 +57,6 @@ mindspore.dataset.Schema
获取schema的JSON字符串。
**返回:**
返回:
str模式的JSON字符串。

View File

@ -5,17 +5,15 @@ mindspore.dataset.SequentialSampler
按数据集的读取顺序采样数据集样本,相当于不使用采样器。
**参数:**
参数:
- **start_index** (int, 可选) - 采样的起始样本ID默认值None从数据集第一个样本开始采样。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **start_index** (int, 可选): 采样的起始样本ID默认值None从数据集第一个样本开始采样。
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**
- **TypeError** `start_index` 的类型不是int。
- **TypeError** `num_samples` 的类型不是int。
- **RuntimeError** `start_index` 为负值。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `start_index` 的类型不是int。
- **TypeError** - `num_samples` 的类型不是int。
- **RuntimeError** - `start_index` 为负值。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -5,15 +5,13 @@ mindspore.dataset.SubsetRandomSampler
给定样本的索引序列,从序列中随机获取索引对数据集进行采样。
**参数:**
参数:
- **indices** (Iterable) - 样本索引的序列除了string类型外的任意Python可迭代对象类型
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **indices** (Iterable): 样本索引的序列除了string类型外的任意Python可迭代对象类型
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**
- **TypeError** `indices` 的类型不是int。
- **TypeError** `num_samples` 的类型不是int。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `indices` 的类型不是int。
- **TypeError** - `num_samples` 的类型不是int。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -5,15 +5,13 @@ mindspore.dataset.SubsetSampler
给定样本的索引序列,对数据集采样指定索引的样本。
**参数:**
参数:
- **indices** (Iterable) - 索引的序列包括除了string类型的任意Python可迭代对象类型
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **indices** (Iterable): 索引的序列包括除了string类型的任意Python可迭代对象类型
- **num_samples** (int, 可选): 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
**异常:**
- **TypeError** `indices` 的类型不是int。
- **TypeError** `num_samples` 的类型不是int。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `indices` 的类型不是int。
- **TypeError** - `num_samples` 的类型不是int。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -5,8 +5,7 @@ mindspore.dataset.TFRecordDataset
读取和解析TFData格式的数据文件构建数据集。生成的数据集的列名和列类型取决于TFRecord文件中的保存的列名与类型。
**参数:**
参数:
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值None不指定。
@ -24,13 +23,12 @@ mindspore.dataset.TFRecordDataset
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后`num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shard_equal_rows** (bool, 可选) - 分布式训练时为所有分片获取等量的数据行数。默认值False。如果 `shard_equal_rows` 为False则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为True。注意只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
**异常:**
异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -3,10 +3,9 @@
.. py:class:: mindspore.dataset.TextFileDataset(dataset_files, num_samples=None, num_parallel_workers=None, shuffle=Shuffle.GLOBAL, num_shards=None, shard_id=None, cache=None)
读取和解析文本文件构建数据集。生成的数据集有一个数据列: `[text]` 类型为string。
**参数:**
读取和解析文本文件构建数据集。生成的数据集有一个数据列:`[text]` 类型为string。
参数:
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **num_samples** (int可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
@ -21,8 +20,7 @@
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
**异常:**
异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
- **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
- **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。

View File

@ -10,8 +10,7 @@ mindspore.dataset.VOCDataset
- `task` = 'Detection',输出列: `[image, dtype=uint8]` , `[bbox, dtype=float32]` , `[label, dtype=uint32]` , `[difficult, dtype=uint32]` , `[truncate, dtype=uint32]`
- `task` = 'Segmentation',输出列: `[image, dtype=uint8]` , `[target, dtype=uint8]`
**参数:**
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **task** (str, 可选) - 指定读取VOC数据的任务类型现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
- **usage** (str, 可选) - 指定数据集的子集,默认值:'train'。
@ -31,8 +30,7 @@ mindspore.dataset.VOCDataset
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列默认值False。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。
**异常:**
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
- **RuntimeError** - 读取的xml文件格式异常或无效。
- **RuntimeError** - 读取的xml文件缺失 `object` 属性。

View File

@ -13,24 +13,21 @@ mindspore.dataset.WaitedDSCallback
.. note:: 注意第2个step或epoch开始时才会触发该调用。
**参数:**
参数:
- **step_size** (int, optional) - 每个step包含的数据行数。通常step_size与batch_size一致默认值1。
.. py:method:: sync_epoch_begin(train_run_context, ds_run_context)
用于定义在数据epoch开始前训练epoch结束后执行的回调方法。
**参数:**
- **train_run_context**包含前一个epoch的反馈信息的网络训练运行信息。
- **ds_run_context**:数据处理管道运行信息。
参数:
- **train_run_context** - 包含前一个epoch的反馈信息的网络训练运行信息。
- **ds_run_context** - 数据处理管道运行信息。
.. py:method:: sync_step_begin(train_run_context, ds_run_context)
用于定义在数据step开始前训练step结束后执行的回调方法。
**参数:**
- **train_run_context**包含前一个step的反馈信息的网络训练运行信息。
- **ds_run_context**:数据处理管道运行信息。
参数:
- **train_run_context** - 包含前一个step的反馈信息的网络训练运行信息。
- **ds_run_context** - 数据处理管道运行信息。

View File

@ -5,19 +5,17 @@ mindspore.dataset.WeightedRandomSampler
给定样本的权重列表,根据权重决定样本的采样概率,随机采样[0len(weights) - 1]中的样本。
**参数:**
参数:
- **weights** (list[float, int]) - 权重序列总和不一定为1。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **replacement** (bool) - 是否将样本ID放回下一次采样默认值True有放回采样。
**异常:**
- **TypeError** `weights` 元素的类型不是数值类型。
- **TypeError** `num_samples` 的类型不是int。
- **TypeError** `replacement` 的类型不是bool。
- **RuntimeError** `weights` 为空或全为零。
- **ValueError** `num_samples` 为负值。
异常:
- **TypeError** - `weights` 元素的类型不是数值类型。
- **TypeError** - `num_samples` 的类型不是int。
- **TypeError** - `replacement` 的类型不是bool。
- **RuntimeError** - `weights` 为空或全为零。
- **ValueError** - `num_samples` 为负值。
.. include:: mindspore.dataset.BuiltinSampler.rst

View File

@ -8,15 +8,12 @@
.. note::
目前不支持某些Python对象序列化。对于map算子的自定义Python函数序列化 `mindspore.dataset.serialize` 仅返回其函数名称。
**参数:**
- **dataset** (Dataset): 数据处理管道对象。
- **json_filepath** (str): 生成序列化JSON文件的路径。
**返回:**
参数:
- **dataset** (Dataset) - 数据处理管道对象。
- **json_filepath** (str) - 生成序列化JSON文件的路径。
返回:
Dict包含序列化数据集图的字典。
**异常:**
**OSError** - 无法打开文件。
异常:
- **OSError** - 无法打开文件。

View File

@ -5,7 +5,6 @@ mindspore.dataset.show
将数据处理管道图写入MindSpore的INFO级别日志文件。
**参数:**
- **dataset** (Dataset): 数据处理管道对象。
- **indentation** (int, optional): 设置MindSpore的INFO级别日志文件打印时的缩进字符数。若为None则不缩进。
参数:
- **dataset** (Dataset) - 数据处理管道对象。
- **indentation** (int, optional) - 设置MindSpore的INFO级别日志文件打印时的缩进字符数。若为None则不缩进。

View File

@ -7,8 +7,7 @@ mindspore.dataset.sync_wait_for_dataset
.. note:: 需要配合 `mindspore.dataset.OBSMindDataset` 使用建议在每次epoch开始前调用。
**参数:**
参数:
- **rank_id** (int) - 当前卡的逻辑序号。
- **rank_size** (int) - 卡的数量。
- **current_epoch** (int) - 训练时当前的epoch数。

View File

@ -5,8 +5,7 @@
使用给定的边界框和类别置信度绘制图像。
**参数:**
参数:
- **image** (numpy.ndarray) - 待绘制的图像shape为(C, H, W)或(H, W, C)通道顺序为RGB。
- **bboxes** (numpy.ndarray) - 边界框包含类别置信度shape为(N, 4)或(N, 5),格式为(N,X,Y,W,H)。
- **labels** (numpy.ndarray) - 边界框的类别shape为(N, 1)。
@ -23,12 +22,10 @@
- **wait_time** (int) - 指定cv2.waitKey的时延单位为ms即图像显示的自动切换间隔默认值2000表示间隔为2000ms。
- **out_file** (str, optional) - 输出图像的文件路径用于在绘制后将结果存储到本地默认值None不保存。
**返回:**
返回:
numpy.ndarray带边界框和类别置信度的图像。
**异常:**
异常:
- **ImportError** - 当未安装opencv-python库。
- **AssertionError** - 当 `image` 的格式不为(H, W, C)或(C, H, W)。
- **AssertionError** - 当 `bboxes` 的格式不为(N, 4)或(N, 5)。

View File

@ -5,15 +5,12 @@ mindspore.dataset.zip
将多个dataset对象按列进行合并压缩。
**参数:**
参数:
- **datasets** (tuple[Dataset]) - 要合并的多个dataset对象。 `datasets` 参数的长度必须大于1。
**返回:**
返回:
ZipDataset合并后的dataset对象。
**异常:**
异常:
- **ValueError** - `datasets` 参数的长度为1。
- **TypeError** - datasets参数不是tuple。