fix: doc review

This commit is contained in:
jonyguo 2022-11-02 11:17:18 +08:00
parent 211c8891d8
commit 2020f50d86
170 changed files with 1582 additions and 1579 deletions

View File

@ -3,7 +3,7 @@ mindspore.dataset.Dataset.get_repeat_count
.. py:method:: mindspore.dataset.Dataset.get_repeat_count()
获取 `RepeatDataset` 中定义的repeat操作的次数默认值1。
获取 `RepeatDataset` 中定义的repeat操作的次数默认值1。
返回:
intrepeat操作的次数。

View File

@ -7,7 +7,7 @@ mindspore.dataset.Dataset.output_shapes
参数:
- **estimate** (bool) - 如果 `estimate` 为 False将返回数据集第一条数据的shape。
否则将遍历整个数据集以获取数据集的真实shape信息其中动态变化的维度将被标记为None可用于动态shape数据集场景默认值False。
否则将遍历整个数据集以获取数据集的真实shape信息其中动态变化的维度将被标记为None可用于动态shape数据集场景默认值False。
返回:
list每列数据的shape列表。

View File

@ -62,5 +62,5 @@ mindspore.dataset.Dataset.save
参数:
- **file_name** (str) - 数据集文件的路径。
- **num_files** (int, 可选) - 数据集文件的数量默认值1。
- **file_type** (str, 可选) - 数据集格式默认值:'mindrecord'。
- **num_files** (int, 可选) - 数据集文件的数量默认值1。
- **file_type** (str, 可选) - 数据集格式默认值:'mindrecord'。

View File

@ -14,7 +14,7 @@ mindspore.dataset.Dataset.split
- 如果子数据集大小的总和小于KK - sigma(round(fi * k))的值将添加到第一个子数据集sigma为求和操作。
- 如果子数据集大小的总和大于Ksigma(round(fi * K)) - K的值将从第一个足够大的子数据集中删除且删除后的子数据集大小至少大于1。
- **randomize** (bool, 可选) - 确定是否随机拆分数据默认值True数据集将被随机拆分。否则将按顺序拆分为多个不重叠的子数据集。
- **randomize** (bool, 可选) - 确定是否随机拆分数据默认值True数据集将被随机拆分。否则将按顺序拆分为多个不重叠的子数据集。
.. note::
1. 如果进行拆分操作的数据集对象为MappableDataset类型则将自动调用一个优化后的split操作。

View File

@ -10,7 +10,7 @@ mindspore.dataset.Dataset.take
2. take和batch操作顺序很重要如果take在batch操作之前则取给定条数否则取给定batch数。
参数:
- **count** (int, 可选) - 要从数据集对象中获取的数据条数默认值:-1获取所有数据。
- **count** (int, 可选) - 要从数据集对象中获取的数据条数默认值:-1获取所有数据。
返回:
TakeDatasettake操作后的数据集对象。

View File

@ -6,10 +6,10 @@ mindspore.dataset.Dataset.zip
将多个dataset对象按列进行合并压缩多个dataset对象不能有相同的列名。
参数:
- **datasets** (tuple[Dataset]) - 要合并的多个dataset对象。
- **datasets** (Union[Dataset, tuple[Dataset]]) - 要合并的多个dataset对象。
返回:
ZipDataset合并后的dataset对象。
异常:
- **TypeError** - `datasets` 参数不是dataset对象/tuple(dataset)
- **TypeError** - `datasets` 参数不是dataset对象/tuple[dataset]

View File

@ -6,7 +6,7 @@ mindspore.dataset.Dataset.device_que
将数据异步传输到Ascend/GPU设备上。
参数:
- **send_epoch_end** (bool, 可选) - 数据发送完成后是否发送结束标识到设备上默认值True。
- **send_epoch_end** (bool, 可选) - 数据发送完成后是否发送结束标识到设备上默认值True。
- **create_data_info_queue** (bool, 可选) - 是否创建一个队列用于存储每条数据的数据类型和shape。默认值False不创建。
.. note::

View File

@ -7,5 +7,5 @@ mindspore.dataset.Dataset.sync_update
参数:
- **condition_name** (str) - 用于触发发送下一个数据行的条件名称。
- **num_batch** (Union[int, None]) - 释放的batchrow数。当 `num_batch` 为None时将默认为 `sync_wait` 操作指定的值默认值None。
- **data** (Any) - 用户自定义传递给回调函数的数据默认值None。
- **num_batch** (Union[int, None]) - 释放的batchrow数。当 `num_batch` 为None时将默认为 `sync_wait` 操作指定的值默认值None。
- **data** (Any) - 用户自定义传递给回调函数的数据默认值None。

View File

@ -10,10 +10,10 @@
参数:
- **data_dir** (str) - 加载数据集的目录,这里包含原始格式的数据,并将在 `process` 方法中被加载。
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数,如下述示例,建议初始化时明确它的取值如:`column_names=["edge_index", "x", "y", "cluster", "valid_len", "time_step_len"]`
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数,如下述示例,建议初始化时明确它的取值如:`column_names=["edge_index", "x", "y", "cluster", "valid_len", "time_step_len"]`
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **shuffle** (bool可选) - 是否混洗数据集。当实现的Dataset带有可随机访问属性 `__getitem__` 才可以指定该参数。默认值None。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **perf_mode** (bool可选) - 遍历创建的dataset对象时获得更高性能的模式在此过程中将调用 `__getitem__` 方法。默认值True将Graph的所有数据如边的索引、节点特征和图的特征都作为图特征进行存储。

View File

@ -10,18 +10,18 @@ mindspore.dataset.CLUEDataset
参数:
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'eval'默认值:'train'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''test'或'eval'默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列:

View File

@ -7,20 +7,20 @@
参数:
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **field_delim** (str, 可选) - 指定用于分隔字段的分隔符默认值:','。
- **field_delim** (str, 可选) - 指定用于分隔字段的分隔符默认值:','。
- **column_defaults** (list, 可选) - 指定每个数据列的数据类型有效的类型包括float、int或string。默认值None不指定。如果未指定该参数则所有列的数据类型将被视为string。
- **column_names** (list[str], 可选) - 指定数据集生成的列名。默认值None不指定。如果未指定该列表则将CSV文件首行提供的字段作为列名生成。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -21,11 +21,11 @@ mindspore.dataset.Caltech101Dataset
取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值None表示'category'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。

View File

@ -11,11 +11,11 @@ mindspore.dataset.Caltech256Dataset
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -10,14 +10,14 @@ mindspore.dataset.CelebADataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值:'all',全部样本图片。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中默认值None。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中默认值None。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。

View File

@ -13,10 +13,10 @@ mindspore.dataset.Cifar100Dataset
取值为'train'时将会读取50,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -13,10 +13,10 @@ mindspore.dataset.Cifar10Dataset
取值为'train'时将会读取50,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部60,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -16,11 +16,11 @@ mindspore.dataset.CityscapesDataset
- **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -10,14 +10,14 @@
- **annotation_file** (str) - 数据集标注JSON文件的路径。
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值使用mindspore.dataset.config中配置的线程数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None表2中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列默认值False。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列默认值False。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。
[表1] 根据不同 `task` 参数设置,生成数据集具有不同的输出列:

View File

@ -15,11 +15,11 @@ mindspore.dataset.DIV2KDataset
当参数 `downgrade` 取值为'unknown'时此参数可以取值为2、3、4。当参数 `downgrade` 取值为'mild'、'difficult'、'wild'时此参数仅可以取值为4。默认值2。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -8,7 +8,7 @@ mindspore.dataset.DSCallback
用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
参数:
- **step_size** (int, 可选) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数默认值1表示每个step都会调用。
- **step_size** (int, 可选) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数默认值1表示每个step都会调用。
.. py:method:: ds_begin(ds_run_context)

View File

@ -8,8 +8,8 @@ mindspore.dataset.DistributedSampler
参数:
- **num_shards** (int) - 数据集分片数量。
- **shard_id** (int) - 当前分片的分片ID应在[0, num_shards-1]范围内。
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本默认值True混洗样本。
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本默认值None获取采样到的所有样本。
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本默认值True混洗样本。
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本默认值None获取采样到的所有样本。
- **offset** (int, 可选) - 分布式采样结果进行分配时的起始分片ID号值不能大于参数 `num_shards` 。从不同的分片ID开始分配数据可能会影响每个分片的最终样本数。仅当ConcatDataset以DistributedSampler为采样器时此参数才有效。默认值-1每个分片具有相同的样本数。
异常:

View File

@ -14,8 +14,8 @@ mindspore.dataset.EMnistDataset
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -14,8 +14,8 @@ mindspore.dataset.FakeImageDataset
- **base_seed** (int, 可选) - 生成随机图像的随机种子。默认值0。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -13,8 +13,8 @@ mindspore.dataset.FashionMnistDataset
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -11,12 +11,12 @@
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **annotation_file** (str) - 数据集标注JSON文件的路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值使用mindspore.dataset.config中配置的线程数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None表2中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值None不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值None不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -16,9 +16,9 @@ mindspore.dataset.Flowers102Dataset
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train''valid''test'或'all'。默认值:'all',读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值1。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值False不解码。
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。

View File

@ -11,20 +11,20 @@
- 如果 `source` 是可调用对象,要求 `source` 对象可以通过 `source().next()` 的方式返回一个由NumPy数组构成的元组。
- 如果 `source` 是可迭代对象,要求 `source` 对象通过 `iter(source).next()` 的方式返回一个由NumPy数组构成的元组。
- 如果 `source` 是支持随机访问的对象,要求 `source` 对象通过 `source[idx]` 的方式返回一个由NumPy数组构成的元组。
- **column_names** (Union[str, list[str]],可选) - 指定数据集生成的列名默认值None不指定。用户可以通过此参数或 `schema` 参数指定列名。
- **column_types** (list[mindspore.dtype],可选) - 指定生成数据集各个数据列的数据类型默认值None不指定。
- **column_names** (Union[str, list[str]],可选) - 指定数据集生成的列名默认值None不指定。用户可以通过此参数或 `schema` 参数指定列名。
- **column_types** (list[mindspore.dtype],可选) - 指定生成数据集各个数据列的数据类型默认值None不指定。
如果未指定该参数,则自动推断类型;如果指定了该参数,将在数据输出时做类型匹配检查。
- **schema** (Union[Schema, str],可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值None不指定。
用户可以通过提供 `column_names``schema` 指定数据集的列名,但如果同时指定两者,则将优先从 `schema` 中获取列名信息。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **shuffle** (bool可选) - 是否混洗数据集。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **sampler** (Union[Sampler, Iterable],可选) - 指定从数据集中选取样本的采样器。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间默认值6单位为MB。仅当参数 `python_multiprocessing` 设为True时此参数才会生效。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **shuffle** (bool可选) - 是否混洗数据集。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **sampler** (Union[Sampler, Iterable],可选) - 指定从数据集中选取样本的采样器。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间默认值6单位为MB。仅当参数 `python_multiprocessing` 设为True时此参数才会生效。
异常:
- **RuntimeError** - Python对象 `source` 在执行期间引发异常。

View File

@ -14,17 +14,17 @@ mindspore.dataset.Graph
- **graph_feat** (dict, 可选) - 附加特征,不能分配给 `node_feat` 或者 `edge_feat` 输入数据格式应该是dictkey是特征的类型用字符串表示; value应该是NumPy数组其shape可以不受限制。
- **node_type** (Union[list, numpy.ndarray], 可选) - 节点的类型每个元素都是字符串表示每个节点的类型。如果未提供则每个节点的默认类型为“0”。
- **edge_type** (Union[list, numpy.ndarray], 可选) - 边的类型每个元素都是字符串表示每条边的类型。如果未提供则每条边的默认类型为“0”。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'默认值:'local'。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'默认值:'local'。
- **local**:用于非分布式训练场景。
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
- **server**:用于分布式训练场景。服务器加载数据并可供客户端使用。
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效默认值:'127.0.0.1'。
- **port** (int, 可选) - 图数据服务器的端口取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效默认值50051。
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效默认值1。
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出默认值True。
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效默认值:'127.0.0.1'。
- **port** (int, 可选) - 图数据服务器的端口取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效默认值50051。
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效默认值1。
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出默认值True。
异常:
- **TypeError** - 如果 `edges` 不是list或NumPy array类型。
@ -44,7 +44,7 @@ mindspore.dataset.Graph
获取图的所有边。
参数:
- **edge_type** (str) - 指定边的类型Graph初始化未指定 `edge_type` 时,默认值为'0'。
- **edge_type** (str) - 指定边的类型。默认值:'0'。
返回:
numpy.ndarray包含边的数组。
@ -143,7 +143,7 @@ mindspore.dataset.Graph
参数:
- **node_list** (Union[list, numpy.ndarray]) - 给定的节点列表。
- **neighbor_type** (str) - 指定相邻节点的类型。
- **output_format** (OutputFormat, 可选) - 输出存储格式默认值mindspore.dataset.OutputFormat.NORMAL取值范围[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
- **output_format** (OutputFormat, 可选) - 输出存储格式默认值mindspore.dataset.OutputFormat.NORMAL取值范围[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
返回:
对于普通格式或COO格式将返回numpy.ndarray类型的数组表示相邻节点。如果指定了CSR格式将返回两个numpy.ndarray数组第一个表示偏移表第二个表示相邻节点。
@ -157,7 +157,7 @@ mindspore.dataset.Graph
获取图中的所有节点。
参数:
- **node_type** (str) - 指定节点的类型。Graph初始化未指定 `node_type` 时,默认值为'0'。
- **node_type** (str) - 指定节点的类型。默认值:'0'。
返回:
numpy.ndarray包含节点的数组。
@ -259,7 +259,7 @@ mindspore.dataset.Graph
- **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。
- **neighbor_nums** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点数。
- **neighbor_types** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点类型,列表或数组中每个元素都应该是字符串类型。
- **strategy** (SamplingStrategy, 可选) - 采样策略默认值mindspore.dataset.SamplingStrategy.RANDOM。取值范围[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
- **strategy** (SamplingStrategy, 可选) - 采样策略默认值mindspore.dataset.SamplingStrategy.RANDOM。取值范围[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
- **SamplingStrategy.RANDOM**:随机抽样,带放回采样。
- **SamplingStrategy.EDGE_WEIGHT**:以边缘权重为概率进行采样。
@ -286,9 +286,9 @@ mindspore.dataset.Graph
参数:
- **target_nodes** (list[int]) - 随机游走中的起始节点列表。
- **meta_path** (list[int]) - 每个步长的节点类型。
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参默认值1.0。
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参默认值1.0。
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点默认值:-1表示不给定节点。
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参默认值1.0。
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参默认值1.0。
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点默认值:-1表示不给定节点。
返回:
numpy.ndarray包含节点的数组。

View File

@ -8,17 +8,17 @@ mindspore.dataset.GraphData
参数:
- **dataset_file** (str) - 数据集文件路径。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'默认值:'local'。
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数默认值None使用mindspore.dataset.config中配置的线程数。
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'默认值:'local'。
- **local**:用于非分布式训练场景。
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
- **server**:用于分布式训练场景。服务器加载数据并可供客户端使用。
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效默认值:'127.0.0.1'。
- **port** (int, 可选) - 图数据服务器的端口取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效默认值50051。
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效默认值1。
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出默认值True。
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效默认值:'127.0.0.1'。
- **port** (int, 可选) - 图数据服务器的端口取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效默认值50051。
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效默认值1。
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出默认值True。
异常:
- **ValueError** - `dataset_file` 路径下数据文件不存在或无效。
@ -132,7 +132,7 @@ mindspore.dataset.GraphData
参数:
- **node_list** (Union[list, numpy.ndarray]) - 给定的节点列表。
- **neighbor_type** (int) - 指定相邻节点的类型。
- **output_format** (OutputFormat, 可选) - 输出存储格式默认值mindspore.dataset.OutputFormat.NORMAL取值范围[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
- **output_format** (OutputFormat, 可选) - 输出存储格式默认值mindspore.dataset.OutputFormat.NORMAL取值范围[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
返回:
对于普通格式或COO格式将返回numpy.ndarray类型的数组表示相邻节点。如果指定了CSR格式将返回两个numpy.ndarray数组第一个表示偏移表第二个表示相邻节点。
@ -236,7 +236,7 @@ mindspore.dataset.GraphData
- **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。
- **neighbor_nums** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点数。
- **neighbor_types** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点类型列表或数组中每个元素都应该是int类型。
- **strategy** (SamplingStrategy, 可选) - 采样策略默认值mindspore.dataset.SamplingStrategy.RANDOM。取值范围[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
- **strategy** (SamplingStrategy, 可选) - 采样策略默认值mindspore.dataset.SamplingStrategy.RANDOM。取值范围[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
- **SamplingStrategy.RANDOM**:随机抽样,带放回采样。
- **SamplingStrategy.EDGE_WEIGHT**:以边缘权重为概率进行采样。
@ -263,9 +263,9 @@ mindspore.dataset.GraphData
参数:
- **target_nodes** (list[int]) - 随机游走中的起始节点列表。
- **meta_path** (list[int]) - 每个步长的节点类型。
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参默认值1.0。
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参默认值1.0。
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点默认值:-1表示不给定节点。
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参默认值1.0。
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参默认值1.0。
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点默认值:-1表示不给定节点。
返回:
numpy.ndarray包含节点的数组。

View File

@ -14,8 +14,8 @@ mindspore.dataset.IMDBDataset
对于Polarity数据集'train'将读取360万个训练样本'test'将读取40万个测试样本'all'将读取所有400万个样本。
对于Full数据集'train'将读取300万个训练样本'test'将读取65万个测试样本'all'将读取所有365万个样本。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -11,13 +11,13 @@ mindspore.dataset.ImageFolderDataset
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中默认值None。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中默认值None。
- **class_indexing** (dict, 可选) - 指定文件夹名称到label索引的映射要求映射规则为string到int。文件夹名称将按字母顺序排列索引值从0开始并且要求每个文件夹名称对应的索引值唯一。默认值None不指定。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。

View File

@ -11,15 +11,15 @@
参数:
- **data_dir** (str) - 加载数据集的目录,这里包含原始格式的数据,并将在 `process` 方法中被加载。
- **save_dir** (str) - 保存处理后得到的数据集的相对目录,该目录位于 `data_dir` 下面默认值:"./processed"。
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **save_dir** (str) - 保存处理后得到的数据集的相对目录,该目录位于 `data_dir` 下面默认值:"./processed"。
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)默认值1。
- **shuffle** (bool可选) - 是否混洗数据集。当实现的Dataset带有可随机访问属性 `__getitem__` 才可以指定该参数。默认值None。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间默认值6单位为MB。仅当参数 `python_multiprocessing` 设为True时此参数才会生效。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **python_multiprocessing** (bool可选) - 启用Python多进程模式加速运算默认值True。当传入 `source` 的Python对象的计算量很大时开启此选项可能会有较好效果。
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间默认值6单位为MB。仅当参数 `python_multiprocessing` 设为True时此参数才会生效。
.. py:method:: load()

View File

@ -13,8 +13,8 @@ mindspore.dataset.KMnistDataset
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -12,8 +12,8 @@ mindspore.dataset.LJSpeechDataset
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本音频。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -9,15 +9,15 @@
参数:
- **dataset_file** (str) - 数据集文件的目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference'默认值:'train'。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference'默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射要求映射规则为string到int。索引值从0开始并且要求每个label名称对应的索引值唯一。默认值None不指定。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -9,7 +9,7 @@
- **dataset_files** (Union[str, list[str]]) - MindRecord文件路径支持单文件路径字符串、多文件路径字符串列表。如果 `dataset_files` 的类型是字符串则它代表一组具有相同前缀名的MindRecord文件同一路径下具有相同前缀名的其他MindRecord文件将会被自动寻找并加载。如果 `dataset_files` 的类型是列表则它表示所需读取的MindRecord数据文件。
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值None读取所有列。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
@ -17,9 +17,9 @@
- **Shuffle.FILES**:仅混洗文件。
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
- **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `column_list` 指定的列名相同。默认值None不添加样本。需要与 `num_padded` 参数同时使用。
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值None不添加样本。需要与 `padded_sample` 参数同时使用。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。

View File

@ -13,10 +13,10 @@ mindspore.dataset.MnistDataset
取值为'train'时将会读取60,000个训练样本取值为'test'时将会读取10,000个测试样本取值为'all'时将会读取全部70,000个样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -8,16 +8,16 @@ mindspore.dataset.NumpySlicesDataset
参数:
- **data** (Union[list, tuple, dict]) - 输入的Python数据。支持的数据类型包括list、tuple、dict和其他NumPy格式。
输入数据将沿着第一个维度切片并生成额外的行。如果输入是单个list则将生成一个数据列若是嵌套多个list则生成多个数据列。不建议通过这种方式加载大量的数据因为可能会在数据加载到内存时等待较长时间。
- **column_names** (list[str], 可选) - 指定数据集生成的列名默认值None不指定。
- **column_names** (list[str], 可选) - 指定数据集生成的列名默认值None不指定。
如果未指定该参数且当输入数据的类型是dict时输出列名称将被命名为dict的键名否则它们将被统一命名为column_0column_1...。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值1。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数默认值1。
- **shuffle** (bool, 可选) - 是否混洗数据集。
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`才可以指定该参数。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。

View File

@ -14,7 +14,7 @@
- **sk** (str) - 访问密钥中的SK。
- **sync_obs_path** (str) - 用于同步操作云存储上的路径用户需要提前创建目录路径的格式为s3://bucketName/objectKey。
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值None读取所有列。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
@ -22,8 +22,8 @@
- **Shuffle.FILES**:仅混洗文件。
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shard_equal_rows** (bool, 可选) - 分布式训练时为所有分片获取等量的数据行数。默认值True。
如果 `shard_equal_rows` 为False则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。
因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为True。注意只有当指定了 `num_shards` 时才能指定此参数。

View File

@ -7,9 +7,9 @@ mindspore.dataset.PKSampler
参数:
- **num_val** (int) - 每个类要采样的元素数量。
- **num_class** (int, 可选) - 要采样的类数量默认值为None采样所有类。当前不支持指定该参数。
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本默认值False不混洗样本。
- **class_column** (str, 可选) - 指定label所属数据列的名称将基于此列作为数据标签进行采样默认值:'label'。
- **num_class** (int, 可选) - 要采样的类数量默认值为None采样所有类。当前不支持指定该参数。
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本默认值False不混洗样本。
- **class_column** (str, 可选) - 指定label所属数据列的名称将基于此列作为数据标签进行采样默认值:'label'。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
异常:

View File

@ -17,8 +17,8 @@ mindspore.dataset.PhotoTourDataset
取值为'test'时将读取100,000个测试样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -10,15 +10,15 @@ mindspore.dataset.Places365Dataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val'默认值:'train-standard'。
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val'默认值:'train-standard'。
- **small** (bool, 可选) - 是否使用256*256的低分辨率图像True或高分辨率图像False。默认值False使用低分辨率图像。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -9,14 +9,14 @@ mindspore.dataset.QMnistDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all'默认值None读取所有子集。
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all'默认值None读取所有子集。
- **compat** (bool, 可选) - 指定每个样本的标签是类别号compat=True还是完整的QMNIST信息compat=False。默认值True标签为类别号。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -9,13 +9,13 @@ mindspore.dataset.RandomDataset
- **total_rows** (int, 可选) - 随机生成样本数据的数量。默认值None生成随机数量的样本。
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值None不指定。
- **columns_list** (list[str], 可选) - 指定生成数据集的列名默认值None生成的数据列将以"c0""c1""c2" ... "cn"的规则命名。
- **columns_list** (list[str], 可选) - 指定生成数据集的列名默认值None生成的数据列将以"c0""c1""c2" ... "cn"的规则命名。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
.. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -6,7 +6,7 @@ mindspore.dataset.RandomSampler
随机采样器。
参数:
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样默认值False无放回采样。
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样默认值False无放回采样。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
异常:

View File

@ -16,11 +16,11 @@ mindspore.dataset.SBDataset
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'val'、'train_noval'和'all'。默认值:'train'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。

View File

@ -9,13 +9,13 @@ mindspore.dataset.SBUDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -14,10 +14,10 @@ mindspore.dataset.STL10Dataset
取值为'all'时将会读取全部类型的样本。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -12,10 +12,10 @@ mindspore.dataset.SVHNDataset
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'extra'或'all'。默认值None读取全部样本图片。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数可以小于数据集总数。默认值None读取全部样本图片。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。

View File

@ -6,7 +6,7 @@ mindspore.dataset.Schema
用于解析和存储数据列属性的类。
参数:
- **schema_file** (str) - schema文件的路径默认值None。
- **schema_file** (str) - schema文件的路径默认值None。
返回:
schema对象关于数据集的行列配置的策略信息。
@ -21,7 +21,7 @@ mindspore.dataset.Schema
参数:
- **name** (str) - 列的新名称。
- **de_type** (str) - 列的数据类型。
- **shape** (list[int], 可选) - 列shape默认值None-1表示该维度的shape是未知的。
- **shape** (list[int], 可选) - 列shape默认值None-1表示该维度的shape是未知的。
异常:
- **ValueError** - 列类型未知。

View File

@ -11,10 +11,10 @@ mindspore.dataset.SemeionDataset
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -6,7 +6,7 @@ mindspore.dataset.SequentialSampler
按数据集的读取顺序采样数据集样本,相当于不使用采样器。
参数:
- **start_index** (int, 可选) - 采样的起始样本ID默认值None从数据集第一个样本开始采样。
- **start_index** (int, 可选) - 采样的起始样本ID默认值None从数据集第一个样本开始采样。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
异常:

View File

@ -13,15 +13,15 @@ mindspore.dataset.SogouNewsDataset
取值为'train'时将会读取45万个训练样本取值为'test'时将会读取6万个测试样本取值为'all'时将会读取全部51万个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -14,10 +14,10 @@ mindspore.dataset.SpeechCommandsDataset
取值为'train'时将会读取84,843个训练样本取值为'test'时将会读取11,005个测试样本取值为'valid'时将会读取9,981个测试样本取值为'all'时将会读取全部105,829个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -10,21 +10,21 @@ mindspore.dataset.TFRecordDataset
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值None不指定。
- **columns_list** (list[str], 可选) - 指定从TFRecord文件中读取的数据列。默认值None读取所有列。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数默认值None读取全部样本。
- 如果 `num_samples` 为None并且numRows字段由参数 `schema` 定义)不存在,则读取所有数据集;
- 如果 `num_samples` 为None并且numRows字段由参数 `schema` 定义的值大于0则读取numRows条数据
- 如果 `num_samples` 和numRows字段由参数 `schema` 定义的值都大于0此时仅有参数 `num_samples` 生效且读取给定数量的数据。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后`num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后`num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shard_equal_rows** (bool, 可选) - 分布式训练时为所有分片获取等量的数据行数。默认值False。如果 `shard_equal_rows` 为False则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为True。注意只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -17,10 +17,10 @@ mindspore.dataset.TedliumDataset
- **extensions** (str, 可选) - 指定SPH文件的扩展名。默认值'.sph'。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -9,15 +9,15 @@
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串文件列表将在内部进行字典排序。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -12,15 +12,15 @@ mindspore.dataset.UDPOSDataset
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
取值为'train'时将会读取12,543个样本取值为'test'时将会读取2,077个测试样本取值为'test'时将会读取9,981个样本取值为'valid'时将会读取2,002个样本取值为'all'时将会读取全部16,622个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -13,15 +13,15 @@ mindspore.dataset.USPSDataset
取值为'train'时将会读取7,291个样本取值为'test'时将会读取2,077个测试样本取值为'test'时将会读取2,007个样本取值为'all'时将会读取全部9,298个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -13,7 +13,7 @@ mindspore.dataset.VOCDataset
参数:
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
- **task** (str, 可选) - 指定读取VOC数据的任务类型现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
- **usage** (str, 可选) - 指定数据集的子集默认值:'train'。
- **usage** (str, 可选) - 指定数据集的子集默认值:'train'。
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息
- 如果 'task' 的值为 'Detection' ,则读取 'ImageSets/Main/' 目录下定义的图片和label信息。
@ -21,13 +21,13 @@ mindspore.dataset.VOCDataset
仅在 'Detection' 任务中有效。默认值None不指定。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None所有图像样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列默认值False。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列默认值False。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值None不进行解密。
异常:

View File

@ -14,11 +14,11 @@ mindspore.dataset.WIDERFaceDataset
取值为'train'时将会读取12,880个样本取值为'test'时将会读取2,077个测试样本取值为'test'时将会读取16,097个样本取值为'valid'时将会读取3,226个样本取值为'all'时将会读取全部类别样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作默认值False不解码。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -14,7 +14,7 @@ mindspore.dataset.WaitedDSCallback
.. note:: 注意第2个step或epoch开始时才会触发该调用。
参数:
- **step_size** (int, 可选) - 每个step包含的数据行数。通常step_size与batch_size一致默认值1。
- **step_size** (int, 可选) - 每个step包含的数据行数。通常step_size与batch_size一致默认值1。
.. py:method:: sync_epoch_begin(train_run_context, ds_run_context)

View File

@ -8,7 +8,7 @@ mindspore.dataset.WeightedRandomSampler
参数:
- **weights** (list[float, int]) - 权重序列总和不一定为1。
- **num_samples** (int, 可选) - 获取的样本数可用于部分获取采样得到的样本。默认值None获取采样到的所有样本。
- **replacement** (bool) - 是否将样本ID放回下一次采样默认值True有放回采样。
- **replacement** (bool) - 是否将样本ID放回下一次采样默认值True有放回采样。
异常:
- **TypeError** - `weights` 元素的类型不是数值类型。

View File

@ -12,15 +12,15 @@ mindspore.dataset.WikiTextDataset
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train', 'test', 'valid'或'all'。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -13,15 +13,15 @@ mindspore.dataset.YahooAnswersDataset
取值为'train'时将会读取1,400,000个训练样本取值为'test'时将会读取60,000个测试样本取值为'all'时将会读取全部1,460,000个样本。默认值None读取全部样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -13,15 +13,15 @@ mindspore.dataset.YelpReviewDataset
对于Polarity数据集'train'将读取560,000个训练样本'test'将读取38,000个测试样本'all'将读取所有598,000个样本。
对于Full数据集'train'将读取650,000个训练样本'test'将读取50,000个测试样本'all'将读取所有700,000个样本。默认值None读取所有样本。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式支持传入bool类型与枚举类型进行指定默认值mindspore.dataset.Shuffle.GLOBAL。
如果 `shuffle` 为False则不混洗如果 `shuffle` 为True等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
通过传入枚举变量设置数据混洗的模式:
- **Shuffle.GLOBAL**:混洗文件和样本。
- **Shuffle.FILES**:仅混洗文件。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。

View File

@ -12,10 +12,10 @@ mindspore.dataset.YesNoDataset
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值None读取全部样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值None使用mindspore.dataset.config中配置的线程数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器默认值None下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值None下表中会展示不同参数配置的预期行为。
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值None。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数默认值None。指定此参数后 `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号默认值None。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值None不使用缓存。
异常:

View File

@ -12,7 +12,7 @@
参数:
- **dataset** (Dataset) - 数据处理管道对象。
- **json_filepath** (str) - 生成序列化JSON文件的路径默认值:''不指定JSON路径。
- **json_filepath** (str) - 生成序列化JSON文件的路径默认值:''不指定JSON路径。
返回:
Dict包含序列化数据集图的字典。

View File

@ -9,18 +9,18 @@
- **image** (numpy.ndarray) - 待绘制的图像shape为(C, H, W)或(H, W, C)通道顺序为RGB。
- **bboxes** (numpy.ndarray) - 边界框包含类别置信度shape为(N, 4)或(N, 5),格式为(N,X,Y,W,H)。
- **labels** (numpy.ndarray) - 边界框的类别shape为(N, 1)。
- **segm** (numpy.ndarray) - 图像分割掩码shape为(M, H, W)M表示类别总数默认值None不绘制掩码。
- **class_names** (list[str], tuple[str], dict) - 类别索引到类别名的映射表默认值None仅显示类别索引。
- **score_threshold** (float) - 绘制边界框的类别置信度阈值默认值0绘制所有边界框。
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色顺序为BGR默认值:(0,255,0),表示绿色。
- **text_color** (tuple(int)) - 指定类别文本的显示颜色顺序为BGR默认值:(203, 192, 255),表示粉色。
- **mask_color** (tuple(int)) - 指定掩码的显示颜色顺序为BGR默认值:(128, 0, 128),表示紫色。
- **thickness** (int) - 指定边界框和类别文本的线条粗细默认值2。
- **font_size** (int, float) - 指定类别文本字体大小默认值0.8。
- **show** (bool) - 是否显示图像默认值True。
- **win_name** (str) - 指定窗口名称默认值:"win"。
- **wait_time** (int) - 指定cv2.waitKey的时延单位为ms即图像显示的自动切换间隔默认值2000表示间隔为2000ms。
- **out_file** (str, 可选) - 输出图像的文件路径,用于在绘制后将结果存储到本地默认值None不保存。
- **segm** (numpy.ndarray) - 图像分割掩码shape为(M, H, W)M表示类别总数默认值None不绘制掩码。
- **class_names** (list[str], tuple[str], dict) - 类别索引到类别名的映射表默认值None仅显示类别索引。
- **score_threshold** (float) - 绘制边界框的类别置信度阈值默认值0绘制所有边界框。
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色顺序为BGR默认值:(0,255,0),表示绿色。
- **text_color** (tuple(int)) - 指定类别文本的显示颜色顺序为BGR默认值:(203, 192, 255),表示粉色。
- **mask_color** (tuple(int)) - 指定掩码的显示颜色顺序为BGR默认值:(128, 0, 128),表示紫色。
- **thickness** (int) - 指定边界框和类别文本的线条粗细默认值2。
- **font_size** (int, float) - 指定类别文本字体大小默认值0.8。
- **show** (bool) - 是否显示图像默认值True。
- **win_name** (str) - 指定窗口名称默认值:"win"。
- **wait_time** (int) - 指定cv2.waitKey的时延单位为ms即图像显示的自动切换间隔默认值2000表示间隔为2000ms。
- **out_file** (str, 可选) - 输出图像的文件路径,用于在绘制后将结果存储到本地默认值None不保存。
返回:
numpy.ndarray带边界框和类别置信度的图像。

View File

@ -17,7 +17,7 @@ mindspore.dataset.audio.AllpassBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。

View File

@ -8,12 +8,12 @@ mindspore.dataset.audio.AmplitudeToDB
.. note:: 待处理音频维度需为(..., freq, time)。
参数:
- **stype** ( :class:`mindspore.dataset.audio.ScaleType` , 可选) - 输入音频的原始标度取值可为ScaleType.MAGNITUDE或ScaleType.POWER默认值ScaleType.POWER。
- **ref_value** (float, 可选) - 系数参考值默认值1.0,用于计算分贝系数 `db_multiplier` ,公式为
- **stype** ( :class:`mindspore.dataset.audio.ScaleType` , 可选) - 输入音频的原始标度取值可为ScaleType.MAGNITUDE或ScaleType.POWER默认值ScaleType.POWER。
- **ref_value** (float, 可选) - 系数参考值默认值1.0,用于计算分贝系数 `db_multiplier` ,公式为
:math:`db\_multiplier = Log10(max(ref\_value, amin))`
- **amin** (float, 可选) - 波形取值下界低于该值的波形将会被裁切取值必须大于0默认值1e-10。
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数默认值80.0。
- **amin** (float, 可选) - 波形取值下界低于该值的波形将会被裁切取值必须大于0默认值1e-10。
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数默认值80.0。
异常:
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType`

View File

@ -14,8 +14,8 @@ mindspore.dataset.audio.BandBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **noise** (bool, 可选) - 若为True则使用非音调音频如打击乐模式若为False则使用音调音频如语音、歌曲或器乐模式默认值False。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **noise** (bool, 可选) - 若为True则使用非音调音频如打击乐模式若为False则使用音调音频如语音、歌曲或器乐模式默认值False。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。

View File

@ -22,7 +22,7 @@ mindspore.dataset.audio.BandpassBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **const_skirt_gain** (bool, 可选) - 若为True则使用恒定裙边增益峰值增益为Q若为False则使用恒定的0dB峰值增益。默认值False。
异常:

View File

@ -19,7 +19,7 @@ mindspore.dataset.audio.BandrejectBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **central_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。

View File

@ -17,8 +17,8 @@ mindspore.dataset.audio.BassBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **gain** (float) - 期望提升或衰减的音频增益单位dB
- **central_freq** (float, 可选) - 中心频率单位Hz默认值100.0。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **central_freq** (float, 可选) - 中心频率单位Hz默认值100.0。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。

View File

@ -8,7 +8,7 @@ mindspore.dataset.audio.ComplexNorm
.. note:: 待处理音频维度需为(..., complex=2)。第0维代表实部第1维代表虚部。
参数:
- **power** (float, 可选) - 范数的幂,取值必须非负默认值1.0。
- **power** (float, 可选) - 范数的幂,取值必须非负默认值1.0。
异常:
- **TypeError** - 当 `power` 的类型不为float。

View File

@ -11,7 +11,7 @@ mindspore.dataset.audio.ComputeDeltas
其中, :math:`d_{t}` 是时间 :math:`t` 的增量, :math:`c_{t}` 是时间 :math:`t` 的频谱图系数, :math:`N`:math:`(\text{win_length}-1)//2`
参数:
- **win_length** (int, 可选) - 计算窗口长度长度必须不小于3默认值5。
- **win_length** (int, 可选) - 计算窗口长度长度必须不小于3默认值5。
- **pad_mode** (:class:`mindspore.dataset.audio.BorderType`, 可选) - 边界填充模式,可以是
[BorderType.CONSTANT, BorderType.EDGE, BorderType.REFLECT, BordBorderTypeer.SYMMETRIC]中任何一个。
默认值BorderType.EDGE。

View File

@ -12,7 +12,7 @@ mindspore.dataset.audio.Contrast
.. note:: 待处理音频维度需为(..., time)。
参数:
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100]默认值75.0。请注意当 `enhancement_amount` 等于0时对比度增强效果仍然会很显著。
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100]默认值75.0。请注意当 `enhancement_amount` 等于0时对比度增强效果仍然会很显著。
异常:
- **TypeError** - 当 `enhancement_amount` 的类型不为float。

View File

@ -11,4 +11,4 @@ mindspore.dataset.audio.EqualizerBiquad
- **sample_rate** (int) - 采样频率单位Hz值不能为零。
- **center_freq** (float) - 中心频率单位Hz
- **gain** (float) - 期望提升或衰减的音频增益单位dB
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。

View File

@ -8,10 +8,10 @@ mindspore.dataset.audio.FrequencyMasking
.. note:: 待处理音频维度需为(..., freq, time)。
参数:
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
异常:
- **TypeError** - 当 `iid_masks` 的类型不为bool。

View File

@ -11,15 +11,15 @@ mindspore.dataset.audio.GriffinLim
其中w表示窗口函数y表示每个帧的重建信号x表示整个信号。
参数:
- **n_fft** (int, 可选) - FFT的长度默认值400。
- **n_iter** (int, 可选) - 相位恢复的迭代次数默认值32。
- **win_length** (int, 可选) - GriffinLim的窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **n_fft** (int, 可选) - FFT的长度默认值400。
- **n_iter** (int, 可选) - 相位恢复的迭代次数默认值32。
- **win_length** (int, 可选) - GriffinLim的窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **window_type** (WindowType, 可选) - GriffinLim的窗口类型可以是WindowType.BARTLETT
WindowType.BLACKMANWindowType.HAMMINGWindowType.HANN或WindowType.KAISER。
默认值WindowType.HANN目前macOS上不支持kaiser窗口。
- **power** (float, 可选) - 幅度谱图的指数默认值2.0。
- **momentum** (float, 可选) - 快速Griffin-Lim的动量默认值0.99。
- **power** (float, 可选) - 幅度谱图的指数默认值2.0。
- **momentum** (float, 可选) - 快速Griffin-Lim的动量默认值0.99。
- **length** (int, 可选) - 预期输出波形的长度。默认值None将设置为stft矩阵的最后一个维度的值。
- **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志默认值True。
- **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志默认值True。

View File

@ -10,4 +10,4 @@ mindspore.dataset.audio.HighpassBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **cutoff_freq** (float) - 中心频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。

View File

@ -7,14 +7,14 @@ mindspore.dataset.audio.InverseMelScale
参数:
- **n_stft** (int) - STFT中的滤波器的组数。
- **n_mels** (int, 可选) - mel滤波器的数量默认值128。
- **sample_rate** (int, 可选) - 音频信号采样频率默认值16000。
- **f_min** (float, 可选) - 最小频率默认值0.0。
- **f_max** (float, 可选) - 最大频率默认值None将设置为 `sample_rate//2`
- **max_iter** (int, 可选) - 最大优化迭代次数默认值100000。
- **tolerance_loss** (float, 可选) - 当达到损失值时停止优化默认值1e-5。
- **tolerance_change** (float, 可选) - 指定损失差异,当达到损失差异时停止优化默认值1e-8。
- **sgdargs** (dict, 可选) - SGD优化器的参数默认值None将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。
- **n_mels** (int, 可选) - mel滤波器的数量默认值128。
- **sample_rate** (int, 可选) - 音频信号采样频率默认值16000。
- **f_min** (float, 可选) - 最小频率默认值0.0。
- **f_max** (float, 可选) - 最大频率默认值None将设置为 `sample_rate//2`
- **max_iter** (int, 可选) - 最大优化迭代次数默认值100000。
- **tolerance_loss** (float, 可选) - 当达到损失值时停止优化默认值1e-5。
- **tolerance_change** (float, 可选) - 指定损失差异,当达到损失差异时停止优化默认值1e-8。
- **sgdargs** (dict, 可选) - SGD优化器的参数默认值None将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。
- **norm** (NormType, 可选) - 标准化方法可以是NormType.SLANEY或NormType.NONE。默认值NormType.NONE。
- **mel_type** (MelType, 可选) - 要使用的Mel比例可以是MelType.SLAN或MelType.HTK。默认值MelType.HTK。

View File

@ -10,7 +10,7 @@ mindspore.dataset.audio.LFilter
大小必须与 `b_coeffs` 相同根据需要填充0
- **b_coeffs** (sequence) - (n_order + 1)维数差分方程的分子系数。较低的延迟系数是第一位的,例如[b0, b1, b2, ...]。
大小必须与 `a_coeffs` 相同根据需要填充0
- **clamp** (bool, 可选) - 如果为True则将输出信号截断在[-1, 1]范围内默认值True。
- **clamp** (bool, 可选) - 如果为True则将输出信号截断在[-1, 1]范围内默认值True。
异常:
- **RuntimeError** - 当输入音频的shape不为<..., time>。

View File

@ -17,7 +17,7 @@ mindspore.dataset.audio.LowpassBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **cutoff_freq** (float) - 滤波器截止频率单位Hz
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1]默认值0.707。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1]默认值0.707。
异常:
- **TypeError** - 当 `sample_rate` 的类型不为int。

View File

@ -6,7 +6,7 @@ mindspore.dataset.audio.Magphase
将具有(..., 2形状的复值光谱图分离输出幅度和相位。
参数:
- **power** (float) - 范数的功率,必须是非负的默认值1.0。
- **power** (float) - 范数的功率,必须是非负的默认值1.0。
异常:
- **RuntimeError** - 当输入音频的shape不为<..., 2>。

View File

@ -6,11 +6,11 @@ mindspore.dataset.audio.MelScale
将正常STFT转换为梅尔尺度的STFT。
参数:
- **n_mels** (int, 可选) - 梅尔滤波器的数量默认值128。
- **sample_rate** (int, 可选) - 音频信号采样速率默认值16000。
- **f_min** (float, 可选) - 最小频率默认值0.0。
- **f_max** (float, 可选) - 最大频率默认值None将设置为 `sample_rate//2`
- **n_stft** (int, 可选) - STFT中的滤波器的组数默认值201。
- **n_mels** (int, 可选) - 梅尔滤波器的数量默认值128。
- **sample_rate** (int, 可选) - 音频信号采样速率默认值16000。
- **f_min** (float, 可选) - 最小频率默认值0.0。
- **f_max** (float, 可选) - 最大频率默认值None将设置为 `sample_rate//2`
- **n_stft** (int, 可选) - STFT中的滤波器的组数默认值201。
- **norm** (NormType, 可选) - 标准化方法可以是NormType.SLANEY或NormType.NONE。默认值NormType.NONE。
- **mel_type** (MelType, 可选) - 要使用的Mel比例可以是MelType.SLAN或MelType.HTK。默认值MelType.HTK。

View File

@ -7,11 +7,11 @@ mindspore.dataset.audio.Phaser
参数:
- **sample_rate** (int) - 波形的采样率例如44100 (Hz)。
- **gain_in** (float, 可选) - 期望提升或衰减所需输入增益单位为dB。允许的值范围为[0, 1]默认值0.4。
- **gain_out** (float, 可选) - 期望提升或衰减期望输出增益单位为dB。允许的值范围为[0, 1e9]默认值0.74。
- **delay_ms** (float, 可选) - 延迟数,以毫秒为单位。允许的值范围为[0, 5]默认值3.0。
- **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99]默认值0.4。
- **mod_speed** (float, 可选) - 调制速度单位为Hz。允许的值范围为[0.1, 2]默认值0.5。
- **gain_in** (float, 可选) - 期望提升或衰减所需输入增益单位为dB。允许的值范围为[0, 1]默认值0.4。
- **gain_out** (float, 可选) - 期望提升或衰减期望输出增益单位为dB。允许的值范围为[0, 1e9]默认值0.74。
- **delay_ms** (float, 可选) - 延迟数,以毫秒为单位。允许的值范围为[0, 5]默认值3.0。
- **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99]默认值0.4。
- **mod_speed** (float, 可选) - 调制速度单位为Hz。允许的值范围为[0.1, 2]默认值0.5。
- **sinusoidal** (bool, 可选) - 如果为True请使用正弦调制对于多个乐器效果最好
如果为False则使用triangular modulation使单个乐器具有更清晰的相位效果。默认值True。

View File

@ -6,11 +6,11 @@ mindspore.dataset.audio.Resample
将音频波形从一个频率重新采样到另一个频率。必要时可以指定重采样方法。
参数:
- **orig_freq** (float, 可选) - 音频波形的原始频率,必须为正默认值16000。
- **new_freq** (float, 可选) - 目标音频波形频率,必须为正默认值16000。
- **orig_freq** (float, 可选) - 音频波形的原始频率,必须为正默认值16000。
- **new_freq** (float, 可选) - 目标音频波形频率,必须为正默认值16000。
- **resample_method** (ResampleMethod, 可选) - 重采样方法可以是ResampleMethod.SINC_INTERPOLATION和ResampleMethod.KAISER_WINDOW。
默认值=ResampleMethod.SINC_INTERPOLATION。
- **lowpass_filter_width** (int, 可选) - 控制滤波器的宽度越多意味着更清晰但效率越低必须为正。默认值6。
- **rolloff** (float, 可选) - 滤波器的滚降频率作为Nyquist的一小部分。
较低的值减少了抗锯齿,但也减少了一些最高频率,范围:(0, 1]。默认值0.99。
- **beta** (float, 可选) - 用于kaiser窗口的形状参数默认值None将使用14.769656459379492。
- **beta** (float, 可选) - 用于kaiser窗口的形状参数默认值None将使用14.769656459379492。

View File

@ -6,9 +6,9 @@ mindspore.dataset.audio.SlidingWindowCmn
对每个话语应用滑动窗口倒谱均值(和可选方差)归一化。
参数:
- **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口默认值600。
- **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口默认值600。
- **min_cmn_window** (int, 可选) - 解码开始时使用的最小CMN窗口仅在开始时增加延迟
仅在中心为False时适用在中心为True时忽略默认值100。
仅在中心为False时适用在中心为True时忽略默认值100。
- **center** (bool, 可选) - 如果为True则使用以当前帧为中心的窗口。如果为False则窗口在左侧。默认值False。
- **norm_vars** (bool, 可选) - 如果为True则将方差规范化为1。默认值False。

View File

@ -8,8 +8,8 @@ mindspore.dataset.audio.SpectralCentroid
参数:
- **sample_rate** (int) - 波形的采样率例如44100 (Hz)。
- **n_fft** (int, 可选) - FFT的大小创建n_fft // 2 + 1 bins。默认值400。
- **win_length** (int, 可选) - 窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **pad** (int, 可选) - 信号的两侧填充数量默认值0。
- **win_length** (int, 可选) - 窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **pad** (int, 可选) - 信号的两侧填充数量默认值0。
- **window** (WindowType, 可选) - 窗口函数可以是WindowType.BARTLETT、WindowType.BLACKMAN、
WindowType.HAMMING、WindowType.HANN或WindowType.KAISER。默认值WindowType.HANN。

View File

@ -6,17 +6,17 @@ mindspore.dataset.audio.Spectrogram
从音频信号创建光谱图。
参数:
- **n_fft** (int, 可选) - FFT的大小创建 `n_fft // 2 + 1` 组滤波器默认值400。
- **win_length** (int, 可选) - 窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **pad** (int, 可选) - 信号的双面填充默认值0。
- **n_fft** (int, 可选) - FFT的大小创建 `n_fft // 2 + 1` 组滤波器默认值400。
- **win_length** (int, 可选) - 窗口大小默认值None将设置为 `n_fft` 的值。
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度默认值None将设置为 `win_length//2`
- **pad** (int, 可选) - 信号的双面填充默认值0。
- **window** (WindowType, 可选) - GriffinLim的窗口类型可以是WindowType.BARTLETT
WindowType.BLACKMANWindowType.HAMMINGWindowType.HANN或WindowType.KAISER。
默认值WindowType.HANN目前macOS上不支持kaiser窗口。
- **power** (float, 可选) - 幅度谱图的指数默认值2.0。
- **power** (float, 可选) - 幅度谱图的指数默认值2.0。
- **normalized** (bool, 可选) - 是否在stft之后按幅度归一化。默认值False。
- **center** (bool, 可选) - 是否在两侧填充波形默认值True。
- **center** (bool, 可选) - 是否在两侧填充波形默认值True。
- **pad_mode** (BorderType, 可选) - 控制中心为True时使用的填充方法可以是BorderType.REFLECT、BorderType.CONSTANT、
BorderType.EDGE、BorderType.SYMMETRIC默认值BorderType.REFLECT。
- **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余默认值True。
BorderType.EDGE、BorderType.SYMMETRIC默认值BorderType.REFLECT。
- **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余默认值True。

View File

@ -8,10 +8,10 @@ mindspore.dataset.audio.TimeMasking
.. note:: 待处理音频维度需为(..., freq, time)。
参数:
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
- **iid_masks** (bool, 可选) - 是否施加随机掩码默认值False。
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度默认值0。
- **mask_value** (float, 可选) - 掩码填充值默认值0.0。
异常:
- **TypeError** - 当 `iid_masks` 的类型不为bool。

View File

@ -8,9 +8,9 @@ mindspore.dataset.audio.TimeStretch
.. note:: 待处理音频维度需为(..., freq, time, complex=2)。第0维代表实部第1维代表虚部。
参数:
- **hop_length** (int, 可选) - STFT窗之间每跳的长度即连续帧之间的样本数默认值None表示取 `n_freq - 1`
- **n_freq** (int, 可选) - STFT中的滤波器组数默认值201。
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例默认值None表示保持原始速率。
- **hop_length** (int, 可选) - STFT窗之间每跳的长度即连续帧之间的样本数默认值None表示取 `n_freq - 1`
- **n_freq** (int, 可选) - STFT中的滤波器组数默认值201。
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例默认值None表示保持原始速率。
异常:
- **TypeError** - 当 `hop_length` 的类型不为int。

View File

@ -8,5 +8,5 @@ mindspore.dataset.audio.TrebleBiquad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **gain** (float) - 期望提升或衰减的音频增益单位dB
- **central_freq** (float, 可选) - 中心频率单位Hz默认值3000。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。
- **central_freq** (float, 可选) - 中心频率单位Hz默认值3000。
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]默认值0.707。

View File

@ -7,19 +7,19 @@ mindspore.dataset.audio.Vad
参数:
- **sample_rate** (int) - 采样频率单位Hz不能为零。
- **trigger_level** (float, 可选) - 用于触发活动检测的测量级别默认值7.0。
- **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数(以秒为单位默认值0.25。
- **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量(以秒为单位)默认值1.0。
- **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙(以秒为单位)默认值0.25。
- **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前,要保留的音频量(以秒为单位)默认值0.0。
- **boot_time** (float, 可选) - 初始噪声估计的时间默认值0.35。
- **noise_up_time** (float, 可选) - 当噪音水平增加时,自适应噪音估计器使用的时间常数默认值0.1。
- **noise_down_time** (float, 可选) - 当噪音水平降低时,自适应噪音估计器使用的时间常数默认值0.01。
- **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量默认值1.35。
- **measure_freq** (float, 可选) - 算法处理的频率默认值20.0。
- **measure_duration** (float, 可选) - 测量持续时间默认值None使用测量周期的两倍。
- **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数默认值0.4。
- **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率默认值50.0。
- **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率默认值6000.0。
- **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率默认值150.0。
- **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率默认值20000.0。
- **trigger_level** (float, 可选) - 用于触发活动检测的测量级别默认值7.0。
- **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数(以秒为单位默认值0.25。
- **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量(以秒为单位)默认值1.0。
- **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙(以秒为单位)默认值0.25。
- **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前,要保留的音频量(以秒为单位)默认值0.0。
- **boot_time** (float, 可选) - 初始噪声估计的时间默认值0.35。
- **noise_up_time** (float, 可选) - 当噪音水平增加时,自适应噪音估计器使用的时间常数默认值0.1。
- **noise_down_time** (float, 可选) - 当噪音水平降低时,自适应噪音估计器使用的时间常数默认值0.01。
- **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量默认值1.35。
- **measure_freq** (float, 可选) - 算法处理的频率默认值20.0。
- **measure_duration** (float, 可选) - 测量持续时间默认值None使用测量周期的两倍。
- **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数默认值0.4。
- **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率默认值50.0。
- **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率默认值6000.0。
- **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率默认值150.0。
- **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率默认值20000.0。

View File

@ -18,7 +18,7 @@ mindspore.dataset.text.JiebaTokenizer
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量默认值False。
异常:
- **ValueError** - 没有提供参数 `hmm_path` 或为None。

View File

@ -10,7 +10,7 @@ mindspore.dataset.text.Lookup
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
如果单词不在词汇表中,且未指定 `unknown_token` 将抛出运行时错误。默认值None不指定该参数。
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型默认值mindspore.int32。
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型默认值mindspore.int32。
异常:
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab`

View File

@ -10,7 +10,7 @@ mindspore.dataset.text.NormalizeUTF8
参数:
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
任何一种形式默认值NormalizeForm.NFKC。
任何一种形式默认值NormalizeForm.NFKC。
- NormalizeForm.NONE对输入字符串不做任何处理。
- NormalizeForm.NFC对输入字符串进行C形式规范化。

View File

@ -13,7 +13,7 @@ mindspore.dataset.text.RegexTokenizer
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
默认值:''(空字符),即分隔符不会作为输出标记保留。
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量默认值False不输出。
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量默认值False不输出。
异常:
- **TypeError** - 参数 `delim_pattern` 的类型不是str。

Some files were not shown because too many files have changed in this diff Show More