!45024 fix: doc review MD step2 again
Merge pull request !45024 from guozhijian/fix_default_to_Default
This commit is contained in:
commit
f0e8416a40
|
@ -3,7 +3,7 @@ mindspore.dataset.Dataset.get_repeat_count
|
|||
|
||||
.. py:method:: mindspore.dataset.Dataset.get_repeat_count()
|
||||
|
||||
获取 `RepeatDataset` 中定义的repeat操作的次数,默认值:1。
|
||||
获取 `RepeatDataset` 中定义的repeat操作的次数。默认值:1。
|
||||
|
||||
返回:
|
||||
int,repeat操作的次数。
|
||||
|
|
|
@ -7,7 +7,7 @@ mindspore.dataset.Dataset.output_shapes
|
|||
|
||||
参数:
|
||||
- **estimate** (bool) - 如果 `estimate` 为 False,将返回数据集第一条数据的shape。
|
||||
否则将遍历整个数据集以获取数据集的真实shape信息,其中动态变化的维度将被标记为None(可用于动态shape数据集场景),默认值:False。
|
||||
否则将遍历整个数据集以获取数据集的真实shape信息,其中动态变化的维度将被标记为None(可用于动态shape数据集场景)。默认值:False。
|
||||
|
||||
返回:
|
||||
list,每列数据的shape列表。
|
||||
|
|
|
@ -62,5 +62,5 @@ mindspore.dataset.Dataset.save
|
|||
|
||||
参数:
|
||||
- **file_name** (str) - 数据集文件的路径。
|
||||
- **num_files** (int, 可选) - 数据集文件的数量,默认值:1。
|
||||
- **file_type** (str, 可选) - 数据集格式,默认值:'mindrecord'。
|
||||
- **num_files** (int, 可选) - 数据集文件的数量。默认值:1。
|
||||
- **file_type** (str, 可选) - 数据集格式。默认值:'mindrecord'。
|
||||
|
|
|
@ -14,7 +14,7 @@ mindspore.dataset.Dataset.split
|
|||
- 如果子数据集大小的总和小于K,K - sigma(round(fi * k))的值将添加到第一个子数据集,sigma为求和操作。
|
||||
- 如果子数据集大小的总和大于K,sigma(round(fi * K)) - K的值将从第一个足够大的子数据集中删除,且删除后的子数据集大小至少大于1。
|
||||
|
||||
- **randomize** (bool, 可选) - 确定是否随机拆分数据,默认值:True,数据集将被随机拆分。否则将按顺序拆分为多个不重叠的子数据集。
|
||||
- **randomize** (bool, 可选) - 确定是否随机拆分数据。默认值:True,数据集将被随机拆分。否则将按顺序拆分为多个不重叠的子数据集。
|
||||
|
||||
.. note::
|
||||
1. 如果进行拆分操作的数据集对象为MappableDataset类型,则将自动调用一个优化后的split操作。
|
||||
|
|
|
@ -10,7 +10,7 @@ mindspore.dataset.Dataset.take
|
|||
2. take和batch操作顺序很重要,如果take在batch操作之前,则取给定条数,否则取给定batch数。
|
||||
|
||||
参数:
|
||||
- **count** (int, 可选) - 要从数据集对象中获取的数据条数,默认值:-1,获取所有数据。
|
||||
- **count** (int, 可选) - 要从数据集对象中获取的数据条数。默认值:-1,获取所有数据。
|
||||
|
||||
返回:
|
||||
TakeDataset,take操作后的数据集对象。
|
||||
|
|
|
@ -6,10 +6,10 @@ mindspore.dataset.Dataset.zip
|
|||
将多个dataset对象按列进行合并压缩,多个dataset对象不能有相同的列名。
|
||||
|
||||
参数:
|
||||
- **datasets** (tuple[Dataset]) - 要合并的(多个)dataset对象。
|
||||
- **datasets** (Union[Dataset, tuple[Dataset]]) - 要合并的(多个)dataset对象。
|
||||
|
||||
返回:
|
||||
ZipDataset,合并后的dataset对象。
|
||||
|
||||
异常:
|
||||
- **TypeError** - `datasets` 参数不是dataset对象/tuple(dataset)。
|
||||
- **TypeError** - `datasets` 参数不是dataset对象/tuple[dataset]。
|
||||
|
|
|
@ -6,7 +6,7 @@ mindspore.dataset.Dataset.device_que
|
|||
将数据异步传输到Ascend/GPU设备上。
|
||||
|
||||
参数:
|
||||
- **send_epoch_end** (bool, 可选) - 数据发送完成后是否发送结束标识到设备上,默认值:True。
|
||||
- **send_epoch_end** (bool, 可选) - 数据发送完成后是否发送结束标识到设备上。默认值:True。
|
||||
- **create_data_info_queue** (bool, 可选) - 是否创建一个队列,用于存储每条数据的数据类型和shape。默认值:False,不创建。
|
||||
|
||||
.. note::
|
||||
|
|
|
@ -7,5 +7,5 @@ mindspore.dataset.Dataset.sync_update
|
|||
|
||||
参数:
|
||||
- **condition_name** (str) - 用于触发发送下一个数据行的条件名称。
|
||||
- **num_batch** (Union[int, None]) - 释放的batch(row)数。当 `num_batch` 为None时,将默认为 `sync_wait` 操作指定的值,默认值:None。
|
||||
- **data** (Any) - 用户自定义传递给回调函数的数据,默认值:None。
|
||||
- **num_batch** (Union[int, None]) - 释放的batch(row)数。当 `num_batch` 为None时,将默认为 `sync_wait` 操作指定的值。默认值:None。
|
||||
- **data** (Any) - 用户自定义传递给回调函数的数据。默认值:None。
|
||||
|
|
|
@ -10,10 +10,10 @@
|
|||
|
||||
参数:
|
||||
- **data_dir** (str) - 加载数据集的目录,这里包含原始格式的数据,并将在 `process` 方法中被加载。
|
||||
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表,默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数,如下述示例,建议初始化时明确它的取值如:`column_names=["edge_index", "x", "y", "cluster", "valid_len", "time_step_len"]`。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式),默认值:1。
|
||||
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表。默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数,如下述示例,建议初始化时明确它的取值如:`column_names=["edge_index", "x", "y", "cluster", "valid_len", "time_step_len"]`。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)。默认值:1。
|
||||
- **shuffle** (bool,可选) - 是否混洗数据集。当实现的Dataset带有可随机访问属性( `__getitem__` )时,才可以指定该参数。默认值:None。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算,默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算。默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **perf_mode** (bool,可选) - 遍历创建的dataset对象时获得更高性能的模式(在此过程中将调用 `__getitem__` 方法)。默认值:True,将Graph的所有数据(如边的索引、节点特征和图的特征)都作为图特征进行存储。
|
||||
|
||||
|
||||
|
|
|
@ -10,18 +10,18 @@ mindspore.dataset.CLUEDataset
|
|||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **task** (str, 可选) - 任务类型,可取值为 'AFQMC' 、'TNEWS'、'IFLYTEK'、'CMNLI'、'WSC' 或 'CSL'。默认值:'AFQMC'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'eval',默认值:'train'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','test'或'eval'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列:
|
||||
|
|
|
@ -7,20 +7,20 @@
|
|||
|
||||
参数:
|
||||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **field_delim** (str, 可选) - 指定用于分隔字段的分隔符,默认值:','。
|
||||
- **field_delim** (str, 可选) - 指定用于分隔字段的分隔符。默认值:','。
|
||||
- **column_defaults** (list, 可选) - 指定每个数据列的数据类型,有效的类型包括float、int或string。默认值:None,不指定。如果未指定该参数,则所有列的数据类型将被视为string。
|
||||
- **column_names** (list[str], 可选) - 指定数据集生成的列名。默认值:None,不指定。如果未指定该列表,则将CSV文件首行提供的字段作为列名生成。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和文件中的数据。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -21,11 +21,11 @@ mindspore.dataset.Caltech101Dataset
|
|||
取值为'all'时将同时输出图像的类别标注和轮廓标注。默认值:None,表示'category'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||
|
|
|
@ -11,11 +11,11 @@ mindspore.dataset.Caltech256Dataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -10,14 +10,14 @@ mindspore.dataset.CelebADataset
|
|||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',全部样本图片。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中。默认值:None。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
|
|
|
@ -13,10 +13,10 @@ mindspore.dataset.Cifar100Dataset
|
|||
取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -13,10 +13,10 @@ mindspore.dataset.Cifar10Dataset
|
|||
取值为'train'时将会读取50,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部60,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -16,11 +16,11 @@ mindspore.dataset.CityscapesDataset
|
|||
- **task** (str, 可选) - 指定数据集的任务类型,可取值为'instance'、'semantic'、'polygon'或'color'。默认值:'instance'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -10,14 +10,14 @@
|
|||
- **annotation_file** (str) - 数据集标注JSON文件的路径。
|
||||
- **task** (str, 可选) - 指定COCO数据的任务类型。支持的任务类型包括:'Detection'、'Stuff' 、'Panoptic'和'Keypoint'。默认值:'Detection'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:使用mindspore.dataset.config中配置的线程数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,表2中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,表2中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,表2中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值:False。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
[表1] 根据不同 `task` 参数设置,生成数据集具有不同的输出列:
|
||||
|
|
|
@ -15,11 +15,11 @@ mindspore.dataset.DIV2KDataset
|
|||
当参数 `downgrade` 取值为'unknown'时,此参数可以取值为2、3、4。当参数 `downgrade` 取值为'mild'、'difficult'、'wild'时,此参数仅可以取值为4。默认值:2。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -8,7 +8,7 @@ mindspore.dataset.DSCallback
|
|||
用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
|
||||
|
||||
参数:
|
||||
- **step_size** (int, 可选) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数,默认值:1,表示每个step都会调用。
|
||||
- **step_size** (int, 可选) - 定义相邻的 `ds_step_begin`/`ds_step_end` 调用之间相隔的step数。默认值:1,表示每个step都会调用。
|
||||
|
||||
.. py:method:: ds_begin(ds_run_context)
|
||||
|
||||
|
|
|
@ -8,8 +8,8 @@ mindspore.dataset.DistributedSampler
|
|||
参数:
|
||||
- **num_shards** (int) - 数据集分片数量。
|
||||
- **shard_id** (int) - 当前分片的分片ID,应在[0, num_shards-1]范围内。
|
||||
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本,默认值:True,混洗样本。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本,默认值:None,获取采样到的所有样本。
|
||||
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本。默认值:True,混洗样本。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
- **offset** (int, 可选) - 分布式采样结果进行分配时的起始分片ID号,值不能大于参数 `num_shards` 。从不同的分片ID开始分配数据可能会影响每个分片的最终样本数。仅当ConcatDataset以DistributedSampler为采样器时,此参数才有效。默认值:-1,每个分片具有相同的样本数。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -14,8 +14,8 @@ mindspore.dataset.EMnistDataset
|
|||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -14,8 +14,8 @@ mindspore.dataset.FakeImageDataset
|
|||
- **base_seed** (int, 可选) - 生成随机图像的随机种子。默认值:0。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -13,8 +13,8 @@ mindspore.dataset.FashionMnistDataset
|
|||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -11,12 +11,12 @@
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **annotation_file** (str) - 数据集标注JSON文件的路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:使用mindspore.dataset.config中配置的线程数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,表2中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:None,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,表2中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:None,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,表2中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -16,9 +16,9 @@ mindspore.dataset.Flowers102Dataset
|
|||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train','valid','test'或'all'。默认值:'all',读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:1。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
|
|
|
@ -11,20 +11,20 @@
|
|||
- 如果 `source` 是可调用对象,要求 `source` 对象可以通过 `source().next()` 的方式返回一个由NumPy数组构成的元组。
|
||||
- 如果 `source` 是可迭代对象,要求 `source` 对象通过 `iter(source).next()` 的方式返回一个由NumPy数组构成的元组。
|
||||
- 如果 `source` 是支持随机访问的对象,要求 `source` 对象通过 `source[idx]` 的方式返回一个由NumPy数组构成的元组。
|
||||
- **column_names** (Union[str, list[str]],可选) - 指定数据集生成的列名,默认值:None,不指定。用户可以通过此参数或 `schema` 参数指定列名。
|
||||
- **column_types** (list[mindspore.dtype],可选) - 指定生成数据集各个数据列的数据类型,默认值:None,不指定。
|
||||
- **column_names** (Union[str, list[str]],可选) - 指定数据集生成的列名。默认值:None,不指定。用户可以通过此参数或 `schema` 参数指定列名。
|
||||
- **column_types** (list[mindspore.dtype],可选) - 指定生成数据集各个数据列的数据类型。默认值:None,不指定。
|
||||
如果未指定该参数,则自动推断类型;如果指定了该参数,将在数据输出时做类型匹配检查。
|
||||
- **schema** (Union[Schema, str],可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
|
||||
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值:None,不指定。
|
||||
用户可以通过提供 `column_names` 或 `schema` 指定数据集的列名,但如果同时指定两者,则将优先从 `schema` 中获取列名信息。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式),默认值:1。
|
||||
- **shuffle** (bool,可选) - 是否混洗数据集。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable],可选) - 指定从数据集中选取样本的采样器。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算,默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间,默认值:6,单位为MB。仅当参数 `python_multiprocessing` 设为True时,此参数才会生效。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)。默认值:1。
|
||||
- **shuffle** (bool,可选) - 是否混洗数据集。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable],可选) - 指定从数据集中选取样本的采样器。只有输入的 `source` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算。默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间。默认值:6,单位为MB。仅当参数 `python_multiprocessing` 设为True时,此参数才会生效。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - Python对象 `source` 在执行期间引发异常。
|
||||
|
|
|
@ -14,17 +14,17 @@ mindspore.dataset.Graph
|
|||
- **graph_feat** (dict, 可选) - 附加特征,不能分配给 `node_feat` 或者 `edge_feat` ,输入数据格式应该是dict,key是特征的类型,用字符串表示; value应该是NumPy数组,其shape可以不受限制。
|
||||
- **node_type** (Union[list, numpy.ndarray], 可选) - 节点的类型,每个元素都是字符串,表示每个节点的类型。如果未提供,则每个节点的默认类型为“0”。
|
||||
- **edge_type** (Union[list, numpy.ndarray], 可选) - 边的类型,每个元素都是字符串,表示每条边的类型。如果未提供,则每条边的默认类型为“0”。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数,默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server',默认值:'local'。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
|
||||
|
||||
- **local**:用于非分布式训练场景。
|
||||
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
|
||||
- **server**:用于分布式训练场景。服务器加载数据并可供客户端使用。
|
||||
|
||||
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效,默认值:'127.0.0.1'。
|
||||
- **port** (int, 可选) - 图数据服务器的端口,取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效,默认值:50051。
|
||||
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效,默认值:1。
|
||||
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出,默认值:True。
|
||||
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效。默认值:'127.0.0.1'。
|
||||
- **port** (int, 可选) - 图数据服务器的端口,取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效。默认值:50051。
|
||||
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效。默认值:1。
|
||||
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出。默认值:True。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 如果 `edges` 不是list或NumPy array类型。
|
||||
|
@ -44,7 +44,7 @@ mindspore.dataset.Graph
|
|||
获取图的所有边。
|
||||
|
||||
参数:
|
||||
- **edge_type** (str) - 指定边的类型,Graph初始化未指定 `edge_type` 时,默认值为'0'。
|
||||
- **edge_type** (str) - 指定边的类型。默认值:'0'。
|
||||
|
||||
返回:
|
||||
numpy.ndarray,包含边的数组。
|
||||
|
@ -143,7 +143,7 @@ mindspore.dataset.Graph
|
|||
参数:
|
||||
- **node_list** (Union[list, numpy.ndarray]) - 给定的节点列表。
|
||||
- **neighbor_type** (str) - 指定相邻节点的类型。
|
||||
- **output_format** (OutputFormat, 可选) - 输出存储格式,默认值:mindspore.dataset.OutputFormat.NORMAL,取值范围:[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
|
||||
- **output_format** (OutputFormat, 可选) - 输出存储格式。默认值:mindspore.dataset.OutputFormat.NORMAL,取值范围:[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
|
||||
|
||||
返回:
|
||||
对于普通格式或COO格式,将返回numpy.ndarray类型的数组表示相邻节点。如果指定了CSR格式,将返回两个numpy.ndarray数组,第一个表示偏移表,第二个表示相邻节点。
|
||||
|
@ -157,7 +157,7 @@ mindspore.dataset.Graph
|
|||
获取图中的所有节点。
|
||||
|
||||
参数:
|
||||
- **node_type** (str) - 指定节点的类型。Graph初始化未指定 `node_type` 时,默认值为'0'。
|
||||
- **node_type** (str) - 指定节点的类型。默认值:'0'。
|
||||
|
||||
返回:
|
||||
numpy.ndarray,包含节点的数组。
|
||||
|
@ -259,7 +259,7 @@ mindspore.dataset.Graph
|
|||
- **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。
|
||||
- **neighbor_nums** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点数。
|
||||
- **neighbor_types** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点类型,列表或数组中每个元素都应该是字符串类型。
|
||||
- **strategy** (SamplingStrategy, 可选) - 采样策略,默认值:mindspore.dataset.SamplingStrategy.RANDOM。取值范围:[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
|
||||
- **strategy** (SamplingStrategy, 可选) - 采样策略。默认值:mindspore.dataset.SamplingStrategy.RANDOM。取值范围:[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
|
||||
|
||||
- **SamplingStrategy.RANDOM**:随机抽样,带放回采样。
|
||||
- **SamplingStrategy.EDGE_WEIGHT**:以边缘权重为概率进行采样。
|
||||
|
@ -286,9 +286,9 @@ mindspore.dataset.Graph
|
|||
参数:
|
||||
- **target_nodes** (list[int]) - 随机游走中的起始节点列表。
|
||||
- **meta_path** (list[int]) - 每个步长的节点类型。
|
||||
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参,默认值:1.0。
|
||||
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参,默认值:1.0。
|
||||
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点,默认值:-1,表示不给定节点。
|
||||
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参。默认值:1.0。
|
||||
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参。默认值:1.0。
|
||||
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点。默认值:-1,表示不给定节点。
|
||||
|
||||
返回:
|
||||
numpy.ndarray,包含节点的数组。
|
||||
|
|
|
@ -8,17 +8,17 @@ mindspore.dataset.GraphData
|
|||
|
||||
参数:
|
||||
- **dataset_file** (str) - 数据集文件路径。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数,默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server',默认值:'local'。
|
||||
- **num_parallel_workers** (int, 可选) - 读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **working_mode** (str, 可选) - 设置工作模式,目前支持'local'/'client'/'server'。默认值:'local'。
|
||||
|
||||
- **local**:用于非分布式训练场景。
|
||||
- **client**:用于分布式训练场景。客户端不加载数据,而是从服务器获取数据。
|
||||
- **server**:用于分布式训练场景。服务器加载数据并可供客户端使用。
|
||||
|
||||
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效,默认值:'127.0.0.1'。
|
||||
- **port** (int, 可选) - 图数据服务器的端口,取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效,默认值:50051。
|
||||
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效,默认值:1。
|
||||
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出,默认值:True。
|
||||
- **hostname** (str, 可选) - 图数据集服务器的主机名。该参数仅在工作模式设置为 'client' 或 'server' 时有效。默认值:'127.0.0.1'。
|
||||
- **port** (int, 可选) - 图数据服务器的端口,取值范围为1024-65535。此参数仅当工作模式设置为 'client' 或 'server' 时有效。默认值:50051。
|
||||
- **num_client** (int, 可选) - 期望连接到服务器的最大客户端数。服务器将根据该参数分配资源。该参数仅在工作模式设置为 'server' 时有效。默认值:1。
|
||||
- **auto_shutdown** (bool, 可选) - 当工作模式设置为 'server' 时有效。当连接的客户端数量达到 `num_client` ,且没有客户端正在连接时,服务器将自动退出。默认值:True。
|
||||
|
||||
异常:
|
||||
- **ValueError** - `dataset_file` 路径下数据文件不存在或无效。
|
||||
|
@ -132,7 +132,7 @@ mindspore.dataset.GraphData
|
|||
参数:
|
||||
- **node_list** (Union[list, numpy.ndarray]) - 给定的节点列表。
|
||||
- **neighbor_type** (int) - 指定相邻节点的类型。
|
||||
- **output_format** (OutputFormat, 可选) - 输出存储格式,默认值:mindspore.dataset.OutputFormat.NORMAL,取值范围:[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
|
||||
- **output_format** (OutputFormat, 可选) - 输出存储格式。默认值:mindspore.dataset.OutputFormat.NORMAL,取值范围:[OutputFormat.NORMAL, OutputFormat.COO, OutputFormat.CSR]。
|
||||
|
||||
返回:
|
||||
对于普通格式或COO格式,将返回numpy.ndarray类型的数组表示相邻节点。如果指定了CSR格式,将返回两个numpy.ndarray数组,第一个表示偏移表,第二个表示相邻节点。
|
||||
|
@ -236,7 +236,7 @@ mindspore.dataset.GraphData
|
|||
- **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。
|
||||
- **neighbor_nums** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点数。
|
||||
- **neighbor_types** (Union[list, numpy.ndarray]) - 每跳采样的相邻节点类型,列表或数组中每个元素都应该是int类型。
|
||||
- **strategy** (SamplingStrategy, 可选) - 采样策略,默认值:mindspore.dataset.SamplingStrategy.RANDOM。取值范围:[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
|
||||
- **strategy** (SamplingStrategy, 可选) - 采样策略。默认值:mindspore.dataset.SamplingStrategy.RANDOM。取值范围:[SamplingStrategy.RANDOM, SamplingStrategy.EDGE_WEIGHT]。
|
||||
|
||||
- **SamplingStrategy.RANDOM**:随机抽样,带放回采样。
|
||||
- **SamplingStrategy.EDGE_WEIGHT**:以边缘权重为概率进行采样。
|
||||
|
@ -263,9 +263,9 @@ mindspore.dataset.GraphData
|
|||
参数:
|
||||
- **target_nodes** (list[int]) - 随机游走中的起始节点列表。
|
||||
- **meta_path** (list[int]) - 每个步长的节点类型。
|
||||
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参,默认值:1.0。
|
||||
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参,默认值:1.0。
|
||||
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点,默认值:-1,表示不给定节点。
|
||||
- **step_home_param** (float, 可选) - 返回 `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的超参。默认值:1.0。
|
||||
- **step_away_param** (float, 可选) - `node2vec算法 <https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf>`_ 中的in和out超参。默认值:1.0。
|
||||
- **default_node** (int, 可选) - 如果找不到更多相邻节点,则为默认节点。默认值:-1,表示不给定节点。
|
||||
|
||||
返回:
|
||||
numpy.ndarray,包含节点的数组。
|
||||
|
|
|
@ -14,8 +14,8 @@ mindspore.dataset.IMDBDataset
|
|||
对于Polarity数据集,'train'将读取360万个训练样本,'test'将读取40万个测试样本,'all'将读取所有400万个样本。
|
||||
对于Full数据集,'train'将读取300万个训练样本,'test'将读取65万个测试样本,'all'将读取所有365万个样本。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -11,13 +11,13 @@ mindspore.dataset.ImageFolderDataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中,默认值:None。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **extensions** (list[str], 可选) - 指定文件的扩展名,仅读取与指定扩展名匹配的文件到数据集中。默认值:None。
|
||||
- **class_indexing** (dict, 可选) - 指定文件夹名称到label索引的映射,要求映射规则为string到int。文件夹名称将按字母顺序排列,索引值从0开始,并且要求每个文件夹名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
|
|
|
@ -11,15 +11,15 @@
|
|||
|
||||
参数:
|
||||
- **data_dir** (str) - 加载数据集的目录,这里包含原始格式的数据,并将在 `process` 方法中被加载。
|
||||
- **save_dir** (str) - 保存处理后得到的数据集的相对目录,该目录位于 `data_dir` 下面,默认值:"./processed"。
|
||||
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表,默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式),默认值:1。
|
||||
- **save_dir** (str) - 保存处理后得到的数据集的相对目录,该目录位于 `data_dir` 下面。默认值:"./processed"。
|
||||
- **column_names** (Union[str, list[str]],可选) - dataset包含的单个列名或多个列名组成的列表。默认值:'Graph'。当实现类似 `__getitem__` 等方法时,列名的数量应该等于该方法中返回数据的条数。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作进程数/线程数(由参数 `python_multiprocessing` 决定当前为多进程模式或多线程模式)。默认值:1。
|
||||
- **shuffle** (bool,可选) - 是否混洗数据集。当实现的Dataset带有可随机访问属性( `__getitem__` )时,才可以指定该参数。默认值:None。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算,默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间,默认值:6,单位为MB。仅当参数 `python_multiprocessing` 设为True时,此参数才会生效。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **python_multiprocessing** (bool,可选) - 启用Python多进程模式加速运算。默认值:True。当传入 `source` 的Python对象的计算量很大时,开启此选项可能会有较好效果。
|
||||
- **max_rowsize** (int, 可选) - 指定在多进程之间复制数据时,共享内存分配的最大空间。默认值:6,单位为MB。仅当参数 `python_multiprocessing` 设为True时,此参数才会生效。
|
||||
|
||||
.. py:method:: load()
|
||||
|
||||
|
|
|
@ -13,8 +13,8 @@ mindspore.dataset.KMnistDataset
|
|||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -12,8 +12,8 @@ mindspore.dataset.LJSpeechDataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本音频。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -9,15 +9,15 @@
|
|||
|
||||
参数:
|
||||
- **dataset_file** (str) - 数据集文件的目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference',默认值:'train'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'eval' 或 'inference'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **class_indexing** (dict, 可选) - 指定一个从label名称到label索引的映射,要求映射规则为string到int。索引值从0开始,并且要求每个label名称对应的索引值唯一。默认值:None,不指定。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -9,7 +9,7 @@
|
|||
- **dataset_files** (Union[str, list[str]]) - MindRecord文件路径,支持单文件路径字符串、多文件路径字符串列表。如果 `dataset_files` 的类型是字符串,则它代表一组具有相同前缀名的MindRecord文件,同一路径下具有相同前缀名的其他MindRecord文件将会被自动寻找并加载。如果 `dataset_files` 的类型是列表,则它表示所需读取的MindRecord数据文件。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
|
@ -17,9 +17,9 @@
|
|||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器:SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。当前此数据集仅支持以下采样器:SubsetRandomSampler、PkSampler、RandomSampler、SequentialSampler和DistributedSampler。
|
||||
- **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `column_list` 指定的列名相同。默认值:None,不添加样本。需要与 `num_padded` 参数同时使用。
|
||||
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值:None,不添加样本。需要与 `padded_sample` 参数同时使用。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
|
|
|
@ -13,10 +13,10 @@ mindspore.dataset.MnistDataset
|
|||
取值为'train'时将会读取60,000个训练样本,取值为'test'时将会读取10,000个测试样本,取值为'all'时将会读取全部70,000个样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -8,16 +8,16 @@ mindspore.dataset.NumpySlicesDataset
|
|||
参数:
|
||||
- **data** (Union[list, tuple, dict]) - 输入的Python数据。支持的数据类型包括:list、tuple、dict和其他NumPy格式。
|
||||
输入数据将沿着第一个维度切片,并生成额外的行。如果输入是单个list,则将生成一个数据列,若是嵌套多个list,则生成多个数据列。不建议通过这种方式加载大量的数据,因为可能会在数据加载到内存时等待较长时间。
|
||||
- **column_names** (list[str], 可选) - 指定数据集生成的列名,默认值:None,不指定。
|
||||
- **column_names** (list[str], 可选) - 指定数据集生成的列名。默认值:None,不指定。
|
||||
如果未指定该参数,且当输入数据的类型是dict时,输出列名称将被命名为dict的键名,否则它们将被统一命名为column_0,column_1...。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数,默认值:1。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:1。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
只有输入的 `data` 参数带有可随机访问属性(`__getitem__`)时,才可以指定该参数。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
.. note:: 此数据集可以指定参数 `sampler` ,但参数 `sampler` 和参数 `shuffle` 的行为是互斥的。下表展示了几种合法的输入参数组合及预期的行为。
|
||||
|
||||
|
|
|
@ -14,7 +14,7 @@
|
|||
- **sk** (str) - 访问密钥中的SK。
|
||||
- **sync_obs_path** (str) - 用于同步操作云存储上的路径,用户需要提前创建,目录路径的格式为s3://bucketName/objectKey。
|
||||
- **columns_list** (list[str],可选) - 指定从MindRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
|
@ -22,8 +22,8 @@
|
|||
- **Shuffle.FILES**:仅混洗文件。
|
||||
- **Shuffle.INFILE**:保持读入文件的序列,仅混洗每个文件中的数据。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:True。
|
||||
如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。
|
||||
因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
|
|
@ -7,9 +7,9 @@ mindspore.dataset.PKSampler
|
|||
|
||||
参数:
|
||||
- **num_val** (int) - 每个类要采样的元素数量。
|
||||
- **num_class** (int, 可选) - 要采样的类数量,默认值:为None,采样所有类。当前不支持指定该参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本,默认值:False,不混洗样本。
|
||||
- **class_column** (str, 可选) - 指定label所属数据列的名称,将基于此列作为数据标签进行采样,默认值:'label'。
|
||||
- **num_class** (int, 可选) - 要采样的类数量。默认值:为None,采样所有类。当前不支持指定该参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗采样得到的样本。默认值:False,不混洗样本。
|
||||
- **class_column** (str, 可选) - 指定label所属数据列的名称,将基于此列作为数据标签进行采样。默认值:'label'。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -17,8 +17,8 @@ mindspore.dataset.PhotoTourDataset
|
|||
取值为'test'时,将读取100,000个测试样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
|
|
@ -10,15 +10,15 @@ mindspore.dataset.Places365Dataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val',默认值:'train-standard'。
|
||||
- **usage** (str, 可选) - 'train-standard'、'train-challenge'或'val'。默认值:'train-standard'。
|
||||
- **small** (bool, 可选) - 是否使用256*256的低分辨率图像(True)或高分辨率图像(False)。默认值:False,使用低分辨率图像。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -9,14 +9,14 @@ mindspore.dataset.QMnistDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all',默认值:None,读取所有子集。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'test10k'、'test50k'、'nist'或'all'。默认值:None,读取所有子集。
|
||||
- **compat** (bool, 可选) - 指定每个样本的标签是类别号(compat=True)还是完整的QMNIST信息(compat=False)。默认值:True,标签为类别号。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -9,13 +9,13 @@ mindspore.dataset.RandomDataset
|
|||
- **total_rows** (int, 可选) - 随机生成样本数据的数量。默认值:None,生成随机数量的样本。
|
||||
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
|
||||
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值:None,不指定。
|
||||
- **columns_list** (list[str], 可选) - 指定生成数据集的列名,默认值:None,生成的数据列将以"c0","c1","c2" ... "cn"的规则命名。
|
||||
- **columns_list** (list[str], 可选) - 指定生成数据集的列名。默认值:None,生成的数据列将以"c0","c1","c2" ... "cn"的规则命名。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
|
||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||
|
|
|
@ -6,7 +6,7 @@ mindspore.dataset.RandomSampler
|
|||
随机采样器。
|
||||
|
||||
参数:
|
||||
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样,默认值:False,无放回采样。
|
||||
- **replacement** (bool, 可选) - 是否将样本ID放回下一次采样。默认值:False,无放回采样。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -16,11 +16,11 @@ mindspore.dataset.SBDataset
|
|||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'val'、'train_noval'和'all'。默认值:'train'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||
|
|
|
@ -9,13 +9,13 @@ mindspore.dataset.SBUDataset
|
|||
|
||||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -14,10 +14,10 @@ mindspore.dataset.STL10Dataset
|
|||
取值为'all'时将会读取全部类型的样本。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -12,10 +12,10 @@ mindspore.dataset.SVHNDataset
|
|||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'extra'或'all'。默认值:None,读取全部样本图片。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值:None,读取全部样本图片。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||
|
|
|
@ -6,7 +6,7 @@ mindspore.dataset.Schema
|
|||
用于解析和存储数据列属性的类。
|
||||
|
||||
参数:
|
||||
- **schema_file** (str) - schema文件的路径,默认值:None。
|
||||
- **schema_file** (str) - schema文件的路径。默认值:None。
|
||||
|
||||
返回:
|
||||
schema对象,关于数据集的行列配置的策略信息。
|
||||
|
@ -21,7 +21,7 @@ mindspore.dataset.Schema
|
|||
参数:
|
||||
- **name** (str) - 列的新名称。
|
||||
- **de_type** (str) - 列的数据类型。
|
||||
- **shape** (list[int], 可选) - 列shape,默认值:None,-1表示该维度的shape是未知的。
|
||||
- **shape** (list[int], 可选) - 列shape。默认值:None,-1表示该维度的shape是未知的。
|
||||
|
||||
异常:
|
||||
- **ValueError** - 列类型未知。
|
||||
|
|
|
@ -11,10 +11,10 @@ mindspore.dataset.SemeionDataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -6,7 +6,7 @@ mindspore.dataset.SequentialSampler
|
|||
按数据集的读取顺序采样数据集样本,相当于不使用采样器。
|
||||
|
||||
参数:
|
||||
- **start_index** (int, 可选) - 采样的起始样本ID,默认值:None,从数据集第一个样本开始采样。
|
||||
- **start_index** (int, 可选) - 采样的起始样本ID。默认值:None,从数据集第一个样本开始采样。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -13,15 +13,15 @@ mindspore.dataset.SogouNewsDataset
|
|||
取值为'train'时将会读取45万个训练样本,取值为'test'时将会读取6万个测试样本,取值为'all'时将会读取全部51万个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -14,10 +14,10 @@ mindspore.dataset.SpeechCommandsDataset
|
|||
取值为'train'时将会读取84,843个训练样本,取值为'test'时将会读取11,005个测试样本,取值为'valid'时将会读取9,981个测试样本,取值为'all'时将会读取全部105,829个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -10,21 +10,21 @@ mindspore.dataset.TFRecordDataset
|
|||
- **schema** (Union[str, Schema], 可选) - 读取模式策略,用于指定读取数据列的数据类型、数据维度等信息。
|
||||
支持传入JSON文件路径或 mindspore.dataset.Schema 构造的对象。默认值:None,不指定。
|
||||
- **columns_list** (list[str], 可选) - 指定从TFRecord文件中读取的数据列。默认值:None,读取所有列。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)不存在,则读取所有数据集;
|
||||
- 如果 `num_samples` 为None,并且numRows字段(由参数 `schema` 定义)的值大于0,则读取numRows条数据;
|
||||
- 如果 `num_samples` 和numRows字段(由参数 `schema` 定义)的值都大于0,此时仅有参数 `num_samples` 生效且读取给定数量的数据。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后,`num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后,`num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值:False。如果 `shard_equal_rows` 为False,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为True。注意,只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
|
|
|
@ -17,10 +17,10 @@ mindspore.dataset.TedliumDataset
|
|||
- **extensions** (str, 可选) - 指定SPH文件的扩展名。默认值:'.sph'。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -9,15 +9,15 @@
|
|||
- **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -12,15 +12,15 @@ mindspore.dataset.UDPOSDataset
|
|||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train'、'test'、'valid'或'all'。
|
||||
取值为'train'时将会读取12,543个样本,取值为'test'时将会读取2,077个测试样本,取值为'test'时将会读取9,981个样本,取值为'valid'时将会读取2,002个样本,取值为'all'时将会读取全部16,622个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
|
|
|
@ -13,15 +13,15 @@ mindspore.dataset.USPSDataset
|
|||
取值为'train'时将会读取7,291个样本,取值为'test'时将会读取2,077个测试样本,取值为'test'时将会读取2,007个样本,取值为'all'时将会读取全部9,298个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -13,7 +13,7 @@ mindspore.dataset.VOCDataset
|
|||
参数:
|
||||
- **dataset_dir** (str) - 包含数据集文件的根目录的路径。
|
||||
- **task** (str, 可选) - 指定读取VOC数据的任务类型,现在只支持'Segmentation'和'Detection'。默认值:'Segmentation'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集,默认值:'train'。
|
||||
- **usage** (str, 可选) - 指定数据集的子集。默认值:'train'。
|
||||
|
||||
- 如果 'task' 的值为 'Segmentation',则读取 'ImageSets/Segmentation/' 目录下定义的图片和label信息;
|
||||
- 如果 'task' 的值为 'Detection' ,则读取 'ImageSets/Main/' 目录下定义的图片和label信息。
|
||||
|
@ -21,13 +21,13 @@ mindspore.dataset.VOCDataset
|
|||
仅在 'Detection' 任务中有效。默认值:None,不指定。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,所有图像样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列,默认值:False。
|
||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值:False。
|
||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值:None,不进行解密。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -14,11 +14,11 @@ mindspore.dataset.WIDERFaceDataset
|
|||
取值为'train'时将会读取12,880个样本,取值为'test'时将会读取2,077个测试样本,取值为'test'时将会读取16,097个样本,取值为'valid'时将会读取3,226个样本,取值为'all'时将会读取全部类别样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值:False,不解码。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -14,7 +14,7 @@ mindspore.dataset.WaitedDSCallback
|
|||
.. note:: 注意,第2个step或epoch开始时才会触发该调用。
|
||||
|
||||
参数:
|
||||
- **step_size** (int, 可选) - 每个step包含的数据行数。通常step_size与batch_size一致,默认值:1。
|
||||
- **step_size** (int, 可选) - 每个step包含的数据行数。通常step_size与batch_size一致。默认值:1。
|
||||
|
||||
.. py:method:: sync_epoch_begin(train_run_context, ds_run_context)
|
||||
|
||||
|
|
|
@ -8,7 +8,7 @@ mindspore.dataset.WeightedRandomSampler
|
|||
参数:
|
||||
- **weights** (list[float, int]) - 权重序列,总和不一定为1。
|
||||
- **num_samples** (int, 可选) - 获取的样本数,可用于部分获取采样得到的样本。默认值:None,获取采样到的所有样本。
|
||||
- **replacement** (bool) - 是否将样本ID放回下一次采样,默认值:True,有放回采样。
|
||||
- **replacement** (bool) - 是否将样本ID放回下一次采样。默认值:True,有放回采样。
|
||||
|
||||
异常:
|
||||
- **TypeError** - `weights` 元素的类型不是数值类型。
|
||||
|
|
|
@ -12,15 +12,15 @@ mindspore.dataset.WikiTextDataset
|
|||
- **usage** (str, 可选) - 指定数据集的子集,可取值为'train', 'test', 'valid'或'all'。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -13,15 +13,15 @@ mindspore.dataset.YahooAnswersDataset
|
|||
取值为'train'时将会读取1,400,000个训练样本,取值为'test'时将会读取60,000个测试样本,取值为'all'时将会读取全部1,460,000个样本。默认值:None,读取全部样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -13,15 +13,15 @@ mindspore.dataset.YelpReviewDataset
|
|||
对于Polarity数据集,'train'将读取560,000个训练样本,'test'将读取38,000个测试样本,'all'将读取所有598,000个样本。
|
||||
对于Full数据集,'train'将读取650,000个训练样本,'test'将读取50,000个测试样本,'all'将读取所有700,000个样本。默认值:None,读取所有样本。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
- **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定。默认值:mindspore.dataset.Shuffle.GLOBAL。
|
||||
如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
|
||||
通过传入枚举变量设置数据混洗的模式:
|
||||
|
||||
- **Shuffle.GLOBAL**:混洗文件和样本。
|
||||
- **Shuffle.FILES**:仅混洗文件。
|
||||
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
|
|
|
@ -12,10 +12,10 @@ mindspore.dataset.YesNoDataset
|
|||
- **dataset_dir** (str) - 包含数据集文件的根目录路径。
|
||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值:None,读取全部样本。
|
||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None。下表中会展示不同参数配置的预期行为。
|
||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值:None。下表中会展示不同配置的预期行为。
|
||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
|
||||
- **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值:None,不使用缓存。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -12,7 +12,7 @@
|
|||
|
||||
参数:
|
||||
- **dataset** (Dataset) - 数据处理管道对象。
|
||||
- **json_filepath** (str) - 生成序列化JSON文件的路径,默认值:'',不指定JSON路径。
|
||||
- **json_filepath** (str) - 生成序列化JSON文件的路径。默认值:'',不指定JSON路径。
|
||||
|
||||
返回:
|
||||
Dict,包含序列化数据集图的字典。
|
||||
|
|
|
@ -9,18 +9,18 @@
|
|||
- **image** (numpy.ndarray) - 待绘制的图像,shape为(C, H, W)或(H, W, C),通道顺序为RGB。
|
||||
- **bboxes** (numpy.ndarray) - 边界框(包含类别置信度),shape为(N, 4)或(N, 5),格式为(N,X,Y,W,H)。
|
||||
- **labels** (numpy.ndarray) - 边界框的类别,shape为(N, 1)。
|
||||
- **segm** (numpy.ndarray) - 图像分割掩码,shape为(M, H, W),M表示类别总数,默认值:None,不绘制掩码。
|
||||
- **class_names** (list[str], tuple[str], dict) - 类别索引到类别名的映射表,默认值:None,仅显示类别索引。
|
||||
- **score_threshold** (float) - 绘制边界框的类别置信度阈值,默认值:0,绘制所有边界框。
|
||||
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色,顺序为BGR,默认值:(0,255,0),表示绿色。
|
||||
- **text_color** (tuple(int)) - 指定类别文本的显示颜色,顺序为BGR,默认值:(203, 192, 255),表示粉色。
|
||||
- **mask_color** (tuple(int)) - 指定掩码的显示颜色,顺序为BGR,默认值:(128, 0, 128),表示紫色。
|
||||
- **thickness** (int) - 指定边界框和类别文本的线条粗细,默认值:2。
|
||||
- **font_size** (int, float) - 指定类别文本字体大小,默认值:0.8。
|
||||
- **show** (bool) - 是否显示图像,默认值:True。
|
||||
- **win_name** (str) - 指定窗口名称,默认值:"win"。
|
||||
- **wait_time** (int) - 指定cv2.waitKey的时延,单位为ms,即图像显示的自动切换间隔,默认值:2000,表示间隔为2000ms。
|
||||
- **out_file** (str, 可选) - 输出图像的文件路径,用于在绘制后将结果存储到本地,默认值:None,不保存。
|
||||
- **segm** (numpy.ndarray) - 图像分割掩码,shape为(M, H, W),M表示类别总数。默认值:None,不绘制掩码。
|
||||
- **class_names** (list[str], tuple[str], dict) - 类别索引到类别名的映射表。默认值:None,仅显示类别索引。
|
||||
- **score_threshold** (float) - 绘制边界框的类别置信度阈值。默认值:0,绘制所有边界框。
|
||||
- **bbox_color** (tuple(int)) - 指定绘制边界框时线条的颜色,顺序为BGR。默认值:(0,255,0),表示绿色。
|
||||
- **text_color** (tuple(int)) - 指定类别文本的显示颜色,顺序为BGR。默认值:(203, 192, 255),表示粉色。
|
||||
- **mask_color** (tuple(int)) - 指定掩码的显示颜色,顺序为BGR。默认值:(128, 0, 128),表示紫色。
|
||||
- **thickness** (int) - 指定边界框和类别文本的线条粗细。默认值:2。
|
||||
- **font_size** (int, float) - 指定类别文本字体大小。默认值:0.8。
|
||||
- **show** (bool) - 是否显示图像。默认值:True。
|
||||
- **win_name** (str) - 指定窗口名称。默认值:"win"。
|
||||
- **wait_time** (int) - 指定cv2.waitKey的时延,单位为ms,即图像显示的自动切换间隔。默认值:2000,表示间隔为2000ms。
|
||||
- **out_file** (str, 可选) - 输出图像的文件路径,用于在绘制后将结果存储到本地。默认值:None,不保存。
|
||||
|
||||
返回:
|
||||
numpy.ndarray,带边界框和类别置信度的图像。
|
||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.audio.AllpassBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
|
|
|
@ -8,12 +8,12 @@ mindspore.dataset.audio.AmplitudeToDB
|
|||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
参数:
|
||||
- **stype** ( :class:`mindspore.dataset.audio.ScaleType` , 可选) - 输入音频的原始标度,取值可为ScaleType.MAGNITUDE或ScaleType.POWER,默认值:ScaleType.POWER。
|
||||
- **ref_value** (float, 可选) - 系数参考值,默认值:1.0,用于计算分贝系数 `db_multiplier` ,公式为
|
||||
- **stype** ( :class:`mindspore.dataset.audio.ScaleType` , 可选) - 输入音频的原始标度,取值可为ScaleType.MAGNITUDE或ScaleType.POWER。默认值:ScaleType.POWER。
|
||||
- **ref_value** (float, 可选) - 系数参考值。默认值:1.0,用于计算分贝系数 `db_multiplier` ,公式为
|
||||
:math:`db\_multiplier = Log10(max(ref\_value, amin))`。
|
||||
|
||||
- **amin** (float, 可选) - 波形取值下界,低于该值的波形将会被裁切,取值必须大于0,默认值:1e-10。
|
||||
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数,默认值:80.0。
|
||||
- **amin** (float, 可选) - 波形取值下界,低于该值的波形将会被裁切,取值必须大于0。默认值:1e-10。
|
||||
- **top_db** (float, 可选) - 最小截止分贝值,取值为非负数。默认值:80.0。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `stype` 的类型不为 :class:`mindspore.dataset.audio.utils.ScaleType` 。
|
||||
|
|
|
@ -14,8 +14,8 @@ mindspore.dataset.audio.BandBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **noise** (bool, 可选) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式,默认值:False。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
- **noise** (bool, 可选) - 若为True,则使用非音调音频(如打击乐)模式;若为False,则使用音调音频(如语音、歌曲或器乐)模式。默认值:False。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.audio.BandpassBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
- **const_skirt_gain** (bool, 可选) - 若为True,则使用恒定裙边增益(峰值增益为Q);若为False,则使用恒定的0dB峰值增益。默认值:False。
|
||||
|
||||
异常:
|
||||
|
|
|
@ -19,7 +19,7 @@ mindspore.dataset.audio.BandrejectBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **central_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
|
|
|
@ -17,8 +17,8 @@ mindspore.dataset.audio.BassBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz),默认值:100.0。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz)。默认值:100.0。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
|
|
|
@ -8,7 +8,7 @@ mindspore.dataset.audio.ComplexNorm
|
|||
.. note:: 待处理音频维度需为(..., complex=2)。第0维代表实部,第1维代表虚部。
|
||||
|
||||
参数:
|
||||
- **power** (float, 可选) - 范数的幂,取值必须非负,默认值:1.0。
|
||||
- **power** (float, 可选) - 范数的幂,取值必须非负。默认值:1.0。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `power` 的类型不为float。
|
||||
|
|
|
@ -11,7 +11,7 @@ mindspore.dataset.audio.ComputeDeltas
|
|||
其中, :math:`d_{t}` 是时间 :math:`t` 的增量, :math:`c_{t}` 是时间 :math:`t` 的频谱图系数, :math:`N` 是 :math:`(\text{win_length}-1)//2` 。
|
||||
|
||||
参数:
|
||||
- **win_length** (int, 可选) - 计算窗口长度,长度必须不小于3,默认值:5。
|
||||
- **win_length** (int, 可选) - 计算窗口长度,长度必须不小于3。默认值:5。
|
||||
- **pad_mode** (:class:`mindspore.dataset.audio.BorderType`, 可选) - 边界填充模式,可以是
|
||||
[BorderType.CONSTANT, BorderType.EDGE, BorderType.REFLECT, BordBorderTypeer.SYMMETRIC]中任何一个。
|
||||
默认值:BorderType.EDGE。
|
||||
|
|
|
@ -12,7 +12,7 @@ mindspore.dataset.audio.Contrast
|
|||
.. note:: 待处理音频维度需为(..., time)。
|
||||
|
||||
参数:
|
||||
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100],默认值:75.0。请注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。
|
||||
- **enhancement_amount** (float, 可选) - 控制音频增益的量,取值范围为[0,100]。默认值:75.0。请注意当 `enhancement_amount` 等于0时,对比度增强效果仍然会很显著。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `enhancement_amount` 的类型不为float。
|
||||
|
|
|
@ -11,4 +11,4 @@ mindspore.dataset.audio.EqualizerBiquad
|
|||
- **sample_rate** (int) - 采样频率(单位:Hz),值不能为零。
|
||||
- **center_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
|
|
@ -8,10 +8,10 @@ mindspore.dataset.audio.FrequencyMasking
|
|||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
参数:
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码。默认值:False。
|
||||
- **freq_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, freq_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码长度。取值范围为[0, freq_length],其中 `freq_length` 为音频波形在频域的长度。默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, freq_length - frequency_mask_param],其中 `freq_length` 为音频波形在频域的长度。默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值。默认值:0.0。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
|
|
|
@ -11,15 +11,15 @@ mindspore.dataset.audio.GriffinLim
|
|||
其中w表示窗口函数,y表示每个帧的重建信号,x表示整个信号。
|
||||
|
||||
参数:
|
||||
- **n_fft** (int, 可选) - FFT的长度,默认值:400。
|
||||
- **n_iter** (int, 可选) - 相位恢复的迭代次数,默认值:32。
|
||||
- **win_length** (int, 可选) - GriffinLim的窗口大小,默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。
|
||||
- **n_fft** (int, 可选) - FFT的长度。默认值:400。
|
||||
- **n_iter** (int, 可选) - 相位恢复的迭代次数。默认值:32。
|
||||
- **win_length** (int, 可选) - GriffinLim的窗口大小。默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度。默认值:None,将设置为 `win_length//2` 。
|
||||
- **window_type** (WindowType, 可选) - GriffinLim的窗口类型,可以是WindowType.BARTLETT,
|
||||
WindowType.BLACKMAN,WindowType.HAMMING,WindowType.HANN或WindowType.KAISER。
|
||||
默认值:WindowType.HANN,目前macOS上不支持kaiser窗口。
|
||||
- **power** (float, 可选) - 幅度谱图的指数,默认值:2.0。
|
||||
- **momentum** (float, 可选) - 快速Griffin-Lim的动量,默认值:0.99。
|
||||
- **power** (float, 可选) - 幅度谱图的指数。默认值:2.0。
|
||||
- **momentum** (float, 可选) - 快速Griffin-Lim的动量。默认值:0.99。
|
||||
- **length** (int, 可选) - 预期输出波形的长度。默认值:None,将设置为stft矩阵的最后一个维度的值。
|
||||
- **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志,默认值:True。
|
||||
- **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志。默认值:True。
|
||||
|
|
@ -10,4 +10,4 @@ mindspore.dataset.audio.HighpassBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **cutoff_freq** (float) - 中心频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
|
|
@ -7,14 +7,14 @@ mindspore.dataset.audio.InverseMelScale
|
|||
|
||||
参数:
|
||||
- **n_stft** (int) - STFT中的滤波器的组数。
|
||||
- **n_mels** (int, 可选) - mel滤波器的数量,默认值:128。
|
||||
- **sample_rate** (int, 可选) - 音频信号采样频率,默认值:16000。
|
||||
- **f_min** (float, 可选) - 最小频率,默认值:0.0。
|
||||
- **f_max** (float, 可选) - 最大频率,默认值:None,将设置为 `sample_rate//2` 。
|
||||
- **max_iter** (int, 可选) - 最大优化迭代次数,默认值:100000。
|
||||
- **tolerance_loss** (float, 可选) - 当达到损失值时停止优化,默认值:1e-5。
|
||||
- **tolerance_change** (float, 可选) - 指定损失差异,当达到损失差异时停止优化,默认值:1e-8。
|
||||
- **sgdargs** (dict, 可选) - SGD优化器的参数,默认值:None,将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。
|
||||
- **n_mels** (int, 可选) - mel滤波器的数量。默认值:128。
|
||||
- **sample_rate** (int, 可选) - 音频信号采样频率。默认值:16000。
|
||||
- **f_min** (float, 可选) - 最小频率。默认值:0.0。
|
||||
- **f_max** (float, 可选) - 最大频率。默认值:None,将设置为 `sample_rate//2` 。
|
||||
- **max_iter** (int, 可选) - 最大优化迭代次数。默认值:100000。
|
||||
- **tolerance_loss** (float, 可选) - 当达到损失值时停止优化。默认值:1e-5。
|
||||
- **tolerance_change** (float, 可选) - 指定损失差异,当达到损失差异时停止优化。默认值:1e-8。
|
||||
- **sgdargs** (dict, 可选) - SGD优化器的参数。默认值:None,将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。
|
||||
- **norm** (NormType, 可选) - 标准化方法,可以是NormType.SLANEY或NormType.NONE。默认值:NormType.NONE。
|
||||
- **mel_type** (MelType, 可选) - 要使用的Mel比例,可以是MelType.SLAN或MelType.HTK。默认值:MelType.HTK。
|
||||
|
|
@ -10,7 +10,7 @@ mindspore.dataset.audio.LFilter
|
|||
大小必须与 `b_coeffs` 相同(根据需要填充0)。
|
||||
- **b_coeffs** (sequence) - (n_order + 1)维数差分方程的分子系数。较低的延迟系数是第一位的,例如[b0, b1, b2, ...]。
|
||||
大小必须与 `a_coeffs` 相同(根据需要填充0)。
|
||||
- **clamp** (bool, 可选) - 如果为True,则将输出信号截断在[-1, 1]范围内,默认值:True。
|
||||
- **clamp** (bool, 可选) - 如果为True,则将输出信号截断在[-1, 1]范围内。默认值:True。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., time>。
|
||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.audio.LowpassBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **cutoff_freq** (float) - 滤波器截止频率(单位:Hz)。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1],默认值:0.707。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围(0, 1]。默认值:0.707。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `sample_rate` 的类型不为int。
|
||||
|
|
|
@ -6,7 +6,7 @@ mindspore.dataset.audio.Magphase
|
|||
将具有(..., 2)形状的复值光谱图分离,输出幅度和相位。
|
||||
|
||||
参数:
|
||||
- **power** (float) - 范数的功率,必须是非负的,默认值:1.0。
|
||||
- **power** (float) - 范数的功率,必须是非负的。默认值:1.0。
|
||||
|
||||
异常:
|
||||
- **RuntimeError** - 当输入音频的shape不为<..., 2>。
|
||||
|
|
|
@ -6,11 +6,11 @@ mindspore.dataset.audio.MelScale
|
|||
将正常STFT转换为梅尔尺度的STFT。
|
||||
|
||||
参数:
|
||||
- **n_mels** (int, 可选) - 梅尔滤波器的数量,默认值:128。
|
||||
- **sample_rate** (int, 可选) - 音频信号采样速率,默认值:16000。
|
||||
- **f_min** (float, 可选) - 最小频率,默认值:0.0。
|
||||
- **f_max** (float, 可选) - 最大频率,默认值:None,将设置为 `sample_rate//2` 。
|
||||
- **n_stft** (int, 可选) - STFT中的滤波器的组数,默认值:201。
|
||||
- **n_mels** (int, 可选) - 梅尔滤波器的数量。默认值:128。
|
||||
- **sample_rate** (int, 可选) - 音频信号采样速率。默认值:16000。
|
||||
- **f_min** (float, 可选) - 最小频率。默认值:0.0。
|
||||
- **f_max** (float, 可选) - 最大频率。默认值:None,将设置为 `sample_rate//2` 。
|
||||
- **n_stft** (int, 可选) - STFT中的滤波器的组数。默认值:201。
|
||||
- **norm** (NormType, 可选) - 标准化方法,可以是NormType.SLANEY或NormType.NONE。默认值:NormType.NONE。
|
||||
- **mel_type** (MelType, 可选) - 要使用的Mel比例,可以是MelType.SLAN或MelType.HTK。默认值:MelType.HTK。
|
||||
|
|
@ -7,11 +7,11 @@ mindspore.dataset.audio.Phaser
|
|||
|
||||
参数:
|
||||
- **sample_rate** (int) - 波形的采样率,例如44100 (Hz)。
|
||||
- **gain_in** (float, 可选) - 期望提升(或衰减)所需输入增益,单位为dB。允许的值范围为[0, 1],默认值:0.4。
|
||||
- **gain_out** (float, 可选) - 期望提升(或衰减)期望输出增益,单位为dB。允许的值范围为[0, 1e9],默认值:0.74。
|
||||
- **delay_ms** (float, 可选) - 延迟数,以毫秒为单位。允许的值范围为[0, 5],默认值:3.0。
|
||||
- **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99],默认值:0.4。
|
||||
- **mod_speed** (float, 可选) - 调制速度,单位为Hz。允许的值范围为[0.1, 2],默认值:0.5。
|
||||
- **gain_in** (float, 可选) - 期望提升(或衰减)所需输入增益,单位为dB。允许的值范围为[0, 1]。默认值:0.4。
|
||||
- **gain_out** (float, 可选) - 期望提升(或衰减)期望输出增益,单位为dB。允许的值范围为[0, 1e9]。默认值:0.74。
|
||||
- **delay_ms** (float, 可选) - 延迟数,以毫秒为单位。允许的值范围为[0, 5]。默认值:3.0。
|
||||
- **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99]。默认值:0.4。
|
||||
- **mod_speed** (float, 可选) - 调制速度,单位为Hz。允许的值范围为[0.1, 2]。默认值:0.5。
|
||||
- **sinusoidal** (bool, 可选) - 如果为True,请使用正弦调制(对于多个乐器效果最好)。
|
||||
如果为False,则使用triangular modulation(使单个乐器具有更清晰的相位效果)。默认值:True。
|
||||
|
|
@ -6,11 +6,11 @@ mindspore.dataset.audio.Resample
|
|||
将音频波形从一个频率重新采样到另一个频率。必要时可以指定重采样方法。
|
||||
|
||||
参数:
|
||||
- **orig_freq** (float, 可选) - 音频波形的原始频率,必须为正,默认值:16000。
|
||||
- **new_freq** (float, 可选) - 目标音频波形频率,必须为正,默认值:16000。
|
||||
- **orig_freq** (float, 可选) - 音频波形的原始频率,必须为正。默认值:16000。
|
||||
- **new_freq** (float, 可选) - 目标音频波形频率,必须为正。默认值:16000。
|
||||
- **resample_method** (ResampleMethod, 可选) - 重采样方法,可以是ResampleMethod.SINC_INTERPOLATION和ResampleMethod.KAISER_WINDOW。
|
||||
默认值=ResampleMethod.SINC_INTERPOLATION。
|
||||
- **lowpass_filter_width** (int, 可选) - 控制滤波器的宽度,越多意味着更清晰,但效率越低,必须为正。默认值:6。
|
||||
- **rolloff** (float, 可选) - 滤波器的滚降频率,作为Nyquist的一小部分。
|
||||
较低的值减少了抗锯齿,但也减少了一些最高频率,范围:(0, 1]。默认值:0.99。
|
||||
- **beta** (float, 可选) - 用于kaiser窗口的形状参数,默认值:None,将使用14.769656459379492。
|
||||
- **beta** (float, 可选) - 用于kaiser窗口的形状参数。默认值:None,将使用14.769656459379492。
|
||||
|
|
|
@ -6,9 +6,9 @@ mindspore.dataset.audio.SlidingWindowCmn
|
|||
对每个话语应用滑动窗口倒谱均值(和可选方差)归一化。
|
||||
|
||||
参数:
|
||||
- **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口,默认值:600。
|
||||
- **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口。默认值:600。
|
||||
- **min_cmn_window** (int, 可选) - 解码开始时使用的最小CMN窗口(仅在开始时增加延迟)。
|
||||
仅在中心为False时适用,在中心为True时忽略,默认值:100。
|
||||
仅在中心为False时适用,在中心为True时忽略。默认值:100。
|
||||
- **center** (bool, 可选) - 如果为True,则使用以当前帧为中心的窗口。如果为False,则窗口在左侧。默认值:False。
|
||||
- **norm_vars** (bool, 可选) - 如果为True,则将方差规范化为1。默认值:False。
|
||||
|
||||
|
|
|
@ -8,8 +8,8 @@ mindspore.dataset.audio.SpectralCentroid
|
|||
参数:
|
||||
- **sample_rate** (int) - 波形的采样率,例如44100 (Hz)。
|
||||
- **n_fft** (int, 可选) - FFT的大小,创建n_fft // 2 + 1 bins。默认值:400。
|
||||
- **win_length** (int, 可选) - 窗口大小,默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。
|
||||
- **pad** (int, 可选) - 信号的两侧填充数量,默认值:0。
|
||||
- **win_length** (int, 可选) - 窗口大小。默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度。默认值:None,将设置为 `win_length//2` 。
|
||||
- **pad** (int, 可选) - 信号的两侧填充数量。默认值:0。
|
||||
- **window** (WindowType, 可选) - 窗口函数,可以是WindowType.BARTLETT、WindowType.BLACKMAN、
|
||||
WindowType.HAMMING、WindowType.HANN或WindowType.KAISER。默认值:WindowType.HANN。
|
||||
|
|
|
@ -6,17 +6,17 @@ mindspore.dataset.audio.Spectrogram
|
|||
从音频信号创建光谱图。
|
||||
|
||||
参数:
|
||||
- **n_fft** (int, 可选) - FFT的大小,创建 `n_fft // 2 + 1` 组滤波器,默认值:400。
|
||||
- **win_length** (int, 可选) - 窗口大小,默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。
|
||||
- **pad** (int, 可选) - 信号的双面填充,默认值:0。
|
||||
- **n_fft** (int, 可选) - FFT的大小,创建 `n_fft // 2 + 1` 组滤波器。默认值:400。
|
||||
- **win_length** (int, 可选) - 窗口大小。默认值:None,将设置为 `n_fft` 的值。
|
||||
- **hop_length** (int, 可选) - STFT窗口之间的跳数长度。默认值:None,将设置为 `win_length//2` 。
|
||||
- **pad** (int, 可选) - 信号的双面填充。默认值:0。
|
||||
- **window** (WindowType, 可选) - GriffinLim的窗口类型,可以是WindowType.BARTLETT,
|
||||
WindowType.BLACKMAN,WindowType.HAMMING,WindowType.HANN或WindowType.KAISER。
|
||||
默认值:WindowType.HANN,目前macOS上不支持kaiser窗口。
|
||||
- **power** (float, 可选) - 幅度谱图的指数,默认值:2.0。
|
||||
- **power** (float, 可选) - 幅度谱图的指数。默认值:2.0。
|
||||
- **normalized** (bool, 可选) - 是否在stft之后按幅度归一化。默认值:False。
|
||||
- **center** (bool, 可选) - 是否在两侧填充波形,默认值:True。
|
||||
- **center** (bool, 可选) - 是否在两侧填充波形。默认值:True。
|
||||
- **pad_mode** (BorderType, 可选) - 控制中心为True时使用的填充方法,可以是BorderType.REFLECT、BorderType.CONSTANT、
|
||||
BorderType.EDGE、BorderType.SYMMETRIC,默认值:BorderType.REFLECT。
|
||||
- **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余,默认值:True。
|
||||
BorderType.EDGE、BorderType.SYMMETRIC。默认值:BorderType.REFLECT。
|
||||
- **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余。默认值:True。
|
||||
|
|
@ -8,10 +8,10 @@ mindspore.dataset.audio.TimeMasking
|
|||
.. note:: 待处理音频维度需为(..., freq, time)。
|
||||
|
||||
参数:
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码,默认值:False。
|
||||
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度,默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值,默认值:0.0。
|
||||
- **iid_masks** (bool, 可选) - 是否施加随机掩码。默认值:False。
|
||||
- **time_mask_param** (int, 可选) - 当 `iid_masks` 为True时,掩码长度将从[0, time_mask_param]中均匀采样;当 `iid_masks` 为False时,直接使用该值作为掩码的长度。取值范围为[0, time_length],其中 `time_length` 为音频波形在时域的长度。默认值:0。
|
||||
- **mask_start** (int, 可选) - 添加掩码的起始位置,只有当 `iid_masks` 为True时,该值才会生效。取值范围为[0, time_length - time_mask_param],其中 `time_length` 为音频波形在时域的长度。默认值:0。
|
||||
- **mask_value** (float, 可选) - 掩码填充值。默认值:0.0。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `iid_masks` 的类型不为bool。
|
||||
|
|
|
@ -8,9 +8,9 @@ mindspore.dataset.audio.TimeStretch
|
|||
.. note:: 待处理音频维度需为(..., freq, time, complex=2)。第0维代表实部,第1维代表虚部。
|
||||
|
||||
参数:
|
||||
- **hop_length** (int, 可选) - STFT窗之间每跳的长度,即连续帧之间的样本数,默认值:None,表示取 `n_freq - 1`。
|
||||
- **n_freq** (int, 可选) - STFT中的滤波器组数,默认值:201。
|
||||
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例,默认值:None,表示保持原始速率。
|
||||
- **hop_length** (int, 可选) - STFT窗之间每跳的长度,即连续帧之间的样本数。默认值:None,表示取 `n_freq - 1`。
|
||||
- **n_freq** (int, 可选) - STFT中的滤波器组数。默认值:201。
|
||||
- **fixed_rate** (float, 可选) - 频谱在时域加快或减缓的比例。默认值:None,表示保持原始速率。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 当 `hop_length` 的类型不为int。
|
||||
|
|
|
@ -8,5 +8,5 @@ mindspore.dataset.audio.TrebleBiquad
|
|||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz),默认值:3000。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。
|
||||
- **central_freq** (float, 可选) - 中心频率(单位:Hz)。默认值:3000。
|
||||
- **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1]。默认值:0.707。
|
||||
|
|
|
@ -7,19 +7,19 @@ mindspore.dataset.audio.Vad
|
|||
|
||||
参数:
|
||||
- **sample_rate** (int) - 采样频率(单位:Hz),不能为零。
|
||||
- **trigger_level** (float, 可选) - 用于触发活动检测的测量级别,默认值:7.0。
|
||||
- **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数(以秒为单位,默认值:0.25。
|
||||
- **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量(以秒为单位),默认值:1.0。
|
||||
- **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙(以秒为单位),默认值:0.25。
|
||||
- **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前,要保留的音频量(以秒为单位),默认值:0.0。
|
||||
- **boot_time** (float, 可选) - 初始噪声估计的时间,默认值:0.35。
|
||||
- **noise_up_time** (float, 可选) - 当噪音水平增加时,自适应噪音估计器使用的时间常数,默认值:0.1。
|
||||
- **noise_down_time** (float, 可选) - 当噪音水平降低时,自适应噪音估计器使用的时间常数,默认值:0.01。
|
||||
- **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量,默认值:1.35。
|
||||
- **measure_freq** (float, 可选) - 算法处理的频率,默认值:20.0。
|
||||
- **measure_duration** (float, 可选) - 测量持续时间,默认值:None,使用测量周期的两倍。
|
||||
- **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数,默认值:0.4。
|
||||
- **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率,默认值:50.0。
|
||||
- **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率,默认值:6000.0。
|
||||
- **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率,默认值:150.0。
|
||||
- **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率,默认值:20000.0。
|
||||
- **trigger_level** (float, 可选) - 用于触发活动检测的测量级别。默认值:7.0。
|
||||
- **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数(以秒为单位。默认值:0.25。
|
||||
- **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量(以秒为单位)。默认值:1.0。
|
||||
- **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙(以秒为单位)。默认值:0.25。
|
||||
- **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前,要保留的音频量(以秒为单位)。默认值:0.0。
|
||||
- **boot_time** (float, 可选) - 初始噪声估计的时间。默认值:0.35。
|
||||
- **noise_up_time** (float, 可选) - 当噪音水平增加时,自适应噪音估计器使用的时间常数。默认值:0.1。
|
||||
- **noise_down_time** (float, 可选) - 当噪音水平降低时,自适应噪音估计器使用的时间常数。默认值:0.01。
|
||||
- **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量。默认值:1.35。
|
||||
- **measure_freq** (float, 可选) - 算法处理的频率。默认值:20.0。
|
||||
- **measure_duration** (float, 可选) - 测量持续时间。默认值:None,使用测量周期的两倍。
|
||||
- **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数。默认值:0.4。
|
||||
- **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率。默认值:50.0。
|
||||
- **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率。默认值:6000.0。
|
||||
- **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率。默认值:150.0。
|
||||
- **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率。默认值:20000.0。
|
||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.text.JiebaTokenizer
|
|||
- **JiebaMode.HMM**:使用隐马尔可夫模型算法进行分词。
|
||||
- **JiebaMode.MIX**:使用隐式马尔科夫模型分词算法和最大概率法分词算法混合进行分词。
|
||||
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量,默认值:False。
|
||||
- **with_offsets** (bool, 可选) - 是否输出标记(token)的偏移量。默认值:False。
|
||||
|
||||
异常:
|
||||
- **ValueError** - 没有提供参数 `hmm_path` 或为None。
|
||||
|
|
|
@ -10,7 +10,7 @@ mindspore.dataset.text.Lookup
|
|||
- **unknown_token** (str, 可选) - 备用词汇,用于要查找的单词不在词汇表时进行替换。
|
||||
如果单词不在词汇表中,则查找结果将替换为 `unknown_token` 的值。
|
||||
如果单词不在词汇表中,且未指定 `unknown_token` ,将抛出运行时错误。默认值:None,不指定该参数。
|
||||
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型,默认值:mindspore.int32。
|
||||
- **data_type** (mindspore.dtype, 可选) - Lookup输出的数据类型。默认值:mindspore.int32。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 参数 `vocab` 类型不为 :class:`mindspore.dataset.text.Vocab` 。
|
||||
|
|
|
@ -10,7 +10,7 @@ mindspore.dataset.text.NormalizeUTF8
|
|||
参数:
|
||||
- **normalize_form** (NormalizeForm, 可选) - 指定不同的规范化形式,可以取值为
|
||||
NormalizeForm.NONE, NormalizeForm.NFC, NormalizeForm.NFKC、NormalizeForm.NFD、NormalizeForm.NFKD此四种unicode中的
|
||||
任何一种形式,默认值:NormalizeForm.NFKC。
|
||||
任何一种形式。默认值:NormalizeForm.NFKC。
|
||||
|
||||
- NormalizeForm.NONE,对输入字符串不做任何处理。
|
||||
- NormalizeForm.NFC,对输入字符串进行C形式规范化。
|
||||
|
|
|
@ -13,7 +13,7 @@ mindspore.dataset.text.RegexTokenizer
|
|||
- **delim_pattern** (str) - 以正则表达式表示的分隔符,字符串将被正则匹配的分隔符分割。
|
||||
- **keep_delim_pattern** (str, 可选) - 如果被 `delim_pattern` 匹配的字符串也能被 `keep_delim_pattern` 匹配,就可以此分隔符作为标记(token)保存。
|
||||
默认值:''(空字符),即分隔符不会作为输出标记保留。
|
||||
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量,默认值:False,不输出。
|
||||
- **with_offsets** (bool, 可选) - 是否输出分词标记(token)的偏移量。默认值:False,不输出。
|
||||
|
||||
异常:
|
||||
- **TypeError** - 参数 `delim_pattern` 的类型不是str。
|
||||
|
|
Some files were not shown because too many files have changed in this diff Show More
Loading…
Reference in New Issue