!68379 modify the error links
Merge pull request !68379 from 宦晓玲/code_docs_0418
This commit is contained in:
commit
ac7c9ab0ee
|
@ -24,7 +24,7 @@ mindspore.amp.DynamicLossScaler
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `自动混合精度 - 损失缩放
|
- `自动混合精度 - 损失缩放
|
||||||
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_
|
<https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
|
||||||
|
|
||||||
.. py:method:: scale(inputs)
|
.. py:method:: scale(inputs)
|
||||||
|
|
||||||
|
@ -38,7 +38,7 @@ mindspore.amp.DynamicLossScaler
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `自动混合精度 - 损失缩放
|
- `自动混合精度 - 损失缩放
|
||||||
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_
|
<https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
|
||||||
|
|
||||||
.. py:method:: unscale(inputs)
|
.. py:method:: unscale(inputs)
|
||||||
|
|
||||||
|
@ -52,4 +52,4 @@ mindspore.amp.DynamicLossScaler
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `自动混合精度 - 损失缩放
|
- `自动混合精度 - 损失缩放
|
||||||
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_
|
<https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
|
|
@ -7,7 +7,7 @@ mindspore.amp.LossScaler
|
||||||
|
|
||||||
派生类需要实现该类的所有方法。训练过程中,`scale` 和 `unscale` 用于对损失值或梯度进行放大或缩小,以避免数据溢出;`adjust` 用于调整损失缩放系数 `scale_value` 的值。
|
派生类需要实现该类的所有方法。训练过程中,`scale` 和 `unscale` 用于对损失值或梯度进行放大或缩小,以避免数据溢出;`adjust` 用于调整损失缩放系数 `scale_value` 的值。
|
||||||
|
|
||||||
关于使用 `LossScaler` 进行损失缩放,请查看 `教程 <https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE>`_。
|
关于使用 `LossScaler` 进行损失缩放,请查看 `教程 <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE>`_。
|
||||||
|
|
||||||
.. warning::
|
.. warning::
|
||||||
这是一个实验性API,后续可能修改或删除。
|
这是一个实验性API,后续可能修改或删除。
|
||||||
|
|
|
@ -18,4 +18,4 @@ mindspore.amp.all_finite
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `自动混合精度 - 损失缩放
|
- `自动混合精度 - 损失缩放
|
||||||
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_
|
<https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
|
||||||
|
|
|
@ -25,7 +25,7 @@ mindspore.amp.auto_mixed_precision
|
||||||
[:class:`mindspore.nn.BatchNorm1d`, :class:`mindspore.nn.BatchNorm2d`, :class:`mindspore.nn.BatchNorm3d`,
|
[:class:`mindspore.nn.BatchNorm1d`, :class:`mindspore.nn.BatchNorm2d`, :class:`mindspore.nn.BatchNorm3d`,
|
||||||
:class:`mindspore.nn.LayerNorm`]
|
:class:`mindspore.nn.LayerNorm`]
|
||||||
|
|
||||||
关于自动混合精度的详细介绍,请参考 `自动混合精度 <https://www.mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html>`_ 。
|
关于自动混合精度的详细介绍,请参考 `自动混合精度 <https://www.mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html>`_ 。
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 重复调用混合精度接口,如 `custom_mixed_precision` 和 `auto_mixed_precision` ,可能导致网络层数增大,性能降低。
|
- 重复调用混合精度接口,如 `custom_mixed_precision` 和 `auto_mixed_precision` ,可能导致网络层数增大,性能降低。
|
||||||
|
|
|
@ -12,9 +12,9 @@ mindspore.dataset.Dataset.map
|
||||||
最后一个数据增强的输出列的列名由 `output_columns` 指定,如果没有指定 `output_columns` ,输出列名与 `input_columns` 一致。
|
最后一个数据增强的输出列的列名由 `output_columns` 指定,如果没有指定 `output_columns` ,输出列名与 `input_columns` 一致。
|
||||||
|
|
||||||
- 如果使用的是 `mindspore` `dataset` 提供的数据增强(
|
- 如果使用的是 `mindspore` `dataset` 提供的数据增强(
|
||||||
`vision类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#视觉>`_ ,
|
`vision类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#视觉>`_ ,
|
||||||
`nlp类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#文本>`_ ,
|
`nlp类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#文本>`_ ,
|
||||||
`audio类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#音频>`_ ),请使用如下参数:
|
`audio类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#音频>`_ ),请使用如下参数:
|
||||||
|
|
||||||
.. image:: map_parameter_cn.png
|
.. image:: map_parameter_cn.png
|
||||||
|
|
||||||
|
@ -31,9 +31,9 @@ mindspore.dataset.Dataset.map
|
||||||
|
|
||||||
- python_multiprocessing (bool, 可选) - 启用Python多进程模式加速map操作。当传入的 `operations` 计算量很大时,开启此选项可能会有较好效果。默认值: ``False`` 。
|
- python_multiprocessing (bool, 可选) - 启用Python多进程模式加速map操作。当传入的 `operations` 计算量很大时,开启此选项可能会有较好效果。默认值: ``False`` 。
|
||||||
- max_rowsize (Union[int, list[int]], 可选) - 指定在多进程之间复制数据时,共享内存分配的基本单位,总占用的共享内存会随着 ``num_parallel_workers`` 和 :func:`mindspore.dataset.config.set_prefetch_size` 增加而变大,仅当 `python_multiprocessing` 为 ``True`` 时,该选项有效。如果是int值,代表 ``input_columns`` 和 ``output_columns`` 均使用该值为单位创建共享内存;如果是列表,第一个元素代表 ``input_columns`` 使用该值为单位创建共享内存,第二个元素代表 ``output_columns`` 使用该值为单位创建共享内存。默认值: ``16`` ,单位为MB。
|
- max_rowsize (Union[int, list[int]], 可选) - 指定在多进程之间复制数据时,共享内存分配的基本单位,总占用的共享内存会随着 ``num_parallel_workers`` 和 :func:`mindspore.dataset.config.set_prefetch_size` 增加而变大,仅当 `python_multiprocessing` 为 ``True`` 时,该选项有效。如果是int值,代表 ``input_columns`` 和 ``output_columns`` 均使用该值为单位创建共享内存;如果是列表,第一个元素代表 ``input_columns`` 使用该值为单位创建共享内存,第二个元素代表 ``output_columns`` 使用该值为单位创建共享内存。默认值: ``16`` ,单位为MB。
|
||||||
- cache (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- cache (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- callbacks (DSCallback, list[DSCallback], 可选) - 要调用的Dataset回调函数列表。默认值: ``None`` 。
|
- callbacks (DSCallback, list[DSCallback], 可选) - 要调用的Dataset回调函数列表。默认值: ``None`` 。
|
||||||
- offload (bool, 可选) - 是否进行异构硬件加速,详情请阅读 `数据准备异构加速 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/dataset_offload.html>`_ 。默认值: ``None`` 。
|
- offload (bool, 可选) - 是否进行异构硬件加速,详情请阅读 `数据准备异构加速 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/dataset_offload.html>`_ 。默认值: ``None`` 。
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- `operations` 参数接收 `TensorOperation` 类型的数据处理操作,以及用户定义的Python函数(PyFuncs)。
|
- `operations` 参数接收 `TensorOperation` 类型的数据处理操作,以及用户定义的Python函数(PyFuncs)。
|
||||||
|
|
|
@ -21,7 +21,7 @@ mindspore.dataset.AGNewsDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -31,7 +31,7 @@ mindspore.dataset.AGNewsDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于AGNews数据集:**
|
**关于AGNews数据集:**
|
||||||
|
|
||||||
|
|
|
@ -23,7 +23,7 @@ mindspore.dataset.AmazonReviewDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.AmazonReviewDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于AmazonReview数据集:**
|
**关于AmazonReview数据集:**
|
||||||
|
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.CLUEDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列:
|
根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列:
|
||||||
|
|
||||||
|
@ -177,7 +177,7 @@ mindspore.dataset.CLUEDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于CLUE数据集:**
|
**关于CLUE数据集:**
|
||||||
|
|
||||||
|
|
|
@ -21,7 +21,7 @@
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` ,不进行分片。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` ,不进行分片。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` ,将使用 ``0`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` ,将使用 ``0`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -34,7 +34,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
||||||
|
|
|
@ -23,7 +23,7 @@
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。
|
- **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||||
|
@ -35,6 +35,6 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -39,7 +39,7 @@ mindspore.dataset.Caltech101Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.Caltech256Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.Caltech256Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -19,7 +19,7 @@ mindspore.dataset.CelebADataset
|
||||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值: ``None`` ,读取全部样本图片。
|
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值: ``None`` ,读取全部样本图片。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
|
@ -34,7 +34,7 @@ mindspore.dataset.CelebADataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,11 +17,11 @@ mindspore.dataset.Cifar100Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
|
|
@ -18,11 +18,11 @@ mindspore.dataset.Cifar10Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
|
|
@ -21,11 +21,11 @@ mindspore.dataset.CityscapesDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.CoNLL2000Dataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。指定此参数后, `num_samples` 表示每个分片的最大样本数。默认值: ``None`` 。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。指定此参数后, `num_samples` 表示每个分片的最大样本数。默认值: ``None`` 。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。只有当指定了 `num_shards` 时才能指定此参数。默认值: ``None`` 。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。只有当指定了 `num_shards` 时才能指定此参数。默认值: ``None`` 。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -32,7 +32,7 @@ mindspore.dataset.CoNLL2000Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于CoNLL2000数据集:**
|
**关于CoNLL2000数据集:**
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,表2中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,表2中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` 。
|
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` 。
|
||||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
||||||
|
|
||||||
|
@ -77,7 +77,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 当参数 `extra_metadata` 为 ``True`` 时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
- 当参数 `extra_metadata` 为 ``True`` 时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.DBpediaDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.DBpediaDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于DBpedia数据集:**
|
**关于DBpedia数据集:**
|
||||||
|
|
||||||
|
|
|
@ -20,7 +20,7 @@ mindspore.dataset.DIV2KDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -39,7 +39,7 @@ mindspore.dataset.DIV2KDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -5,7 +5,7 @@ mindspore.dataset.DatasetCache
|
||||||
|
|
||||||
创建数据缓存客户端实例。
|
创建数据缓存客户端实例。
|
||||||
|
|
||||||
关于单节点数据缓存的使用,请参阅 `单节点数据缓存教程 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。
|
关于单节点数据缓存的使用,请参阅 `单节点数据缓存教程 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。
|
||||||
|
|
||||||
参数:
|
参数:
|
||||||
- **session_id** (int) - 当前数据缓存客户端的会话ID,用户在命令行开启缓存服务端后可通过 `cache_admin -g` 获取。
|
- **session_id** (int) - 当前数据缓存客户端的会话ID,用户在命令行开启缓存服务端后可通过 `cache_admin -g` 获取。
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.EMnistDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.EMnistDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -20,7 +20,7 @@ mindspore.dataset.EnWik9Dataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.EnWik9Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于EnWik9数据集:**
|
**关于EnWik9数据集:**
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.FakeImageDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.FakeImageDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.FashionMnistDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.FashionMnistDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,7 +17,7 @@
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,表2中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,表2中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -32,7 +32,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -33,7 +33,7 @@ mindspore.dataset.Flowers102Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.Food101Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.Food101Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -19,7 +19,7 @@
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -32,7 +32,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
||||||
|
|
|
@ -37,7 +37,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 如果配置 `python_multiprocessing=True` (默认值: ``True`` ) 和 `num_parallel_workers>1` (默认值:1) 表示启动了多进程方式进行数据load加速,
|
- 如果配置 `python_multiprocessing=True` (默认值: ``True`` ) 和 `num_parallel_workers>1` (默认值:1) 表示启动了多进程方式进行数据load加速,
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.IMDBDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.IMDBDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -24,7 +24,7 @@ mindspore.dataset.IWSLT2016Dataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -34,7 +34,7 @@ mindspore.dataset.IWSLT2016Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于IWSLT2016数据集:**
|
**关于IWSLT2016数据集:**
|
||||||
|
|
||||||
|
|
|
@ -25,7 +25,7 @@ mindspore.dataset.IWSLT2017Dataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -35,7 +35,7 @@ mindspore.dataset.IWSLT2017Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于IWSLT2017数据集:**
|
**关于IWSLT2017数据集:**
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.ImageFolderDataset
|
||||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
|
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.ImageFolderDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 如果 `decode` 参数的值为 ``False`` ,则得到的 `image` 列的shape为[undecoded_image_size],如果为True则 `image` 列的shape为[H,W,C]。
|
- 如果 `decode` 参数的值为 ``False`` ,则得到的 `image` 列的shape为[undecoded_image_size],如果为True则 `image` 列的shape为[H,W,C]。
|
||||||
|
|
|
@ -26,7 +26,7 @@ mindspore.dataset.KITTIDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
- **RuntimeError** - 同时指定了 `sampler` 和 `shuffle` 参数。
|
||||||
|
@ -38,7 +38,7 @@ mindspore.dataset.KITTIDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.KMnistDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.KMnistDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -24,7 +24,7 @@ mindspore.dataset.LFWDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -36,7 +36,7 @@ mindspore.dataset.LFWDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.LJSpeechDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.LJSpeechDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -20,7 +20,7 @@ mindspore.dataset.LSUNDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.LSUNDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -23,7 +23,7 @@ mindspore.dataset.LibriTTSDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -36,7 +36,7 @@ mindspore.dataset.LibriTTSDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`。
|
||||||
|
|
|
@ -18,7 +18,7 @@
|
||||||
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
|
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
|
||||||
|
@ -32,7 +32,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 如果 `decode` 为 ``False`` ,`image` 列返回图像的一维原始字节。否则,将返回 shape 为 :math:`[H,W,C]` 的解码图像。
|
- 如果 `decode` 为 ``False`` ,`image` 列返回图像的一维原始字节。否则,将返回 shape 为 :math:`[H,W,C]` 的解码图像。
|
||||||
|
|
|
@ -23,7 +23,7 @@
|
||||||
- **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `columns_list` 指定的列名相同。默认值: ``None`` ,不添加样本。需要与 `num_padded` 参数同时使用。
|
- **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `columns_list` 指定的列名相同。默认值: ``None`` ,不添加样本。需要与 `num_padded` 参数同时使用。
|
||||||
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值: ``None`` ,不添加样本。需要与 `padded_sample` 参数同时使用。
|
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值: ``None`` ,不添加样本。需要与 `padded_sample` 参数同时使用。
|
||||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
|
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||||
|
@ -34,7 +34,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.MnistDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -31,7 +31,7 @@ mindspore.dataset.MnistDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -25,7 +25,7 @@ mindspore.dataset.Multi30kDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -39,7 +39,7 @@ mindspore.dataset.Multi30kDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于Multi30k数据集:**
|
**关于Multi30k数据集:**
|
||||||
|
|
||||||
|
|
|
@ -34,6 +34,6 @@ mindspore.dataset.NumpySlicesDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -37,7 +37,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 需要用户提前在云存储上创建同步用的目录,然后通过 `sync_obs_path` 指定。
|
- 需要用户提前在云存储上创建同步用的目录,然后通过 `sync_obs_path` 指定。
|
||||||
|
|
|
@ -19,7 +19,7 @@
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -31,7 +31,7 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -15,6 +15,6 @@ mindspore.dataset.PaddedDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.PennTreebankDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -32,7 +32,7 @@ mindspore.dataset.PennTreebankDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于PennTreebank数据集:**
|
**关于PennTreebank数据集:**
|
||||||
|
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.PhotoTourDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -38,7 +38,7 @@ mindspore.dataset.PhotoTourDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -19,7 +19,7 @@ mindspore.dataset.Places365Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.Places365Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.QMnistDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -30,7 +30,7 @@ mindspore.dataset.QMnistDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -12,7 +12,7 @@ mindspore.dataset.RandomDataset
|
||||||
- **columns_list** (list[str], 可选) - 指定生成数据集的列名。默认值: ``None`` ,生成的数据列将以"c0"、"c1"、"c2" ... "cn"的规则命名。
|
- **columns_list** (list[str], 可选) - 指定生成数据集的列名。默认值: ``None`` ,生成的数据列将以"c0"、"c1"、"c2" ... "cn"的规则命名。
|
||||||
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
|
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值: ``None`` 。下表中会展示不同参数配置的预期行为。
|
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值: ``None`` 。下表中会展示不同参数配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
|
@ -30,6 +30,6 @@ mindspore.dataset.RandomDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -17,7 +17,7 @@ mindspore.dataset.RenderedSST2Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -31,7 +31,7 @@ mindspore.dataset.RenderedSST2Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -36,7 +36,7 @@ mindspore.dataset.SBDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.SBUDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.SBUDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -26,7 +26,7 @@ mindspore.dataset.SQuADDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -37,7 +37,7 @@ mindspore.dataset.SQuADDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于SQuAD数据集:**
|
**关于SQuAD数据集:**
|
||||||
|
|
||||||
|
|
|
@ -23,7 +23,7 @@ mindspore.dataset.SST2Dataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -34,7 +34,7 @@ mindspore.dataset.SST2Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于SST2数据集:**
|
**关于SST2数据集:**
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.STL10Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -32,7 +32,7 @@ mindspore.dataset.STL10Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.SUN397Dataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.SUN397Dataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -29,7 +29,7 @@ mindspore.dataset.SVHNDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -15,7 +15,7 @@ mindspore.dataset.SemeionDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -28,7 +28,7 @@ mindspore.dataset.SemeionDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.SogouNewsDataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -32,7 +32,7 @@ mindspore.dataset.SogouNewsDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于SogouNew数据集:**
|
**关于SogouNew数据集:**
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@ mindspore.dataset.SpeechCommandsDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -31,7 +31,7 @@ mindspore.dataset.SpeechCommandsDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -30,7 +30,7 @@ mindspore.dataset.TFRecordDataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后,`num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后,`num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值: ``False`` 。如果 `shard_equal_rows` 为 ``False`` ,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为 ``True`` 。注意,只有当指定了 `num_shards` 时才能指定此参数。当 `compression_type` 非 ``None`` ,且指定了 `num_samples` 或numRows字段(由参数 `schema` 定义)时,`shard_equal_rows` 会被视为 ``True`` 。
|
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值: ``False`` 。如果 `shard_equal_rows` 为 ``False`` ,则可能会使得每个分片的数据条目不相等,从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时,建议将此参数设置为 ``True`` 。注意,只有当指定了 `num_shards` 时才能指定此参数。当 `compression_type` 非 ``None`` ,且指定了 `num_samples` 或numRows字段(由参数 `schema` 定义)时,`shard_equal_rows` 会被视为 ``True`` 。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **compression_type** (str, 可选) - 用于所有文件的压缩类型,必须是 ``“”`` , ``“GZIP”`` 或 ``“ZLIB”`` 。默认值: ``None`` ,即空字符串。
|
- **compression_type** (str, 可选) - 用于所有文件的压缩类型,必须是 ``“”`` , ``“GZIP”`` 或 ``“ZLIB”`` 。默认值: ``None`` ,即空字符串。
|
||||||
建议在 `compression_type` 为 ``"GZIP"`` 或 ``"ZLIB"`` 时,指定 `num_samples` 或numRows字段(由参数 `schema` 定义)以避免出现为了获取文件大小对同一个文件进行多次解压而导致性能下降的问题。
|
建议在 `compression_type` 为 ``"GZIP"`` 或 ``"ZLIB"`` 时,指定 `num_samples` 或numRows字段(由参数 `schema` 定义)以避免出现为了获取文件大小对同一个文件进行多次解压而导致性能下降的问题。
|
||||||
|
|
||||||
|
@ -46,6 +46,6 @@ mindspore.dataset.TFRecordDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -21,7 +21,7 @@ mindspore.dataset.TedliumDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -34,7 +34,7 @@ mindspore.dataset.TedliumDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -18,7 +18,7 @@
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
|
||||||
|
@ -29,6 +29,6 @@
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. include:: mindspore.dataset.api_list_nlp.rst
|
.. include:: mindspore.dataset.api_list_nlp.rst
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.UDPOSDataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -32,7 +32,7 @@ mindspore.dataset.UDPOSDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于UDPOS数据集:**
|
**关于UDPOS数据集:**
|
||||||
|
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.USPSDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
|
||||||
|
@ -34,7 +34,7 @@ mindspore.dataset.USPSDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于USPS数据集:**
|
**关于USPS数据集:**
|
||||||
|
|
||||||
|
|
|
@ -27,7 +27,7 @@ mindspore.dataset.VOCDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为 ``True`` ,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` 。
|
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为 ``True`` ,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` 。
|
||||||
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
- **decrypt** (callable, 可选) - 图像解密函数,接受加密的图片路径并返回bytes类型的解密数据。默认值: ``None`` ,不进行解密。
|
||||||
|
|
||||||
|
@ -48,7 +48,7 @@ mindspore.dataset.VOCDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note::
|
.. note::
|
||||||
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
- 当参数 `extra_metadata` 为True时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-',
|
||||||
|
|
|
@ -19,7 +19,7 @@ mindspore.dataset.WIDERFaceDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。
|
||||||
|
@ -35,7 +35,7 @@ mindspore.dataset.WIDERFaceDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -3,11 +3,11 @@ mindspore.dataset.WaitedDSCallback
|
||||||
|
|
||||||
.. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1)
|
.. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1)
|
||||||
|
|
||||||
阻塞式数据处理回调类的抽象基类,用于与训练回调类 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 的同步。
|
阻塞式数据处理回调类的抽象基类,用于与训练回调类 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/master/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 的同步。
|
||||||
|
|
||||||
可用于在step或epoch开始前执行自定义的回调方法,例如在自动数据增强中根据上一个epoch的loss值来更新增强操作参数配置。
|
可用于在step或epoch开始前执行自定义的回调方法,例如在自动数据增强中根据上一个epoch的loss值来更新增强操作参数配置。
|
||||||
|
|
||||||
用户可通过 `train_run_context` 获取网络训练相关信息,如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 。
|
用户可通过 `train_run_context` 获取网络训练相关信息,如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/master/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 。
|
||||||
|
|
||||||
用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
|
用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。
|
||||||
|
|
||||||
|
|
|
@ -21,7 +21,7 @@ mindspore.dataset.WikiTextDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.WikiTextDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于WikiText数据集:**
|
**关于WikiText数据集:**
|
||||||
|
|
||||||
|
|
|
@ -22,7 +22,7 @@ mindspore.dataset.YahooAnswersDataset
|
||||||
|
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.YahooAnswersDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于YahooAnswers数据集:**
|
**关于YahooAnswers数据集:**
|
||||||
|
|
||||||
|
|
|
@ -23,7 +23,7 @@ mindspore.dataset.YelpReviewDataset
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
|
||||||
|
@ -33,7 +33,7 @@ mindspore.dataset.YelpReviewDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
**关于YelpReview数据集:**
|
**关于YelpReview数据集:**
|
||||||
|
|
||||||
|
|
|
@ -16,7 +16,7 @@ mindspore.dataset.YesNoDataset
|
||||||
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
|
||||||
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
|
||||||
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值: ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
|
||||||
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
|
||||||
|
|
||||||
异常:
|
异常:
|
||||||
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
|
||||||
|
@ -29,7 +29,7 @@ mindspore.dataset.YesNoDataset
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `使用数据Pipeline加载 & 处理数据集
|
- `使用数据Pipeline加载 & 处理数据集
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
|
||||||
|
|
||||||
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
.. note:: 入参 `num_samples` 、 `shuffle` 、 `num_shards` 、 `shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。
|
||||||
|
|
||||||
|
|
|
@ -29,4 +29,4 @@ mindspore.dataset.audio.AllpassBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -27,4 +27,4 @@ mindspore.dataset.audio.AmplitudeToDB
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -12,4 +12,4 @@ mindspore.dataset.audio.Angle
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -28,4 +28,4 @@ mindspore.dataset.audio.BandBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -36,4 +36,4 @@ mindspore.dataset.audio.BandpassBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -31,4 +31,4 @@ mindspore.dataset.audio.BandrejectBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -31,4 +31,4 @@ mindspore.dataset.audio.BassBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -26,4 +26,4 @@ mindspore.dataset.audio.Biquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -17,4 +17,4 @@ mindspore.dataset.audio.ComplexNorm
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -33,4 +33,4 @@ mindspore.dataset.audio.ComputeDeltas
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -21,4 +21,4 @@ mindspore.dataset.audio.Contrast
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -15,4 +15,4 @@ mindspore.dataset.audio.DBToAmplitude
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -16,4 +16,4 @@ mindspore.dataset.audio.DCShift
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -17,4 +17,4 @@ mindspore.dataset.audio.DeemphBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -27,4 +27,4 @@ mindspore.dataset.audio.DetectPitchFrequency
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -18,4 +18,4 @@ mindspore.dataset.audio.Dither
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -23,4 +23,4 @@ mindspore.dataset.audio.EqualizerBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -22,4 +22,4 @@ mindspore.dataset.audio.Fade
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -21,4 +21,4 @@ mindspore.dataset.audio.Filtfilt
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -41,4 +41,4 @@ mindspore.dataset.audio.Flanger
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -25,7 +25,7 @@ mindspore.dataset.audio.FrequencyMasking
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
||||||
.. image:: frequency_masking_original.png
|
.. image:: frequency_masking_original.png
|
||||||
|
|
||||||
|
|
|
@ -13,4 +13,4 @@ mindspore.dataset.audio.Gain
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -43,4 +43,4 @@ mindspore.dataset.audio.GriffinLim
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
|
@ -22,4 +22,4 @@ mindspore.dataset.audio.HighpassBiquad
|
||||||
|
|
||||||
教程样例:
|
教程样例:
|
||||||
- `音频变换样例库
|
- `音频变换样例库
|
||||||
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_
|
<https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
|
||||||
|
|
Some files were not shown because too many files have changed in this diff Show More
Loading…
Reference in New Issue