!68379 modify the error links

Merge pull request !68379 from 宦晓玲/code_docs_0418
This commit is contained in:
i-robot 2024-04-18 03:17:42 +00:00 committed by Gitee
commit ac7c9ab0ee
No known key found for this signature in database
GPG Key ID: 173E9B9CA92EEF8F
483 changed files with 1366 additions and 1366 deletions

View File

@ -24,7 +24,7 @@ mindspore.amp.DynamicLossScaler
教程样例: 教程样例:
- `自动混合精度 - 损失缩放 - `自动混合精度 - 损失缩放
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_ <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
.. py:method:: scale(inputs) .. py:method:: scale(inputs)
@ -38,7 +38,7 @@ mindspore.amp.DynamicLossScaler
教程样例: 教程样例:
- `自动混合精度 - 损失缩放 - `自动混合精度 - 损失缩放
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_ <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_
.. py:method:: unscale(inputs) .. py:method:: unscale(inputs)
@ -52,4 +52,4 @@ mindspore.amp.DynamicLossScaler
教程样例: 教程样例:
- `自动混合精度 - 损失缩放 - `自动混合精度 - 损失缩放
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_ <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_

View File

@ -7,7 +7,7 @@ mindspore.amp.LossScaler
派生类需要实现该类的所有方法。训练过程中,`scale``unscale` 用于对损失值或梯度进行放大或缩小,以避免数据溢出;`adjust` 用于调整损失缩放系数 `scale_value` 的值。 派生类需要实现该类的所有方法。训练过程中,`scale``unscale` 用于对损失值或梯度进行放大或缩小,以避免数据溢出;`adjust` 用于调整损失缩放系数 `scale_value` 的值。
关于使用 `LossScaler` 进行损失缩放,请查看 `教程 <https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE>`_ 关于使用 `LossScaler` 进行损失缩放,请查看 `教程 <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE>`_
.. warning:: .. warning::
这是一个实验性API后续可能修改或删除。 这是一个实验性API后续可能修改或删除。

View File

@ -18,4 +18,4 @@ mindspore.amp.all_finite
教程样例: 教程样例:
- `自动混合精度 - 损失缩放 - `自动混合精度 - 损失缩放
<https://mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html#损失缩放>`_ <https://mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html#损失缩放>`_

View File

@ -25,7 +25,7 @@ mindspore.amp.auto_mixed_precision
[:class:`mindspore.nn.BatchNorm1d`, :class:`mindspore.nn.BatchNorm2d`, :class:`mindspore.nn.BatchNorm3d`, [:class:`mindspore.nn.BatchNorm1d`, :class:`mindspore.nn.BatchNorm2d`, :class:`mindspore.nn.BatchNorm3d`,
:class:`mindspore.nn.LayerNorm`] :class:`mindspore.nn.LayerNorm`]
关于自动混合精度的详细介绍,请参考 `自动混合精度 <https://www.mindspore.cn/tutorials/zh-CN/r2.3.q1/advanced/mixed_precision.html>`_ 关于自动混合精度的详细介绍,请参考 `自动混合精度 <https://www.mindspore.cn/tutorials/zh-CN/master/advanced/mixed_precision.html>`_
.. note:: .. note::
- 重复调用混合精度接口,如 `custom_mixed_precision``auto_mixed_precision` ,可能导致网络层数增大,性能降低。 - 重复调用混合精度接口,如 `custom_mixed_precision``auto_mixed_precision` ,可能导致网络层数增大,性能降低。

View File

@ -12,9 +12,9 @@ mindspore.dataset.Dataset.map
最后一个数据增强的输出列的列名由 `output_columns` 指定,如果没有指定 `output_columns` ,输出列名与 `input_columns` 一致。 最后一个数据增强的输出列的列名由 `output_columns` 指定,如果没有指定 `output_columns` ,输出列名与 `input_columns` 一致。
- 如果使用的是 `mindspore` `dataset` 提供的数据增强( - 如果使用的是 `mindspore` `dataset` 提供的数据增强(
`vision类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#视觉>`_ `vision类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#视觉>`_
`nlp类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#文本>`_ `nlp类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#文本>`_
`audio类 <https://mindspore.cn/docs/zh-CN/r2.3.q1/api_python/mindspore.dataset.transforms.html#音频>`_ ),请使用如下参数: `audio类 <https://mindspore.cn/docs/zh-CN/master/api_python/mindspore.dataset.transforms.html#音频>`_ ),请使用如下参数:
.. image:: map_parameter_cn.png .. image:: map_parameter_cn.png
@ -31,9 +31,9 @@ mindspore.dataset.Dataset.map
- python_multiprocessing (bool, 可选) - 启用Python多进程模式加速map操作。当传入的 `operations` 计算量很大时,开启此选项可能会有较好效果。默认值: ``False`` - python_multiprocessing (bool, 可选) - 启用Python多进程模式加速map操作。当传入的 `operations` 计算量很大时,开启此选项可能会有较好效果。默认值: ``False``
- max_rowsize (Union[int, list[int]], 可选) - 指定在多进程之间复制数据时,共享内存分配的基本单位,总占用的共享内存会随着 ``num_parallel_workers``:func:`mindspore.dataset.config.set_prefetch_size` 增加而变大,仅当 `python_multiprocessing```True``该选项有效。如果是int值代表 ``input_columns````output_columns`` 均使用该值为单位创建共享内存;如果是列表,第一个元素代表 ``input_columns`` 使用该值为单位创建共享内存,第二个元素代表 ``output_columns`` 使用该值为单位创建共享内存。默认值: ``16`` 单位为MB。 - max_rowsize (Union[int, list[int]], 可选) - 指定在多进程之间复制数据时,共享内存分配的基本单位,总占用的共享内存会随着 ``num_parallel_workers``:func:`mindspore.dataset.config.set_prefetch_size` 增加而变大,仅当 `python_multiprocessing```True``该选项有效。如果是int值代表 ``input_columns````output_columns`` 均使用该值为单位创建共享内存;如果是列表,第一个元素代表 ``input_columns`` 使用该值为单位创建共享内存,第二个元素代表 ``output_columns`` 使用该值为单位创建共享内存。默认值: ``16`` 单位为MB。
- cache (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - cache (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- callbacks (DSCallback, list[DSCallback], 可选) - 要调用的Dataset回调函数列表。默认值 ``None`` - callbacks (DSCallback, list[DSCallback], 可选) - 要调用的Dataset回调函数列表。默认值 ``None``
- offload (bool, 可选) - 是否进行异构硬件加速,详情请阅读 `数据准备异构加速 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/dataset_offload.html>`_ 。默认值: ``None`` - offload (bool, 可选) - 是否进行异构硬件加速,详情请阅读 `数据准备异构加速 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/dataset_offload.html>`_ 。默认值: ``None``
.. note:: .. note::
- `operations` 参数接收 `TensorOperation` 类型的数据处理操作以及用户定义的Python函数(PyFuncs)。 - `operations` 参数接收 `TensorOperation` 类型的数据处理操作以及用户定义的Python函数(PyFuncs)。

View File

@ -21,7 +21,7 @@ mindspore.dataset.AGNewsDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -31,7 +31,7 @@ mindspore.dataset.AGNewsDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于AGNews数据集** **关于AGNews数据集**

View File

@ -23,7 +23,7 @@ mindspore.dataset.AmazonReviewDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -33,7 +33,7 @@ mindspore.dataset.AmazonReviewDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于AmazonReview数据集** **关于AmazonReview数据集**

View File

@ -22,7 +22,7 @@ mindspore.dataset.CLUEDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列: 根据给定的 `task` 参数 和 `usage` 配置,数据集会生成不同的输出列:
@ -177,7 +177,7 @@ mindspore.dataset.CLUEDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于CLUE数据集** **关于CLUE数据集**

View File

@ -21,7 +21,7 @@
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` ,不进行分片。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` ,不进行分片。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` ,将使用 ``0`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` ,将使用 ``0`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -34,7 +34,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler` - 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`

View File

@ -23,7 +23,7 @@
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。 - **RuntimeError** - `dataset_files` 参数所指向的文件无效或不存在。
@ -35,6 +35,6 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -39,7 +39,7 @@ mindspore.dataset.Caltech101Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -16,7 +16,7 @@ mindspore.dataset.Caltech256Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -30,7 +30,7 @@ mindspore.dataset.Caltech256Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -19,7 +19,7 @@ mindspore.dataset.CelebADataset
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值: ``None`` ,读取全部样本图片。 - **num_samples** (int, 可选) - 指定从数据集中读取的样本数,可以小于数据集总数。默认值: ``None`` ,读取全部样本图片。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。 - **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。
异常: 异常:
@ -34,7 +34,7 @@ mindspore.dataset.CelebADataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,11 +17,11 @@ mindspore.dataset.Cifar100Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。

View File

@ -18,11 +18,11 @@ mindspore.dataset.Cifar10Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。

View File

@ -21,11 +21,11 @@ mindspore.dataset.CityscapesDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。

View File

@ -22,7 +22,7 @@ mindspore.dataset.CoNLL2000Dataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。指定此参数后, `num_samples` 表示每个分片的最大样本数。默认值: ``None`` - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。指定此参数后, `num_samples` 表示每个分片的最大样本数。默认值: ``None``
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。只有当指定了 `num_shards` 时才能指定此参数。默认值: ``None`` - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。只有当指定了 `num_shards` 时才能指定此参数。默认值: ``None``
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -32,7 +32,7 @@ mindspore.dataset.CoNLL2000Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于CoNLL2000数据集** **关于CoNLL2000数据集**

View File

@ -18,7 +18,7 @@
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 表2中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` - **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为True则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False``
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。 - **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。
@ -77,7 +77,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 当参数 `extra_metadata```True`` 时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-' - 当参数 `extra_metadata```True`` 时,还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-'

View File

@ -22,7 +22,7 @@ mindspore.dataset.DBpediaDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -33,7 +33,7 @@ mindspore.dataset.DBpediaDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于DBpedia数据集** **关于DBpedia数据集**

View File

@ -20,7 +20,7 @@ mindspore.dataset.DIV2KDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -39,7 +39,7 @@ mindspore.dataset.DIV2KDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -5,7 +5,7 @@ mindspore.dataset.DatasetCache
创建数据缓存客户端实例。 创建数据缓存客户端实例。
关于单节点数据缓存的使用,请参阅 `单节点数据缓存教程 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 关于单节点数据缓存的使用,请参阅 `单节点数据缓存教程 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_
参数: 参数:
- **session_id** (int) - 当前数据缓存客户端的会话ID用户在命令行开启缓存服务端后可通过 `cache_admin -g` 获取。 - **session_id** (int) - 当前数据缓存客户端的会话ID用户在命令行开启缓存服务端后可通过 `cache_admin -g` 获取。

View File

@ -18,7 +18,7 @@ mindspore.dataset.EMnistDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。 - **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。
@ -29,7 +29,7 @@ mindspore.dataset.EMnistDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -20,7 +20,7 @@ mindspore.dataset.EnWik9Dataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -30,7 +30,7 @@ mindspore.dataset.EnWik9Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于EnWik9数据集** **关于EnWik9数据集**

View File

@ -18,7 +18,7 @@ mindspore.dataset.FakeImageDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。 - **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。
@ -30,7 +30,7 @@ mindspore.dataset.FakeImageDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,7 +17,7 @@ mindspore.dataset.FashionMnistDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -30,7 +30,7 @@ mindspore.dataset.FashionMnistDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,7 +17,7 @@
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 表2中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 表2中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -32,7 +32,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -33,7 +33,7 @@ mindspore.dataset.Flowers102Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -18,7 +18,7 @@ mindspore.dataset.Food101Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -33,7 +33,7 @@ mindspore.dataset.Food101Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -19,7 +19,7 @@
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -32,7 +32,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler` - 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`

View File

@ -37,7 +37,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 如果配置 `python_multiprocessing=True` (默认值: ``True`` `num_parallel_workers>1` 默认值1 表示启动了多进程方式进行数据load加速 - 如果配置 `python_multiprocessing=True` (默认值: ``True`` `num_parallel_workers>1` 默认值1 表示启动了多进程方式进行数据load加速

View File

@ -16,7 +16,7 @@ mindspore.dataset.IMDBDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -29,7 +29,7 @@ mindspore.dataset.IMDBDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -24,7 +24,7 @@ mindspore.dataset.IWSLT2016Dataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -34,7 +34,7 @@ mindspore.dataset.IWSLT2016Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于IWSLT2016数据集** **关于IWSLT2016数据集**

View File

@ -25,7 +25,7 @@ mindspore.dataset.IWSLT2017Dataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -35,7 +35,7 @@ mindspore.dataset.IWSLT2017Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于IWSLT2017数据集** **关于IWSLT2017数据集**

View File

@ -18,7 +18,7 @@ mindspore.dataset.ImageFolderDataset
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。 - **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。 - **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。
异常: 异常:
@ -33,7 +33,7 @@ mindspore.dataset.ImageFolderDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 如果 `decode` 参数的值为 ``False`` ,则得到的 `image` 列的shape为[undecoded_image_size]如果为True则 `image` 列的shape为[H,W,C]。 - 如果 `decode` 参数的值为 ``False`` ,则得到的 `image` 列的shape为[undecoded_image_size]如果为True则 `image` 列的shape为[H,W,C]。

View File

@ -26,7 +26,7 @@ mindspore.dataset.KITTIDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。 - **RuntimeError** - 同时指定了 `sampler``shuffle` 参数。
@ -38,7 +38,7 @@ mindspore.dataset.KITTIDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,7 +17,7 @@ mindspore.dataset.KMnistDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -30,7 +30,7 @@ mindspore.dataset.KMnistDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -24,7 +24,7 @@ mindspore.dataset.LFWDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -36,7 +36,7 @@ mindspore.dataset.LFWDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -16,7 +16,7 @@ mindspore.dataset.LJSpeechDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -29,7 +29,7 @@ mindspore.dataset.LJSpeechDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -20,7 +20,7 @@ mindspore.dataset.LSUNDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -33,7 +33,7 @@ mindspore.dataset.LSUNDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -23,7 +23,7 @@ mindspore.dataset.LibriTTSDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -36,7 +36,7 @@ mindspore.dataset.LibriTTSDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler` - 暂不支持指定 `sampler` 参数为 :class:`mindspore.dataset.PKSampler`

View File

@ -18,7 +18,7 @@
- **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。 - **decode** (bool, 可选) - 是否对读取的图片进行解码操作。默认值: ``False`` ,不解码。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_files` 路径下不包含任何数据文件。
@ -32,7 +32,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 如果 `decode```False`` `image` 列返回图像的一维原始字节。否则,将返回 shape 为 :math:`[H,W,C]` 的解码图像。 - 如果 `decode```False`` `image` 列返回图像的一维原始字节。否则,将返回 shape 为 :math:`[H,W,C]` 的解码图像。

View File

@ -23,7 +23,7 @@
- **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `columns_list` 指定的列名相同。默认值: ``None`` ,不添加样本。需要与 `num_padded` 参数同时使用。 - **padded_sample** (dict, 可选) - 指定额外添加到数据集的样本,可用于在分布式训练时补齐分片数据,注意字典的键名需要与 `columns_list` 指定的列名相同。默认值: ``None`` ,不添加样本。需要与 `num_padded` 参数同时使用。
- **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值: ``None`` ,不添加样本。需要与 `padded_sample` 参数同时使用。 - **num_padded** (int, 可选) - 指定额外添加的数据集样本的数量。在分布式训练时可用于为数据集补齐样本,使得总样本数量可被 `num_shards` 整除。默认值: ``None`` ,不添加样本。需要与 `padded_sample` 参数同时使用。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。 - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。 - **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
@ -34,7 +34,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,7 +17,7 @@ mindspore.dataset.MnistDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -31,7 +31,7 @@ mindspore.dataset.MnistDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -25,7 +25,7 @@ mindspore.dataset.Multi30kDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -39,7 +39,7 @@ mindspore.dataset.Multi30kDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于Multi30k数据集** **关于Multi30k数据集**

View File

@ -34,6 +34,6 @@ mindspore.dataset.NumpySlicesDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -37,7 +37,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 需要用户提前在云存储上创建同步用的目录,然后通过 `sync_obs_path` 指定。 - 需要用户提前在云存储上创建同步用的目录,然后通过 `sync_obs_path` 指定。

View File

@ -19,7 +19,7 @@
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -31,7 +31,7 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -15,6 +15,6 @@ mindspore.dataset.PaddedDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -22,7 +22,7 @@ mindspore.dataset.PennTreebankDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -32,7 +32,7 @@ mindspore.dataset.PennTreebankDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于PennTreebank数据集** **关于PennTreebank数据集**

View File

@ -22,7 +22,7 @@ mindspore.dataset.PhotoTourDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -38,7 +38,7 @@ mindspore.dataset.PhotoTourDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -19,7 +19,7 @@ mindspore.dataset.Places365Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -33,7 +33,7 @@ mindspore.dataset.Places365Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -17,7 +17,7 @@ mindspore.dataset.QMnistDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -30,7 +30,7 @@ mindspore.dataset.QMnistDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -12,7 +12,7 @@ mindspore.dataset.RandomDataset
- **columns_list** (list[str], 可选) - 指定生成数据集的列名。默认值: ``None`` ,生成的数据列将以"c0"、"c1"、"c2" ... "cn"的规则命名。 - **columns_list** (list[str], 可选) - 指定生成数据集的列名。默认值: ``None`` ,生成的数据列将以"c0"、"c1"、"c2" ... "cn"的规则命名。
- **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。 - **num_samples** (int, 可选) - 指定从数据集中读取的样本数。默认值: ``None`` ,读取所有样本。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **shuffle** (bool, 可选) - 是否混洗数据集。默认值: ``None`` 。下表中会展示不同参数配置的预期行为。 - **shuffle** (bool, 可选) - 是否混洗数据集。默认值: ``None`` 。下表中会展示不同参数配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
@ -30,6 +30,6 @@ mindspore.dataset.RandomDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -17,7 +17,7 @@ mindspore.dataset.RenderedSST2Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -31,7 +31,7 @@ mindspore.dataset.RenderedSST2Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -36,7 +36,7 @@ mindspore.dataset.SBDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -16,7 +16,7 @@ mindspore.dataset.SBUDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -29,7 +29,7 @@ mindspore.dataset.SBUDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -26,7 +26,7 @@ mindspore.dataset.SQuADDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -37,7 +37,7 @@ mindspore.dataset.SQuADDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于SQuAD数据集** **关于SQuAD数据集**

View File

@ -23,7 +23,7 @@ mindspore.dataset.SST2Dataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -34,7 +34,7 @@ mindspore.dataset.SST2Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于SST2数据集** **关于SST2数据集**

View File

@ -18,7 +18,7 @@ mindspore.dataset.STL10Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -32,7 +32,7 @@ mindspore.dataset.STL10Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -16,7 +16,7 @@ mindspore.dataset.SUN397Dataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` ,下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -29,7 +29,7 @@ mindspore.dataset.SUN397Dataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -29,7 +29,7 @@ mindspore.dataset.SVHNDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -15,7 +15,7 @@ mindspore.dataset.SemeionDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -28,7 +28,7 @@ mindspore.dataset.SemeionDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -22,7 +22,7 @@ mindspore.dataset.SogouNewsDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -32,7 +32,7 @@ mindspore.dataset.SogouNewsDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于SogouNew数据集** **关于SogouNew数据集**

View File

@ -18,7 +18,7 @@ mindspore.dataset.SpeechCommandsDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -31,7 +31,7 @@ mindspore.dataset.SpeechCommandsDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -30,7 +30,7 @@ mindspore.dataset.TFRecordDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后,`num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后,`num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值: ``False`` 。如果 `shard_equal_rows```False`` 则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为 ``True`` 。注意,只有当指定了 `num_shards` 时才能指定此参数。当 `compression_type```None`` ,且指定了 `num_samples` 或numRows字段由参数 `schema` 定义)时,`shard_equal_rows` 会被视为 ``True`` - **shard_equal_rows** (bool, 可选) - 分布式训练时,为所有分片获取等量的数据行数。默认值: ``False`` 。如果 `shard_equal_rows```False`` 则可能会使得每个分片的数据条目不相等从而导致分布式训练失败。因此当每个TFRecord文件的数据数量不相等时建议将此参数设置为 ``True`` 。注意,只有当指定了 `num_shards` 时才能指定此参数。当 `compression_type```None`` ,且指定了 `num_samples` 或numRows字段由参数 `schema` 定义)时,`shard_equal_rows` 会被视为 ``True``
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **compression_type** (str, 可选) - 用于所有文件的压缩类型,必须是 ``“”`` ``“GZIP”````“ZLIB”`` 。默认值: ``None`` ,即空字符串。 - **compression_type** (str, 可选) - 用于所有文件的压缩类型,必须是 ``“”`` ``“GZIP”````“ZLIB”`` 。默认值: ``None`` ,即空字符串。
建议在 `compression_type```"GZIP"````"ZLIB"`` 时,指定 `num_samples` 或numRows字段由参数 `schema` 定义)以避免出现为了获取文件大小对同一个文件进行多次解压而导致性能下降的问题。 建议在 `compression_type```"GZIP"````"ZLIB"`` 时,指定 `num_samples` 或numRows字段由参数 `schema` 定义)以避免出现为了获取文件大小对同一个文件进行多次解压而导致性能下降的问题。
@ -46,6 +46,6 @@ mindspore.dataset.TFRecordDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -21,7 +21,7 @@ mindspore.dataset.TedliumDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -34,7 +34,7 @@ mindspore.dataset.TedliumDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -18,7 +18,7 @@
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。 - **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
@ -29,6 +29,6 @@
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. include:: mindspore.dataset.api_list_nlp.rst .. include:: mindspore.dataset.api_list_nlp.rst

View File

@ -22,7 +22,7 @@ mindspore.dataset.UDPOSDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -32,7 +32,7 @@ mindspore.dataset.UDPOSDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于UDPOS数据集** **关于UDPOS数据集**

View File

@ -22,7 +22,7 @@ mindspore.dataset.USPSDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含数据文件。
@ -34,7 +34,7 @@ mindspore.dataset.USPSDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于USPS数据集** **关于USPS数据集**

View File

@ -27,7 +27,7 @@ mindspore.dataset.VOCDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
- **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为 ``True`` ,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False`` - **extra_metadata** (bool, 可选) - 用于指定是否额外输出一个数据列用于表示图片元信息。如果为 ``True`` ,则将额外输出一个名为 `[_meta-filename, dtype=string]` 的数据列。默认值: ``False``
- **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。 - **decrypt** (callable, 可选) - 图像解密函数接受加密的图片路径并返回bytes类型的解密数据。默认值 ``None`` ,不进行解密。
@ -48,7 +48,7 @@ mindspore.dataset.VOCDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: .. note::
- 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-' - 当参数 `extra_metadata` 为True时还需使用 `rename` 操作删除额外数据列 '_meta-filename'的前缀 '_meta-'

View File

@ -19,7 +19,7 @@ mindspore.dataset.WIDERFaceDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 不包含任何数据文件。
@ -35,7 +35,7 @@ mindspore.dataset.WIDERFaceDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -3,11 +3,11 @@ mindspore.dataset.WaitedDSCallback
.. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1) .. py:class:: mindspore.dataset.WaitedDSCallback(step_size=1)
阻塞式数据处理回调类的抽象基类,用于与训练回调类 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 的同步。 阻塞式数据处理回调类的抽象基类,用于与训练回调类 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/master/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 的同步。
可用于在step或epoch开始前执行自定义的回调方法例如在自动数据增强中根据上一个epoch的loss值来更新增强操作参数配置。 可用于在step或epoch开始前执行自定义的回调方法例如在自动数据增强中根据上一个epoch的loss值来更新增强操作参数配置。
用户可通过 `train_run_context` 获取网络训练相关信息,如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_ 用户可通过 `train_run_context` 获取网络训练相关信息,如 `network` 、 `train_network` 、 `epoch_num` 、 `batch_num` 、 `loss_fn` 、 `optimizer` 、 `parallel_mode` 、 `device_number` 、 `list_callback` 、 `cur_epoch_num` 、 `cur_step_num` 、 `dataset_sink_mode` 、 `net_outputs` 等,详见 `mindspore.train.Callback <https://www.mindspore.cn/docs/zh-CN/master/api_python/train/mindspore.train.Callback.html#mindspore.train.Callback>`_
用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。 用户可通过 `ds_run_context` 获取数据处理管道相关信息,包括 `cur_epoch_num` (当前epoch数)、 `cur_step_num_in_epoch` (当前epoch的step数)、 `cur_step_num` (当前step数)。

View File

@ -21,7 +21,7 @@ mindspore.dataset.WikiTextDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -33,7 +33,7 @@ mindspore.dataset.WikiTextDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于WikiText数据集** **关于WikiText数据集**

View File

@ -22,7 +22,7 @@ mindspore.dataset.YahooAnswersDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -33,7 +33,7 @@ mindspore.dataset.YahooAnswersDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于YahooAnswers数据集** **关于YahooAnswers数据集**

View File

@ -23,7 +23,7 @@ mindspore.dataset.YelpReviewDataset
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值: ``None`` ,使用全局默认线程数(8),也可以通过 :func:`mindspore.dataset.config.set_num_parallel_workers` 配置全局线程数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。 - **RuntimeError** - `dataset_dir` 参数所指向的文件目录不存在或缺少数据集文件。
@ -33,7 +33,7 @@ mindspore.dataset.YelpReviewDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
**关于YelpReview数据集** **关于YelpReview数据集**

View File

@ -16,7 +16,7 @@ mindspore.dataset.YesNoDataset
- **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。 - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器。默认值: ``None`` 。下表中会展示不同配置的预期行为。
- **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数。默认值: ``None`` 。指定此参数后, `num_samples` 表示每个分片的最大样本数。
- **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号。默认值 ``None`` 。只有当指定了 `num_shards` 时才能指定此参数。
- **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.q1/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。 - **cache** (:class:`~.dataset.DatasetCache`, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/tutorials/experts/zh-CN/master/dataset/cache.html>`_ 。默认值: ``None`` ,不使用缓存。
异常: 异常:
- **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。 - **RuntimeError** - `dataset_dir` 路径下不包含任何数据文件。
@ -29,7 +29,7 @@ mindspore.dataset.YesNoDataset
教程样例: 教程样例:
- `使用数据Pipeline加载 & 处理数据集 - `使用数据Pipeline加载 & 处理数据集
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/dataset_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/dataset_gallery.html>`_
.. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。 .. note:: 入参 `num_samples``shuffle``num_shards``shard_id` 可用于控制数据集所使用的采样器,其与入参 `sampler` 搭配使用的效果如下。

View File

@ -29,4 +29,4 @@ mindspore.dataset.audio.AllpassBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -27,4 +27,4 @@ mindspore.dataset.audio.AmplitudeToDB
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -12,4 +12,4 @@ mindspore.dataset.audio.Angle
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -28,4 +28,4 @@ mindspore.dataset.audio.BandBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -36,4 +36,4 @@ mindspore.dataset.audio.BandpassBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -31,4 +31,4 @@ mindspore.dataset.audio.BandrejectBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -31,4 +31,4 @@ mindspore.dataset.audio.BassBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -26,4 +26,4 @@ mindspore.dataset.audio.Biquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -17,4 +17,4 @@ mindspore.dataset.audio.ComplexNorm
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -33,4 +33,4 @@ mindspore.dataset.audio.ComputeDeltas
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -21,4 +21,4 @@ mindspore.dataset.audio.Contrast
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -15,4 +15,4 @@ mindspore.dataset.audio.DBToAmplitude
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -16,4 +16,4 @@ mindspore.dataset.audio.DCShift
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -17,4 +17,4 @@ mindspore.dataset.audio.DeemphBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -27,4 +27,4 @@ mindspore.dataset.audio.DetectPitchFrequency
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -18,4 +18,4 @@ mindspore.dataset.audio.Dither
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -23,4 +23,4 @@ mindspore.dataset.audio.EqualizerBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -22,4 +22,4 @@ mindspore.dataset.audio.Fade
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -21,4 +21,4 @@ mindspore.dataset.audio.Filtfilt
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -41,4 +41,4 @@ mindspore.dataset.audio.Flanger
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -25,7 +25,7 @@ mindspore.dataset.audio.FrequencyMasking
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_
.. image:: frequency_masking_original.png .. image:: frequency_masking_original.png

View File

@ -13,4 +13,4 @@ mindspore.dataset.audio.Gain
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -43,4 +43,4 @@ mindspore.dataset.audio.GriffinLim
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

View File

@ -22,4 +22,4 @@ mindspore.dataset.audio.HighpassBiquad
教程样例: 教程样例:
- `音频变换样例库 - `音频变换样例库
<https://www.mindspore.cn/docs/zh-CN/r2.3.q1/api_python/samples/dataset/audio_gallery.html>`_ <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/audio_gallery.html>`_

Some files were not shown because too many files have changed in this diff Show More