diff --git a/docs/api/api_python/amp/mindspore.amp.DynamicLossScaler.rst b/docs/api/api_python/amp/mindspore.amp.DynamicLossScaler.rst index 35e6c587ee3..960a4cd9537 100644 --- a/docs/api/api_python/amp/mindspore.amp.DynamicLossScaler.rst +++ b/docs/api/api_python/amp/mindspore.amp.DynamicLossScaler.rst @@ -29,9 +29,15 @@ mindspore.amp.DynamicLossScaler 参数: - **inputs** (Union(Tensor, tuple(Tensor))) - 损失值或梯度。 + 返回: + Union(Tensor, tuple(Tensor)),缩放的值。 + .. py:method:: unscale(inputs) 对inputs进行unscale,`inputs /= scale_value`。 参数: - **inputs** (Union(Tensor, tuple(Tensor))) - 损失值或梯度。 + + 返回: + Union(Tensor, tuple(Tensor)),未缩放的值。 \ No newline at end of file diff --git a/docs/api/api_python/amp/mindspore.amp.LossScaleManager.rst b/docs/api/api_python/amp/mindspore.amp.LossScaleManager.rst index 3b41699396f..132ca98020b 100644 --- a/docs/api/api_python/amp/mindspore.amp.LossScaleManager.rst +++ b/docs/api/api_python/amp/mindspore.amp.LossScaleManager.rst @@ -5,7 +5,7 @@ mindspore.amp.LossScaleManager 使用混合精度时,用于管理损失缩放系数(loss scale)的抽象类。 - 派生类需要实现该类的所有方法。 `get_loss_scale` 用于获取当前的梯度放大系数。 `update_loss_scale` 用于更新梯度放大系数,该方法将在训练过程中被调用。 `get_update_cell` 用于获取更新梯度放大系数的 `Cell` 实例,该实例将在训练过程中被调用。当前多使用 `get_update_cell` 方式。 + 派生类需要实现该类的所有方法。 `get_loss_scale` 用于获取当前的梯度放大系数。 `update_loss_scale` 用于更新梯度放大系数,该方法将在训练过程中被调用。 `get_update_cell` 用于获取更新梯度放大系数的 :class:`mindspore.nn.Cell` 实例,该实例将在训练过程中被调用。当前多使用 `get_update_cell` 方式。 例如::class:`mindspore.amp.FixedLossScaleManager` 和 :class:`mindspore.amp.DynamicLossScaleManager` 。 diff --git a/docs/api/api_python/amp/mindspore.amp.StaticLossScaler.rst b/docs/api/api_python/amp/mindspore.amp.StaticLossScaler.rst index fedde28cbe2..eca0a0171a5 100644 --- a/docs/api/api_python/amp/mindspore.amp.StaticLossScaler.rst +++ b/docs/api/api_python/amp/mindspore.amp.StaticLossScaler.rst @@ -25,9 +25,15 @@ mindspore.amp.StaticLossScaler 参数: - **inputs** (Union(Tensor, tuple(Tensor))) - 损失值或梯度。 + 返回: + Union(Tensor, tuple(Tensor)),缩放的值。 + .. py:method:: unscale(inputs) 对inputs进行unscale,`inputs /= scale_value`。 参数: - **inputs** (Union(Tensor, tuple(Tensor))) - 损失值或梯度。 + + 返回: + Union(Tensor, tuple(Tensor)),未缩放的值。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.ArgoverseDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.ArgoverseDataset.rst index 138042d5d5b..c1364c41567 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.ArgoverseDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.ArgoverseDataset.rst @@ -6,7 +6,7 @@ 加载argoverse数据集并进行图(Graph)初始化。 Argoverse数据集是自动驾驶领域的公共数据集,当前实现的 `ArgoverseDataset` 主要用于加载argoverse数据集中运动预测(Motion Forecasting)场景的数据集,具体信息可访问官网了解: - https://www.argoverse.org/av1.html#download-link + https://www.argoverse.org/av1.html#download-link。 参数: - **data_dir** (str) - 加载数据集的目录,这里包含原始格式的数据,并将在 `process` 方法中被加载。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst index 54e92c8db1c..4f9d1d4e7c2 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.BuiltinSampler.b.rst @@ -1,7 +1,7 @@ .. py:method:: get_num_samples() - 获取当前采样器实例的num_samples参数值。此参数在定义Sampler时,可以选择性传入(默认为None)。此方法将返回num_samples的值,如果当前采样器有子采样器,会继续访问子采样器,并根据一定的规则处理获取值。 + 获取当前采样器实例的num_samples参数值。此参数在定义Sampler时,可以选择性传入(默认为None)。此方法将返回num_samples的值。如果当前采样器有子采样器,会继续访问子采样器,并根据一定的规则处理获取值。 下表显示了各种可能的组合,以及最终返回的结果。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst index 52329d67055..040f24be5e5 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Cifar100Dataset.rst @@ -59,9 +59,9 @@ mindspore.dataset.Cifar100Dataset **关于CIFAR-100数据集:** - CIFAR-100数据集和CIFAR-10数据集非常相似,CIFAR-100有100个类别,每类包含600张图片,其中500张训练图片和100张测试图片。这100个类别又被分成20个超类。每个图片都有一个"fine"标签(所属子类)和一个"coarse"标签(所属超类)。 + CIFAR-100数据集和CIFAR-10数据集非常相似,CIFAR-100有100个类别,每类包含600张图片。其中500张训练图片和100张测试图片。这100个类别又被分成20个超类。每个图片都有一个"fine"标签(所属子类)和一个"coarse"标签(所属超类)。 - 以下为原始CIFAR-100数据集的结构,您可以将数据集文件解压得到如下的文件结构,并通过MindSpore的API进行读取。 + 以下为原始CIFAR-100数据集的结构。您可以将数据集文件解压得到如下的文件结构,并通过MindSpore的API进行读取。 .. code-block:: diff --git a/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst index 0c350d9763c..698d0d9afb3 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.CityscapesDataset.rst @@ -6,7 +6,7 @@ mindspore.dataset.CityscapesDataset 读取和解析Cityscapes数据集的源文件构建数据集。 生成的数据集有两列 `[image, task]` 。 - `image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当 参数 `task` 取值为'polygon',列的数据类型为string,其他取值下,列的数据类型为uint8。 + `image` 列的数据类型为uint8。`task` 列的数据类型根据参数 `task` 的值而定,当参数 `task` 取值为'polygon',列的数据类型为string,其他取值下,列的数据类型为uint8。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.DIV2KDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.DIV2KDataset.rst index 2b60493e682..a56015d4b48 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.DIV2KDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.DIV2KDataset.rst @@ -72,6 +72,8 @@ mindspore.dataset.DIV2KDataset 您可以解压缩原始DIV2K数据集文件到如下目录结构,并通过MindSpore的API进行读取。 + 以训练数据集作为例子。 + .. code-block:: . diff --git a/docs/api/api_python/dataset/mindspore.dataset.Flowers102Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Flowers102Dataset.rst index 1ed182888f5..d24a963a717 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Flowers102Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Flowers102Dataset.rst @@ -18,7 +18,7 @@ mindspore.dataset.Flowers102Dataset - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - **shuffle** (bool, 可选) - 是否混洗数据集。默认值:None,下表中会展示不同参数配置的预期行为。 - **decode** (bool, 可选) - 是否对读取的图片进行解码操作,默认值:False,不解码。 - - **sampler** (Sampler, 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 + - **sampler** (Union[Sampler, Iterable], 可选) - 指定从数据集中选取样本的采样器,默认值:None,下表中会展示不同配置的预期行为。 - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。 - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.Graph.rst b/docs/api/api_python/dataset/mindspore.dataset.Graph.rst index e71d5dab23d..097e4f6b603 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Graph.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Graph.rst @@ -54,7 +54,7 @@ mindspore.dataset.Graph .. py:method:: get_all_neighbors(node_list, neighbor_type, output_format=OutputFormat.NORMAL) - 获取 `node_list` 所有节点的相邻节点,以 `neighbor_type` 类型返回。格式的定义参见以下示例:1表示两个节点之间连接,0表示不连接。 + 获取 `node_list` 所有节点的相邻节点,以 `neighbor_type` 类型返回。格式的定义参见以下示例。1表示两个节点之间连接,0表示不连接。 .. list-table:: 邻接矩阵 :widths: 20 20 20 20 20 @@ -253,7 +253,7 @@ mindspore.dataset.Graph .. py:method:: get_sampled_neighbors(node_list, neighbor_nums, neighbor_types, strategy=SamplingStrategy.RANDOM) - 获取已采样相邻节点信息。此API支持多跳相邻节点采样。即将上一次采样结果作为下一跳采样的输入,最多允许6跳。采样结果平铺成列表,格式为[input node, 1-hop sampling result, 2-hop samling result ...] + 获取已采样相邻节点信息。此API支持多跳相邻节点采样。即将上一次采样结果作为下一跳采样的输入。最多允许6跳。采样结果平铺成列表,格式为[input node, 1-hop sampling result, 2-hop samling result ...]。 参数: - **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.GraphData.rst b/docs/api/api_python/dataset/mindspore.dataset.GraphData.rst index 2423c0f21af..1665113bd8e 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.GraphData.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.GraphData.rst @@ -42,7 +42,7 @@ mindspore.dataset.GraphData .. py:method:: get_all_neighbors(node_list, neighbor_type, output_format=OutputFormat.NORMAL) - 获取 `node_list` 所有节点的相邻节点,以 `neighbor_type` 类型返回。格式的定义参见以下示例:1表示两个节点之间连接,0表示不连接。 + 获取 `node_list` 所有节点的相邻节点,以 `neighbor_type` 类型返回。格式的定义参见以下示例。1表示两个节点之间连接,0表示不连接。 .. list-table:: 邻接矩阵 :widths: 20 20 20 20 20 @@ -229,7 +229,7 @@ mindspore.dataset.GraphData .. py:method:: get_sampled_neighbors(node_list, neighbor_nums, neighbor_types, strategy=SamplingStrategy.RANDOM) - 获取已采样相邻节点信息。此API支持多跳相邻节点采样。即将上一次采样结果作为下一跳采样的输入,最多允许6跳。采样结果平铺成列表,格式为[input node, 1-hop sampling result, 2-hop samling result ...] + 获取已采样相邻节点信息。此API支持多跳相邻节点采样。即将上一次采样结果作为下一跳采样的输入。最多允许6跳。采样结果平铺成列表,格式为[input node, 1-hop sampling result, 2-hop samling result ...]。 参数: - **node_list** (Union[list, numpy.ndarray]) - 包含节点的列表。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.IMDBDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.IMDBDataset.rst index 94a47ad21f8..1f582386ace 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.IMDBDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.IMDBDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.IMDBDataset 读取和解析互联网电影数据库(IMDb)的源数据集。 - 生成的数据集有两列 `[text, label]` , `text` 列的数据类型是string。 `label` 列的数据类型是uint32。 + 生成的数据集有两列 `[text, label]` 。 `text` 列的数据类型是string。 `label` 列的数据类型是uint32。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 @@ -14,7 +14,7 @@ mindspore.dataset.IMDBDataset 对于Polarity数据集,'train'将读取360万个训练样本,'test'将读取40万个测试样本,'all'将读取所有400万个样本。 对于Full数据集,'train'将读取300万个训练样本,'test'将读取65万个测试样本,'all'将读取所有365万个样本。默认值:None,读取所有样本。 - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。 - - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 + - **shuffle** (bool, 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。 通过传入枚举变量设置数据混洗的模式: diff --git a/docs/api/api_python/dataset/mindspore.dataset.InMemoryGraphDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.InMemoryGraphDataset.rst index 8dbfcade6a1..17ccd931ff8 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.InMemoryGraphDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.InMemoryGraphDataset.rst @@ -5,7 +5,7 @@ 用于将图数据加载到内存中的Dataset基类。 - 建议通过继承这个基类来实现自定义Dataset,并重写相应的方法,如 `process` 、 `save` 和 `load` ,可参考 `ArgoverseDataset` 源码。自定义Dataset的初始化过程如下,首先检查在给定的 `data_dir` 中是否已经有处理好的数据,如果是则调用 `load` 方法直接加载它,否则将调用 `process` 方法创建图,并调用 `save` 方法将图保存到 `save_dir`。 + 建议通过继承这个基类来实现自定义Dataset,并重写相应的方法,如 `process` 、 `save` 和 `load` ,可参考 `ArgoverseDataset` 源码。自定义Dataset的初始化过程如下,首先检查在给定的 `data_dir` 中是否已经有处理好的数据。如果是则调用 `load` 方法直接加载它,否则将调用 `process` 方法创建图,并调用 `save` 方法将图保存到 `save_dir`。 可以访问所创建dataset中的图并使用,例如 `graphs = my_dataset.graphs`,也可以迭代dataset对象如 `my_dataset.create_tuple_iterator()` 来获取数据(这时需要实现 `__getitem__` 和 `__len__`)方法,具体请参考以下示例。注意:内部逻辑指定了 `__new__` 阶段会重新初始化 `__init__` ,如果自定义图实现了 `__new__` 方法,该方法将失效。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.PennTreebankDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.PennTreebankDataset.rst index 0ae82c5e841..16d97ea50ca 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.PennTreebankDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.PennTreebankDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.PennTreebankDataset 读取和解析PennTreebank数据集的源数据集。 - 生成的数据集有一列 `[text]` ,数据类型为string。 + 生成的数据集有一列 `[text]` 。数据类型为string。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.PhotoTourDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.PhotoTourDataset.rst index 154795f15a7..c83b74b65e9 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.PhotoTourDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.PhotoTourDataset.rst @@ -114,6 +114,8 @@ mindspore.dataset.PhotoTourDataset .. include:: mindspore.dataset.Dataset.rst + .. include:: mindspore.dataset.Dataset.add_sampler.rst + .. include:: mindspore.dataset.Dataset.d.rst .. include:: mindspore.dataset.Dataset.e.rst @@ -124,4 +126,6 @@ mindspore.dataset.PhotoTourDataset .. include:: mindspore.dataset.Dataset.g.rst + .. include:: mindspore.dataset.Dataset.use_sampler.rst + .. include:: mindspore.dataset.Dataset.zip.rst diff --git a/docs/api/api_python/dataset/mindspore.dataset.Places365Dataset.rst b/docs/api/api_python/dataset/mindspore.dataset.Places365Dataset.rst index 0348e90b2f3..268c5ace62c 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.Places365Dataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.Places365Dataset.rst @@ -106,6 +106,8 @@ mindspore.dataset.Places365Dataset .. include:: mindspore.dataset.Dataset.rst + .. include:: mindspore.dataset.Dataset.add_sampler.rst + .. include:: mindspore.dataset.Dataset.d.rst .. include:: mindspore.dataset.Dataset.e.rst diff --git a/docs/api/api_python/dataset/mindspore.dataset.QMnistDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.QMnistDataset.rst index 77a15c32b87..83d752bd898 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.QMnistDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.QMnistDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.QMnistDataset 读取和解析QMNIST数据集的源文件构建数据集。 - 生成的数据集有两列: `[image, label]`。 `image` 列的数据类型为uint8, `label` 列的数据类型为uint32。 + 生成的数据集有两列: `[image, label]`。 `image` 列的数据类型为uint8。 `label` 列的数据类型为uint32。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.SBDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.SBDataset.rst index 4b0cc14562e..7250ab7845d 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.SBDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.SBDataset.rst @@ -7,7 +7,7 @@ mindspore.dataset.SBDataset 根据给定的 `task` 配置,生成数据集具有不同的输出列: - - `task` = 'Boundaries',有两个输出列: `image` 列的数据类型为uint8。 `label` 列包含1个的数据类型为uint8的图像。 + - `task` = 'Boundaries',有两个输出列: `image` 列的数据类型为uint8,`label` 列包含1个的数据类型为uint8的图像。 - `task` = 'Segmentation',有两个输出列: `image` 列的数据类型为uint8。 `label` 列包含20个的数据类型为uint8的图像。 参数: diff --git a/docs/api/api_python/dataset/mindspore.dataset.SBUDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.SBUDataset.rst index 3e06c46056e..d3ca436c902 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.SBUDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.SBUDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.SBUDataset 读取和解析SBU数据集的源文件构建数据集。 - 生成的数据集有两列:`[image, caption]`。`image` 列的数据类型为uint8,`caption` 列的数据类型为string。 + 生成的数据集有两列:`[image, caption]`。`image` 列的数据类型为uint8。`caption` 列的数据类型为string。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录的路径。 @@ -57,7 +57,9 @@ mindspore.dataset.SBUDataset **关于SBU数据集:** - SBU数据集是一个带字幕的大型照片集,它包含一百万张带有视觉相关标注的图像。 + SBU数据集是一个带字幕的大型照片集。它包含一百万张带有视觉相关标注的图像。 + + 你需要使用官方的download.m手动下载图片,将'urls{i}(24, end)'替换为'urls{i}(24:1:end)',并将目录保持如下。 .. code-block:: diff --git a/docs/api/api_python/dataset/mindspore.dataset.SemeionDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.SemeionDataset.rst index ab57dd89f49..3dd1dc13aeb 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.SemeionDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.SemeionDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.SemeionDataset 读取和解析Semeion数据集的源文件构建数据集。 - 生成的数据集有两列:`[image, label]`。`image` 列的数据类型为uint8,`label` 列的数据类型为uint32。 + 生成的数据集有两列:`[image, label]`。`image` 列的数据类型为uint8。`label` 列的数据类型为uint32。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录的路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.SpeechCommandsDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.SpeechCommandsDataset.rst index 075204d1a22..2547add64ee 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.SpeechCommandsDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.SpeechCommandsDataset.rst @@ -6,7 +6,7 @@ mindspore.dataset.SpeechCommandsDataset 读取和解析SpeechCommands数据集的源数据集。 生成的数据集有五列 `[waveform, sample_rate, label, speaker_id, utterance_number]` 。 - 列 `waveform` 的数据类型为float32,列 `sample_rate` 的数据类型为int32,列 `label` 的数据类型为string,列 `speaker_id` 的数据类型为string,列 `utterance_number` 的数据类型为int32。 + 列 `waveform` 的数据类型为float32。列 `sample_rate` 的数据类型为int32。列 `label` 的数据类型为string。列 `speaker_id` 的数据类型为string。列 `utterance_number` 的数据类型为int32。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.TedliumDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.TedliumDataset.rst index 982ba65de4a..29225ed683d 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.TedliumDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.TedliumDataset.rst @@ -3,10 +3,10 @@ mindspore.dataset.TedliumDataset .. py:class:: mindspore.dataset.TedliumDataset(dataset_dir, release, usage=None, extensions=None, num_samples=None, num_parallel_workers=None, shuffle=None, sampler=None, num_shards=None, shard_id=None, cache=None) - 读取和解析Tedlium数据集的源数据集,生成的数据集的列取决于源SPH文件和相应的STM文件。 + 读取和解析Tedlium数据集的源数据集。生成的数据集的列取决于源SPH文件和相应的STM文件。 生成的数据集有六列 `[waveform, sample_rate, transcript, talk_id, speaker_id, identifier]` 。 - 列 `waveform` 的数据类型为float32,列 `sample_rate` 的数据类型为int32,列 `transcript` 的数据类型为string,列 `talk_id` 的数据类型为string,列 `speaker_id` 的数据类型为string,列 `identifier` 的数据类型为string。 + 列 `waveform` 的数据类型为float32,列 `sample_rate` 的数据类型为int32,列 `transcript`、列 `talk_id`、列 `speaker_id` 和列 `identifier` 的数据类型为string。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/dataset/mindspore.dataset.WIDERFaceDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.WIDERFaceDataset.rst index 9e32b84facb..16bc4e1233f 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.WIDERFaceDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.WIDERFaceDataset.rst @@ -5,7 +5,7 @@ mindspore.dataset.WIDERFaceDataset 读取和解析WIDERFace数据集的源数据集。 - 当 `usage` 为"train"、"valid"或"all"时,生成的数据集有八列 `["image", "bbox", "blur", "expression", "illumination", "occlusion", "pose", "invalid"]` ,其中 `image` 列的数据类型为uint8,其他列均为uint32。 + 当 `usage` 为"train"、"valid"或"all"时,生成的数据集有八列 `["image", "bbox", "blur", "expression", "illumination", "occlusion", "pose", "invalid"]` 。其中 `image` 列的数据类型为uint8,其他列均为uint32。 当 `usage` 为"test"时,生成的数据集只有一列 `["image"]` ,数据类型为uint8。 参数: diff --git a/docs/api/api_python/dataset/mindspore.dataset.YesNoDataset.rst b/docs/api/api_python/dataset/mindspore.dataset.YesNoDataset.rst index e59855da728..0fcb0777167 100644 --- a/docs/api/api_python/dataset/mindspore.dataset.YesNoDataset.rst +++ b/docs/api/api_python/dataset/mindspore.dataset.YesNoDataset.rst @@ -6,7 +6,7 @@ mindspore.dataset.YesNoDataset 读取和解析YesNo数据集的源数据集。 生成的数据集有三列 `[waveform, sample_rate, labels]` 。 - 列 `waveform` 的数据类型为float32,列 `sample_rate` 的数据类型为int32,列 `labels` 的数据类型为int32。 + 列 `waveform` 的数据类型为float32。列 `sample_rate` 的数据类型为int32。列 `labels` 的数据类型为int32。 参数: - **dataset_dir** (str) - 包含数据集文件的根目录路径。 diff --git a/docs/api/api_python/nn/mindspore.nn.BleuScore.rst b/docs/api/api_python/nn/mindspore.nn.BleuScore.rst index 2035267ab72..4cf6ceaf63c 100644 --- a/docs/api/api_python/nn/mindspore.nn.BleuScore.rst +++ b/docs/api/api_python/nn/mindspore.nn.BleuScore.rst @@ -31,7 +31,7 @@ mindspore.nn.BleuScore 使用输入的内容更新内部评估结果。 参数: - - ***inputs** (iterator) - 输入的元组,第一个输入是机器翻译语料库列表,第二个输入是引用语料库列表。 + - **inputs** (iterator) - 输入的元组,第一个输入是机器翻译语料库列表,第二个输入是引用语料库列表。 异常: - **ValueError** - 输入参数的数量不等于2。 diff --git a/docs/api/api_python/nn/mindspore.nn.Optimizer.rst b/docs/api/api_python/nn/mindspore.nn.Optimizer.rst index a2cdc767dde..f64e1adc13d 100644 --- a/docs/api/api_python/nn/mindspore.nn.Optimizer.rst +++ b/docs/api/api_python/nn/mindspore.nn.Optimizer.rst @@ -25,7 +25,7 @@ mindspore.nn.Optimizer - **weight_decay** (Union[float, int]) - 权重衰减的整数或浮点值。必须等于或大于0。如果 `weight_decay` 是整数,它将被转换为浮点数。默认值:0.0。 - .. include:: mindspore.nn.optim_arg_loss_scale.rst + .. include:: mindspore.nn.optim_arg_loss_scale.rst 异常: - **TypeError** - `learning_rate` 不是int、float、Tensor、Iterable或LearningRateSchedule。 diff --git a/docs/api/api_python/transformer/mindspore.nn.transformer.EmbeddingOpParallelConfig.rst b/docs/api/api_python/transformer/mindspore.nn.transformer.EmbeddingOpParallelConfig.rst index 8c07f06ba99..82f9a4ad058 100644 --- a/docs/api/api_python/transformer/mindspore.nn.transformer.EmbeddingOpParallelConfig.rst +++ b/docs/api/api_python/transformer/mindspore.nn.transformer.EmbeddingOpParallelConfig.rst @@ -6,7 +6,3 @@ - **data_parallel** (int) - 表示数据并行度。根据这个数值,VocabEmbedding层的的输入数据将会被切分成原来的1/data_parallel。默认值:1。 - **model_parallel** (int) - 表示模型并行度。根据这个数值,VocabEmbedding层的的权重将会在第0维度被切分成原来的1/model_parallel。默认值:1。 - **vocab_emb_dp** (bool) - 表示将权重进行模型切分或数据并行。如果是True,嵌入表查找的操作将会以数据并行的方式进行,此时model_parallel的值将会被忽略。如果是False,嵌入表将会在第0维度进行切分成model_parallel份数。默认值:True。 - - .. py:method:: dp_mp_config() - - 获取包含有data_parallel和model_parallel属性的DPMPlConfig类。 diff --git a/mindspore/python/mindspore/dataset/engine/datasets.py b/mindspore/python/mindspore/dataset/engine/datasets.py index 2e90529238c..60372faec96 100644 --- a/mindspore/python/mindspore/dataset/engine/datasets.py +++ b/mindspore/python/mindspore/dataset/engine/datasets.py @@ -587,7 +587,7 @@ class Dataset: python_multiprocessing (bool, optional): Parallelize Python function per_batch_map with multi-processing. This option could be beneficial if the function is computational heavy (default=False). max_rowsize(int, optional): Maximum size of row in MB that is used for shared memory allocation to copy - data between processes. This is only used if python_multiprocessing is set to True (default=16). + data between processes. This is only used if python_multiprocessing is set to True (default=16). Returns: BatchDataset, dataset batched. diff --git a/mindspore/python/mindspore/dataset/engine/datasets_audio.py b/mindspore/python/mindspore/dataset/engine/datasets_audio.py index 055b40888dd..0dd07fb76b2 100644 --- a/mindspore/python/mindspore/dataset/engine/datasets_audio.py +++ b/mindspore/python/mindspore/dataset/engine/datasets_audio.py @@ -723,12 +723,8 @@ class TedliumDataset(MappableDataset, AudioBaseDataset): The generated dataset has six columns :py:obj:`[waveform, sample_rate, transcript, talk_id, speaker_id, identifier]`. - The tensor of column :py:obj:`waveform` is of the float32 type. - The tensor of column :py:obj:`sample_rate` is a scalar of the int32 type. - The tensor of column :py:obj:`transcript` is a scalar of the string type. - The tensor of column :py:obj:`talk_id` is a scalar of the string type. - The tensor of column :py:obj:`speaker_id` is a scalar of the string type. - The tensor of column :py:obj:`identifier` is a scalar of the string type. + The data type of column `waveform` is float32, the data type of column `sample_rate` is int32, + and the data type of columns `transcript`, `talk_id`, `speaker_id` and `identifier` is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. diff --git a/mindspore/python/mindspore/dataset/engine/datasets_text.py b/mindspore/python/mindspore/dataset/engine/datasets_text.py index 12ec22bdcbe..3f2ead76f07 100644 --- a/mindspore/python/mindspore/dataset/engine/datasets_text.py +++ b/mindspore/python/mindspore/dataset/engine/datasets_text.py @@ -39,10 +39,8 @@ class AGNewsDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses AG News datasets. - The generated dataset has three columns: :py:obj:`[index, title, description]`. - The tensor of column :py:obj:`index` is of the string type. - The tensor of column :py:obj:`title` is of the string type. - The tensor of column :py:obj:`description` is of the string type. + The generated dataset has three columns: :py:obj:`[index, title, description]`, + and the data type of three columns is string type. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -127,10 +125,8 @@ class AmazonReviewDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses Amazon Review Polarity and Amazon Review Full datasets. - The generated dataset has three columns: :py:obj:`[label, title, content]`. - The tensor of column :py:obj:`label` is of the string type. - The tensor of column :py:obj:`title` is of the string type. - The tensor of column :py:obj:`content` is of the string type. + The generated dataset has three columns: :py:obj:`[label, title, content]`, + and the data type of three columns is string. Args: dataset_dir (str): Path to the root directory that contains the Amazon Review Polarity dataset @@ -549,10 +545,8 @@ class DBpediaDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses the DBpedia dataset. - The generated dataset has three columns :py:obj:`[class, title, content]`. - The tensor of column :py:obj:`class` is of the string type. - The tensor of column :py:obj:`title` is of the string type. - The tensor of column :py:obj:`content` is of the string type. + The generated dataset has three columns :py:obj:`[class, title, content]`, + and the data type of three columns is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -1283,10 +1277,8 @@ class SogouNewsDataset(SourceDataset, TextBaseDataset): r""" A source dataset that reads and parses Sogou News dataset. - The generated dataset has three columns: :py:obj:`[index, title, content]`. - The tensor of column :py:obj:`index` is of the string type. - The tensor of column :py:obj:`title` is of the string type. - The tensor of column :py:obj:`content` is of the string type. + The generated dataset has three columns: :py:obj:`[index, title, content]`, + and the data type of three columns is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -1538,10 +1530,8 @@ class UDPOSDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses UDPOS dataset. - The generated dataset has three columns: :py:obj:`[word, universal, stanford]`. - The tensor of column :py:obj:`word` is of the string type. - The tensor of column :py:obj:`universal` is of the string type. - The tensor of column :py:obj:`stanford` is of the string type. + The generated dataset has three columns: :py:obj:`[word, universal, stanford]`, + and the data type of three columns is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -1597,8 +1587,8 @@ class WikiTextDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses WikiText2 and WikiText103 datasets. - The generated dataset has one column :py:obj:`[text]`. - The tensor of column :py:obj:`text` is of the string type. + The generated dataset has one column :py:obj:`[text]`, and + the tensor of column :py:obj:`text` is of the string type. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -1676,11 +1666,7 @@ class YahooAnswersDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses the YahooAnswers dataset. - The generated dataset has three columns :py:obj:`[class, title, content, answer]`. - The tensor of column :py:obj:`class` is of the string type. - The tensor of column :py:obj:`title` is of the string type. - The tensor of column :py:obj:`content` is of the string type. - The tensor of column :py:obj:`answer` is of the string type. + The generated dataset has four columns :py:obj:`[class, title, content, answer]`, whose data type is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. @@ -1774,9 +1760,7 @@ class YelpReviewDataset(SourceDataset, TextBaseDataset): """ A source dataset that reads and parses Yelp Review Polarity and Yelp Review Full dataset. - The generated dataset has two columns: :py:obj:`[label, text]`. - The tensor of column :py:obj:`label` is of the string type. - The tensor of column :py:obj:`text` is of the string type. + The generated dataset has two columns: :py:obj:`[label, text]`, and the data type of two columns is string. Args: dataset_dir (str): Path to the root directory that contains the dataset. diff --git a/mindspore/python/mindspore/dataset/engine/datasets_vision.py b/mindspore/python/mindspore/dataset/engine/datasets_vision.py index 3016622e467..ce33dc26199 100644 --- a/mindspore/python/mindspore/dataset/engine/datasets_vision.py +++ b/mindspore/python/mindspore/dataset/engine/datasets_vision.py @@ -842,10 +842,11 @@ class CityscapesDataset(MappableDataset, VisionBaseDataset): Args: dataset_dir (str): Path to the root directory that contains the dataset. - usage (str): Acceptable usages include 'train', 'test', 'val' or 'all' if quality_mode is 'fine' + usage (str, optional): Acceptable usages include 'train', 'test', 'val' or 'all' if quality_mode is 'fine' otherwise 'train', 'train_extra', 'val' or 'all' (default= 'train'). - quality_mode (str): Acceptable quality_modes include 'fine' or 'coarse' (default= 'fine'). - task (str): Acceptable tasks include 'instance', 'semantic', 'polygon' or 'color' (default= 'instance'). + quality_mode (str, optional): Acceptable quality_modes include 'fine' or 'coarse' (default= 'fine'). + task (str, optional): Acceptable tasks include 'instance', + 'semantic', 'polygon' or 'color' (default= 'instance'). num_samples (int, optional): The number of images to be included in the dataset. (default=None, all images). num_parallel_workers (int, optional): Number of workers to read the data @@ -2035,8 +2036,8 @@ class Flowers102Dataset(GeneratorDataset): Args: dataset_dir (str): Path to the root directory that contains the dataset. - task (str): Specify the 'Classification' or 'Segmentation' task (default='Classification'). - usage (str): Specify the 'train', 'valid', 'test' part or 'all' parts of dataset + task (str, optional): Specify the 'Classification' or 'Segmentation' task (default='Classification'). + usage (str, optional): Specify the 'train', 'valid', 'test' part or 'all' parts of dataset (default='all', will read all samples). num_samples (int, optional): The number of samples to be included in the dataset (default=None, all images). num_parallel_workers (int, optional): Number of subprocesses used to fetch the dataset in parallel (default=1). @@ -4744,16 +4745,9 @@ class WIDERFaceDataset(MappableDataset, VisionBaseDataset): A source dataset that reads and parses WIDERFace dataset. When usage is "train", "valid" or "all", the generated dataset has eight columns ["image", "bbox", "blur", - "expression", "illumination", "occlusion", "pose", "invalid"]. When usage is "test", it only has one column - ["image"]. - The tensor of column :py:obj:`image` is a vector of the uint8 type. - The tensor of column :py:obj:`bbox` is a scalar of the uint32 type. - The tensor of column :py:obj:`blur` is a scalar of the uint32 type. - The tensor of column :py:obj:`expression` is a scalar of the uint32 type. - The tensor of column :py:obj:`illumination` is a scalar of the uint32 type. - The tensor of column :py:obj:`occlusion` is a scalar of the uint32 type. - The tensor of column :py:obj:`pose` is a scalar of the uint32 type. - The tensor of column :py:obj:`invalid` is a scalar of the uint32 type. + "expression", "illumination", "occlusion", "pose", "invalid"]. The data type of the `image` column is uint8, + and all other columns are uint32. When usage is "test", it only has one column + ["image"], with uint8 data type. Args: dataset_dir (str): Path to the root directory that contains the dataset. diff --git a/mindspore/python/mindspore/dataset/engine/graphdata.py b/mindspore/python/mindspore/dataset/engine/graphdata.py index d568a49ab54..73261211fb2 100644 --- a/mindspore/python/mindspore/dataset/engine/graphdata.py +++ b/mindspore/python/mindspore/dataset/engine/graphdata.py @@ -365,7 +365,7 @@ class GraphData: next-hop sampling. A maximum of 6-hop are allowed. The sampling result is tiled into a list in the format of [input node, 1-hop sampling result, - 2-hop sampling result ...] + 2-hop sampling result ...]. Args: node_list (Union[list, numpy.ndarray]): The given list of nodes. @@ -862,7 +862,7 @@ class Graph(GraphData): next-hop sampling. A maximum of 6-hop are allowed. The sampling result is tiled into a list in the format of [input node, 1-hop sampling result, - 2-hop sampling result ...] + 2-hop sampling result ...]. Args: node_list (Union[list, numpy.ndarray]): The given list of nodes. diff --git a/mindspore/python/mindspore/mindrecord/filewriter.py b/mindspore/python/mindspore/mindrecord/filewriter.py index 0e99f9951c3..9ccc4d63b19 100644 --- a/mindspore/python/mindspore/mindrecord/filewriter.py +++ b/mindspore/python/mindspore/mindrecord/filewriter.py @@ -329,7 +329,6 @@ class FileWriter: the MindRecord file can store. If the size of header is larger than \ the default size (16MB), users need to call the API to set a proper size. - Args: header_size (int): Size of header, between 16*1024(16KB) and 128*1024*1024(128MB).