upload chinese doc of dataset api - stage2

2022-09-13 17:38:10 +08:00 · 2022-09-13 17:38:10 +08:00 · c635380293
parent 2e4e87f73e
commit c635380293
68 changed files with 1015 additions and 9 deletions
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst
@ -0,0 +1,16 @@
+mindspore.dataset.audio.Biquad
+==============================
+
+.. py:class:: mindspore.dataset.audio.Biquad(b0, b1, b2, a0, a1, a2)
+
+    给音频波形施加双二阶滤波器。
+
+    具体的数学公式与参数详见 `数字双二阶滤波器 <https://zh.m.wikipedia.org/wiki/%E6%95%B0%E5%AD%97%E6%BB%A4%E6%B3%A2%E5%99%A8>`_ 。
+
+    参数：
+        - **b0** (float) - 电流输入的分子系数，x[n]。
+        - **b1** (float) - 一个时间间隔前输入的分子系数x[n-1]。
+        - **b2** (float) - 两个时间间隔前输入的分子系数x[n-2]。
+        - **a0** (float) - 电流输出y[n]的分母系数，该值不能为零，通常为1。
+        - **a1** (float) - 电流输出y[n-1]的分母系数。
+        - **a2** (float) - 电流输出y[n-2]的分母系数。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst
@ -0,0 +1,17 @@
+mindspore.dataset.audio.BorderType
+==================================
+
+.. py:class:: mindspore.dataset.audio.BorderType
+
+    音频波形的填充模式。
+
+    可能的枚举值包括：BorderType.CONSTANT、BorderType.EDGE、BorderType.REFLECT和BorderType.SYMMETRIC。
+    
+    - **BorderType.CONSTANT** - 用常量值填充边界。
+    - **BorderType.EDGE** - 使用各边的边界像素值进行填充。
+    - **BorderType.REFLECT** - 以各边的边界为轴进行镜像填充，忽略边界像素值。
+      例如，对 [1,2,3,4] 的两侧分别填充2个元素，结果为 [3,2,1,2,3,4,3,2]。
+    - **BorderType.SYMMETRIC** - 以各边的边界为轴进行对称填充，包括边界像素值。
+      例如，对 [1,2,3,4] 的两侧分别填充2个元素，结果为 [2,1,1,2,3,4,4,3]。
+
+    .. note:: 该类派生自 :class:`str` 以支持 JSON 可序列化。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst
@ -0,0 +1,13 @@
+mindspore.dataset.audio.ComputeDeltas
+=====================================
+
+.. py:class:: mindspore.dataset.audio.ComputeDeltas(win_length=5, pad_mode=BorderType.EDGE)
+
+    计算光谱图的增量系数。
+
+    .. math::
+        d_{t}=\frac{{\textstyle\sum_{n=1}^{N}}n(c_{t+n}-c_{t-n})}{2{\textstyle\sum_{n=1}^{N}}n^{2}}
+
+    参数：
+        - **win_length** (int, 可选) - 计算窗口长度，长度必须不小于3，默认值：5。
+        - **pad_mode** (BorderType, 可选) - 边界填充模式，默认值：BorderType.EDGE。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst
@ -0,0 +1,10 @@
+mindspore.dataset.audio.DBToAmplitude
+=====================================
+
+.. py:class:: mindspore.dataset.audio.DBToAmplitude(ref, power)
+
+    将音频波形从分贝转换为功率或振幅。
+
+    参数：
+        - **ref** (float) - 输出波形的缩放系数。
+        - **power** (float) - 如果 `power` 等于1，则将分贝值转为功率；如果为0.5，则将分贝值转为振幅。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst
@ -0,0 +1,10 @@
+mindspore.dataset.audio.DCShift
+===============================
+
+.. py:class:: mindspore.dataset.audio.DCShift(shift, limiter_gain=None)
+
+    对输入音频波形施加直流移位，可以从音频中删除直流偏移（DC Offset）。
+
+    参数：
+        - **ref** (float) - 音频的移位量，值必须在[-2.0, 2.0]范围内。
+        - **limiter_gain** (float, 可选) - 防止截断，仅在波峰生效。值应远小于1，如0.05或0.02。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.DeemphBiquad
+====================================
+
+.. py:class:: mindspore.dataset.audio.DeemphBiquad(sample_rate)
+
+    为（..., time）形状的音频波形施加双极点去声滤波器。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），值必须为44100或48000。
+    
+    异常：
+        - **RuntimeError** - 当输入音频的shape不为<..., time>。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.DensityFunction
+=======================================
+
+.. py:class:: mindspore.dataset.audio.DensityFunction
+
+    密度函数。
+
+    可能的枚举值包括：DensityFunction.TPDF、DensityFunction.RPDF和DensityFunction.GPDF。
+    
+    - **DensityFunction.TPDF**：表示三角形概率密度函数。
+    - **DensityFunction.RPDF**：表示矩形概率密度函数。
+    - **DensityFunction.GPDF**：表示高斯概率密度函数。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst
@ -0,0 +1,13 @@
+mindspore.dataset.audio.DetectPitchFrequency
+============================================
+
+.. py:class:: mindspore.dataset.audio.DetectPitchFrequency(sample_rate, frame_time=0.01, win_length=30, freq_low=85, freq_high=3400)
+
+    检测音调频率，基于归一化互相关函数和中位平滑来实现。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），值必须为44100或48000。
+        - **frame_time** (float, 可选) - 帧的持续时间，值必须大于零。默认值：0.01。
+        - **win_length** (int, 可选) - 中位平滑的窗口长度（以帧数为单位），该值必须大于零。默认值：30。
+        - **freq_low** (int, 可选) - 可检测的最低频率（Hz），该值必须大于零。默认值：85。
+        - **freq_high** (int, 可选) - 可检测的最高频率（Hz），该值必须大于零。默认值：3400。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.Dither
+==============================
+
+.. py:class:: mindspore.dataset.audio.Dither(density_function=DensityFunction.TPDF, noise_shaping=False)
+
+    通过消除非线性截断失真，增加存储在特定位深度的音频的感知动态范围。
+
+    参数：
+        - **density_function** (DensityFunction, 可选) - 连续随机变量的密度函数。
+          可以是DensityFunction.TPDF（三角形概率密度函数）、DensityFunction.RPDF（矩形概率密度函数）
+          或DensityFunction.GPDF（高斯概率密度函数）之一。默认值：DensityFunction.TPDF。
+        - **noise_shaping** (bool, 可选) - 是否塑造量化误差的光谱能量。默认值：False。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.EqualizerBiquad
+=======================================
+
+.. py:class:: mindspore.dataset.audio.EqualizerBiquad(sample_rate, center_freq, gain, Q=0.707)
+
+    给音频波形施加双二次均衡器滤波器。
+
+    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），值不能为零。
+        - **center_freq** (float) - 中心频率（单位：Hz）。
+        - **gain** (float) - 期望提升（或衰减）的音频增益（单位：dB）。
+        - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst
@ -0,0 +1,16 @@
+mindspore.dataset.audio.Fade
+============================
+
+.. py:class:: mindspore.dataset.audio.Fade(fade_in_len=0, fade_out_len=0, fade_shape=FadeShape.LINEAR)
+
+    向波形添加淡入和/或淡出。
+
+    参数：
+        - **fade_in_len** (int, 可选) - 淡入长度（时间帧），必须是非负。默认值：0。
+        - **fade_out_len** (int, 可选) - 淡出长度（时间帧），必须是非负。默认值：0。
+        - **fade_shape** (FadeShape, 可选) - 淡入淡出形状，可以是FadeShape.QUARTER_SINE、FadeShape.HALF_SINE、
+          FadeShape.LINEAR、FadeShape.LOGARITHMIC或FadeShape.EXPONENTIAL中的一个。默认值：FadeShape.LINEAR。
+
+    异常：
+        - **RuntimeError** - 如果 `fade_in_len` 超过音频波形长度。
+        - **RuntimeError** - 如果 `fade_out_len` 超过音频波形长度。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.FadeShape
+=================================
+
+.. py:class:: mindspore.dataset.audio.FadeShape
+
+    淡入淡出形状。
+
+    可能的枚举值包括：FadeShape.QUARTER_SINE、FadeShape.HALF_SINE、FadeShape.LINEAR、FadeShape.LOGARITHMIC、FadeShape.EXPONENTIAL。
+    
+    - **FadeShape.QUARTER_SINE**：表示淡入淡出形状为四分之一正弦模式。
+    - **FadeShape.HALF_SINE**：表示淡入形状为半正弦模式。
+    - **FadeShape.LINEAR**：表示淡入淡出形状为线性模式。
+    - **FadeShape.LOGARITHMIC**：表示淡入淡出形状为对数模式。
+    - **FadeShape.EXPONENTIAL**：表示淡入淡出形状为指数模式。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst
@ -0,0 +1,20 @@
+mindspore.dataset.audio.Flanger
+===============================
+
+.. py:class:: mindspore.dataset.audio.Flanger(sample_rate, delay=0.0, depth=2.0, regen=0.0, width=71.0, speed=0.5, phase=25.0, modulation=Modulation.SINUSOIDAL, interpolation=Interpolation.LINEAR)
+
+    对音频应用法兰盘效果。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），例如44100 (Hz)。
+        - **delay** (float, 可选) - 延迟时间（毫秒），范围：[0, 30]。默认值：0.0。
+        - **depth** (float, 可选) - 延迟深度（毫秒），范围：[0, 10]。默认值：2.0。
+        - **regen** (float, 可选) - 反馈增益，单位为dB，范围：[-95, 95]。默认值：0.0。
+        - **width** (float, 可选) - 延迟增益，单位为dB，范围：[0, 100]。默认值：71.0。
+        - **speed** (float, 可选) - 调制速度，单位为Hz，范围：[0.1, 10]。默认值：0.5。
+        - **phase** (float, 可选) - 多通道的相移百分比，范围：[0, 100]。默认值：25.0。
+        - **modulation** (Modulation, 可选) - 指定调制模式。
+          可以是Modulation.SINUSOIDAL或Modulation.TRIANGULAR之一。默认值：Modulation.SINUSOIDAL。
+        - **interpolation** (Interpolation, 可选) - 指定插值模式。
+          可以是Interpolation.LINEAR或Interpolation.QUADRATIC中的一种。默认值：Interpolation.LINEAR。
+    
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst
@ -0,0 +1,9 @@
+mindspore.dataset.audio.Gain
+============================
+
+.. py:class:: mindspore.dataset.audio.Gain(gain_db=1.0)
+
+    放大或衰减音频波形。
+
+    参数：
+        - **gain_db** (float) - 增益调整，单位为分贝（dB）。默认值：1.0。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.GainType
+================================
+
+.. py:class:: mindspore.dataset.audio.GainType
+
+    增益类型。
+
+    可选的枚举值包括：GainType.AMPLITUDE、GainType.POWER和GainType.DB。
+
+    - **GainType.AMPLITUDE** - 表示输入增益类型为振幅。
+    - **GainType.POWER** - 表示输入增益类型为功率。
+    - **GainType.DB** - 表示输入增益类型为分贝。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst
@ -0,0 +1,25 @@
+mindspore.dataset.audio.GriffinLim
+==================================
+
+.. py:class:: mindspore.dataset.audio.GriffinLim(n_fft=400, n_iter=32, win_length=None, hop_length=None, window_type=WindowType.HANN, power=2, momentum=0.99, length=None, rand_init=True)
+
+    使用GriffinLim算法对音频波形进行近似幅度谱图反演。
+
+    .. math::
+        x(n)=\frac{\sum_{m=-\infty}^{\infty} w(m S-n) y_{w}(m S, n)}{\sum_{m=-\infty}^{\infty} w^{2}(m S-n)}
+
+    其中w表示窗口函数，y表示每个帧的重建信号，x表示整个信号。
+
+    参数：
+        - **n_fft** (int, 可选) - FFT的长度，默认值：400。
+        - **n_iter** (int, 可选) - 相位恢复的迭代次数，默认值：32。
+        - **win_length** (int, 可选) - GriffinLim的窗口大小，默认值：None，将设置为 `n_fft` 的值。
+        - **hop_length** (int, 可选) - STFT窗口之间的跳数长度，默认值：None，将设置为 `win_length//2` 。
+        - **window_type** (WindowType, 可选) - GriffinLim的窗口类型，可以是WindowType.BARTLETT，
+          WindowType.BLACKMAN，WindowType.HAMMING，WindowType.HANN或WindowType.KAISER。
+          默认值：WindowType.HANN，目前macOS上不支持kaiser窗口。
+        - **power** (float, 可选) - 幅度谱图的指数，默认值：2.0。
+        - **momentum** (float, 可选) - 快速Griffin-Lim的动量，默认值：0.99。
+        - **length** (int, 可选) - 预期输出波形的长度。默认值：None，将设置为stft矩阵的最后一个维度的值。
+        - **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志，默认值：True。
+    
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst
@ -0,0 +1,13 @@
+mindspore.dataset.audio.HighpassBiquad
+======================================
+
+.. py:class:: mindspore.dataset.audio.HighpassBiquad(sample_rate, cutoff_freq, Q=0.707)
+
+    给音频波形上施加双二阶高通滤波器。
+
+    接口实现方式类似于 `SoX库 <http://sox.sourceforge.net/sox.html>`_ 。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
+        - **central_freq** (float) - 中心频率（单位：Hz）。
+        - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst
@ -0,0 +1,11 @@
+mindspore.dataset.audio.Interpolation
+=====================================
+
+.. py:class:: mindspore.dataset.audio.Interpolation
+
+    音频波形的插值模式。
+
+    可选的枚举值包括：Interpolation.LINEAR和Interpolation.QUADRATIC。
+
+    - **Interpolation.LINEAR** - 插值类型为线性。
+    - **Interpolation.QUADRATIC** - 插值类型为二次型。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst
@ -0,0 +1,20 @@
+mindspore.dataset.audio.InverseMelScale
+=======================================
+
+.. py:class:: mindspore.dataset.audio.InverseMelScale(n_stft, n_mels=128, sample_rate=16000, f_min=0.0, f_max=None, max_iter=100000, tolerance_loss=1e-05, tolerance_change=1e-08, sgdargs=None, norm=NormType.NONE, mel_type=MelType.HTK)
+
+    使用转换矩阵求解STFT，形成梅尔频率的STFT。
+
+    参数：
+        - **n_stft** (int, 可选) - STFT中的滤波器的组数。
+        - **n_mels** (int, 可选) - mel滤波器的数量，默认值：128。
+        - **sample_rate** (int, 可选) - 音频信号采样频率，默认值：16000。
+        - **f_min** (float, 可选) - 最小频率，默认值：0.0。
+        - **f_max** (float, 可选) - 最大频率，默认值：None，将设置为 `sample_rate//2` 。
+        - **max_iter** (int, 可选) - 最大优化迭代次数，默认值：100000。
+        - **tolerance_loss** (float, 可选) - 当达到损失值时停止优化，默认值：1e-5。
+        - **tolerance_change** (float, 可选) - 指定损失差异，当达到损失差异时停止优化，默认值：1e-8。
+        - **sgdargs** (dict, 可选) - SGD优化器的参数，默认值：None，将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。
+        - **norm** (NormType, 可选) - 标准化方法，可以是NormType.SLANEY或NormType.NONE。默认值：NormType.NONE。
+        - **mel_type** (MelType, 可选) - 要使用的Mel比例，可以是MelType.SLAN或MelType.HTK。默认值：MelType.HTK。
+    
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst
@ -0,0 +1,16 @@
+mindspore.dataset.audio.LFilter
+===============================
+
+.. py:class:: mindspore.dataset.audio.LFilter(a_coeffs, b_coeffs, clamp=True)
+
+    为（...，time）形状的音频波形施加双极滤波器。
+
+    参数：
+        - **a_coeffs** (sequence) - (n_order + 1)维数差分方程的分母系数。较低的延迟系数是第一位的，例如[a0, a1, a2, ...]。
+          大小必须与 `b_coeffs` 相同（根据需要填充0）。
+        - **b_coeffs** (sequence) - (n_order + 1)维数差分方程的分子系数。较低的延迟系数是第一位的，例如[b0, b1, b2, ...]。
+          大小必须与 `a_coeffs` 相同（根据需要填充0）。
+        - **clamp** (bool, 可选) - 如果为True，则将输出信号截断在[-1, 1]范围内，默认值：True。
+    
+    异常：
+        - **RuntimeError** - 当输入音频的shape不为<..., time>。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.Magphase
+================================
+
+.. py:class:: mindspore.dataset.audio.Magphase(power=1.0)
+
+    将具有（..., 2）形状的复值光谱图分离，输出幅度和相位。
+
+    参数：
+        - **power** (float) - 范数的功率，必须是非负的，默认值：1.0。
+    
+    异常：
+        - **RuntimeError** - 当输入音频的shape不为<..., 2>。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.MaskAlongAxis
+=====================================
+
+.. py:class:: mindspore.dataset.audio.MaskAlongAxis(mask_start, mask_width, mask_value, axis)
+
+    对音频波形应用掩码。掩码的起始和长度由 `[mask_start, mask_start + mask_width)` 决定。
+
+    参数：
+        - **mask_start** (int) - 掩码的起始位置，必须是非负的。
+        - **mask_width** (int) - 掩码的宽度，必须是非负的。
+        - **mask_value** (float) - 掩码值。
+        - **axis** (int) - 要应用掩码的轴（1表示频率，2表示时间）。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.MaskAlongAxisIID
+========================================
+
+.. py:class:: mindspore.dataset.audio.MaskAlongAxisIID(mask_param, mask_value, axis)
+
+    对音频波形应用掩码。掩码的起始和长度由 `[mask_start, mask_start + mask_width)` 决定。
+
+    其中 `mask_width` 从 `uniform[0, mask_param]` 中采样， `mask_start` 从 `uniform[0, max_length - mask_width]` 中采样，
+    `max_length` 是光谱图中特定轴的列数。
+
+    参数：
+        - **mask_param** (int) - 要屏蔽的列数，将从[0, mask_param]统一采样，必须是非负数。
+        - **mask_value** (float) - 掩码值。
+        - **axis** (int) - 要应用掩码的轴（1表示频率，2表示时间）。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst
@ -0,0 +1,16 @@
+mindspore.dataset.audio.MelScale
+================================
+
+.. py:class:: mindspore.dataset.audio.MelScale(n_mels=128, sample_rate=16000, f_min=0, f_max=None, n_stft=201, norm=NormType.NONE, mel_type=MelType.HTK)
+
+    将正常STFT转换为梅尔尺度的STFT。
+
+    参数：
+        - **n_mels** (int, 可选) - 梅尔滤波器的数量，默认值：128。
+        - **sample_rate** (int, 可选) - 音频信号采样速率，默认值：16000。
+        - **f_min** (float, 可选) - 最小频率，默认值：0.0。
+        - **f_max** (float, 可选) - 最大频率，默认值：None，将设置为 `sample_rate//2` 。
+        - **n_stft** (int, 可选) - STFT中的滤波器的组数，默认值：201。
+        - **norm** (NormType, 可选) - 标准化方法，可以是NormType.SLANEY或NormType.NONE。默认值：NormType.NONE。
+        - **mel_type** (MelType, 可选) - 要使用的Mel比例，可以是MelType.SLAN或MelType.HTK。默认值：MelType.HTK。
+    
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst
@ -0,0 +1,15 @@
+mindspore.dataset.audio.MelType
+===============================
+
+.. py:class:: mindspore.dataset.audio.MelType
+
+    梅尔尺度类型。
+
+    可选的枚举值包括：MelType.HTK、MelType.SLANEY。
+    
+    - **MelType.HTK** - 使用htk实现方式，参考文献：Slaney, M. Auditory Toolbox:
+      A MATLAB Toolbox for Auditory Modeling Work. Technical Report, version 2, 
+      Interval Research Corporation, 1998.
+    - **MelType.SLANEY** - 使用slaney实现方式，参考文献：Young, S., Evermann, G.,
+      Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D.,
+      Povey, D., Valtchev, V., & Woodland, P. The HTK book, version 3.4. Cambridge University, March 2009.
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst
@ -0,0 +1,11 @@
+mindspore.dataset.audio.Modulation
+==================================
+
+.. py:class:: mindspore.dataset.audio.Modulation
+
+    调制类型。
+
+    可选的枚举值包括：Modulation.SINUSOIDAL、Modulation.TRIANGULAR。
+
+    - **Modulation.SINUSOIDAL** - 表示输入调制类型为正弦。
+    - **Modulation.TRIANGULAR** - 表示输入调制类型为三角形。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst
@ -0,0 +1,9 @@
+mindspore.dataset.audio.MuLawDecoding
+=====================================
+
+.. py:class:: mindspore.dataset.audio.MuLawDecoding(quantization_channels=256)
+
+    解码mu-law编码信号。
+
+    参数：
+        - **quantization_channels** (int, 可选) - 通道数，必须为正数。默认值：256。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst
@ -0,0 +1,9 @@
+mindspore.dataset.audio.MuLawEncoding
+=====================================
+
+.. py:class:: mindspore.dataset.audio.MuLawEncoding(quantization_channels=256)
+
+    基于mu-law压缩的信号编码。
+
+    参数：
+        - **quantization_channels** (int, 可选) - 通道数，必须为正数。默认值：256。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst
@ -0,0 +1,11 @@
+mindspore.dataset.audio.NormMode
+================================
+
+.. py:class:: mindspore.dataset.audio.NormMode
+
+    规范类型。
+
+    可选的枚举值包括：NormMode.ORTHO、NormMode.NONE。
+    
+    - **NormMode.ORTHO** - 表示输入音频的模式为正交。
+    - **NormMode.NONE** - 表示输入音频的模式为none。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst
@ -0,0 +1,11 @@
+mindspore.dataset.audio.NormType
+================================
+
+.. py:class:: mindspore.dataset.audio.NormType
+
+    规范类型。
+
+    可选的枚举值包括：NormType.SLANEY、NormType.NONE。
+
+    - **NormType.SLANEY** - 使用slaney规范化。
+    - **NormType.None** - 不使用规范化。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst
@ -0,0 +1,10 @@
+mindspore.dataset.audio.Overdrive
+=================================
+
+.. py:class:: mindspore.dataset.audio.Overdrive(gain=20.0, color=20.0)
+
+    对输入音频应用过载。
+
+    参数：
+        - **gain** (float, 可选) - 期望提升（或衰减）的音频增益（单位：dB），范围为[0, 100]。默认值：20.0。
+        - **color** (float, 可选) - 控制过驱动输出中的偶次谐波内容量，范围为[0, 100]。默认值：20.0。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst
@ -0,0 +1,10 @@
+mindspore.dataset.audio.PhaseVocoder
+====================================
+
+.. py:class:: mindspore.dataset.audio.PhaseVocoder(rate, phase_advance)
+
+    给定STFT张量，在不修改速率系数的情况下加速音高。
+
+    参数：
+        - **rate** (float) - 加速系数。
+        - **phase_advance** (numpy.ndarray) - 每个滤波器的预期相位前进，形状为（freq, 1）。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst
@ -0,0 +1,17 @@
+mindspore.dataset.audio.Phaser
+==============================
+
+.. py:class:: mindspore.dataset.audio.Phaser(sample_rate, gain_in=0.4, gain_out=0.74, delay_ms=3.0, decay=0.4, mod_speed=0.5, sinusoidal=True)
+
+    对音频应用相位效果。
+
+    参数：
+        - **sample_rate** (int) - 波形的采样率，例如44100 (Hz)。
+        - **gain_in** (float, 可选) - 期望提升（或衰减）所需输入增益，单位为dB。允许的值范围为[0, 1]，默认值：0.4。
+        - **gain_out** (float, 可选) - 期望提升（或衰减）期望输出增益，单位为dB。允许的值范围为[0, 1e9]，默认值：0.74。
+        - **delay_ms** (float, 可选) - 延迟数，以毫秒为单位。允许的值范围为[0, 5]，默认值：3.0。
+        - **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99]，默认值：0.4。
+        - **mod_speed** (float, 可选) - 调制速度，单位为Hz。允许的值范围为[0.1, 2]，默认值：0.5。
+        - **sinusoidal** (bool, 可选) - 如果为True，请使用正弦调制（对于多个乐器效果最好）。
+          如果为False，则使用triangular modulation（使单个乐器具有更清晰的相位效果）。默认值：True。
+  
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst
@ -0,0 +1,16 @@
+mindspore.dataset.audio.Resample
+================================
+
+.. py:class:: mindspore.dataset.audio.Resample(orig_freq=16000, new_freq=16000, resample_method=ResampleMethod.SINC_INTERPOLATION, lowpass_filter_width=6, rolloff=0.99, beta=None)
+
+    将音频波形从一个频率重新采样到另一个频率，必要时可以指定重采样方法。
+
+    参数：
+        - **orig_freq** (float, 可选) - 音频波形的原始频率，必须为正，默认值：16000。
+        - **new_freq** (float, 可选) - 目标音频波形频率，必须为正，默认值：16000。
+        - **resample_method** (ResampleMethod, 可选) - 重采样方法，可以是ResampleMethod.SINC_INTERPOLATION和ResampleMethod.KAISER_WINDOW。
+          默认值=ResampleMethod.SINC_INTERPOLATION。
+        - **lowpass_filter_width** (int, 可选) - 控制滤波器的宽度，越多意味着更清晰，但效率越低，必须为正。默认值：6。
+        - **rolloff** (float, 可选) - 滤波器的滚降频率，作为Nyquist的一小部分。
+          较低的值减少了抗锯齿，但也减少了一些最高频率，范围：(0, 1]。默认值：0.99。
+        - **beta** (float, 可选) - 用于kaiser窗口的形状参数，默认值：None，将使用14.769656459379492。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst
@ -0,0 +1,11 @@
+mindspore.dataset.audio.ResampleMethod
+======================================
+
+.. py:class:: mindspore.dataset.audio.ResampleMethod
+
+    音频重采样方法。
+
+    可选的枚举值包括：ResampleMethod.SINC_INTERPOLATION、ResampleMethod.KAISER_WINDOW。
+    
+    - **ResampleMethod.SINC_INTERPOLATION** - 使用sinc插值重新采样。
+    - **ResampleMethod.KAISER_WINDOW** - 使用kaiser窗口重新采样。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst
@ -0,0 +1,9 @@
+mindspore.dataset.audio.RiaaBiquad
+==================================
+
+.. py:class:: mindspore.dataset.audio.RiaaBiquad(sample_rate)
+
+    对输入音频波形施加RIAA均衡。类似于SoX实现。
+
+    参数：
+        - **sample_rate** (int) - 波形的采样率，例如44100 (Hz)，只能是44100、48000、88200、96000中的一个。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst
@ -7,5 +7,5 @@ mindspore.dataset.audio.ScaleType

    可选枚举值为：ScaleType.MAGNITUDE和ScaleType.POWER。
    
-    - **ScaleType.MAGNITUDE**：表示输入音频的标度为振幅。
-    - **ScaleType.POWER**：表示输入音频的标度为功率。
+    - **ScaleType.MAGNITUDE** - 表示输入音频的标度为振幅。
+    - **ScaleType.POWER** - 表示输入音频的标度为功率。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.SlidingWindowCmn
+========================================
+
+.. py:class:: mindspore.dataset.audio.SlidingWindowCmn(cmn_window=600, min_cmn_window=100, center=False, norm_vars=False)
+
+    应用滑动窗口倒谱平均值（和可选的方差）标准化每个对话语句。
+
+    参数：
+        - **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口，默认值：600。
+        - **min_cmn_window** (int, 可选) - 解码开始时使用的最小CMN窗口（仅在开始时增加延迟）。
+          仅在中心为False时适用，在中心为True时忽略，默认值：100。
+        - **center** (bool, 可选) - 如果为True，则使用以当前帧为中心的窗口。如果为False，则窗口在左侧。默认值：False。
+        - **norm_vars** (bool, 可选) - 如果为True，则将方差规范化为1。默认值：False。
+  
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst
@ -0,0 +1,15 @@
+mindspore.dataset.audio.SpectralCentroid
+========================================
+
+.. py:class:: mindspore.dataset.audio.SpectralCentroid(sample_rate, n_fft=400, win_length=None, hop_length=None, pad=0, window=WindowType.HANN)
+
+    从音频信号创建光谱质心。
+
+    参数：
+        - **sample_rate** (int) - 波形的采样率，例如44100 (Hz)。
+        - **n_fft** (int, 可选) - FFT的大小，创建n_fft // 2 + 1 bins。默认值：400。
+        - **win_length** (int, 可选) - 窗口大小，默认值：None，将设置为 `n_fft` 的值。
+        - **hop_length** (int, 可选) - STFT窗口之间的跳数长度，默认值：None，将设置为 `win_length//2` 。
+        - **pad** (int, 可选)：信号的两侧填充数量，默认值：0。
+        - **window** (WindowType, 可选) - 窗口函数，可以是WindowType.BARTLETT、WindowType.BLACKMAN、
+          WindowType.HAMMING、WindowType.HANN或WindowType.KAISER。默认值：WindowType.HANN。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst
@ -0,0 +1,22 @@
+mindspore.dataset.audio.Spectrogram
+===================================
+
+.. py:class:: mindspore.dataset.audio.Spectrogram(n_fft=400, win_length=None, hop_length=None, pad=0, window=WindowType.HANN, power=2.0, normalized=False, center=True, pad_mode=BorderType.REFLECT, onesided=True)
+
+    从音频信号创建光谱图。
+
+    参数：
+        - **n_fft** (int, 可选) - FFT的大小，创建 `n_fft // 2 + 1` 组滤波器，默认值：400。
+        - **win_length** (int, 可选) - 窗口大小，默认值：None，将设置为 `n_fft` 的值。
+        - **hop_length** (int, 可选) - STFT窗口之间的跳数长度，默认值：None，将设置为 `win_length//2` 。
+        - **pad** (int, 可选)：信号的双面填充，默认值：0。
+        - **window_type** (WindowType, 可选) - GriffinLim的窗口类型，可以是WindowType.BARTLETT，
+          WindowType.BLACKMAN，WindowType.HAMMING，WindowType.HANN或WindowType.KAISER。
+          默认值：WindowType.HANN，目前macOS上不支持kaiser窗口。
+        - **power** (float, 可选) - 幅度谱图的指数，默认值：2.0。
+        - **normalized** (bool, 可选) - 是否在stft之后按幅度归一化。默认值：False。
+        - **center** (bool, 可选) - 是否在两侧填充波形，默认值：True。
+        - **pad_mode** (BorderType, 可选) - 控制中心为True时使用的填充方法，可以是BorderType.REFLECT、BorderType.CONSTANT、
+          BorderType.EDGE、BorderType.SYMMETRIC，默认值：BorderType.REFLECT。
+        - **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余，默认值：True。
+    
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst
@ -0,0 +1,12 @@
+mindspore.dataset.audio.TrebleBiquad
+====================================
+
+.. py:class:: mindspore.dataset.audio.TrebleBiquad(sample_rate, gain, central_freq=3000, Q=0.707)
+
+    对音频波形施加高音调控效果。类似于SoX实现。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
+        - **gain** (float) - 期望提升（或衰减）的音频增益（单位：dB）。
+        - **central_freq** (float) - 中心频率（单位：Hz），默认值：3000。
+        - **Q** (float, 可选) - `品质因子 <https://zh.wikipedia.org/wiki/%E5%93%81%E8%B3%AA%E5%9B%A0%E5%AD%90>`_ ，能够反映带宽与采样频率和中心频率的关系，取值范围为(0, 1]，默认值：0.707。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst
@ -0,0 +1,25 @@
+mindspore.dataset.audio.Vad
+===========================
+
+.. py:class:: mindspore.dataset.audio.Vad(sample_rate, trigger_level=7.0, trigger_time=0.25, search_time=1.0, allowed_gap=0.25, pre_trigger_time=0.0, boot_time=0.35, noise_up_time=0.1, noise_down_time=0.01, noise_reduction_amount=1.35, measure_freq=20.0, measure_duration=None, measure_smooth_time=0.4, hp_filter_freq=50.0, lp_filter_freq=6000.0, hp_lifter_freq=150.0, lp_lifter_freq=2000.0)
+
+    从录音结束后修剪无声背景声音。
+
+    参数：
+        - **sample_rate** (int) - 采样频率（单位：Hz），不能为零。
+        - **trigger_level** (float, 可选) - 用于触发活动检测的测量级别，默认值：7.0。
+        - **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数（以秒为单位，默认值：0.25。
+        - **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量（以秒为单位），默认值：1.0。
+        - **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙（以秒为单位），默认值：0.25。
+        - **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前，要保留的音频量（以秒为单位），默认值：0.0。
+        - **boot_time** (float, 可选) - 初始噪声估计的时间，默认值：0.35。
+        - **noise_up_time** (float, 可选) - 当噪音水平增加时，自适应噪音估计器使用的时间常数，默认值：0.1。
+        - **noise_down_time** (float, 可选) - 当噪音水平降低时，自适应噪音估计器使用的时间常数，默认值：0.01。
+        - **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量，默认值：1.35。
+        - **measure_freq** (float, 可选) - 算法处理的频率，默认值：20.0。
+        - **measure_duration** (float, 可选) - 测量持续时间，默认值：None，使用测量周期的两倍。
+        - **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数，默认值：0.4。
+        - **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率，默认值：50.0。
+        - **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率，默认值：6000.0。
+        - **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率，默认值：150.0。
+        - **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率，默认值：20000.0。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.Vol
+===========================
+
+.. py:class:: mindspore.dataset.audio.Vol(gain, gain_type=GainType.AMPLITUDE)
+
+    对音频波形施加放大或衰减。
+
+    参数：
+        - **gain** (float) - 增益调整的值。
+          如果 `gain_type` = GainType.AMPLITUDE，则增益代表非负幅度比。
+          如果 `gain_type` = GainType.POWER，则增益代表功率。
+          如果 `gain_type` = GainType.DB，则增益代表分贝。
+        - **gain_type** (GainType, 可选) - 增益类型，包含以下三个枚举值增益类型.GainType.AMPLITUDE、
+          GainType.POWER和GainType.DB。默认值：GainType.AMPLITUDE。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst
@ -0,0 +1,15 @@
+mindspore.dataset.audio.WindowType
+==================================
+
+.. py:class:: mindspore.dataset.audio.WindowType
+
+    窗口函数类型，
+
+    可选的枚举值包括：WindowType.BARTTT、WindowType.BACKMAN、WindowType.HAMMING、WindowType.HANN、WindowType.KAISER。
+
+    - **WindowType.BARTTT** - 表示窗口函数的类型为Bartlett。
+    - **WindowType.BACKMAN** - 表示窗口函数的类型为Blackman。
+    - **WindowType.HAMMING** - 表示窗口函数的类型为Hamming。
+    - **WindowType.HANN** - 表示窗口函数的类型为Hann。
+    - **WindowType.KAISER** - 表示窗口函数的类型为Kaiser，目前在macOS上不支持。
+ 
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst
@ -0,0 +1,14 @@
+mindspore.dataset.audio.create_dct
+==================================
+
+.. py:function:: mindspore.dataset.audio.create_dct(n_mfcc, n_mels, norm=NormMode.NONE)
+
+    创建一个shape为(`n_mels`, `n_mfcc`)的DCT变换矩阵，并根据范数进行标准化。
+
+    参数：
+        - **n_mfcc** (int) - 要保留mfc系数的数量，该值必须大于0。
+        - **n_mels** (int) - mel滤波器的数量，该值必须大于0。
+        - **norm** (NormMode, 可选) - 标准化模式，可以是NormMode.NONE或NormMode.ORTHO。默认值：NormMode.NONE。
+
+    返回：
+        numpy.ndarray，DCT转换矩阵。
--- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst
+++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst
@ -0,0 +1,18 @@
+mindspore.dataset.audio.melscale_fbanks
+=======================================
+
+.. py:function:: mindspore.dataset.audio.melscale_fbanks(n_freqs, f_min, f_max, n_mels, sample_rate, norm=NormType.NONE, mel_type=MelType.HTK)
+
+    创建shape为(`n_freqs`, `n_mels`)的频率变换矩阵。
+
+    参数：
+        - **n_freqs** (int) - 频率数。
+        - **f_min** (float) - 频率的最小值，单位为Hz。
+        - **f_max** (float) - 频率的最大值，单位为Hz。
+        - **n_mels** (int) - 梅尔滤波器的数量。
+        - **sample_rate** (int) - 采样频率（单位：Hz）。
+        - **norm** (audio.NormType, 可选) - 规范化的类型，可以是NormType.NONE或NormType.SLANEY。默认值：NormType.NONE。
+        - **mel_type** (audio.MelType, 可选) - 梅尔滤波器的类型，可以是MelType.HTK或MelType.SLAN。默认值：NormType.SLAN。
+
+    返回：
+        numpy.ndarray，频率变换矩阵。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst
@ -0,0 +1,19 @@
+mindspore.dataset.text.CharNGram
+=================================
+
+.. py:class:: mindspore.dataset.text.CharNGram
+
+    CharNGram对象，用于将tokens映射到预训练的向量中。
+
+    .. py:method:: from_file(file_path, max_vectors=None)
+
+        从文件构建CharNGram向量。
+
+        参数：
+            - **file_path** (str) - 包含CharNGram向量的文件路径。
+            - **max_vectors** (int，可选) - 用于限制加载的预训练向量的数量。
+              大多数预训练的向量集是按词频降序排序的。因此，在如果内存不能存放整个向量集，或者由于其他原因不需要，
+              可以传递 `max_vectors` 限制加载数量。默认值：None，无限制。
+
+        返回：
+            CharNGram对象。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst
@ -0,0 +1,19 @@
+mindspore.dataset.text.FastText
+================================
+
+.. py:class:: mindspore.dataset.text.FastText
+
+    用于将tokens映射到矢量的FastText对象。
+
+    .. py:method:: from_file(file_path, max_vectors=None)
+
+        从文件构建CharNGram向量。
+
+        参数：
+            - **file_path** (str) - 包含向量的文件的路径。预训练向量集的文件后缀必须是 `*.vec` 。
+            - **max_vectors** (int，可选) - 用于限制加载的预训练向量的数量。
+              大多数预训练的向量集是按词频降序排序的。因此，在如果内存不能存放整个向量集，或者由于其他原因不需要，
+              可以传递 `max_vectors` 限制加载数量。默认值：None，无限制。
+
+        返回：
+            FastText对象。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst
@ -0,0 +1,8 @@
+mindspore.dataset.text.FilterWikipediaXML
+=========================================
+
+.. py:class:: mindspore.dataset.text.FilterWikipediaXML(vocab, unknown_token=None, data_type=mstype.int32)
+
+    docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst
+
+    .. note:: Windows平台尚不支持 `FilterWikipediaXML` 。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst
@ -0,0 +1,19 @@
+mindspore.dataset.text.GloVe
+=============================
+
+.. py:class:: mindspore.dataset.text.GloVe
+
+    用于将tokens映射到矢量的GloVe对象。
+
+    .. py:method:: from_file(file_path, max_vectors=None)
+
+        从文件构建CharNGram向量。
+
+        参数：
+            - **file_path** (str) - 包含向量的文件的路径。预训练向量集的格式必须是 `glove.6B.*.txt` 。
+            - **max_vectors** (int，可选) - 用于限制加载的预训练向量的数量。
+              大多数预训练的向量集是按词频降序排序的。因此，在如果内存不能存放整个向量集，或者由于其他原因不需要，
+              可以传递 `max_vectors` 限制加载数量。默认值：None，无限制。
+
+        返回：
+            GloVe对象。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst
@ -0,0 +1,17 @@
+mindspore.dataset.text.ToVectors
+================================
+
+.. py:class:: mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False)
+
+    根据输入向量表查找向量中的tokens。
+
+    参数：
+        - **vectors** (Vectors) - 矢量对象。
+        - **unk_init** (sequence, 可选) - 用于初始化矢量外（OOV）令牌的序列，默认值：None，用零向量初始化。
+        - **lower_case_backup** (bool, 可选) - 是否查找小写的token。如果为False，则将查找原始大小写中的每个token。
+          如果为True，则将首先查找原始大小写中的每个token，如果在属性soi的键中找不到，则将查找小写中的token。默认值：False。
+
+    异常：      
+        - **TypeError** - 如果 `unk_init` 不是序列。
+        - **TypeError** - 如果 `unk_init` 的元素不是float或int类型。
+        - **TypeError** - 如果 `lower_case_backup` 不是bool类型。
--- a/docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst
+++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst
@ -0,0 +1,19 @@
+mindspore.dataset.text.Vectors
+===============================
+
+.. py:class:: mindspore.dataset.text.Vectors
+
+    用于将tokens映射到矢量的Vectors对象。
+
+    .. py:method:: from_file(file_path, max_vectors=None)
+
+        从文件构建Vectors向量。
+
+        参数：
+            - **file_path** (str) - 包含向量的文件的路径。
+            - **max_vectors** (int，可选) - 用于限制加载的预训练向量的数量。
+              大多数预训练的向量集是按词频降序排序的。因此，在如果内存不能存放整个向量集，或者由于其他原因不需要，
+              可以传递 `max_vectors` 限制加载数量。默认值：None，无限制。
+
+        返回：
+            Vectors对象。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst
@ -0,0 +1,19 @@
+mindspore.dataset.vision.AdjustGamma
+====================================
+
+.. py:class:: mindspore.dataset.vision.AdjustGamma(gamma, gain=1)
+
+    对输入图像应用伽马校正。更多详细信息，请参见 `Gamma矫正 <https://en.wikipedia.org/wiki/Gamma_correction>`_ 。
+
+    .. math::
+        I_{\text{out}} = 255 \times \text{gain} \times \left(\frac{I_{\text{in}}}{255}\right)^{\gamma}
+
+    参数：
+        - **gamma** (float) - 输出图像像素值与输入图像像素值呈指数相关。 `gamma` 大于1使阴影更暗，而 `gamma` 小于1使黑暗区域更亮。
+        - **gain** (float, 可选) - 常数乘数，默认值：1。
+
+    异常：
+        - **TypeError** - 如果 `gain` 不是浮点类型。
+        - **TypeError** - 如果 `gamma` 不是浮点类型。
+        - **ValueError** - 如果 `gamma` 小于0。
+        - **RuntimeError** - 如果给定的张量形状不是<H, W>或<..., H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst
@ -0,0 +1,33 @@
+mindspore.dataset.vision.AutoAugment
+====================================
+
+.. py:class:: mindspore.dataset.vision.AutoAugment(policy=AutoAugmentPolicy.IMAGENET, interpolation=Inter.NEAREST, fill_value=0)
+
+    应用AutoAugment数据增强方法，基于论文 `AutoAugment: Learning Augmentation Strategies from Data <https://arxiv.org/pdf/1805.09501.pdf>`_ 。
+    此操作仅适用于3通道RGB图像。
+
+    参数：
+        - **policy** (AutoAugmentPolicy, 可选) - 在不同数据集上学习的AutoAugment策略，默认值：AutoAugmentPolicy.IMAGENET。
+            可以是[AutoAugmentPolicy.IMAGENET, AutoAugmentPolicy.CIFAR10, AutoAugmentPolicy.SVHN]中的任何一个。
+
+            - **AutoAugmentPolicy.IMAGENET**：表示应用在ImageNet数据集上学习的AutoAugment。
+            - **AutoAugmentPolicy.CIFAR10**：表示应用在Cifar10数据集上学习的AutoAugment。
+            - **AutoAugmentPolicy.SVHN**：表示应用在SVHN数据集上学习的AutoAugment。
+
+        - **interpolation** (Inter, 可选) - 调整大小算子的图像插值模式，默认值：Inter.NEAREST。
+            可以是[Inter.NEAREST, Inter.BILINEAR, Inter.BICUBIC, Inter.AREA]中的任何一个。
+
+            - **Inter.NEAREST**：表示插值方法是最近邻插值。
+            - **Inter.BILINEAR**：表示插值方法是双线性插值。
+            - **Inter.BICUBIC**：表示插值方法为双三次插值。
+            - **Inter.AREA**：表示插值方法为面积插值。
+        
+        - **fill_value** (Union[int, tuple[int]], 可选) - 填充的像素值。
+          如果是3元素元组，则分别用于填充R、G、B通道。
+          如果是整数，则用于所有 RGB 通道。 `fill_value` 值必须在 [0, 255] 范围内，默认值：0。
+
+    异常：
+        - **TypeError** - 如果 `policy` 不是AutoAugmentPolicy类型。
+        - **TypeError** - 如果 `interpolation` 不是Inter类型。
+        - **TypeError** - 如果 如果 `fill_value` 不是整数或长度为3的元组。
+        - **RuntimeError** - 如果给定的张量形状不是<H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst
@ -0,0 +1,67 @@
+mindspore.dataset.vision.AutoAugmentPolicy
+==========================================
+
+.. py:class:: mindspore.dataset.vision.AutoAugmentPolicy
+
+    不同数据集的自动增强策略。
+    可能的枚举值包括：AutoAugmentPolicy.IMAGENET、AutoAugmentPolicy.CIFAR10、AutoAugmentPolicy.SVHN。
+    每个策略包含25对增强操作。使用AutoAugment时，每个图像都会使用这些操作对中的一个随机转换。每对有2个不同的操作。下面显示了所有这些增强操作，包括操作名称及其概率和随机参数。
+
+    - AutoAugmentPolicy.IMAGENET：ImageNet的数据集自动增强策略。
+
+      .. code-block::
+
+          Augmentation operations pair:
+          [(("Posterize", 0.4, 8), ("Rotate", 0.6, 9)),        (("Solarize", 0.6, 5), ("AutoContrast", 0.6, None)),
+           (("Equalize", 0.8, None), ("Equalize", 0.6, None)), (("Posterize", 0.6, 7), ("Posterize", 0.6, 6)),
+           (("Equalize", 0.4, None), ("Solarize", 0.2, 4)),    (("Equalize", 0.4, None), ("Rotate", 0.8, 8)),
+           (("Solarize", 0.6, 3), ("Equalize", 0.6, None)),    (("Posterize", 0.8, 5), ("Equalize", 1.0, None)),
+           (("Rotate", 0.2, 3), ("Solarize", 0.6, 8)),         (("Equalize", 0.6, None), ("Posterize", 0.4, 6)),
+           (("Rotate", 0.8, 8), ("Color", 0.4, 0)),            (("Rotate", 0.4, 9), ("Equalize", 0.6, None)),
+           (("Equalize", 0.0, None), ("Equalize", 0.8, None)), (("Invert", 0.6, None), ("Equalize", 1.0, None)),
+           (("Color", 0.6, 4), ("Contrast", 1.0, 8)),          (("Rotate", 0.8, 8), ("Color", 1.0, 2)),
+           (("Color", 0.8, 8), ("Solarize", 0.8, 7)),          (("Sharpness", 0.4, 7), ("Invert", 0.6, None)),
+           (("ShearX", 0.6, 5), ("Equalize", 1.0, None)),      (("Color", 0.4, 0), ("Equalize", 0.6, None)),
+           (("Equalize", 0.4, None), ("Solarize", 0.2, 4)),    (("Solarize", 0.6, 5), ("AutoContrast", 0.6, None)),
+           (("Invert", 0.6, None), ("Equalize", 1.0, None)),   (("Color", 0.6, 4), ("Contrast", 1.0, 8)),
+           (("Equalize", 0.8, None), ("Equalize", 0.6, None))]
+
+    - AutoAugmentPolicy.CIFAR10：Cifar10的数据集自动增强策略。
+
+      .. code-block::
+
+          Augmentation operations pair:
+          [(("Invert", 0.1, None), ("Contrast", 0.2, 6)),         (("Rotate", 0.7, 2), ("TranslateX", 0.3, 9)),
+           (("Sharpness", 0.8, 1), ("Sharpness", 0.9, 3)),         (("ShearY", 0.5, 8), ("TranslateY", 0.7, 9)),
+           (("AutoContrast", 0.5, None), ("Equalize", 0.9, None)), (("ShearY", 0.2, 7), ("Posterize", 0.3, 7)),
+           (("Color", 0.4, 3), ("Brightness", 0.6, 7)),            (("Sharpness", 0.3, 9), ("Brightness", 0.7, 9)),
+           (("Equalize", 0.6, None), ("Equalize", 0.5, None)),     (("Contrast", 0.6, 7), ("Sharpness", 0.6, 5)),
+           (("Color", 0.7, 7), ("TranslateX", 0.5, 8)),            (("Equalize", 0.8, None), ("Invert", 0.1, None)),
+           (("TranslateY", 0.4, 3), ("Sharpness", 0.2, 6)),        (("Brightness", 0.9, 6), ("Color", 0.2, 8)),
+           (("Solarize", 0.5, 2), ("Invert", 0.0, None)),          (("TranslateY", 0.9, 9), ("TranslateY", 0.7, 9)),
+           (("Equalize", 0.2, None), ("Equalize", 0.6, None)),     (("Color", 0.9, 9), ("Equalize", 0.6, None)),
+           (("AutoContrast", 0.8, None), ("Solarize", 0.2, 8)),    (("Brightness", 0.1, 3), ("Color", 0.7, 0)),
+           (("Solarize", 0.4, 5), ("AutoContrast", 0.9, None)),
+           (("AutoContrast", 0.9, None), ("Solarize", 0.8, 3)),
+           (("TranslateY", 0.7, 9), ("AutoContrast", 0.9, None)),
+           (("Equalize", 0.3, None), ("AutoContrast", 0.4, None)),
+           (("Equalize", 0.2, None), ("AutoContrast", 0.6, None))]
+
+    - AutoAugmentPolicy.SVHN：SVHN的数据集自动增强策略。
+
+      .. code-block::
+
+          Augmentation operations pair:
+          [(("ShearX", 0.9, 4), ("Invert", 0.2, None)),          (("ShearY", 0.9, 8), ("Invert", 0.7, None)),
+           (("Equalize", 0.6, None), ("Solarize", 0.6, 6)),      (("Invert", 0.9, None), ("Equalize", 0.6, None)),
+           (("Equalize", 0.6, None), ("Rotate", 0.9, 3)),        (("ShearX", 0.9, 4), ("AutoContrast", 0.8, None)),
+           (("ShearY", 0.9, 8), ("Invert", 0.4, None)),          (("ShearY", 0.9, 5), ("Solarize", 0.2, 6)),
+           (("Invert", 0.9, None), ("AutoContrast", 0.8, None)), (("Equalize", 0.6, None), ("Rotate", 0.9, 3)),
+           (("ShearX", 0.9, 4), ("Solarize", 0.3, 3)),           (("ShearY", 0.8, 8), ("Invert", 0.7, None)),
+           (("Equalize", 0.9, None), ("TranslateY", 0.6, 6)),    (("Invert", 0.9, None), ("Equalize", 0.6, None)),
+           (("Contrast", 0.3, 3), ("Rotate", 0.8, 4)),           (("Invert", 0.8, None), ("TranslateY", 0.0, 2)),
+           (("ShearY", 0.7, 6), ("Solarize", 0.4, 8)),           (("Invert", 0.6, None), ("Rotate", 0.8, 4)),
+           (("ShearY", 0.3, 7), ("TranslateX", 0.9, 3)),         (("ShearX", 0.1, 6), ("Invert", 0.6, None)),
+           (("Solarize", 0.7, 2), ("TranslateY", 0.6, 7)),       (("ShearY", 0.8, 4), ("Invert", 0.8, None)),
+           (("ShearX", 0.7, 9), ("TranslateY", 0.8, 3)),         (("ShearY", 0.8, 5), ("AutoContrast", 0.7, None)),
+           (("ShearX", 0.7, 2), ("Invert", 0.1, None))]
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst
@ -10,6 +10,8 @@ mindspore.dataset.vision.Border
    - **Border.CONSTANT** - 使用常量值进行填充。
    - **Border.EDGE** - 使用各边的边界像素值进行填充。
    - **Border.REFLECT** - 以各边的边界为轴进行镜像填充，忽略边界像素值。
+      例如，对 [1,2,3,4] 的两侧分别填充2个元素，结果为 [3,2,1,2,3,4,3,2]。
    - **Border.SYMMETRIC** - 以各边的边界为轴进行对称填充，包括边界像素值。
+      例如，对 [1,2,3,4] 的两侧分别填充2个元素，结果为 [2,1,1,2,3,4,4,3]。

    .. note:: 该类派生自 :class:`str` 以支持 JSON 可序列化。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst
@ -0,0 +1,34 @@
+mindspore.dataset.vision.PadToSize
+==================================
+
+.. py:class:: mindspore.dataset.vision.PadToSize(size, offset=None, fill_value=0, padding_mode=Border.CONSTANT)
+
+    将图像填充到固定大小。
+
+    参数：
+        - **size** (Union[int, Sequence[int]]) - 要填充的目标大小。
+          若输入整型，则将图像填充为(size, size)大小；如果提供了序列[int, int]，则将图像填充为(高度, 宽度)大小。
+        - **offset** (Union[int, Sequence[int]], 可选) - 顶部和左侧要填充的长度。
+            如果输入整型，使用此值填充图像上侧和左侧。
+            如果提供了序列[int, int]，则应按[top, left]的顺序排列，填充图像上侧和左侧。
+            默认值：None，表示对称填充。
+        - **fill_value** (Union[int, tuple[int]], 可选) - 填充的像素值，仅在 `padding_mode` 取值为Border.CONSTANT时有效。
+          如果是3元素元组，则分别用于填充R、G、B通道。
+          如果是整数，则用于所有 RGB 通道。
+          `fill_value` 值必须在 [0, 255] 范围内，默认值：0。
+        - **padding_mode** (Border, 可选) - 边界填充方式。可以是 [Border.CONSTANT、Border.EDGE、Border.REFLECT、Border.SYMMETRIC] 中的任何一个，默认值：Border.CONSTANT。
+
+          - **Border.CONSTANT** - 使用常量值进行填充。
+          - **Border.EDGE** - 使用各边的边界像素值进行填充。
+          - **Border.REFLECT** - 以各边的边界为轴进行镜像填充，忽略边界像素值。
+          - **Border.SYMMETRIC** - 以各边的边界为轴进行对称填充，包括边界像素值。
+
+    异常：
+        - **TypeError** - 如果 `size` 不是int或tuple[int, int]类型。
+        - **TypeError** - 如果 `offset` 不是int或tupl[int, int]类型。
+        - **TypeError** - 如果 `fill_value` 不是int或tuple[int]类型。
+        - **TypeError** - 如果 `padding_mode` 不是 :class:`mindspore.dataset.vision.Border` 的类型。
+        - **ValueErrorr** - 如果 `size` 不是正数。
+        - **ValueErrorr** - 如果 `offset` 为负数。
+        - **ValueErrorr** - 如果 `fill_value` 不在[0, 255]的范围内。
+        - **RuntimeErrorr** - 如果输入图像的形状不是<H, W>或<H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst
@ -0,0 +1,18 @@
+mindspore.dataset.vision.RandomAdjustSharpness
+==============================================
+
+.. py:class:: mindspore.dataset.vision.RandomAdjustSharpness(degree, prob=0.5)
+
+    以给定的概率随机调整输入图像的清晰度。
+
+    参数：
+        - **degrees** (float) - 锐度调整度，必须是非负的。
+          0.0度表示模糊图像，1.0度表示原始图像，2.0度表示清晰度增加2倍。
+        - **prob** (float, 可选) - 图像被锐化的概率，默认值：0.5。
+
+    异常：
+        - **TypeError** - 如果 `degree` 的类型不为float。
+        - **TypeError** - 如果 `prob` 的类型不为bool。
+        - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。
+        - **ValueError** - 如果 `degree` 为负数。
+        - **RuntimeError** -如果给定的张量形状不是<H, W>或<H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst
@ -0,0 +1,20 @@
+mindspore.dataset.vision.RandomAutoContrast
+===========================================
+
+.. py:class:: mindspore.dataset.vision.RandomAutoContrast(cutoff=0.0, ignore=None, prob=0.5)
+
+    以给定的概率自动调整图像的对比度。
+
+    参数：
+        - **cutoff** (float, 可选) - 输入图像直方图中最亮和最暗像素的百分比。该值必须在 [0.0, 50.0) 范围内，默认值：0.0。
+        - **ignore** (Union[int, sequence], 可选) - 要忽略的背景像素值，忽略值必须在 [0, 255] 范围内，默认值：None。
+        - **prob** (float, 可选) - 图像被调整对比度的概率，默认值：0.5。
+
+    异常：
+        - **TypeError** - 如果 `cutoff` 不是float类型。
+        - **TypeError** - 如果 `ignore` 不是int或sequence类型。
+        - **TypeError** - 如果 `prob` 的类型不为bool。
+        - **ValueError** - 如果 `cutoff` 不在[0, 50.0) 范围内。
+        - **ValueError** - 如果 `ignore` 不在[0, 255] 范围内。
+        - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。
+        - **RuntimeError** - 如果输入图像的shape不是 <H, W> 或 <H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst
@ -0,0 +1,14 @@
+mindspore.dataset.vision.RandomEqualize
+=======================================
+
+.. py:class:: mindspore.dataset.vision.RandomEqualize(prob=0.5)
+
+    以给定的概率随机对输入图像进行直方图均衡化。
+
+    参数：
+        - **prob** (float, 可选) - 图像被均衡化的概率，默认值：0.5。
+
+    异常：
+        - **TypeError** - 如果 `prob` 的类型不为bool。
+        - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。
+        - **RuntimeError** - 如果输入图像的shape不是 <H, W> 或 <H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst
@ -0,0 +1,14 @@
+mindspore.dataset.vision.RandomInvert
+=====================================
+
+.. py:class:: mindspore.dataset.vision.RandomInvert(prob=0.5)
+
+    以给定的概率随机反转图像的颜色。
+
+    参数：
+        - **prob** (float, 可选) - 图像被反转颜色的概率，默认值：0.5。
+
+    异常：
+        - **TypeError** - 如果 `prob` 的类型不为bool。
+        - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。
+        - **RuntimeError** - 如果输入图像的shape不是 <H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst
@ -0,0 +1,14 @@
+mindspore.dataset.vision.RandomLighting
+========================================
+
+.. py:class:: mindspore.dataset.vision.RandomLighting(alpha=0.05)
+
+    将AlexNet PCA的噪声添加到图像中，其中Alexnet PCA噪声的特征值和特征向量是由ImageNet数据集计算得出。
+
+    参数：
+        - **alpha** (float, 可选) - 图像的强度，必须是非负的。默认值：0.05。
+
+    异常：
+        - **TypeError** - 如果 `alpha` 的类型不为bool。
+        - **ValueError** - 如果 `alpha` 为负数。
+        - **RuntimeError** - 如果输入图像的shape不是 <H, W, C>。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst
@ -0,0 +1,12 @@
+mindspore.dataset.text.get_image_num_channels
+==============================================
+
+.. py:function:: mindspore.dataset.text.get_image_num_channels(image)
+
+    获取输入图像通道数。
+
+    参数：
+        - **image** (Union[numpy.ndarray, PIL.Image.Image]) - 用于获取通道数的图像。
+
+    返回：
+        int，输入图像通道数。
--- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst
+++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst
@ -0,0 +1,12 @@
+mindspore.dataset.text.get_image_size
+======================================
+
+.. py:function:: mindspore.dataset.text.get_image_size(image)
+
+    获取输入图像的大小为[高度, 宽度]。
+
+    参数：
+        - **image** (Union[numpy.ndarray, PIL.Image.Image]) - 要获取大小的图像。
+
+    返回：
+        list[int, int]，图像大小。
--- a/mindspore/python/mindspore/dataset/audio/transforms.py
+++ b/mindspore/python/mindspore/dataset/audio/transforms.py
@ -420,6 +420,7 @@ class BassBiquad(AudioTensorOperation):
 class Biquad(TensorOperation):
    """
    Perform a biquad filter of input audio.
+    Mathematical fomulas refer to: `Digital_biquad_filter <https://en.wikipedia.org/wiki/Digital_biquad_filter>`_ .

    Args:
        b0 (float): Numerator coefficient of current input, x[n].
@ -644,6 +645,9 @@ class DeemphBiquad(AudioTensorOperation):
        sample_rate (int): sampling rate of the waveform, e.g. 44100 (Hz),
            the value must be 44100 or 48000.

+    Raises:
+        RuntimeError: If the shape of input audio waveform does not match <..., time>.
+
    Examples:
        >>> import numpy as np
        >>>
@ -837,6 +841,9 @@ class Filtfilt(AudioTensorOperation):
            Must be same size as a_coeffs (pad with 0's as necessary).
        clamp (bool, optional): If True, clamp the output signal to be in the range [-1, 1]. Default=True.

+    Raises:
+        RuntimeError: If the shape of input audio waveform does not match <..., time>.
+
    Examples:
        >>> import numpy as np
        >>>
@ -1225,6 +1232,9 @@ class Magphase(AudioTensorOperation):
    Args:
        power (float): Power of the norm, which must be non-negative (default=1.0).

+    Raises:
+        RuntimeError: If the shape of input audio waveform does not match <..., 2>.
+
    Examples:
        >>> import numpy as np
        >>>
--- a/mindspore/python/mindspore/dataset/audio/utils.py
+++ b/mindspore/python/mindspore/dataset/audio/utils.py
@ -31,9 +31,12 @@ class BorderType(str, Enum):
    - BorderType.CONSTANT: means it fills the border with constant values.
    - BorderType.EDGE: means it pads with the last value on the edge.
    - BorderType.REFLECT: means it reflects the values on the edge omitting the last value of edge.
+      For example, padding [1,2,3,4] with 2 elements on both sides will result in [3,2,1,2,3,4,3,2].
    - BorderType.SYMMETRIC: means it reflects the values on the edge repeating the last value of edge.
+      For example, padding [1,2,3,4] with 2 elements on both sides will result in [2,1,1,2,3,4,4,3].

-    Note: This class derived from class str to support json serializable.
+    Note:
+        This class derived from class str to support json serializable.
    """
    CONSTANT: str = "constant"
    EDGE: str = "edge"
@ -111,8 +114,12 @@ class MelType(str, Enum):

    Possible enumeration values are: MelType.HTK, MelType.SLANEY.

-    - MelType.NONE: scale the input data with htk.
-    - MelType.ORTHO: scale the input data with slaney.
+    - MelType.HTK: scale the input data with htk implementation, refer to "Slaney, M. Auditory Toolbox:
+      A MATLAB Toolbox for Auditory Modeling Work. Technical Report, version 2,
+      Interval Research Corporation, 1998".
+    - MelType.SLANEY: scale the input data with slaney implementation, refer to "Young, S., Evermann, G.,
+      Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D.,
+      Povey, D., Valtchev, V., & Woodland, P. The HTK book, version 3.4. Cambridge University, March 2009".
    """
    HTK: str = "htk"
    SLANEY: str = "slaney"
--- a/mindspore/python/mindspore/dataset/text/utils.py
+++ b/mindspore/python/mindspore/dataset/text/utils.py
@ -42,7 +42,7 @@ class CharNGram(cde.CharNGram):
            file_path (str): Path of the file that contains the CharNGram vectors.
            max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded.
                Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in
-                situations where the entire set doesn’t fit in memory, or is not needed for another reason,
+                situations where the entire set doesn't fit in memory, or is not needed for another reason,
                passing max_vectors can limit the size of the loaded set (default=None, no limit).

        Examples:
@ -69,7 +69,7 @@ class FastText(cde.FastText):
                must be `*.vec`.
            max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded.
                Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in
-                situations where the entire set doesn’t fit in memory, or is not needed for another reason,
+                situations where the entire set doesn't fit in memory, or is not needed for another reason,
                passing max_vectors can limit the size of the loaded set (default=None, no limit).

        Examples:
@ -96,7 +96,7 @@ class GloVe(cde.GloVe):
                must be `glove.6B.*.txt`.
            max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded.
                Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in
-                situations where the entire set doesn’t fit in memory, or is not needed for another reason,
+                situations where the entire set doesn't fit in memory, or is not needed for another reason,
                passing max_vectors can limit the size of the loaded set (default=None, no limit).

        Examples:
@ -327,7 +327,7 @@ class Vectors(cde.Vectors):
            file_path (str): Path of the file that contains the vectors.
            max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded.
                Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in
-                situations where the entire set doesn’t fit in memory, or is not needed for another reason,
+                situations where the entire set doesn't fit in memory, or is not needed for another reason,
                passing max_vectors can limit the size of the loaded set (default=None, no limit).

        Examples:
--- a/mindspore/python/mindspore/dataset/vision/utils.py
+++ b/mindspore/python/mindspore/dataset/vision/utils.py
@ -119,7 +119,9 @@ class Border(str, Enum):
    - Border.CONSTANT: means it fills the border with constant values.
    - Border.EDGE: means it pads with the last value on the edge.
    - Border.REFLECT: means it reflects the values on the edge omitting the last value of edge.
+      For example, padding [1,2,3,4] with 2 elements on both sides will result in [3,2,1,2,3,4,3,2].
    - Border.SYMMETRIC: means it reflects the values on the edge repeating the last value of edge.
+      For example, padding [1,2,3,4] with 2 elements on both sides will result in [2,1,1,2,3,4,4,3].

    Note:
        This class derived from class str to support json serializable.