From c6353802935893f172c81f3b0f19252fa9edad06 Mon Sep 17 00:00:00 2001 From: YangLuo Date: Tue, 13 Sep 2022 17:38:10 +0800 Subject: [PATCH] upload chinese doc of dataset api - stage2 --- .../mindspore.dataset.audio.Biquad.rst | 16 +++++ .../mindspore.dataset.audio.BorderType.rst | 17 +++++ .../mindspore.dataset.audio.ComputeDeltas.rst | 13 ++++ .../mindspore.dataset.audio.DBToAmplitude.rst | 10 +++ .../mindspore.dataset.audio.DCShift.rst | 10 +++ .../mindspore.dataset.audio.DeemphBiquad.rst | 12 ++++ ...indspore.dataset.audio.DensityFunction.rst | 12 ++++ ...ore.dataset.audio.DetectPitchFrequency.rst | 13 ++++ .../mindspore.dataset.audio.Dither.rst | 12 ++++ ...indspore.dataset.audio.EqualizerBiquad.rst | 14 ++++ .../mindspore.dataset.audio.Fade.rst | 16 +++++ .../mindspore.dataset.audio.FadeShape.rst | 14 ++++ .../mindspore.dataset.audio.Flanger.rst | 20 ++++++ .../mindspore.dataset.audio.Gain.rst | 9 +++ .../mindspore.dataset.audio.GainType.rst | 12 ++++ .../mindspore.dataset.audio.GriffinLim.rst | 25 +++++++ ...mindspore.dataset.audio.HighpassBiquad.rst | 13 ++++ .../mindspore.dataset.audio.Interpolation.rst | 11 +++ ...indspore.dataset.audio.InverseMelScale.rst | 20 ++++++ .../mindspore.dataset.audio.LFilter.rst | 16 +++++ .../mindspore.dataset.audio.Magphase.rst | 12 ++++ .../mindspore.dataset.audio.MaskAlongAxis.rst | 12 ++++ ...ndspore.dataset.audio.MaskAlongAxisIID.rst | 14 ++++ .../mindspore.dataset.audio.MelScale.rst | 16 +++++ .../mindspore.dataset.audio.MelType.rst | 15 +++++ .../mindspore.dataset.audio.Modulation.rst | 11 +++ .../mindspore.dataset.audio.MuLawDecoding.rst | 9 +++ .../mindspore.dataset.audio.MuLawEncoding.rst | 9 +++ .../mindspore.dataset.audio.NormMode.rst | 11 +++ .../mindspore.dataset.audio.NormType.rst | 11 +++ .../mindspore.dataset.audio.Overdrive.rst | 10 +++ .../mindspore.dataset.audio.PhaseVocoder.rst | 10 +++ .../mindspore.dataset.audio.Phaser.rst | 17 +++++ .../mindspore.dataset.audio.Resample.rst | 16 +++++ ...mindspore.dataset.audio.ResampleMethod.rst | 11 +++ .../mindspore.dataset.audio.RiaaBiquad.rst | 9 +++ .../mindspore.dataset.audio.ScaleType.rst | 4 +- ...ndspore.dataset.audio.SlidingWindowCmn.rst | 14 ++++ ...ndspore.dataset.audio.SpectralCentroid.rst | 15 +++++ .../mindspore.dataset.audio.Spectrogram.rst | 22 ++++++ .../mindspore.dataset.audio.TrebleBiquad.rst | 12 ++++ .../mindspore.dataset.audio.Vad.rst | 25 +++++++ .../mindspore.dataset.audio.Vol.rst | 14 ++++ .../mindspore.dataset.audio.WindowType.rst | 15 +++++ .../mindspore.dataset.audio.create_dct.rst | 14 ++++ ...indspore.dataset.audio.melscale_fbanks.rst | 18 +++++ .../mindspore.dataset.text.CharNGram.rst | 19 ++++++ .../mindspore.dataset.text.FastText.rst | 19 ++++++ ...dspore.dataset.text.FilterWikipediaXML.rst | 8 +++ .../mindspore.dataset.text.GloVe.rst | 19 ++++++ .../mindspore.dataset.text.ToVectors.rst | 17 +++++ .../mindspore.dataset.text.Vectors.rst | 19 ++++++ .../mindspore.dataset.vision.AdjustGamma.rst | 19 ++++++ .../mindspore.dataset.vision.AutoAugment.rst | 33 +++++++++ ...spore.dataset.vision.AutoAugmentPolicy.rst | 67 +++++++++++++++++++ .../mindspore.dataset.vision.Border.rst | 2 + .../mindspore.dataset.vision.PadToSize.rst | 34 ++++++++++ ...e.dataset.vision.RandomAdjustSharpness.rst | 18 +++++ ...pore.dataset.vision.RandomAutoContrast.rst | 20 ++++++ ...indspore.dataset.vision.RandomEqualize.rst | 14 ++++ .../mindspore.dataset.vision.RandomInvert.rst | 14 ++++ ...indspore.dataset.vision.RandomLighting.rst | 14 ++++ ....dataset.vision.get_image_num_channels.rst | 12 ++++ ...indspore.dataset.vision.get_image_size.rst | 12 ++++ .../mindspore/dataset/audio/transforms.py | 10 +++ .../python/mindspore/dataset/audio/utils.py | 13 +++- .../python/mindspore/dataset/text/utils.py | 8 +-- .../python/mindspore/dataset/vision/utils.py | 2 + 68 files changed, 1015 insertions(+), 9 deletions(-) create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst create mode 100644 docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst create mode 100644 docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst create mode 100644 docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst new file mode 100644 index 00000000000..fcacf5f0ebd --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Biquad.rst @@ -0,0 +1,16 @@ +mindspore.dataset.audio.Biquad +============================== + +.. py:class:: mindspore.dataset.audio.Biquad(b0, b1, b2, a0, a1, a2) + + 给音频波形施加双二阶滤波器。 + + 具体的数学公式与参数详见 `数字双二阶滤波器 `_ 。 + + 参数: + - **b0** (float) - 电流输入的分子系数,x[n]。 + - **b1** (float) - 一个时间间隔前输入的分子系数x[n-1]。 + - **b2** (float) - 两个时间间隔前输入的分子系数x[n-2]。 + - **a0** (float) - 电流输出y[n]的分母系数,该值不能为零,通常为1。 + - **a1** (float) - 电流输出y[n-1]的分母系数。 + - **a2** (float) - 电流输出y[n-2]的分母系数。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst new file mode 100644 index 00000000000..cf5441a7868 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.BorderType.rst @@ -0,0 +1,17 @@ +mindspore.dataset.audio.BorderType +================================== + +.. py:class:: mindspore.dataset.audio.BorderType + + 音频波形的填充模式。 + + 可能的枚举值包括:BorderType.CONSTANT、BorderType.EDGE、BorderType.REFLECT和BorderType.SYMMETRIC。 + + - **BorderType.CONSTANT** - 用常量值填充边界。 + - **BorderType.EDGE** - 使用各边的边界像素值进行填充。 + - **BorderType.REFLECT** - 以各边的边界为轴进行镜像填充,忽略边界像素值。 + 例如,对 [1,2,3,4] 的两侧分别填充2个元素,结果为 [3,2,1,2,3,4,3,2]。 + - **BorderType.SYMMETRIC** - 以各边的边界为轴进行对称填充,包括边界像素值。 + 例如,对 [1,2,3,4] 的两侧分别填充2个元素,结果为 [2,1,1,2,3,4,4,3]。 + + .. note:: 该类派生自 :class:`str` 以支持 JSON 可序列化。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst new file mode 100644 index 00000000000..05230431855 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ComputeDeltas.rst @@ -0,0 +1,13 @@ +mindspore.dataset.audio.ComputeDeltas +===================================== + +.. py:class:: mindspore.dataset.audio.ComputeDeltas(win_length=5, pad_mode=BorderType.EDGE) + + 计算光谱图的增量系数。 + + .. math:: + d_{t}=\frac{{\textstyle\sum_{n=1}^{N}}n(c_{t+n}-c_{t-n})}{2{\textstyle\sum_{n=1}^{N}}n^{2}} + + 参数: + - **win_length** (int, 可选) - 计算窗口长度,长度必须不小于3,默认值:5。 + - **pad_mode** (BorderType, 可选) - 边界填充模式,默认值:BorderType.EDGE。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst new file mode 100644 index 00000000000..1e85cc89371 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DBToAmplitude.rst @@ -0,0 +1,10 @@ +mindspore.dataset.audio.DBToAmplitude +===================================== + +.. py:class:: mindspore.dataset.audio.DBToAmplitude(ref, power) + + 将音频波形从分贝转换为功率或振幅。 + + 参数: + - **ref** (float) - 输出波形的缩放系数。 + - **power** (float) - 如果 `power` 等于1,则将分贝值转为功率;如果为0.5,则将分贝值转为振幅。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst new file mode 100644 index 00000000000..66305ca6aef --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DCShift.rst @@ -0,0 +1,10 @@ +mindspore.dataset.audio.DCShift +=============================== + +.. py:class:: mindspore.dataset.audio.DCShift(shift, limiter_gain=None) + + 对输入音频波形施加直流移位,可以从音频中删除直流偏移(DC Offset)。 + + 参数: + - **ref** (float) - 音频的移位量,值必须在[-2.0, 2.0]范围内。 + - **limiter_gain** (float, 可选) - 防止截断,仅在波峰生效。值应远小于1,如0.05或0.02。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst new file mode 100644 index 00000000000..1801194036d --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DeemphBiquad.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.DeemphBiquad +==================================== + +.. py:class:: mindspore.dataset.audio.DeemphBiquad(sample_rate) + + 为(..., time)形状的音频波形施加双极点去声滤波器。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),值必须为44100或48000。 + + 异常: + - **RuntimeError** - 当输入音频的shape不为<..., time>。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst new file mode 100644 index 00000000000..a33a4750d40 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DensityFunction.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.DensityFunction +======================================= + +.. py:class:: mindspore.dataset.audio.DensityFunction + + 密度函数。 + + 可能的枚举值包括:DensityFunction.TPDF、DensityFunction.RPDF和DensityFunction.GPDF。 + + - **DensityFunction.TPDF**:表示三角形概率密度函数。 + - **DensityFunction.RPDF**:表示矩形概率密度函数。 + - **DensityFunction.GPDF**:表示高斯概率密度函数。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst new file mode 100644 index 00000000000..1eca3033e0c --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.DetectPitchFrequency.rst @@ -0,0 +1,13 @@ +mindspore.dataset.audio.DetectPitchFrequency +============================================ + +.. py:class:: mindspore.dataset.audio.DetectPitchFrequency(sample_rate, frame_time=0.01, win_length=30, freq_low=85, freq_high=3400) + + 检测音调频率,基于归一化互相关函数和中位平滑来实现。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),值必须为44100或48000。 + - **frame_time** (float, 可选) - 帧的持续时间,值必须大于零。默认值:0.01。 + - **win_length** (int, 可选) - 中位平滑的窗口长度(以帧数为单位),该值必须大于零。默认值:30。 + - **freq_low** (int, 可选) - 可检测的最低频率(Hz),该值必须大于零。默认值:85。 + - **freq_high** (int, 可选) - 可检测的最高频率(Hz),该值必须大于零。默认值:3400。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst new file mode 100644 index 00000000000..da08c4b2f57 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Dither.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.Dither +============================== + +.. py:class:: mindspore.dataset.audio.Dither(density_function=DensityFunction.TPDF, noise_shaping=False) + + 通过消除非线性截断失真,增加存储在特定位深度的音频的感知动态范围。 + + 参数: + - **density_function** (DensityFunction, 可选) - 连续随机变量的密度函数。 + 可以是DensityFunction.TPDF(三角形概率密度函数)、DensityFunction.RPDF(矩形概率密度函数) + 或DensityFunction.GPDF(高斯概率密度函数)之一。默认值:DensityFunction.TPDF。 + - **noise_shaping** (bool, 可选) - 是否塑造量化误差的光谱能量。默认值:False。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst new file mode 100644 index 00000000000..54f46b3f405 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.EqualizerBiquad.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.EqualizerBiquad +======================================= + +.. py:class:: mindspore.dataset.audio.EqualizerBiquad(sample_rate, center_freq, gain, Q=0.707) + + 给音频波形施加双二次均衡器滤波器。 + + 接口实现方式类似于 `SoX库 `_ 。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),值不能为零。 + - **center_freq** (float) - 中心频率(单位:Hz)。 + - **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。 + - **Q** (float, 可选) - `品质因子 `_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst new file mode 100644 index 00000000000..c2aa1fdd06e --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Fade.rst @@ -0,0 +1,16 @@ +mindspore.dataset.audio.Fade +============================ + +.. py:class:: mindspore.dataset.audio.Fade(fade_in_len=0, fade_out_len=0, fade_shape=FadeShape.LINEAR) + + 向波形添加淡入和/或淡出。 + + 参数: + - **fade_in_len** (int, 可选) - 淡入长度(时间帧),必须是非负。默认值:0。 + - **fade_out_len** (int, 可选) - 淡出长度(时间帧),必须是非负。默认值:0。 + - **fade_shape** (FadeShape, 可选) - 淡入淡出形状,可以是FadeShape.QUARTER_SINE、FadeShape.HALF_SINE、 + FadeShape.LINEAR、FadeShape.LOGARITHMIC或FadeShape.EXPONENTIAL中的一个。默认值:FadeShape.LINEAR。 + + 异常: + - **RuntimeError** - 如果 `fade_in_len` 超过音频波形长度。 + - **RuntimeError** - 如果 `fade_out_len` 超过音频波形长度。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst new file mode 100644 index 00000000000..0c98da6913d --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.FadeShape.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.FadeShape +================================= + +.. py:class:: mindspore.dataset.audio.FadeShape + + 淡入淡出形状。 + + 可能的枚举值包括:FadeShape.QUARTER_SINE、FadeShape.HALF_SINE、FadeShape.LINEAR、FadeShape.LOGARITHMIC、FadeShape.EXPONENTIAL。 + + - **FadeShape.QUARTER_SINE**:表示淡入淡出形状为四分之一正弦模式。 + - **FadeShape.HALF_SINE**:表示淡入形状为半正弦模式。 + - **FadeShape.LINEAR**:表示淡入淡出形状为线性模式。 + - **FadeShape.LOGARITHMIC**:表示淡入淡出形状为对数模式。 + - **FadeShape.EXPONENTIAL**:表示淡入淡出形状为指数模式。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst new file mode 100644 index 00000000000..3121a621c5d --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Flanger.rst @@ -0,0 +1,20 @@ +mindspore.dataset.audio.Flanger +=============================== + +.. py:class:: mindspore.dataset.audio.Flanger(sample_rate, delay=0.0, depth=2.0, regen=0.0, width=71.0, speed=0.5, phase=25.0, modulation=Modulation.SINUSOIDAL, interpolation=Interpolation.LINEAR) + + 对音频应用法兰盘效果。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),例如44100 (Hz)。 + - **delay** (float, 可选) - 延迟时间(毫秒),范围:[0, 30]。默认值:0.0。 + - **depth** (float, 可选) - 延迟深度(毫秒),范围:[0, 10]。默认值:2.0。 + - **regen** (float, 可选) - 反馈增益,单位为dB,范围:[-95, 95]。默认值:0.0。 + - **width** (float, 可选) - 延迟增益,单位为dB,范围:[0, 100]。默认值:71.0。 + - **speed** (float, 可选) - 调制速度,单位为Hz,范围:[0.1, 10]。默认值:0.5。 + - **phase** (float, 可选) - 多通道的相移百分比,范围:[0, 100]。默认值:25.0。 + - **modulation** (Modulation, 可选) - 指定调制模式。 + 可以是Modulation.SINUSOIDAL或Modulation.TRIANGULAR之一。默认值:Modulation.SINUSOIDAL。 + - **interpolation** (Interpolation, 可选) - 指定插值模式。 + 可以是Interpolation.LINEAR或Interpolation.QUADRATIC中的一种。默认值:Interpolation.LINEAR。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst new file mode 100644 index 00000000000..583ee7ef4fe --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Gain.rst @@ -0,0 +1,9 @@ +mindspore.dataset.audio.Gain +============================ + +.. py:class:: mindspore.dataset.audio.Gain(gain_db=1.0) + + 放大或衰减音频波形。 + + 参数: + - **gain_db** (float) - 增益调整,单位为分贝(dB)。默认值:1.0。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst new file mode 100644 index 00000000000..58db18c366f --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GainType.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.GainType +================================ + +.. py:class:: mindspore.dataset.audio.GainType + + 增益类型。 + + 可选的枚举值包括:GainType.AMPLITUDE、GainType.POWER和GainType.DB。 + + - **GainType.AMPLITUDE** - 表示输入增益类型为振幅。 + - **GainType.POWER** - 表示输入增益类型为功率。 + - **GainType.DB** - 表示输入增益类型为分贝。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst new file mode 100644 index 00000000000..d29b063da89 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.GriffinLim.rst @@ -0,0 +1,25 @@ +mindspore.dataset.audio.GriffinLim +================================== + +.. py:class:: mindspore.dataset.audio.GriffinLim(n_fft=400, n_iter=32, win_length=None, hop_length=None, window_type=WindowType.HANN, power=2, momentum=0.99, length=None, rand_init=True) + + 使用GriffinLim算法对音频波形进行近似幅度谱图反演。 + + .. math:: + x(n)=\frac{\sum_{m=-\infty}^{\infty} w(m S-n) y_{w}(m S, n)}{\sum_{m=-\infty}^{\infty} w^{2}(m S-n)} + + 其中w表示窗口函数,y表示每个帧的重建信号,x表示整个信号。 + + 参数: + - **n_fft** (int, 可选) - FFT的长度,默认值:400。 + - **n_iter** (int, 可选) - 相位恢复的迭代次数,默认值:32。 + - **win_length** (int, 可选) - GriffinLim的窗口大小,默认值:None,将设置为 `n_fft` 的值。 + - **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。 + - **window_type** (WindowType, 可选) - GriffinLim的窗口类型,可以是WindowType.BARTLETT, + WindowType.BLACKMAN,WindowType.HAMMING,WindowType.HANN或WindowType.KAISER。 + 默认值:WindowType.HANN,目前macOS上不支持kaiser窗口。 + - **power** (float, 可选) - 幅度谱图的指数,默认值:2.0。 + - **momentum** (float, 可选) - 快速Griffin-Lim的动量,默认值:0.99。 + - **length** (int, 可选) - 预期输出波形的长度。默认值:None,将设置为stft矩阵的最后一个维度的值。 + - **rand_init** (bool, 可选) - 随机相位初始化或全零相位初始化标志,默认值:True。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst new file mode 100644 index 00000000000..e56f8e0f597 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.HighpassBiquad.rst @@ -0,0 +1,13 @@ +mindspore.dataset.audio.HighpassBiquad +====================================== + +.. py:class:: mindspore.dataset.audio.HighpassBiquad(sample_rate, cutoff_freq, Q=0.707) + + 给音频波形上施加双二阶高通滤波器。 + + 接口实现方式类似于 `SoX库 `_ 。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),不能为零。 + - **central_freq** (float) - 中心频率(单位:Hz)。 + - **Q** (float, 可选) - `品质因子 `_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst new file mode 100644 index 00000000000..9272d436a0a --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Interpolation.rst @@ -0,0 +1,11 @@ +mindspore.dataset.audio.Interpolation +===================================== + +.. py:class:: mindspore.dataset.audio.Interpolation + + 音频波形的插值模式。 + + 可选的枚举值包括:Interpolation.LINEAR和Interpolation.QUADRATIC。 + + - **Interpolation.LINEAR** - 插值类型为线性。 + - **Interpolation.QUADRATIC** - 插值类型为二次型。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst new file mode 100644 index 00000000000..01921dda1c9 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.InverseMelScale.rst @@ -0,0 +1,20 @@ +mindspore.dataset.audio.InverseMelScale +======================================= + +.. py:class:: mindspore.dataset.audio.InverseMelScale(n_stft, n_mels=128, sample_rate=16000, f_min=0.0, f_max=None, max_iter=100000, tolerance_loss=1e-05, tolerance_change=1e-08, sgdargs=None, norm=NormType.NONE, mel_type=MelType.HTK) + + 使用转换矩阵求解STFT,形成梅尔频率的STFT。 + + 参数: + - **n_stft** (int, 可选) - STFT中的滤波器的组数。 + - **n_mels** (int, 可选) - mel滤波器的数量,默认值:128。 + - **sample_rate** (int, 可选) - 音频信号采样频率,默认值:16000。 + - **f_min** (float, 可选) - 最小频率,默认值:0.0。 + - **f_max** (float, 可选) - 最大频率,默认值:None,将设置为 `sample_rate//2` 。 + - **max_iter** (int, 可选) - 最大优化迭代次数,默认值:100000。 + - **tolerance_loss** (float, 可选) - 当达到损失值时停止优化,默认值:1e-5。 + - **tolerance_change** (float, 可选) - 指定损失差异,当达到损失差异时停止优化,默认值:1e-8。 + - **sgdargs** (dict, 可选) - SGD优化器的参数,默认值:None,将设置为{'sgd_lr': 0.1, 'sgd_momentum': 0.9}。 + - **norm** (NormType, 可选) - 标准化方法,可以是NormType.SLANEY或NormType.NONE。默认值:NormType.NONE。 + - **mel_type** (MelType, 可选) - 要使用的Mel比例,可以是MelType.SLAN或MelType.HTK。默认值:MelType.HTK。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst new file mode 100644 index 00000000000..7c398f006ee --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.LFilter.rst @@ -0,0 +1,16 @@ +mindspore.dataset.audio.LFilter +=============================== + +.. py:class:: mindspore.dataset.audio.LFilter(a_coeffs, b_coeffs, clamp=True) + + 为(...,time)形状的音频波形施加双极滤波器。 + + 参数: + - **a_coeffs** (sequence) - (n_order + 1)维数差分方程的分母系数。较低的延迟系数是第一位的,例如[a0, a1, a2, ...]。 + 大小必须与 `b_coeffs` 相同(根据需要填充0)。 + - **b_coeffs** (sequence) - (n_order + 1)维数差分方程的分子系数。较低的延迟系数是第一位的,例如[b0, b1, b2, ...]。 + 大小必须与 `a_coeffs` 相同(根据需要填充0)。 + - **clamp** (bool, 可选) - 如果为True,则将输出信号截断在[-1, 1]范围内,默认值:True。 + + 异常: + - **RuntimeError** - 当输入音频的shape不为<..., time>。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst new file mode 100644 index 00000000000..e072859a80c --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Magphase.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.Magphase +================================ + +.. py:class:: mindspore.dataset.audio.Magphase(power=1.0) + + 将具有(..., 2)形状的复值光谱图分离,输出幅度和相位。 + + 参数: + - **power** (float) - 范数的功率,必须是非负的,默认值:1.0。 + + 异常: + - **RuntimeError** - 当输入音频的shape不为<..., 2>。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst new file mode 100644 index 00000000000..c244f8e702e --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxis.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.MaskAlongAxis +===================================== + +.. py:class:: mindspore.dataset.audio.MaskAlongAxis(mask_start, mask_width, mask_value, axis) + + 对音频波形应用掩码。掩码的起始和长度由 `[mask_start, mask_start + mask_width)` 决定。 + + 参数: + - **mask_start** (int) - 掩码的起始位置,必须是非负的。 + - **mask_width** (int) - 掩码的宽度,必须是非负的。 + - **mask_value** (float) - 掩码值。 + - **axis** (int) - 要应用掩码的轴(1表示频率,2表示时间)。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst new file mode 100644 index 00000000000..a97a681d96a --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MaskAlongAxisIID.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.MaskAlongAxisIID +======================================== + +.. py:class:: mindspore.dataset.audio.MaskAlongAxisIID(mask_param, mask_value, axis) + + 对音频波形应用掩码。掩码的起始和长度由 `[mask_start, mask_start + mask_width)` 决定。 + + 其中 `mask_width` 从 `uniform[0, mask_param]` 中采样, `mask_start` 从 `uniform[0, max_length - mask_width]` 中采样, + `max_length` 是光谱图中特定轴的列数。 + + 参数: + - **mask_param** (int) - 要屏蔽的列数,将从[0, mask_param]统一采样,必须是非负数。 + - **mask_value** (float) - 掩码值。 + - **axis** (int) - 要应用掩码的轴(1表示频率,2表示时间)。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst new file mode 100644 index 00000000000..3cc475f1a51 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelScale.rst @@ -0,0 +1,16 @@ +mindspore.dataset.audio.MelScale +================================ + +.. py:class:: mindspore.dataset.audio.MelScale(n_mels=128, sample_rate=16000, f_min=0, f_max=None, n_stft=201, norm=NormType.NONE, mel_type=MelType.HTK) + + 将正常STFT转换为梅尔尺度的STFT。 + + 参数: + - **n_mels** (int, 可选) - 梅尔滤波器的数量,默认值:128。 + - **sample_rate** (int, 可选) - 音频信号采样速率,默认值:16000。 + - **f_min** (float, 可选) - 最小频率,默认值:0.0。 + - **f_max** (float, 可选) - 最大频率,默认值:None,将设置为 `sample_rate//2` 。 + - **n_stft** (int, 可选) - STFT中的滤波器的组数,默认值:201。 + - **norm** (NormType, 可选) - 标准化方法,可以是NormType.SLANEY或NormType.NONE。默认值:NormType.NONE。 + - **mel_type** (MelType, 可选) - 要使用的Mel比例,可以是MelType.SLAN或MelType.HTK。默认值:MelType.HTK。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst new file mode 100644 index 00000000000..ccb00b60b36 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MelType.rst @@ -0,0 +1,15 @@ +mindspore.dataset.audio.MelType +=============================== + +.. py:class:: mindspore.dataset.audio.MelType + + 梅尔尺度类型。 + + 可选的枚举值包括:MelType.HTK、MelType.SLANEY。 + + - **MelType.HTK** - 使用htk实现方式,参考文献:Slaney, M. Auditory Toolbox: + A MATLAB Toolbox for Auditory Modeling Work. Technical Report, version 2, + Interval Research Corporation, 1998. + - **MelType.SLANEY** - 使用slaney实现方式,参考文献:Young, S., Evermann, G., + Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., + Povey, D., Valtchev, V., & Woodland, P. The HTK book, version 3.4. Cambridge University, March 2009. \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst new file mode 100644 index 00000000000..7bd5af50062 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Modulation.rst @@ -0,0 +1,11 @@ +mindspore.dataset.audio.Modulation +================================== + +.. py:class:: mindspore.dataset.audio.Modulation + + 调制类型。 + + 可选的枚举值包括:Modulation.SINUSOIDAL、Modulation.TRIANGULAR。 + + - **Modulation.SINUSOIDAL** - 表示输入调制类型为正弦。 + - **Modulation.TRIANGULAR** - 表示输入调制类型为三角形。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst new file mode 100644 index 00000000000..1cb655f05d1 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawDecoding.rst @@ -0,0 +1,9 @@ +mindspore.dataset.audio.MuLawDecoding +===================================== + +.. py:class:: mindspore.dataset.audio.MuLawDecoding(quantization_channels=256) + + 解码mu-law编码信号。 + + 参数: + - **quantization_channels** (int, 可选) - 通道数,必须为正数。默认值:256。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst new file mode 100644 index 00000000000..903419eea43 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.MuLawEncoding.rst @@ -0,0 +1,9 @@ +mindspore.dataset.audio.MuLawEncoding +===================================== + +.. py:class:: mindspore.dataset.audio.MuLawEncoding(quantization_channels=256) + + 基于mu-law压缩的信号编码。 + + 参数: + - **quantization_channels** (int, 可选) - 通道数,必须为正数。默认值:256。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst new file mode 100644 index 00000000000..5c6da1a869c --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormMode.rst @@ -0,0 +1,11 @@ +mindspore.dataset.audio.NormMode +================================ + +.. py:class:: mindspore.dataset.audio.NormMode + + 规范类型。 + + 可选的枚举值包括:NormMode.ORTHO、NormMode.NONE。 + + - **NormMode.ORTHO** - 表示输入音频的模式为正交。 + - **NormMode.NONE** - 表示输入音频的模式为none。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst new file mode 100644 index 00000000000..d644855f8a7 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.NormType.rst @@ -0,0 +1,11 @@ +mindspore.dataset.audio.NormType +================================ + +.. py:class:: mindspore.dataset.audio.NormType + + 规范类型。 + + 可选的枚举值包括:NormType.SLANEY、NormType.NONE。 + + - **NormType.SLANEY** - 使用slaney规范化。 + - **NormType.None** - 不使用规范化。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst new file mode 100644 index 00000000000..fc2c382c301 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Overdrive.rst @@ -0,0 +1,10 @@ +mindspore.dataset.audio.Overdrive +================================= + +.. py:class:: mindspore.dataset.audio.Overdrive(gain=20.0, color=20.0) + + 对输入音频应用过载。 + + 参数: + - **gain** (float, 可选) - 期望提升(或衰减)的音频增益(单位:dB),范围为[0, 100]。默认值:20.0。 + - **color** (float, 可选) - 控制过驱动输出中的偶次谐波内容量,范围为[0, 100]。默认值:20.0。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst new file mode 100644 index 00000000000..5b9bc215e83 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.PhaseVocoder.rst @@ -0,0 +1,10 @@ +mindspore.dataset.audio.PhaseVocoder +==================================== + +.. py:class:: mindspore.dataset.audio.PhaseVocoder(rate, phase_advance) + + 给定STFT张量,在不修改速率系数的情况下加速音高。 + + 参数: + - **rate** (float) - 加速系数。 + - **phase_advance** (numpy.ndarray) - 每个滤波器的预期相位前进,形状为(freq, 1)。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst new file mode 100644 index 00000000000..22b0e8d0f11 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Phaser.rst @@ -0,0 +1,17 @@ +mindspore.dataset.audio.Phaser +============================== + +.. py:class:: mindspore.dataset.audio.Phaser(sample_rate, gain_in=0.4, gain_out=0.74, delay_ms=3.0, decay=0.4, mod_speed=0.5, sinusoidal=True) + + 对音频应用相位效果。 + + 参数: + - **sample_rate** (int) - 波形的采样率,例如44100 (Hz)。 + - **gain_in** (float, 可选) - 期望提升(或衰减)所需输入增益,单位为dB。允许的值范围为[0, 1],默认值:0.4。 + - **gain_out** (float, 可选) - 期望提升(或衰减)期望输出增益,单位为dB。允许的值范围为[0, 1e9],默认值:0.74。 + - **delay_ms** (float, 可选) - 延迟数,以毫秒为单位。允许的值范围为[0, 5],默认值:3.0。 + - **decay** (float, 可选) - 增益的期望衰减系数。允许的值范围为[0, 0.99],默认值:0.4。 + - **mod_speed** (float, 可选) - 调制速度,单位为Hz。允许的值范围为[0.1, 2],默认值:0.5。 + - **sinusoidal** (bool, 可选) - 如果为True,请使用正弦调制(对于多个乐器效果最好)。 + 如果为False,则使用triangular modulation(使单个乐器具有更清晰的相位效果)。默认值:True。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst new file mode 100644 index 00000000000..7424e4e7394 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Resample.rst @@ -0,0 +1,16 @@ +mindspore.dataset.audio.Resample +================================ + +.. py:class:: mindspore.dataset.audio.Resample(orig_freq=16000, new_freq=16000, resample_method=ResampleMethod.SINC_INTERPOLATION, lowpass_filter_width=6, rolloff=0.99, beta=None) + + 将音频波形从一个频率重新采样到另一个频率,必要时可以指定重采样方法。 + + 参数: + - **orig_freq** (float, 可选) - 音频波形的原始频率,必须为正,默认值:16000。 + - **new_freq** (float, 可选) - 目标音频波形频率,必须为正,默认值:16000。 + - **resample_method** (ResampleMethod, 可选) - 重采样方法,可以是ResampleMethod.SINC_INTERPOLATION和ResampleMethod.KAISER_WINDOW。 + 默认值=ResampleMethod.SINC_INTERPOLATION。 + - **lowpass_filter_width** (int, 可选) - 控制滤波器的宽度,越多意味着更清晰,但效率越低,必须为正。默认值:6。 + - **rolloff** (float, 可选) - 滤波器的滚降频率,作为Nyquist的一小部分。 + 较低的值减少了抗锯齿,但也减少了一些最高频率,范围:(0, 1]。默认值:0.99。 + - **beta** (float, 可选) - 用于kaiser窗口的形状参数,默认值:None,将使用14.769656459379492。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst new file mode 100644 index 00000000000..8318bb10e8f --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ResampleMethod.rst @@ -0,0 +1,11 @@ +mindspore.dataset.audio.ResampleMethod +====================================== + +.. py:class:: mindspore.dataset.audio.ResampleMethod + + 音频重采样方法。 + + 可选的枚举值包括:ResampleMethod.SINC_INTERPOLATION、ResampleMethod.KAISER_WINDOW。 + + - **ResampleMethod.SINC_INTERPOLATION** - 使用sinc插值重新采样。 + - **ResampleMethod.KAISER_WINDOW** - 使用kaiser窗口重新采样。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst new file mode 100644 index 00000000000..486767b75cb --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.RiaaBiquad.rst @@ -0,0 +1,9 @@ +mindspore.dataset.audio.RiaaBiquad +================================== + +.. py:class:: mindspore.dataset.audio.RiaaBiquad(sample_rate) + + 对输入音频波形施加RIAA均衡。类似于SoX实现。 + + 参数: + - **sample_rate** (int) - 波形的采样率,例如44100 (Hz),只能是44100、48000、88200、96000中的一个。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst index 82199c75de4..86cefce5aff 100644 --- a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.ScaleType.rst @@ -7,5 +7,5 @@ mindspore.dataset.audio.ScaleType 可选枚举值为:ScaleType.MAGNITUDE和ScaleType.POWER。 - - **ScaleType.MAGNITUDE**:表示输入音频的标度为振幅。 - - **ScaleType.POWER**:表示输入音频的标度为功率。 \ No newline at end of file + - **ScaleType.MAGNITUDE** - 表示输入音频的标度为振幅。 + - **ScaleType.POWER** - 表示输入音频的标度为功率。 \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst new file mode 100644 index 00000000000..9e4bb830f02 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SlidingWindowCmn.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.SlidingWindowCmn +======================================== + +.. py:class:: mindspore.dataset.audio.SlidingWindowCmn(cmn_window=600, min_cmn_window=100, center=False, norm_vars=False) + + 应用滑动窗口倒谱平均值(和可选的方差)标准化每个对话语句。 + + 参数: + - **cmn_window** (int, 可选) - 用于运行平均CMN计算的帧中窗口,默认值:600。 + - **min_cmn_window** (int, 可选) - 解码开始时使用的最小CMN窗口(仅在开始时增加延迟)。 + 仅在中心为False时适用,在中心为True时忽略,默认值:100。 + - **center** (bool, 可选) - 如果为True,则使用以当前帧为中心的窗口。如果为False,则窗口在左侧。默认值:False。 + - **norm_vars** (bool, 可选) - 如果为True,则将方差规范化为1。默认值:False。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst new file mode 100644 index 00000000000..465f6132ea8 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.SpectralCentroid.rst @@ -0,0 +1,15 @@ +mindspore.dataset.audio.SpectralCentroid +======================================== + +.. py:class:: mindspore.dataset.audio.SpectralCentroid(sample_rate, n_fft=400, win_length=None, hop_length=None, pad=0, window=WindowType.HANN) + + 从音频信号创建光谱质心。 + + 参数: + - **sample_rate** (int) - 波形的采样率,例如44100 (Hz)。 + - **n_fft** (int, 可选) - FFT的大小,创建n_fft // 2 + 1 bins。默认值:400。 + - **win_length** (int, 可选) - 窗口大小,默认值:None,将设置为 `n_fft` 的值。 + - **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。 + - **pad** (int, 可选):信号的两侧填充数量,默认值:0。 + - **window** (WindowType, 可选) - 窗口函数,可以是WindowType.BARTLETT、WindowType.BLACKMAN、 + WindowType.HAMMING、WindowType.HANN或WindowType.KAISER。默认值:WindowType.HANN。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst new file mode 100644 index 00000000000..31f91476a19 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Spectrogram.rst @@ -0,0 +1,22 @@ +mindspore.dataset.audio.Spectrogram +=================================== + +.. py:class:: mindspore.dataset.audio.Spectrogram(n_fft=400, win_length=None, hop_length=None, pad=0, window=WindowType.HANN, power=2.0, normalized=False, center=True, pad_mode=BorderType.REFLECT, onesided=True) + + 从音频信号创建光谱图。 + + 参数: + - **n_fft** (int, 可选) - FFT的大小,创建 `n_fft // 2 + 1` 组滤波器,默认值:400。 + - **win_length** (int, 可选) - 窗口大小,默认值:None,将设置为 `n_fft` 的值。 + - **hop_length** (int, 可选) - STFT窗口之间的跳数长度,默认值:None,将设置为 `win_length//2` 。 + - **pad** (int, 可选):信号的双面填充,默认值:0。 + - **window_type** (WindowType, 可选) - GriffinLim的窗口类型,可以是WindowType.BARTLETT, + WindowType.BLACKMAN,WindowType.HAMMING,WindowType.HANN或WindowType.KAISER。 + 默认值:WindowType.HANN,目前macOS上不支持kaiser窗口。 + - **power** (float, 可选) - 幅度谱图的指数,默认值:2.0。 + - **normalized** (bool, 可选) - 是否在stft之后按幅度归一化。默认值:False。 + - **center** (bool, 可选) - 是否在两侧填充波形,默认值:True。 + - **pad_mode** (BorderType, 可选) - 控制中心为True时使用的填充方法,可以是BorderType.REFLECT、BorderType.CONSTANT、 + BorderType.EDGE、BorderType.SYMMETRIC,默认值:BorderType.REFLECT。 + - **onesided** (bool, 可选) - 控制是否返回一半结果以避免冗余,默认值:True。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst new file mode 100644 index 00000000000..8ee6edae9e9 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.TrebleBiquad.rst @@ -0,0 +1,12 @@ +mindspore.dataset.audio.TrebleBiquad +==================================== + +.. py:class:: mindspore.dataset.audio.TrebleBiquad(sample_rate, gain, central_freq=3000, Q=0.707) + + 对音频波形施加高音调控效果。类似于SoX实现。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),不能为零。 + - **gain** (float) - 期望提升(或衰减)的音频增益(单位:dB)。 + - **central_freq** (float) - 中心频率(单位:Hz),默认值:3000。 + - **Q** (float, 可选) - `品质因子 `_ ,能够反映带宽与采样频率和中心频率的关系,取值范围为(0, 1],默认值:0.707。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst new file mode 100644 index 00000000000..78bbee1bf98 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vad.rst @@ -0,0 +1,25 @@ +mindspore.dataset.audio.Vad +=========================== + +.. py:class:: mindspore.dataset.audio.Vad(sample_rate, trigger_level=7.0, trigger_time=0.25, search_time=1.0, allowed_gap=0.25, pre_trigger_time=0.0, boot_time=0.35, noise_up_time=0.1, noise_down_time=0.01, noise_reduction_amount=1.35, measure_freq=20.0, measure_duration=None, measure_smooth_time=0.4, hp_filter_freq=50.0, lp_filter_freq=6000.0, hp_lifter_freq=150.0, lp_lifter_freq=2000.0) + + 从录音结束后修剪无声背景声音。 + + 参数: + - **sample_rate** (int) - 采样频率(单位:Hz),不能为零。 + - **trigger_level** (float, 可选) - 用于触发活动检测的测量级别,默认值:7.0。 + - **trigger_time** (float, 可选) - 用于帮助忽略短音的时间常数(以秒为单位,默认值:0.25。 + - **search_time** (float, 可选) - 在检测到的触发点之前搜索要包括的更安静/更短声音的音频量(以秒为单位),默认值:1.0。 + - **allowed_gap** (float, 可选) - 包括检测到的触发点之前较短/较短声音之间允许的间隙(以秒为单位),默认值:0.25。 + - **pre_trigger_time** (float, 可选) - 在触发点和任何找到的更安静/更短的声音突发之前,要保留的音频量(以秒为单位),默认值:0.0。 + - **boot_time** (float, 可选) - 初始噪声估计的时间,默认值:0.35。 + - **noise_up_time** (float, 可选) - 当噪音水平增加时,自适应噪音估计器使用的时间常数,默认值:0.1。 + - **noise_down_time** (float, 可选) - 当噪音水平降低时,自适应噪音估计器使用的时间常数,默认值:0.01。 + - **noise_reduction_amount** (float, 可选) - 检测算法中使用的降噪量,默认值:1.35。 + - **measure_freq** (float, 可选) - 算法处理的频率,默认值:20.0。 + - **measure_duration** (float, 可选) - 测量持续时间,默认值:None,使用测量周期的两倍。 + - **measure_smooth_time** (float, 可选) - 用于平滑光谱测量的时间常数,默认值:0.4。 + - **hp_filter_freq** (float, 可选) - 应用于检测器算法输入的高通滤波器的"Brick-wall"频率,默认值:50.0。 + - **lp_filter_freq** (float, 可选) - 应用于检测器算法输入的低通滤波器的"Brick-wall"频率,默认值:6000.0。 + - **hp_lifter_freq** (float, 可选) - 应用于检测器算法输入的高通升降机的"Brick-wall"频率,默认值:150.0。 + - **lp_lifter_freq** (float, 可选) - 应用于检测器算法输入的低通升降机的"Brick-wall"频率,默认值:20000.0。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst new file mode 100644 index 00000000000..ccd97e1f70c --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.Vol.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.Vol +=========================== + +.. py:class:: mindspore.dataset.audio.Vol(gain, gain_type=GainType.AMPLITUDE) + + 对音频波形施加放大或衰减。 + + 参数: + - **gain** (float) - 增益调整的值。 + 如果 `gain_type` = GainType.AMPLITUDE,则增益代表非负幅度比。 + 如果 `gain_type` = GainType.POWER,则增益代表功率。 + 如果 `gain_type` = GainType.DB,则增益代表分贝。 + - **gain_type** (GainType, 可选) - 增益类型,包含以下三个枚举值增益类型.GainType.AMPLITUDE、 + GainType.POWER和GainType.DB。默认值:GainType.AMPLITUDE。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst new file mode 100644 index 00000000000..d6a943562c2 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.WindowType.rst @@ -0,0 +1,15 @@ +mindspore.dataset.audio.WindowType +================================== + +.. py:class:: mindspore.dataset.audio.WindowType + + 窗口函数类型, + + 可选的枚举值包括:WindowType.BARTTT、WindowType.BACKMAN、WindowType.HAMMING、WindowType.HANN、WindowType.KAISER。 + + - **WindowType.BARTTT** - 表示窗口函数的类型为Bartlett。 + - **WindowType.BACKMAN** - 表示窗口函数的类型为Blackman。 + - **WindowType.HAMMING** - 表示窗口函数的类型为Hamming。 + - **WindowType.HANN** - 表示窗口函数的类型为Hann。 + - **WindowType.KAISER** - 表示窗口函数的类型为Kaiser,目前在macOS上不支持。 + \ No newline at end of file diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst new file mode 100644 index 00000000000..95c45476fe3 --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.create_dct.rst @@ -0,0 +1,14 @@ +mindspore.dataset.audio.create_dct +================================== + +.. py:function:: mindspore.dataset.audio.create_dct(n_mfcc, n_mels, norm=NormMode.NONE) + + 创建一个shape为(`n_mels`, `n_mfcc`)的DCT变换矩阵,并根据范数进行标准化。 + + 参数: + - **n_mfcc** (int) - 要保留mfc系数的数量,该值必须大于0。 + - **n_mels** (int) - mel滤波器的数量,该值必须大于0。 + - **norm** (NormMode, 可选) - 标准化模式,可以是NormMode.NONE或NormMode.ORTHO。默认值:NormMode.NONE。 + + 返回: + numpy.ndarray,DCT转换矩阵。 diff --git a/docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst new file mode 100644 index 00000000000..132af24ff2c --- /dev/null +++ b/docs/api/api_python/dataset_audio/mindspore.dataset.audio.melscale_fbanks.rst @@ -0,0 +1,18 @@ +mindspore.dataset.audio.melscale_fbanks +======================================= + +.. py:function:: mindspore.dataset.audio.melscale_fbanks(n_freqs, f_min, f_max, n_mels, sample_rate, norm=NormType.NONE, mel_type=MelType.HTK) + + 创建shape为(`n_freqs`, `n_mels`)的频率变换矩阵。 + + 参数: + - **n_freqs** (int) - 频率数。 + - **f_min** (float) - 频率的最小值,单位为Hz。 + - **f_max** (float) - 频率的最大值,单位为Hz。 + - **n_mels** (int) - 梅尔滤波器的数量。 + - **sample_rate** (int) - 采样频率(单位:Hz)。 + - **norm** (audio.NormType, 可选) - 规范化的类型,可以是NormType.NONE或NormType.SLANEY。默认值:NormType.NONE。 + - **mel_type** (audio.MelType, 可选) - 梅尔滤波器的类型,可以是MelType.HTK或MelType.SLAN。默认值:NormType.SLAN。 + + 返回: + numpy.ndarray,频率变换矩阵。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst new file mode 100644 index 00000000000..fc500913cb3 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.CharNGram.rst @@ -0,0 +1,19 @@ +mindspore.dataset.text.CharNGram +================================= + +.. py:class:: mindspore.dataset.text.CharNGram + + CharNGram对象,用于将tokens映射到预训练的向量中。 + + .. py:method:: from_file(file_path, max_vectors=None) + + 从文件构建CharNGram向量。 + + 参数: + - **file_path** (str) - 包含CharNGram向量的文件路径。 + - **max_vectors** (int,可选) - 用于限制加载的预训练向量的数量。 + 大多数预训练的向量集是按词频降序排序的。因此,在如果内存不能存放整个向量集,或者由于其他原因不需要, + 可以传递 `max_vectors` 限制加载数量。默认值:None,无限制。 + + 返回: + CharNGram对象。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst new file mode 100644 index 00000000000..3fee1f1cf18 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.FastText.rst @@ -0,0 +1,19 @@ +mindspore.dataset.text.FastText +================================ + +.. py:class:: mindspore.dataset.text.FastText + + 用于将tokens映射到矢量的FastText对象。 + + .. py:method:: from_file(file_path, max_vectors=None) + + 从文件构建CharNGram向量。 + + 参数: + - **file_path** (str) - 包含向量的文件的路径。预训练向量集的文件后缀必须是 `*.vec` 。 + - **max_vectors** (int,可选) - 用于限制加载的预训练向量的数量。 + 大多数预训练的向量集是按词频降序排序的。因此,在如果内存不能存放整个向量集,或者由于其他原因不需要, + 可以传递 `max_vectors` 限制加载数量。默认值:None,无限制。 + + 返回: + FastText对象。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst new file mode 100644 index 00000000000..b6d01b4a124 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst @@ -0,0 +1,8 @@ +mindspore.dataset.text.FilterWikipediaXML +========================================= + +.. py:class:: mindspore.dataset.text.FilterWikipediaXML(vocab, unknown_token=None, data_type=mstype.int32) + + docs/api/api_python/dataset_text/mindspore.dataset.text.FilterWikipediaXML.rst + + .. note:: Windows平台尚不支持 `FilterWikipediaXML` 。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst new file mode 100644 index 00000000000..672657d6d97 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.GloVe.rst @@ -0,0 +1,19 @@ +mindspore.dataset.text.GloVe +============================= + +.. py:class:: mindspore.dataset.text.GloVe + + 用于将tokens映射到矢量的GloVe对象。 + + .. py:method:: from_file(file_path, max_vectors=None) + + 从文件构建CharNGram向量。 + + 参数: + - **file_path** (str) - 包含向量的文件的路径。预训练向量集的格式必须是 `glove.6B.*.txt` 。 + - **max_vectors** (int,可选) - 用于限制加载的预训练向量的数量。 + 大多数预训练的向量集是按词频降序排序的。因此,在如果内存不能存放整个向量集,或者由于其他原因不需要, + 可以传递 `max_vectors` 限制加载数量。默认值:None,无限制。 + + 返回: + GloVe对象。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst new file mode 100644 index 00000000000..603430807e0 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.ToVectors.rst @@ -0,0 +1,17 @@ +mindspore.dataset.text.ToVectors +================================ + +.. py:class:: mindspore.dataset.text.ToVectors(vectors, unk_init=None, lower_case_backup=False) + + 根据输入向量表查找向量中的tokens。 + + 参数: + - **vectors** (Vectors) - 矢量对象。 + - **unk_init** (sequence, 可选) - 用于初始化矢量外(OOV)令牌的序列,默认值:None,用零向量初始化。 + - **lower_case_backup** (bool, 可选) - 是否查找小写的token。如果为False,则将查找原始大小写中的每个token。 + 如果为True,则将首先查找原始大小写中的每个token,如果在属性soi的键中找不到,则将查找小写中的token。默认值:False。 + + 异常: + - **TypeError** - 如果 `unk_init` 不是序列。 + - **TypeError** - 如果 `unk_init` 的元素不是float或int类型。 + - **TypeError** - 如果 `lower_case_backup` 不是bool类型。 diff --git a/docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst b/docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst new file mode 100644 index 00000000000..d6274890459 --- /dev/null +++ b/docs/api/api_python/dataset_text/mindspore.dataset.text.Vectors.rst @@ -0,0 +1,19 @@ +mindspore.dataset.text.Vectors +=============================== + +.. py:class:: mindspore.dataset.text.Vectors + + 用于将tokens映射到矢量的Vectors对象。 + + .. py:method:: from_file(file_path, max_vectors=None) + + 从文件构建Vectors向量。 + + 参数: + - **file_path** (str) - 包含向量的文件的路径。 + - **max_vectors** (int,可选) - 用于限制加载的预训练向量的数量。 + 大多数预训练的向量集是按词频降序排序的。因此,在如果内存不能存放整个向量集,或者由于其他原因不需要, + 可以传递 `max_vectors` 限制加载数量。默认值:None,无限制。 + + 返回: + Vectors对象。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst new file mode 100644 index 00000000000..68de37fdede --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AdjustGamma.rst @@ -0,0 +1,19 @@ +mindspore.dataset.vision.AdjustGamma +==================================== + +.. py:class:: mindspore.dataset.vision.AdjustGamma(gamma, gain=1) + + 对输入图像应用伽马校正。更多详细信息,请参见 `Gamma矫正 `_ 。 + + .. math:: + I_{\text{out}} = 255 \times \text{gain} \times \left(\frac{I_{\text{in}}}{255}\right)^{\gamma} + + 参数: + - **gamma** (float) - 输出图像像素值与输入图像像素值呈指数相关。 `gamma` 大于1使阴影更暗,而 `gamma` 小于1使黑暗区域更亮。 + - **gain** (float, 可选) - 常数乘数,默认值:1。 + + 异常: + - **TypeError** - 如果 `gain` 不是浮点类型。 + - **TypeError** - 如果 `gamma` 不是浮点类型。 + - **ValueError** - 如果 `gamma` 小于0。 + - **RuntimeError** - 如果给定的张量形状不是或<..., H, W, C>。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst new file mode 100644 index 00000000000..65469dd7948 --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugment.rst @@ -0,0 +1,33 @@ +mindspore.dataset.vision.AutoAugment +==================================== + +.. py:class:: mindspore.dataset.vision.AutoAugment(policy=AutoAugmentPolicy.IMAGENET, interpolation=Inter.NEAREST, fill_value=0) + + 应用AutoAugment数据增强方法,基于论文 `AutoAugment: Learning Augmentation Strategies from Data `_ 。 + 此操作仅适用于3通道RGB图像。 + + 参数: + - **policy** (AutoAugmentPolicy, 可选) - 在不同数据集上学习的AutoAugment策略,默认值:AutoAugmentPolicy.IMAGENET。 + 可以是[AutoAugmentPolicy.IMAGENET, AutoAugmentPolicy.CIFAR10, AutoAugmentPolicy.SVHN]中的任何一个。 + + - **AutoAugmentPolicy.IMAGENET**:表示应用在ImageNet数据集上学习的AutoAugment。 + - **AutoAugmentPolicy.CIFAR10**:表示应用在Cifar10数据集上学习的AutoAugment。 + - **AutoAugmentPolicy.SVHN**:表示应用在SVHN数据集上学习的AutoAugment。 + + - **interpolation** (Inter, 可选) - 调整大小算子的图像插值模式,默认值:Inter.NEAREST。 + 可以是[Inter.NEAREST, Inter.BILINEAR, Inter.BICUBIC, Inter.AREA]中的任何一个。 + + - **Inter.NEAREST**:表示插值方法是最近邻插值。 + - **Inter.BILINEAR**:表示插值方法是双线性插值。 + - **Inter.BICUBIC**:表示插值方法为双三次插值。 + - **Inter.AREA**:表示插值方法为面积插值。 + + - **fill_value** (Union[int, tuple[int]], 可选) - 填充的像素值。 + 如果是3元素元组,则分别用于填充R、G、B通道。 + 如果是整数,则用于所有 RGB 通道。 `fill_value` 值必须在 [0, 255] 范围内,默认值:0。 + + 异常: + - **TypeError** - 如果 `policy` 不是AutoAugmentPolicy类型。 + - **TypeError** - 如果 `interpolation` 不是Inter类型。 + - **TypeError** - 如果 如果 `fill_value` 不是整数或长度为3的元组。 + - **RuntimeError** - 如果给定的张量形状不是。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst new file mode 100644 index 00000000000..77e4c5bb6ba --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.AutoAugmentPolicy.rst @@ -0,0 +1,67 @@ +mindspore.dataset.vision.AutoAugmentPolicy +========================================== + +.. py:class:: mindspore.dataset.vision.AutoAugmentPolicy + + 不同数据集的自动增强策略。 + 可能的枚举值包括:AutoAugmentPolicy.IMAGENET、AutoAugmentPolicy.CIFAR10、AutoAugmentPolicy.SVHN。 + 每个策略包含25对增强操作。使用AutoAugment时,每个图像都会使用这些操作对中的一个随机转换。每对有2个不同的操作。下面显示了所有这些增强操作,包括操作名称及其概率和随机参数。 + + - AutoAugmentPolicy.IMAGENET:ImageNet的数据集自动增强策略。 + + .. code-block:: + + Augmentation operations pair: + [(("Posterize", 0.4, 8), ("Rotate", 0.6, 9)), (("Solarize", 0.6, 5), ("AutoContrast", 0.6, None)), + (("Equalize", 0.8, None), ("Equalize", 0.6, None)), (("Posterize", 0.6, 7), ("Posterize", 0.6, 6)), + (("Equalize", 0.4, None), ("Solarize", 0.2, 4)), (("Equalize", 0.4, None), ("Rotate", 0.8, 8)), + (("Solarize", 0.6, 3), ("Equalize", 0.6, None)), (("Posterize", 0.8, 5), ("Equalize", 1.0, None)), + (("Rotate", 0.2, 3), ("Solarize", 0.6, 8)), (("Equalize", 0.6, None), ("Posterize", 0.4, 6)), + (("Rotate", 0.8, 8), ("Color", 0.4, 0)), (("Rotate", 0.4, 9), ("Equalize", 0.6, None)), + (("Equalize", 0.0, None), ("Equalize", 0.8, None)), (("Invert", 0.6, None), ("Equalize", 1.0, None)), + (("Color", 0.6, 4), ("Contrast", 1.0, 8)), (("Rotate", 0.8, 8), ("Color", 1.0, 2)), + (("Color", 0.8, 8), ("Solarize", 0.8, 7)), (("Sharpness", 0.4, 7), ("Invert", 0.6, None)), + (("ShearX", 0.6, 5), ("Equalize", 1.0, None)), (("Color", 0.4, 0), ("Equalize", 0.6, None)), + (("Equalize", 0.4, None), ("Solarize", 0.2, 4)), (("Solarize", 0.6, 5), ("AutoContrast", 0.6, None)), + (("Invert", 0.6, None), ("Equalize", 1.0, None)), (("Color", 0.6, 4), ("Contrast", 1.0, 8)), + (("Equalize", 0.8, None), ("Equalize", 0.6, None))] + + - AutoAugmentPolicy.CIFAR10:Cifar10的数据集自动增强策略。 + + .. code-block:: + + Augmentation operations pair: + [(("Invert", 0.1, None), ("Contrast", 0.2, 6)), (("Rotate", 0.7, 2), ("TranslateX", 0.3, 9)), + (("Sharpness", 0.8, 1), ("Sharpness", 0.9, 3)), (("ShearY", 0.5, 8), ("TranslateY", 0.7, 9)), + (("AutoContrast", 0.5, None), ("Equalize", 0.9, None)), (("ShearY", 0.2, 7), ("Posterize", 0.3, 7)), + (("Color", 0.4, 3), ("Brightness", 0.6, 7)), (("Sharpness", 0.3, 9), ("Brightness", 0.7, 9)), + (("Equalize", 0.6, None), ("Equalize", 0.5, None)), (("Contrast", 0.6, 7), ("Sharpness", 0.6, 5)), + (("Color", 0.7, 7), ("TranslateX", 0.5, 8)), (("Equalize", 0.8, None), ("Invert", 0.1, None)), + (("TranslateY", 0.4, 3), ("Sharpness", 0.2, 6)), (("Brightness", 0.9, 6), ("Color", 0.2, 8)), + (("Solarize", 0.5, 2), ("Invert", 0.0, None)), (("TranslateY", 0.9, 9), ("TranslateY", 0.7, 9)), + (("Equalize", 0.2, None), ("Equalize", 0.6, None)), (("Color", 0.9, 9), ("Equalize", 0.6, None)), + (("AutoContrast", 0.8, None), ("Solarize", 0.2, 8)), (("Brightness", 0.1, 3), ("Color", 0.7, 0)), + (("Solarize", 0.4, 5), ("AutoContrast", 0.9, None)), + (("AutoContrast", 0.9, None), ("Solarize", 0.8, 3)), + (("TranslateY", 0.7, 9), ("AutoContrast", 0.9, None)), + (("Equalize", 0.3, None), ("AutoContrast", 0.4, None)), + (("Equalize", 0.2, None), ("AutoContrast", 0.6, None))] + + - AutoAugmentPolicy.SVHN:SVHN的数据集自动增强策略。 + + .. code-block:: + + Augmentation operations pair: + [(("ShearX", 0.9, 4), ("Invert", 0.2, None)), (("ShearY", 0.9, 8), ("Invert", 0.7, None)), + (("Equalize", 0.6, None), ("Solarize", 0.6, 6)), (("Invert", 0.9, None), ("Equalize", 0.6, None)), + (("Equalize", 0.6, None), ("Rotate", 0.9, 3)), (("ShearX", 0.9, 4), ("AutoContrast", 0.8, None)), + (("ShearY", 0.9, 8), ("Invert", 0.4, None)), (("ShearY", 0.9, 5), ("Solarize", 0.2, 6)), + (("Invert", 0.9, None), ("AutoContrast", 0.8, None)), (("Equalize", 0.6, None), ("Rotate", 0.9, 3)), + (("ShearX", 0.9, 4), ("Solarize", 0.3, 3)), (("ShearY", 0.8, 8), ("Invert", 0.7, None)), + (("Equalize", 0.9, None), ("TranslateY", 0.6, 6)), (("Invert", 0.9, None), ("Equalize", 0.6, None)), + (("Contrast", 0.3, 3), ("Rotate", 0.8, 4)), (("Invert", 0.8, None), ("TranslateY", 0.0, 2)), + (("ShearY", 0.7, 6), ("Solarize", 0.4, 8)), (("Invert", 0.6, None), ("Rotate", 0.8, 4)), + (("ShearY", 0.3, 7), ("TranslateX", 0.9, 3)), (("ShearX", 0.1, 6), ("Invert", 0.6, None)), + (("Solarize", 0.7, 2), ("TranslateY", 0.6, 7)), (("ShearY", 0.8, 4), ("Invert", 0.8, None)), + (("ShearX", 0.7, 9), ("TranslateY", 0.8, 3)), (("ShearY", 0.8, 5), ("AutoContrast", 0.7, None)), + (("ShearX", 0.7, 2), ("Invert", 0.1, None))] diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst index 0a341fb0112..613539a3528 100644 --- a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.Border.rst @@ -10,6 +10,8 @@ mindspore.dataset.vision.Border - **Border.CONSTANT** - 使用常量值进行填充。 - **Border.EDGE** - 使用各边的边界像素值进行填充。 - **Border.REFLECT** - 以各边的边界为轴进行镜像填充,忽略边界像素值。 + 例如,对 [1,2,3,4] 的两侧分别填充2个元素,结果为 [3,2,1,2,3,4,3,2]。 - **Border.SYMMETRIC** - 以各边的边界为轴进行对称填充,包括边界像素值。 + 例如,对 [1,2,3,4] 的两侧分别填充2个元素,结果为 [2,1,1,2,3,4,4,3]。 .. note:: 该类派生自 :class:`str` 以支持 JSON 可序列化。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst new file mode 100644 index 00000000000..9ec0a29d15d --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.PadToSize.rst @@ -0,0 +1,34 @@ +mindspore.dataset.vision.PadToSize +================================== + +.. py:class:: mindspore.dataset.vision.PadToSize(size, offset=None, fill_value=0, padding_mode=Border.CONSTANT) + + 将图像填充到固定大小。 + + 参数: + - **size** (Union[int, Sequence[int]]) - 要填充的目标大小。 + 若输入整型,则将图像填充为(size, size)大小;如果提供了序列[int, int],则将图像填充为(高度, 宽度)大小。 + - **offset** (Union[int, Sequence[int]], 可选) - 顶部和左侧要填充的长度。 + 如果输入整型,使用此值填充图像上侧和左侧。 + 如果提供了序列[int, int],则应按[top, left]的顺序排列,填充图像上侧和左侧。 + 默认值:None,表示对称填充。 + - **fill_value** (Union[int, tuple[int]], 可选) - 填充的像素值,仅在 `padding_mode` 取值为Border.CONSTANT时有效。 + 如果是3元素元组,则分别用于填充R、G、B通道。 + 如果是整数,则用于所有 RGB 通道。 + `fill_value` 值必须在 [0, 255] 范围内,默认值:0。 + - **padding_mode** (Border, 可选) - 边界填充方式。可以是 [Border.CONSTANT、Border.EDGE、Border.REFLECT、Border.SYMMETRIC] 中的任何一个,默认值:Border.CONSTANT。 + + - **Border.CONSTANT** - 使用常量值进行填充。 + - **Border.EDGE** - 使用各边的边界像素值进行填充。 + - **Border.REFLECT** - 以各边的边界为轴进行镜像填充,忽略边界像素值。 + - **Border.SYMMETRIC** - 以各边的边界为轴进行对称填充,包括边界像素值。 + + 异常: + - **TypeError** - 如果 `size` 不是int或tuple[int, int]类型。 + - **TypeError** - 如果 `offset` 不是int或tupl[int, int]类型。 + - **TypeError** - 如果 `fill_value` 不是int或tuple[int]类型。 + - **TypeError** - 如果 `padding_mode` 不是 :class:`mindspore.dataset.vision.Border` 的类型。 + - **ValueErrorr** - 如果 `size` 不是正数。 + - **ValueErrorr** - 如果 `offset` 为负数。 + - **ValueErrorr** - 如果 `fill_value` 不在[0, 255]的范围内。 + - **RuntimeErrorr** - 如果输入图像的形状不是。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst new file mode 100644 index 00000000000..b02c3aa2e36 --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAdjustSharpness.rst @@ -0,0 +1,18 @@ +mindspore.dataset.vision.RandomAdjustSharpness +============================================== + +.. py:class:: mindspore.dataset.vision.RandomAdjustSharpness(degree, prob=0.5) + + 以给定的概率随机调整输入图像的清晰度。 + + 参数: + - **degrees** (float) - 锐度调整度,必须是非负的。 + 0.0度表示模糊图像,1.0度表示原始图像,2.0度表示清晰度增加2倍。 + - **prob** (float, 可选) - 图像被锐化的概率,默认值:0.5。 + + 异常: + - **TypeError** - 如果 `degree` 的类型不为float。 + - **TypeError** - 如果 `prob` 的类型不为bool。 + - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。 + - **ValueError** - 如果 `degree` 为负数。 + - **RuntimeError** -如果给定的张量形状不是。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst new file mode 100644 index 00000000000..e43b9e417ca --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomAutoContrast.rst @@ -0,0 +1,20 @@ +mindspore.dataset.vision.RandomAutoContrast +=========================================== + +.. py:class:: mindspore.dataset.vision.RandomAutoContrast(cutoff=0.0, ignore=None, prob=0.5) + + 以给定的概率自动调整图像的对比度。 + + 参数: + - **cutoff** (float, 可选) - 输入图像直方图中最亮和最暗像素的百分比。该值必须在 [0.0, 50.0) 范围内,默认值:0.0。 + - **ignore** (Union[int, sequence], 可选) - 要忽略的背景像素值,忽略值必须在 [0, 255] 范围内,默认值:None。 + - **prob** (float, 可选) - 图像被调整对比度的概率,默认值:0.5。 + + 异常: + - **TypeError** - 如果 `cutoff` 不是float类型。 + - **TypeError** - 如果 `ignore` 不是int或sequence类型。 + - **TypeError** - 如果 `prob` 的类型不为bool。 + - **ValueError** - 如果 `cutoff` 不在[0, 50.0) 范围内。 + - **ValueError** - 如果 `ignore` 不在[0, 255] 范围内。 + - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。 + - **RuntimeError** - 如果输入图像的shape不是 。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst new file mode 100644 index 00000000000..d231526a31a --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomEqualize.rst @@ -0,0 +1,14 @@ +mindspore.dataset.vision.RandomEqualize +======================================= + +.. py:class:: mindspore.dataset.vision.RandomEqualize(prob=0.5) + + 以给定的概率随机对输入图像进行直方图均衡化。 + + 参数: + - **prob** (float, 可选) - 图像被均衡化的概率,默认值:0.5。 + + 异常: + - **TypeError** - 如果 `prob` 的类型不为bool。 + - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。 + - **RuntimeError** - 如果输入图像的shape不是 。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst new file mode 100644 index 00000000000..6db39a45a22 --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomInvert.rst @@ -0,0 +1,14 @@ +mindspore.dataset.vision.RandomInvert +===================================== + +.. py:class:: mindspore.dataset.vision.RandomInvert(prob=0.5) + + 以给定的概率随机反转图像的颜色。 + + 参数: + - **prob** (float, 可选) - 图像被反转颜色的概率,默认值:0.5。 + + 异常: + - **TypeError** - 如果 `prob` 的类型不为bool。 + - **ValueError** - 如果 `prob` 不在 [0, 1] 范围。 + - **RuntimeError** - 如果输入图像的shape不是 。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst new file mode 100644 index 00000000000..f9237172033 --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.RandomLighting.rst @@ -0,0 +1,14 @@ +mindspore.dataset.vision.RandomLighting +======================================== + +.. py:class:: mindspore.dataset.vision.RandomLighting(alpha=0.05) + + 将AlexNet PCA的噪声添加到图像中,其中Alexnet PCA噪声的特征值和特征向量是由ImageNet数据集计算得出。 + + 参数: + - **alpha** (float, 可选) - 图像的强度,必须是非负的。默认值:0.05。 + + 异常: + - **TypeError** - 如果 `alpha` 的类型不为bool。 + - **ValueError** - 如果 `alpha` 为负数。 + - **RuntimeError** - 如果输入图像的shape不是 。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst new file mode 100644 index 00000000000..7d8b96d0761 --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_num_channels.rst @@ -0,0 +1,12 @@ +mindspore.dataset.text.get_image_num_channels +============================================== + +.. py:function:: mindspore.dataset.text.get_image_num_channels(image) + + 获取输入图像通道数。 + + 参数: + - **image** (Union[numpy.ndarray, PIL.Image.Image]) - 用于获取通道数的图像。 + + 返回: + int,输入图像通道数。 diff --git a/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst new file mode 100644 index 00000000000..d01b83e60ae --- /dev/null +++ b/docs/api/api_python/dataset_vision/mindspore.dataset.vision.get_image_size.rst @@ -0,0 +1,12 @@ +mindspore.dataset.text.get_image_size +====================================== + +.. py:function:: mindspore.dataset.text.get_image_size(image) + + 获取输入图像的大小为[高度, 宽度]。 + + 参数: + - **image** (Union[numpy.ndarray, PIL.Image.Image]) - 要获取大小的图像。 + + 返回: + list[int, int],图像大小。 diff --git a/mindspore/python/mindspore/dataset/audio/transforms.py b/mindspore/python/mindspore/dataset/audio/transforms.py index 9b741df6f48..65e4ea37caa 100644 --- a/mindspore/python/mindspore/dataset/audio/transforms.py +++ b/mindspore/python/mindspore/dataset/audio/transforms.py @@ -420,6 +420,7 @@ class BassBiquad(AudioTensorOperation): class Biquad(TensorOperation): """ Perform a biquad filter of input audio. + Mathematical fomulas refer to: `Digital_biquad_filter `_ . Args: b0 (float): Numerator coefficient of current input, x[n]. @@ -644,6 +645,9 @@ class DeemphBiquad(AudioTensorOperation): sample_rate (int): sampling rate of the waveform, e.g. 44100 (Hz), the value must be 44100 or 48000. + Raises: + RuntimeError: If the shape of input audio waveform does not match <..., time>. + Examples: >>> import numpy as np >>> @@ -837,6 +841,9 @@ class Filtfilt(AudioTensorOperation): Must be same size as a_coeffs (pad with 0's as necessary). clamp (bool, optional): If True, clamp the output signal to be in the range [-1, 1]. Default=True. + Raises: + RuntimeError: If the shape of input audio waveform does not match <..., time>. + Examples: >>> import numpy as np >>> @@ -1225,6 +1232,9 @@ class Magphase(AudioTensorOperation): Args: power (float): Power of the norm, which must be non-negative (default=1.0). + Raises: + RuntimeError: If the shape of input audio waveform does not match <..., 2>. + Examples: >>> import numpy as np >>> diff --git a/mindspore/python/mindspore/dataset/audio/utils.py b/mindspore/python/mindspore/dataset/audio/utils.py index 6501dfcfcbc..01ad8ef37e7 100644 --- a/mindspore/python/mindspore/dataset/audio/utils.py +++ b/mindspore/python/mindspore/dataset/audio/utils.py @@ -31,9 +31,12 @@ class BorderType(str, Enum): - BorderType.CONSTANT: means it fills the border with constant values. - BorderType.EDGE: means it pads with the last value on the edge. - BorderType.REFLECT: means it reflects the values on the edge omitting the last value of edge. + For example, padding [1,2,3,4] with 2 elements on both sides will result in [3,2,1,2,3,4,3,2]. - BorderType.SYMMETRIC: means it reflects the values on the edge repeating the last value of edge. + For example, padding [1,2,3,4] with 2 elements on both sides will result in [2,1,1,2,3,4,4,3]. - Note: This class derived from class str to support json serializable. + Note: + This class derived from class str to support json serializable. """ CONSTANT: str = "constant" EDGE: str = "edge" @@ -111,8 +114,12 @@ class MelType(str, Enum): Possible enumeration values are: MelType.HTK, MelType.SLANEY. - - MelType.NONE: scale the input data with htk. - - MelType.ORTHO: scale the input data with slaney. + - MelType.HTK: scale the input data with htk implementation, refer to "Slaney, M. Auditory Toolbox: + A MATLAB Toolbox for Auditory Modeling Work. Technical Report, version 2, + Interval Research Corporation, 1998". + - MelType.SLANEY: scale the input data with slaney implementation, refer to "Young, S., Evermann, G., + Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., + Povey, D., Valtchev, V., & Woodland, P. The HTK book, version 3.4. Cambridge University, March 2009". """ HTK: str = "htk" SLANEY: str = "slaney" diff --git a/mindspore/python/mindspore/dataset/text/utils.py b/mindspore/python/mindspore/dataset/text/utils.py index 607bed2cf86..299bfc96079 100644 --- a/mindspore/python/mindspore/dataset/text/utils.py +++ b/mindspore/python/mindspore/dataset/text/utils.py @@ -42,7 +42,7 @@ class CharNGram(cde.CharNGram): file_path (str): Path of the file that contains the CharNGram vectors. max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded. Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in - situations where the entire set doesn’t fit in memory, or is not needed for another reason, + situations where the entire set doesn't fit in memory, or is not needed for another reason, passing max_vectors can limit the size of the loaded set (default=None, no limit). Examples: @@ -69,7 +69,7 @@ class FastText(cde.FastText): must be `*.vec`. max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded. Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in - situations where the entire set doesn’t fit in memory, or is not needed for another reason, + situations where the entire set doesn't fit in memory, or is not needed for another reason, passing max_vectors can limit the size of the loaded set (default=None, no limit). Examples: @@ -96,7 +96,7 @@ class GloVe(cde.GloVe): must be `glove.6B.*.txt`. max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded. Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in - situations where the entire set doesn’t fit in memory, or is not needed for another reason, + situations where the entire set doesn't fit in memory, or is not needed for another reason, passing max_vectors can limit the size of the loaded set (default=None, no limit). Examples: @@ -327,7 +327,7 @@ class Vectors(cde.Vectors): file_path (str): Path of the file that contains the vectors. max_vectors (int, optional): This can be used to limit the number of pre-trained vectors loaded. Most pre-trained vector sets are sorted in the descending order of word frequency. Thus, in - situations where the entire set doesn’t fit in memory, or is not needed for another reason, + situations where the entire set doesn't fit in memory, or is not needed for another reason, passing max_vectors can limit the size of the loaded set (default=None, no limit). Examples: diff --git a/mindspore/python/mindspore/dataset/vision/utils.py b/mindspore/python/mindspore/dataset/vision/utils.py index 5e63b76753e..a1774a4b338 100644 --- a/mindspore/python/mindspore/dataset/vision/utils.py +++ b/mindspore/python/mindspore/dataset/vision/utils.py @@ -119,7 +119,9 @@ class Border(str, Enum): - Border.CONSTANT: means it fills the border with constant values. - Border.EDGE: means it pads with the last value on the edge. - Border.REFLECT: means it reflects the values on the edge omitting the last value of edge. + For example, padding [1,2,3,4] with 2 elements on both sides will result in [3,2,1,2,3,4,3,2]. - Border.SYMMETRIC: means it reflects the values on the edge repeating the last value of edge. + For example, padding [1,2,3,4] with 2 elements on both sides will result in [2,1,1,2,3,4,4,3]. Note: This class derived from class str to support json serializable.