modify apiformat

This commit is contained in:
xumengjuan1 2022-02-26 09:31:52 +08:00
parent f84b422992
commit afd50a401b
1 changed files with 2 additions and 1 deletions

View File

@ -3,12 +3,13 @@
.. py:class:: mindspore.dataset.text.transforms.BasicTokenizer(lower_case=False, keep_whitespace=False, normalization_form=NormalizeForm.NONE, preserve_unused_token=True, with_offsets=False)
通过特定规则标记UTF-8字符串的标量Tensor。
通过特定规则标记UTF-8字符串的标量Tensor。
.. note::
Windows平台尚不支持BasicTokenizer。
**参数:**
- **lower_case** (bool可选) - 如果为True则在输入文本上应用CaseFold、 `NFD` 模式下的NormalizeUTF8、RegexReplace操作以将文本折叠到较低的用例并删除重音字符。如果为False则仅在输入文本上应用指定模式下的NormalizeUTF8操作默认为False
- **keep_whitespace** (bool可选) - 如果为True则把空白字符保留在输出标记中默认值False。
- **normalization_form** (NormalizeForm可选) - 用于指定归一化模式默认值NormalizeForm.NONE。这仅在 `lower_case` 为False时有效。可选值为NormalizeForm.NONE、NormalizeForm.NFC、NormalizeForm.NFKC、NormalizeForm.NFD和NormalizeForm.NFKD。