D2L-49-文本预处理-Text Preprocessing
# 文本预处理
2022-03-08
Tags: #Preprocessing
一些常见的操作:
- 将文本作为字符串加载到内存中。
- 将字符串拆分为词元(如单词和字符)。Tokenize
- 建立一个词表,将拆分的词元映射到数字索引。
- 将文本转换为数字索引序列,方便模型操作。
语料 in English: corpus
语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元
<unk>
。 我们可以选择增加一个列表,用于保存那些被保留的词元, 例如:填充词元(<pad
>); 序列开始词元(<bos>
); 序列结束词元(<eos>
)。- 尖括号通常用来表示特殊字符