D2L-51-语言的统计特征
# 语言的统计特征
2022-03-08
Tags: #Zipf_Law
# n元语法 n-gram
我们将涉及一个、两个和三个变量的概率公式的模型分别称为 “一元语法”(unigram)、“二元语法”(bigram)和“三元语法”(trigram)模型.
- 例如, 一阶马尔可夫模型的依赖关系为 , 对应二元语法.
# 齐普夫定律
在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。1
第 个最常用单词的频率 为: 等价于
在双对数曲线上可以表示为:
有趣的是, 即使是多元语法的词序列也符合Zipf’s Law:
- 这张图非常令人振奋!首先,除了一元语法词,单词序列似乎也遵循齐普夫定律, 并且公式中的指数 更小 (指数的大小受序列长度的影响)。
- 其次,词表中 元组的数量并没有那么大,这说明语言中存在相当多的结构, 这些结构给了我们应用模型的希望。 (要是语言中没有太多规律, 则n元组会更随机, 种类也会更多)
第三,很多n元组很少出现,这使得 拉普拉斯平滑
D2L-50-语言模型-传统模型的不足
语言模型 2022-03-08 Tags: #LanguageModel 传统模型 语言模型的输出是一个文本序列: 为了生成有意义的序列, 我们希望模拟语料库里面的语句, 生成概率 最高的语句. 一个例子是 $$\begin{aligned}&P(deep, learning, is, fun)=\\&P(deep) P(learning\mid...