在定义了熵和冗余之后,就可以考虑把这些概念应用一下了。香农在他的论文中给出了两种估计英语熵的方法。冗余,或对英语文本施加的约束数量,导致其整体熵的下降。例如,规则「i before e except after c」,以及 q 必须始终跟 u 的事实是使英语更加冗余的依赖关系。语法规则、词性以及我们无法编造单词的事实也使英语变得有冗余。英语中的冗余有时实际上是有益的,因为否则人们如何辨别在嘈杂的房间里说了什么?冗余允许人们在只有部分信息传来时推断出所说的内容。例如,如果听到「Turn phat mufic down!」,人们可以相当好地猜测说话者的意思。计算英语熵的一种可能方法是使用 N-gram。给定自然语言 L 的足够长的字符序列 S,考察所有长度为 N 的子字符串
定义 N-gram 熵(Entropy)FN 如下。
当已知前 N - 1 个字母时,我们可以统计计算出下一个字母的熵。随着 N 的增加,熵接近 H,此即英语的熵。以下是香农论文中计算出的值。FN 是当已知前 N - 1 个字母时与第 N 个字母相关的熵。计算 FN 统计数据的难度是 O (26^N),因为有那么多 N 个字母的序列。请注意,F0 只是字母集的最大熵,其中每个字母都有相等的概率。