第二章 离散信源及信息测度 信源 离 散 信 源 单符号 随机变量 多符号 随机矢量 连 续 信 源 随机过程 信源分类 •* 信息量 联合 自信息量 自信息量 条件信息 量 联合信息 量 条件 自信 息量 •* 用概率测度定义信息量 设离散信源X,其概率空间为 a2 , ,an X a1 , P ( X ) p ( a ), p ( a ), , p ( a ) 1 2 n 如果知道事件ai已发生,则该事件所含有的 自信息量定义为 I ( xi ) log 1 p ( xi ) •* ② 联合自信息量 • 信源模型为 x2 y1 , , x 2 y m , , xn y1 , , xn y m XY x1 y1 , , x1 y m , p ( x y ), , p ( x y ), p ( x y ), , p ( x y ), , p ( x y ), , p ( x y ) P ( XY ) 1 1 1 m 2 1 2 m n 1 n m n m • 其中0≤p(xiyj)≤1 (i=1,2,…,n; j=1,2, …,m) p( xi y j ) 1 i 1 j 1 • 则联合自信息量为 I ( xi y j ) log 2 p ( x1i y j ) • 当X和Y相互独立时,p(xiyj)=p(xi)p(yj) I ( xi y j ) log 2 p ( x )1p ( y ) log 2 p (1x ) log 2 p (1y ) I ( xi ) I ( y j ) i j i j • 两个随机事件相互独立时,同时发生得到的信息量,等于各自自信 息量之和。 •* ③ 条件自信息量 • 设yj条件下,发生xi的条件概率为p(xi /yj),那么它的 条件自信息量I(xi/yj)定义为 I ( xi / y j ) log 2 p ( x 1/ y ) i j • 表示在特定条件下(yj已定)随机事件xi 所带来的信息 量 • 同理,xi已知时发生yj的条件自信息量为 I ( y j / xi ) log 2 p ( y 1 / x ) j i • 自信息量、条件自信息量和联合自信息量之间的关系 I ( xi y j ) log 2 p ( x ) p1( y / x ) I ( xi ) I ( y j / xi ) i j i log 2 p ( y ) p1( x / y ) I ( y j ) I ( xi / y j ) j i j •* 熵 信息量 有限值 可为无穷大 确定值 一般为随机量 与信源是否输出无关 接收后才得到信息 信源的平均不确定度 消除不定度得到信息 •* 信源熵与信息量的比较 第八章 无失真信源编码 香农编码方法的步骤 1 按信源符号的概率从大到小的顺序排队 设 p( x1 ) p( x2 ) ...... p( xq ) 2 令p ( x0 ) 0,用pa ( x j ), j i 1 表示第 i个码字的累加概率 3 j 1 p a ( x j ) p ( xi ) 1 i 1 log 2 p( xi ) li 1 log 2 p( xi ) 4 把 pa ( x j )用二进制表示,用小数 点后的 li 位作为 xi的码字 •* [例]有一单符号离散无记忆信源 X x1 , P ( X ) 0.25 x2 , x3 , x4 , x5 , 0.25 0.20 0.15 0.10 x6 0.05 • 对该信源编二进制香农码。其编码过程如下表所示。 表5.1.1 二进制香农编码 xi p(xi) pa(xj) li 码字 x1 0.25 0 2 00(0.000)2 x2 0.25 0.25 2 01(0.010)2 x3 0.2 0.5 3 100(0.100)2 x4 0.15 0.7 3 101(0.101)2 x5 0.1 0.85 4 1101(0.1101)2 x6 0.05 0.95 5 111110(0.11110)2 •* (3) 结论 • 香农码、费诺码、赫夫曼码都考虑了信源的统计特性,使 经常出现的信源符号对应较短的码字,使信源的平均码长 缩短,从而实现了对信源的压缩; • 香农码有系统的、惟一的编码方法,但在很多情况下编码 效率不是很高; • 费诺码和赫夫曼码的编码方法都不惟一; • 费诺码比较适合于对分组概率相等或接近的信源编码,费 诺码也可以编r进制码,但r越大,信源的符号数越多,可 能的编码方案就越多,编码过程就越复杂,有时短码未必 能得到充分利用; • 赫夫曼码对信源的统计特性没有特殊要求,编码效率比较 高,对编码设备的要求也比较简单,因此综合性能优于香 农码和费诺码。 •* 第六章 有噪信道编码定理 • 例题:有一离散信道,信道矩阵为, 1 2 P 1 16 3 1 1 1 3 2 6 1 6 1 3 1 2 假如信道输入消息符号的概率分别为: p ( a1 ) 1 , 2 p(a 2 ) p(a3 ) 1 4 请分别用最大后验概率译码准则和最大 似然译码准则确定译码函数,并计算其相应的 平均错误概率。 解:(1)最大后验概率译码准则 (2)最大似然译码准则 两种准则使用要点 Ø 最大后验概率准则(最小错误概率准则) 1)由转移概率矩阵的每行分别乘 p(ai),得到联合 概率矩阵; 2)对于每一列(相当于 bj 固定)找一个最大的概 率对应的ai作为译码结果; 3)所有译码结果所对应的联合概率的和为正确概率, 其他矩阵元素的和为错误概率。 Ø 最大似然概率准则 1)对转移概率矩阵中每列选择最大的一个元素对应 的ai作为译码结果; 2)所有译码结果所对应的转移概率乘以 p(ai)后求 和为正确概率,其他矩阵元素乘以对应p(ai)后求和 为错误概率。 两种准则关系总结 • 译码方法不一样,最大后验概率准则是求出联合 概率矩阵之后找到每列的最大值所对应的ai;而 最大似然概率准则是直接从转移概率矩阵中找到 每列最大值所对应的ai。 • 求错误概率的方法其实是一样的,都是将联合概 率矩阵中除去译码对应得元素外其他元素之和。 或者是转移概率矩阵中除去译码对应元素外其他 元素乘以对应p(ai)求和。 • 最大后验概率准则可以得到最小错误概率,所以 也称为最小错误概率准则。而最大似然概率准则 不一定得到最小错误概率,只有输入等概时,最 大似然才能得到最小错误概率,即只有等概时, 最大后验概率准则与最大似然概率准则等价。 一般地,在 ( n, k ) 线性分组码中,设 M 是编码器的输入信息码元 序列,如果编码器的输出码字 C 表示为 C = MG 则 G 为该线性分组码 ( n, k ) 码的生成矩阵。 生成矩阵 G 为 k n 矩阵。G 阵的 k 行应该是线性无关的,因为 任一码字都是 G 的行向量的线性组合,如果各行线性无关,则可以组 合出 2 k 种不同的码字,它恰好是有 k 位信息码元的全部码字空间。如 果 G 的各行线性相关,则不可能组合出 2 k 种不同的码字。 系统码的生成矩阵可用分块矩阵表示为 G Ik , P 式中, I k —— k × k 阶单位方阵; P —— k ×(n- k )矩阵。 极大最小距离码,简称为 MDC 码 (Maximized Distance Code)。 在 ( n, k ) 线性分组码中,MDC 码具有最大的检错和纠错能力,具有这 样性能的码并不多。在二元码中,只有 (n, 1) 重复码是 MDC 码;在非 二元码中,循环码中的 RS 码是 MDC 码。 【例 6.4】 已知 ( n, k ) 线性分组码的监督矩阵为 1 1 1 0 1 0 0 H 1 0 0 1 1 1 0 0 1 0 0 1 1 1 (1)确定(n,k)码中的 n 和 k。 (2)写出对应的生成矩阵。 (3)当编码器的输入序列为 10010110 时,写出编码器的输出序列。 (4)试分析该码的检错能力和纠错能力。