内容简介
作为通信与AI融合的代表性技术,近年来语义通信成为非常热门的前沿方向。《语义信息论》阐述了语义信息理论,回答了语义通信的三个基本问题:什么是语义信息?语义信息如何度量?语义通信的极限与性能增益来源是什么?《语义信息论》指出语义信息是语法信息的上级概念,同义性是语义信息的本质特征,由此构建了语义信息的度量体系,推导了语义通信的理论极限,证明了三个基本的语义编码定理。《语义信息论》建立的语义信息论框架,是对**信息论的兼容与发展,将成为语义通信优化设计的指导理论。
精彩书摘
第1章绪论
本章主要概述**信息论与语义信息论的基本内容。*先,回顾**信息论的核心内容,然后,扼要总结语义信息论的研究历史,*后,归纳总结本书提出语义信息论的基本内容。
1.1**信息论概述
客观世界由物质、能量和信息组成。对物质与能量规律的探索与利用,是工业革命以来科学研究的主旋律。20世纪60年代以来,人们对信息的本质进行了深人探讨。美国数学家维纳(N.Wiener)指出“信息就是信息,不是物质也不是能量”。美国物理学家惠勒(J.Wheeler)认为“万物源自比特(It from bit)”,物理世界的终极源自信息,信息才是世界的本质。今天,在社会生产中,信息已成为**位资源,其地位远远超过传统的生产资料。在科学研究中,信息已经渗透到各个领域,改变了各个学科的面貌,计算机科学、生物学、化学、物理学,甚至是经济学、社会学都高度依赖信息。现代学科的分类越来越精细,都是对客观世界的某个切片进行解读,而“信息”从更高的维度,以宏观视角对科学世界进行整体解读。
20世纪中期,人类进人了信息时代,探索和利用信息成为这个时代的主要驱动力。回顾信息与通信技术的发展,从1837年摩尔斯(S.Morse)完善电报系统算起,迄今已有180多年的历史,从20世纪80年代开始,移动通信历经了5代标准,也有接近半个世纪的历程。现代通信科技取得了诸多杰出成就,如超高速光通信、卫星通信、互联网、3G/4G/5G移动通信等。
1948年,美国科学家香农(C.E.Shannon)发表了**论文《通信的数学理论》[1],建立了**信息论(Classic Information Theory,CIT),是现代信息和通信领域的伟大成就。该理论从信息的概率不确定性出发,对信息进行度量,引人了熵、互信息、信道容量和率失真函数等四个关键指标来评估信息处理和传输的性能。尤其是三个著名的编码定理,即无损/有损信源编码定理和信道编码定理,揭示了数据压缩和信息传输的基本限制,为信息与通信系统的优化提供了根本的指导原则。
过去的70多年里,人们开发了许多编码技术来接近香农指出的理论极限。
例如,Huffman编码、算术编码和通用编码等,可以逼近数据压缩的极限,即信源熵。同样,近30年来,一些先进的信道编码,如Turbo码、LDPC码、Polar码等,已经接近或达到信道容量,被视为信道编码理论的里程碑。此外,作为代表性方法,矢量量化、线性预测编码和变换编码可以趋近于有损源编码的率失真函数。
现今的信息与通信科技正面临新的历史机遇。一方面,**信息论具有优美而自洽的数学体系,在其指导下的通信系统已经完全达到或接近理论预言的极限,这是一个伟大的历史成就。但另一方面,正因为**信息论过于完美,其理论极限已经成为技术发展的桎梏,难以适应未来信息处理的需求,禁锢了信息与通信系统性能提升的空间。因此,多年以来,学术界一直在探索信息的内涵本质,研究扩展**信息论的可能,并作出不懈努力。
1.2语义信息论发展历史
从认识论观点看,信息分为三个层次:语法、语义和语用,语法信息是*简单、*基本的层次。语义学的概念*初由Morris提出,他在符号论(Theory of Signs冲提出了符号的语法-语义-语用三元概念[2]。实际上,早在1949年,即**信息论奠基的次年,Shannon和Weaver[3]就已经意识到语义的重要性,指出通信涉及以下三个层次的问题:
LevelA:通信符号如何准确地传输?(技术问题)
LevelB:传输的符号能否精确地传达所需的含义?(语义问题)
LevelC:接收到的含义是否能有效地以预期的方式影响行为?(效用问题)
图1.1给出了信息的层次结构及对应的信息理论。依据Weaver的观点,完整的信息通信系统,应当包括三个层次的信息处理与传输,即LevelA级通信(对应语法通信)、LevelB级通信(对应语义通信)和LevelC级通信(对应语用通信)。
图1.1信息的层次结构及对应的信息理论
其中,语法通信以**信息论为指导,解决技术问题,研究通信符号序列的优化设计,保证数据的有效压缩与准确传输。而语义通信以语义信息论为指导,解决语义问题,研究语义信息如何编码,保证发送的符号能够传递确切的含义。在*上层,语用通信则以广义信息论为指导,解决效用问题,即研究接收的含义如何以期望的方式影响系统行为。从相互关系看,三个理论之间是外延的扩展,即语义信息论应当包含**信息论,而广义信息论应当包含前两者。
长期以来,**信息论局限在语法信息传输层次,即LevelA级通信。香农在其奠基性论文[1]中写道:“通信的语义方面与工程问题无关。”因此,**信息论仅处理信息的语法层次问题。但是,早在1956年,Bnllomn就指出[4],**信息论忽略信息的含义是因为通信工程的特殊需要,并不意味着人们要永远忽视语乂信息。
70多年来,人们一直在推进语义信息论的研究。一方面,Bar-Hillel及Camap
等[5,6]提出用逻辑概率而非**
目录
目录
从书序
序言
前言
第1章 绪论 1
1.1 **信息论概述 1
1.2 语义信息论发展历史 2
1.3 本书的符号体系 5
1.4 本书的章节组织 5
1.5 本章小结 10
第2章 **信息论 11
2.1 通信系统的基本模型 11
2.2 语法信息的度量 12
2.2.1 信息熵 12
2.2.2 相对熵与互信息 18
2.2.3 信道容量与率失真函数 24
2.3 通信系统的优化原则 27
2.4 无失真信源编码定理 28
2.5 信道编码定理 31
2.6 限失真信源编码定理 36
2.7 信源信道编码定理 38
2.8 香农信道容量公式 39
2.9 **信息论的指导意义 40
2.10 本章小结 42
第3章 语义信息论早期探索 43
3.1 基于逻辑概率的语义信息理论 43
3.1.1 逻辑概率与语义熵 43
3.1.2 基于命题逻辑的语义编码定理 46
3.2 基于模糊属性的语义信息理论 48
3.2.1 广义通信系统物理模型 49
3.2.2 广义信源和广义熵 49
3.2.3 全信息度量 53
3.3 Rényi熵与Rényi互信息 55
3.4 Kolmogorov复杂性 59
3.5 本章小结 62
第4章 语义信息度量 63
4.1 语义通信系统模型及设计准则 63
4.1.1 语义通信系统模型 63
4.1.2 语义通信系统的设计准则 65
4.2 语义信息的同义关系 66
4.2.1 信源信息的同义属性 66
4.2.2 下游任务的同义属性 69
4.2.3 同义映射 70
4.2.4 一词多义与含义模糊的处理 71
4.2.5 语义信息的本质理解 73
4.3 语义变量 75
4.3.1 语义变量定义 75
4.3.2 语义数字特征 77
4.4 语义熵 82
4.4.1 语义熵定义 82
4.4.2 基本性质 83
4.4.3 语义联合熵与语义条件熵 86
4.5 语义信息散度与语义互信息 96
4.5.1 语义信息散度 96
4.5.2 上/下语义互信息 102
4.6 语义信道容量 110
4.7 语义率失真函数 112
4.7.1 语义率失真函数的定义与性质 112
4.7.2 语义率失真函数的参量表达式 113
4.8 本章小结 119
第5章 语义无失真信源编码定理 121
5.1 语义渐近等分割与语义典型序列 121
5.1.1 语义弱典型序列 123
5.1.2 语义强典型序列 130
5.1.3 语义与语法典型序列的比较 140
5.2 正定理证明 142
5.3 逆定理证明 145
5.4 变长语义无失真信源编码定理 148
5.4.1 语义Kraft不等式 148
5.4.2 *优语义信源码长 148
5.5 语义Huffman编码 149
5.5.1 语义Huffman树 150
5.5.2 语义Huffman编码与译码 152
5.5.3 语义Huffman编码在文本压缩中的应用 152
5.6 语义算术编码 154
5.6.1 编解码流程 155
5.6.2 理论极限分析 158
5.6.3 性能验证 158
5.7 本章小结 160
第6章 语义信道编码定理 161
6.1 语义联合渐近等分割 161
6.1.1 弱联合典型序列 161
6.1.2 弱条件典型序列 168
6.1.3 强联合典型序列 175
6.1.4 强条件典型序列 179
6.2 语义信道编码定理 184
6.2.1 语义信道编码模型 185
6.2.2 编码定理证明思想 187
6.3 正定理证明 188
6.4 逆定理证明 192
6.5 语义信道编码方法 194
6.6 无失真语义信源信道编码定理 199
6.7 本章小结 200
第7章 语义限失真信源编码定理 202
7.1 语义联合渐近等分割 202
7.1.1 语义失真度量 202
7.1.2 弱联合典型序列 203
7.1.3 强联合典型序列 208
7.2 语义限失真编码定理 209
7.2.1 语义限失真编码模型 209
7.2.2 定理证明 210
7.3 基于弱典型序列的正定理证明 211
7.4 基于强典型序列的正定理证明 215
7.5 逆定理证明 217
7.6 限失真语义信源信道编码定理 218
7.7 本章小结 221
第8章 连续消息的语义信息度量 222
8.1 连续信源的语义熵 222
8.1.1 连续条件下的同义映射 222
8.1.2 连续消息的语义熵 224
8.1.3 连续消息的语义联合熵与语义条件熵 227
8.2 连续消息的语义信息散度与语义互信息 231
8.2.1 连续消息的语义信息散度 231
8.2.2 连续消息的上/下语义互信息 232
8.2.3 连续消息的语义信道容量 233
8.2.4 连续消息的语义率失真函数 233
8.3 连续消息的语义典型序列 234
8.3.1 语义典型序列与同义典型序列 234
8.3.2 语义联合典型序列与联合同义典型序列 237
8.4 高斯信道的语义容量 241
8.4.1 高斯语义信道容量 242
8.4.2 高斯信道语义编码定理可达
试读
第1章绪论
本章主要概述**信息论与语义信息论的基本内容。*先,回顾**信息论的核心内容,然后,扼要总结语义信息论的研究历史,*后,归纳总结本书提出语义信息论的基本内容。
1.1**信息论概述
客观世界由物质、能量和信息组成。对物质与能量规律的探索与利用,是工业革命以来科学研究的主旋律。20世纪60年代以来,人们对信息的本质进行了深人探讨。美国数学家维纳(N.Wiener)指出“信息就是信息,不是物质也不是能量”。美国物理学家惠勒(J.Wheeler)认为“万物源自比特(It from bit)”,物理世界的终极源自信息,信息才是世界的本质。今天,在社会生产中,信息已成为**位资源,其地位远远超过传统的生产资料。在科学研究中,信息已经渗透到各个领域,改变了各个学科的面貌,计算机科学、生物学、化学、物理学,甚至是经济学、社会学都高度依赖信息。现代学科的分类越来越精细,都是对客观世界的某个切片进行解读,而“信息”从更高的维度,以宏观视角对科学世界进行整体解读。
20世纪中期,人类进人了信息时代,探索和利用信息成为这个时代的主要驱动力。回顾信息与通信技术的发展,从1837年摩尔斯(S.Morse)完善电报系统算起,迄今已有180多年的历史,从20世纪80年代开始,移动通信历经了5代标准,也有接近半个世纪的历程。现代通信科技取得了诸多杰出成就,如超高速光通信、卫星通信、互联网、3G/4G/5G移动通信等。
1948年,美国科学家香农(C.E.Shannon)发表了**论文《通信的数学理论》[1],建立了**信息论(Classic Information Theory,CIT),是现代信息和通信领域的伟大成就。该理论从信息的概率不确定性出发,对信息进行度量,引人了熵、互信息、信道容量和率失真函数等四个关键指标来评估信息处理和传输的性能。尤其是三个著名的编码定理,即无损/有损信源编码定理和信道编码定理,揭示了数据压缩和信息传输的基本限制,为信息与通信系统的优化提供了根本的指导原则。
过去的70多年里,人们开发了许多编码技术来接近香农指出的理论极限。
例如,Huffman编码、算术编码和通用编码等,可以逼近数据压缩的极限,即信源熵。同样,近30年来,一些先进的信道编码,如Turbo码、LDPC码、Polar码等,已经接近或达到信道容量,被视为信道编码理论的里程碑。此外,作为代表性方法,矢量量化、线性预测编码和变换编码可以趋近于有损源编码的率失真函数。
现今的信息与通信科技正面临新的历史机遇。一方面,**信息论具有优美而自洽的数学体系,在其指导下的通信系统已经完全达到或接近理论预言的极限,这是一个伟大的历史成就。但另一方面,正因为**信息论过于完美,其理论极限已经成为技术发展的桎梏,难以适应未来信息处理的需求,禁锢了信息与通信系统性能提升的空间。因此,多年以来,学术界一直在探索信息的内涵本质,研究扩展**信息论的可能,并作出不懈努力。
1.2语义信息论发展历史
从认识论观点看,信息分为三个层次:语法、语义和语用,语法信息是*简单、*基本的层次。语义学的概念*初由Morris提出,他在符号论(Theory of Signs冲提出了符号的语法-语义-语用三元概念[2]。实际上,早在1949年,即**信息论奠基的次年,Shannon和Weaver[3]就已经意识到语义的重要性,指出通信涉及以下三个层次的问题:
LevelA:通信符号如何准确地传输?(技术问题)
LevelB:传输的符号能否精确地传达所需的含义?(语义问题)
LevelC:接收到的含义是否能有效地以预期的方式影响行为?(效用问题)
图1.1给出了信息的层次结构及对应的信息理论。依据Weaver的观点,完整的信息通信系统,应当包括三个层次的信息处理与传输,即LevelA级通信(对应语法通信)、LevelB级通信(对应语义通信)和LevelC级通信(对应语用通信)。
图1.1信息的层次结构及对应的信息理论
其中,语法通信以**信息论为指导,解决技术问题,研究通信符号序列的优化设计,保证数据的有效压缩与准确传输。而语义通信以语义信息论为指导,解决语义问题,研究语义信息如何编码,保证发送的符号能够传递确切的含义。在*上层,语用通信则以广义信息论为指导,解决效用问题,即研究接收的含义如何以期望的方式影响系统行为。从相互关系看,三个理论之间是外延的扩展,即语义信息论应当包含**信息论,而广义信息论应当包含前两者。
长期以来,**信息论局限在语法信息传输层次,即LevelA级通信。香农在其奠基性论文[1]中写道:“通信的语义方面与工程问题无关。”因此,**信息论仅处理信息的语法层次问题。但是,早在1956年,Bnllomn就指出[4],**信息论忽略信息的含义是因为通信工程的特殊需要,并不意味着人们要永远忽视语乂信息。
70多年来,人们一直在推进语义信息论的研究。一方面,Bar-Hillel及Camap
等[5,6]提出用逻辑概率而非**