从不变量看信息概念的定义,本文主要内容关键词为:变量论文,定义论文,概念论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]N031 [文献标识码] A [文章编号]1002-0209(2004)04-0108-05
一、申农信息论的积极意义与不足
人类利用和认识信息过程中一个标志性的成就是申农信息论的创立。他的工作主要是以对电报信号的编码、译码和传递等的研究为基础,对通讯系统的具体形式和内容作出了科学的抽象,具体说来就是:1.提出了通讯系统的模型,使通讯的过程简化和统一,从而帮助人们认识通讯和信息的本质;2.总结、归纳出信息的作用是去掉人们认识中的不确定性,以此为突破口,运用概率论的数学工具,提出了信息量的概念及信息熵的数学公式,使信息论的研究上升到科学的定量的阶段;3.研究了编码定理等有关的信息理论问题,建立起信息论的基本理论框架和研究方法。我们这里关注的是与信息的定义及其数学表达相关的问题。
申农信息定义的核心,是将信息定义为在信息传递过程中,人们对系统认识的不确定性的减少,而所消除的不确定性的大小即为信息量的多少,他后来进一步得出,信息量的多少可用信息熵来表达。这样的信息定义有两个突出的特点:一是将信息的作用限于使人们去掉认识中的不确定性,也正是这一定义方式的实用特征,使我们对信息的研究走到了侧重于信息作用的方向上,而未能对信息本身进行更多的思考。特别是当人们再来研究比较复杂的信息时,发现信息的作用是多种多样的,由此带来的信息的多值性给人们带来了许多困难。二是这样的信息定义极大地依赖于通讯的过程和信息的接收者的状况,这就使信息科学研究一开始就与主体、过程联系在一起,甚至染上了主观主义的色彩。但是,由于申农理论从量化的角度比较全面地刻画了通讯过程的主要环节,而且还有效解决了电码传输中的大量实际问题,这就使后人对信息定义的讨论基本锁定在申农定义的基础之上了。
无论如何,信息技术的成功并不能掩盖其基础理论本身的不足。有人对申农为代表的这种实用信息定义提出了尖锐批评:正如粮食的定义不能是“消除了的饥饿状态”一样,信息的定义也不能是“消除了的不确定性”[1](P8)。为了避免信息与过程和人的主观知识联系过于紧密的缺陷,人们相继提出了其他的和更复杂的信息定义,有学者统计过,目前有文献可查的信息定义已经超过200个[2](P207),例如,艾什比将信息定义为事物的变化、差异的表现[3](P340),维纳、茹科夫将信息定义为系统组织程度的量度[3](P342)等。我国著名信息学家钟义信则提出将信息区分为本体论、认识论等不同层次进行探讨,并概括出一个“全信息”概念,试图整合人们在信息定义问题上的不同意见[4](P49-52)。总之,不同的人在信息定义上有不同的考虑,他们从不同侧面说明了信息的某个特点,都有一定道理,当然也各有各的困难。对于这种局面,有人将信息概念形容为变色龙,并说随申农而出现的信息,不是给人们带来了令人欢欣的答案,而是带来了令人苦恼的问题[55](P332)。从上面这些引述中可见,信息的定义问题一直被人们广泛关注着,而且它已经成为信息论进一步发展的瓶颈问题之一。本文将主要谈一下我们在信息定义方面的一些思考。
二、解决问题的思路:不变量与信息
维纳说:“信息就是信息,不是物质也不是能量。不承认这一点的唯物论,在今天就不能存在下去。”[6](P133)这一论断强调了信息与物质、能量的区别,但无论如何,谁都无法否认,离开了物质和能量,信息将无所附着。所以,我们对信息定义的讨论,将与物质、质量、能量联系起来考虑,特别是我们对信息的认识,可以从对物质、质量、能量的认识过程中得到启发,即我们将从对四个概念的比较中来认识信息。
首先,我们简单回顾一下人类对物质、质量与能量的认识过程。“物质是标志客观实在的哲学范畴,这种客观实在是人通过感觉感知的,它不依赖于我们的感觉而存在,为我们的感觉所复写、摄影、反映。”[7](P89)物质的这一定义,是从哲学的角度对宇宙间变化着的万事万物所蕴涵的不变性的高度概括,我们称之为客观性。可以这样说,客观性作为物质存在的标志,是最高层次的不变性,它将体现在许多不同的方面,其中质量和能量的性质,就是最重要的表现。那么,人们是如何认识物质范畴之下的质量和能量的呢?
一切物质的属性,都要通过其自身的运动变化过程来认识,对质量、能量这两个最基本属性的认识充分体现了这一特点。
质量最初是作为物质多少的量度提出来的,并且与物体的重量联系、甚至混淆在一起。随着经典力学的进步,人们认识到,质量实际上是物质惯性大小的量度,并且与物质的引力也有关系。对质量性质认识最重要的进步,是人们发现了物质不灭定律:即物质只能从一种形式转变成另一种形式,并且在转变的过程中物质的总量保持不变。能量作为物质运动的一种量度,其意义只有在能量守恒与转化定律发现后才被认清。再进一步,爱因斯坦发现并提出了质能关系定律:ΔE=。它告诉我们,在物质的运动变化过程中,质量和能量彼此密切相关,而且这一公式实际上还意味着更高层次的守恒性或不变性。
信息同质量、能量一样,也是物质世界的主要属性之一,它甚至是比质量、能量更普遍、更重要的一个物理量。但申农信息论中的信息定义却依赖于过程和人的主观知识。在这一点上,信息与质量、能量之间表现出明显的不对称性。根据历史的经验,在科学研究中,人们为了建立描写客观世界状态的量,经常设法去掉那些主观的、与具体过程有关的部分。考虑到信息与质量、能量均可作为物质某种性质的物理量,模仿质量是惯性的量度、能量是运动的量度,我们提出:在物质运动变化过程中,不发生改变的那些性质,都可以定义为信息,信息就是对这一类物理量或这一类性质的最高概括或总称,如物质概念之于不同物体或水果之于苹果、香蕉等一样。
例如,人的性别在人的一生中是不会改变的,而身高、体重在不断变化,对人来讲,性别可以作为识别个体的一种信息。当然人的染色体、指纹等都可以当作识别个体的一种信息,像刑侦工作中经常运用的那样。其实,在生活中最常见的信息形式是语言。在声音的传播过程中,声音的能量会随距离的增加不断减少,而频率是不变的,我们可以把声音的频率作为一个声音(声波)中代表的具体信息。但需要注意的是,这里将频率当作信息并不涉及信息的内容或意义,信息的内容和意义实际上涉及到信息的编码和译码的问题,我们暂不讨论,有些研究已经将其区分为语法信息、语义信息、语用信息等[4](P51)。无论如何,声音频率作为语盲的基础,虽然是我们理解语言这种现在最常见的信息的基础,但它的形式却可以说是千变万化的,最明显的例子是不同地域、不同民族表达相同的信息内容时,使用着不同的语言即频率。与此相适应,作为最常见的信息形式之一的各种语言的书写符号也各不相同。所以,我们这里必须澄清的一点是,作为信息的不变量往往具有不同的形式,如何理解和处理这种“一”与“多”之间的关系呢?我们说,虽然信息不能脱离直接、具体的物质存在形式而存在,但信息并不等同于直接、具体的物质存在形式,信息不仅区别于具体的消息内容,也区别于信息的载体即信号。例如,一个信息,可以凭借不同的物质载体如光波、像片、石头、书等传递因而具有不同的表现形式,但不论哪种情景,信息并不将自身等同于表达它的物质载体本身;而且,尽管一个信息的具体表达形式是多种多样的,但它们在本质上总是以间接的甚至抽象的形式表达同一样东西——即本文所强调的不变量。一个不变量或不变的关系被表达为不同的形式,实际上可以被理解为不同的编码一译码方式——虽然各种码的形式不同,但它们满足的关系是相同的,我们也可称其为同构关系。或者反过来说,由于这种同构关系的存在,信息的表达及其传递才可能具有多样的形式,有人将“同样内容的信息可用不同性质的载体来载负”这一事实概括为信息“载体的可替换性[8](P27)。总之,像恩格斯指出的那样:“物质无非是各种物的总和,而这个概念就是从这一总和中抽象出来的”[9](P343),即实物必须有它的直接存在的种种方式和状态,但物质的客观实在性又不能仅仅停留在“各种物的总和”上。与此类似,信息概念也总是要超越它的具体内容、具体表达形式及其载体的。
其次,我们从不变量的角度考察申农的信息论可以发现,申农的信息论也离不开不变量。在无线电传输过程中,电码是不变的,电码作为信息,不仅在传输过程中不改变,而且在人们收到电码时,电码也不改变。只不过申农把自己的注意力全集中在电码对人的作用方面——去掉人们认识中的不确定性,而没有进一步挖掘在传输过程中用电码的不变性来定义信息,即只把编码、译码作为通讯模型中的两个环节来看待了。其实,通讯的本质即成功的通讯总是意味着在这一过程中会保持消息(意义)的不变性,申农的公式恰恰是对这种不变性传递程度的刻画;而从另一个流传甚广的信息的定义即“信息是负熵”、“是系统有序程度的量度”的角度来看,它与我们的定义也是一致的。因为我们还可以继续追问:什么是有序呢?对有序的一种基本的理解就是,有序意味着规律即不变性。可见,现在从不变量的角度来定义信息,是抓住了信息更深层的本质,是把过去人们长期没有意识到的东西明确了。因此,我们的定义应该是一种对信息本质的更深入和透彻的理解。
如果我们摆脱了实用信息论的束缚而确认了用不变量来定义信息这样的思路,那么如何针对各种不同的过程恰当选择和抽象出与信息定义相关的不变性,就是一个需要深入研究的问题了,下面谈谈我们在这方面的一些设想。
三、学科的基本特性、研究方向
1.信息的抽象与度量
首先是抽象。一切普遍性的概念,都包含有许多具体的表现形式。信息概念作为高度的科学抽象应是针对所有不变的物理性质(量)的,它是对所有不同物理量的不变性质的统一称谓,如上面谈到的,它的性质、理论与可以作为具体信息的物理量不在一个层次,这就如同质量概念与物质的具体形态、能量概念与某一运动过程中的具体能量形式不在一个层次一样,总之,正像能量等概念具有多种形式的表现一样,作为过程不变量抽象的信息,也具有很多具体的形式——事物的具体过程有千万种,在一个过程中物质的性质也有不同的表现,其中的一切不变量原则上都可以视为具体的信息。但是,面对一个特定的“信息传输”过程中众多可能存在的不变的物理量,哪些可以当作信息来对待呢?这一点在有固定的编码—译码传输程序中似乎不成问题。但在大多数情况下,它们对于信息的接收者来讲并不明显,或者说,寻找、确定某个过程中的不变性乃是一个谜——认识的本质就是猜谜!所以如何选取恰当的角度确定不变量并对它进行抽象,是定义一个具体过程的信息的前提。
其次是度量。如果我们确定了某个不变量进行考察,那么这一信息又如何被定量表达呢?这也许是实现我们这种定义方式的核心问题。
从能量的定量表达来看,关于动能的表达在牛顿力学建立的过程中,人们曾争论了数十年之久[10](P343);在能量的讨论中,对热能的认识有着特殊的意义。人们通过对传递热量、作功与过程的关系的分析,终于找到了仅与系统状态有关的能量,使能量从具体过程中脱离出来,成为描述对象客观状态的一个变量,并找出了能量、作功、传热三者之间的关系—热力学第一定律,这是能量守恒与转化定律的最早体现。有了科学上这些进步,才使能量作为运动的量度的本性被人们真正认识,即其量值可以通过运动的大小来量度。
我们关于信息度量的讨论能否从上面得到启发呢?
如上所述,过去申农主要是从去掉认识过程的不确定性的角度来度量信息大小的。因为信息作用很多,很多作用又与去掉不确定性无关,这就给信息度量及其推广带来很大困难。这种建立在信息与人的关系基础上的信息量不仅带有主观性,而且由于只局限于对人的作用方面而缩小了信息的范围。我们前面已经指出,信息的作用不是信息的性质,要认识信息必须将信息客观化,使信息成为事物客观状态的表征。不变量的客观性是没有问题的。在一个过程中,一个不变量不管你是否认识到它或认识多少,它都存在着,所以从不变量角度定义信息,可以满足信息的客观性的要求。可作为客观的不变量的定量化问题怎样解决呢?
让我们考虑申农的通讯模型。在这种简单典型的通讯过程中,显然密码的具体编码和译码形式有很多,但它们再变,都离不开一种固定的变换关系;或者说通讯的本质是不变量的传递。例如在日常生活中,一个特定的含义,可以用汉语、英语、法语等不同的语音形式和书写形式表达,这些语言之间又可以互译,互译的深层基础即不变性的存在。所以,不变性的本质是一种特定的关系或结构,同一关系的不同表达间可以相互变换,用数学的语言讲,它们之间是一种同构关系,并可以通过群论的数学工具来描述这种变换过程和关系。
那么,我们又将如何来定量表达这些不变的属性、关系、组织或结构呢?这里涉及到的是信息和它的表达形式的问题。过去曾有一些人出于对申农信息论的不满而思考过信息的形式化问题,并且指出:要想创立一门名副其实的信息论,我们还缺少一门必不可少的“形式热力学”,即我们缺的是一门关于形式的科学![5](P390)现在,当我们面临着同样的问题时,我们对此也有着非常深刻的体验和认同——这一任务无疑是非常艰巨的!
也许,对不变量的定量描述必须借助于其反面即从变化、不确定性的角度来达到——概率的本性恰恰如此。其次,不变量的性质与复杂程度也各不相同,对它的刻画可以考虑使用类似于熵或信息熵的概念等。目前,学术界在复杂性的定量化方面取得了一定的进展[11],这些成果可以给我们提供许多有价值的启发。另外,基于概率和熵的概念,在我们的定义与申农已建立起来的较有效的和相对成熟的定量化描述之间,也有可能架起一座沟通的桥梁。特别是前面我们已经指出,我们的新的定义与申农等原有的信息定义并不是完全对立的,其间存在许多深层的联系和一致性。如果真是这样,那将是令人振奋的事情,我们可以借鉴申农成熟的定量化成果。具体的工作,还有待于进一步的研究,但无论如何,我们可以预期的是,不变量的角度会导致对信息及其属性的重新解释,并使人们在通讯中追求的目标更加明确。下面我们简单讨论一个问题,以为示范。
2.信息的理论研究——守恒性等
以不变量为基础的信息,由于不变量的多样化而变得极为复杂。如何把握各种信息的性质以及它们之间的转化,并从具体性质归纳出一般普适的性质,是信息论这一研究方向繁重而艰巨的任务。从方法论上讲,只有对一个一个具体的问题研究清楚了,才能够总结归纳出更为普遍的东西。因此这方面的研究应该逐步开展。这里我们仅讨论一下信息不守恒的问题。
如果质量、能量和信息都是物质的基本属性,质量和能量都是守恒的,那么信息是否守恒呢?
关于这一问题,以申农的信息论为基础,人们早就探讨过。由于信宿的多体化,即一个传输过程中的信息可以被不同的信宿接收,并具有不同的作用和效果,因此信息量的大小是不能确定的。
申农信息论为避免不确定性,又提出信息熵概念。信息熵作为信源客观状态的一种刻画,具有本体论意义;但是它最终又必须在认识论意义上来讨论,由此产生了所谓信息不守恒的问题,即在一个信宿感知到信息以后,由于信宿没有改变信源的性质,信源所具有的信息仍然不变,而且这个信息还可以被多个信宿所感知,此即信息内容的“可共享性”。从这一点来看,信息量是明显不守恒的,它不因被信宿所感受而减少,也与如何产生没有关系。信息的这一基本特征,使我们能进行信息复制、信息加工等应用。另外信息的内容还具有可组合、畸变和创新性等,因此,信息的守恒性也就无从谈起。
问题是,信息的这种意义的守恒与否与物质、能量的守恒性的意义完全不同,信息可被重复利用等,不应从守恒不守恒的角度来解释,这就像某个科学定律如F=ma被许多人掌握、利用与它的所谓“守恒性”无关一样。从不变量的角度看,信息作为不变量与F=ma在本质上是相同的,它可以被不同的主体认识与信息的守恒性不是一个层次的问题,也与物质或能量的守恒性不是一个层次的问题。如果非要谈信息的守恒问题,类比于质量、能量守恒与转化定律,信息的守恒与转化,应着眼于信息的不同形式之间的转化联系,应强调一个信息过程中信息量满足的变化规律。从不变量的角度考虑信息的守恒性问题,我们认为它的含义应指信息在不同表达形式间转换时应遵循的规律即同构关系,或者也可以说,成功的信息传递过程,应是对不变量本身的完全的传达,此即信息守恒,也就是说,信息的守恒性也可以作为一个通讯过程效率的标准来看待。
从上面两种不同解释的对比中,我们已为新的理论研究方向的合理性又找到了一个新的证据。
四、结语
尽管信息从定义、度量到性质,一直未完全弄清楚,但它的应用已十分广泛,现在几乎没有一个学科前沿的发展不涉及到信息,或者说经典科学所关注的能量等因素的作用正在减弱,人们对客观事物的认识目前急需从信息角度来加强。如在化学反应、生物生长繁殖的研究中,原来的化合分解反应、光合作用、能量守恒等的理论研究,多数已不再成为这些学科中的焦点问题,现在人们更关心诸如化学大分子的结构,特种酶的催化作用等问题,特别是生物信息论在人们完成了基因图谱,进而讨论蛋白质组学,制作各类蛋白质图谱的时候,迫切需要对信息有进一步的了解。总之在21世纪,信息将成为一个更加基本的概念,在不同学科中得到广泛应用,这就如同19、20世纪能量概念所发挥的作用一样。这样的形势,决定了我们必须尽快建立统一而规范的信息科学。我们在这里只是根据自己的理解提出了一个定义,这将是研究的第一步。我们期待着学术界对它的讨论和批评,以便提出更准确的信息概念,从而推动信息科学研究的发展。
[收稿日期]2003-05-13