信息科技基础理论的分析与构建_科技论文

信息科技基础理论的分析建构,本文主要内容关键词为:基础理论论文,科技论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

现代文明以科技文明为主流,科技文明则以分析化、精确化为特征。这种文明特征“映射”到科学研究中的标志之一是成熟的学科都具有分析性研究分支,如分析力学之于物理学,分析化学之于化学,乃至经济分析之于经济学等,因而为使信息科技获得一个强有力的理论支点,探讨分析信息学势在必行,这是使信息科技成为现代精密科学的必由之路,故此,建立信息科技分析理论或分析信息学具有重要的学术价值和理论意义,本文尝试如下。

1 定性分析

参考钟义信基于一般信息论建立的信息科学理论框架[1], 可以将信息从产生到利用的各个阶段分解整合为以下环节:

其中信息处理1和信息处理2两环节的差异在于:信息处理1 主要是对信息进行编辑、变换、压缩、编码等技术处理使之便于传播,而信息处理2则主要是对信息进行获取、还原(反变换)、解压、解码、 存贮与检索等技术处理使之便于利用。信息吸收并再生则构成一般信息系统的反馈环节。值得提醒注意的是:信息不增律[2]仅对信息传播(C)环节有效。

每个环节所关注的问题各有侧重:在信息生产(A)环节[3],关键是要保证生产信息的数量和质量;在信息处理1(B)环节,重点是要研究信息浓缩和信息传播的预处理;在信息传播(C)环节, 关键是要保证传播信息不失真;在信息处理2(D)环节,重点是要解决信息还原和使信息在利用前增殖;在信息利用(E)环节, 主要是要提高信息的利用率和效用;在信息吸收并再生(F)环节[4],重点则应放在提高信息的知识转化率方面。

对于客观上已经存在的信息科技三大分支[5], 以上模型可以具体还原。例如,对于计算机数字信息系统来说,一个有代表性的具体模型是:

而对通讯波谱信息系统而言,则直接化为通常信息论所用的常规电讯模型:

对图书情报(文献)信息系统来说,一个典型实例如下:

在过去的实际研究中,每个具体信息系统可能专注于某些特殊环节而忽视了一般信息系统的整体规律性,如计算机数字信息系统较重视数据压缩标准和数字信息网络技术研究,而对信息源的质量控制、吸收再造等关注不够;通讯波谱信息系统较关注编码、解码及信息传输,而轻视信源、信宿对整个信息系统的作用;图书情报信息系统则较专注于信息处理2环节(分类编目、存贮与检索), 而对整体信息系统各环节的协同作用重视不足。

就目前已有研究而言,每个具体信息科技分支都有自己研究较成熟的环节,如计算机数字信息科技(国外大学和研究生院中设置的相应专业为Computer & Information Science)在A—B—C环节较成熟, 信息生产已实现计算机化,数字信息网络化传送技术正在飞速发展;通讯波谱信息科技( 国外大学和研究生院中设置的相应专业为 InformationScience & Telecommunication)在B—C—D环节较成熟,经典信息论和通讯技术在很大程度上是研究信息编码、传输的产物;图书情报信息科技(国外大学和研究生院中设置的相应专业为Library & Information Science)在C—D—E环节较成熟,分类、编目、 信息存贮与检索都是信息处理2的内容。 今后的发展可以作如下预期:计算机数字信息科技应向D—E—F扩展, 尤其应加强数字信息利用环节的研究和再生信息质量的控制;通讯波谱信息科技应向E—F—A扩展, 尤其应加强与数字化技术的接轨;图书情报信息科技应向F—A—B扩展, 尤其应加强信息增殖(文摘索引、数据库生产等属此)研究。

2 定量分析

用I[,A]、I[,B]、I[,C]、I[,D]、I[,E]、I[,F] 分别表示上述A、B、C、D、E、F各环节的信息量,则相应信息系统定量信息流图为:

设A—B环节的信息压缩率为α,B—C—D环节的信息损失率为β,D—E环节的信息增殖率为γ,则有:

I[,E]=γI[,D]=γβI[,C]=γβI[,B]=γβαI[,A](1)

(1)式决定了各环节信息量之间的线性量值关系,由于C环节以B环节为起点,故可取I[,B]=I[,C],B—C—D 环节因信息不增律的作用使信息不会增加,损失的信息集中在D环节表现出来,故有I[,D]=βI[,C]。

真正决定信息分布和信息系统整体特征的关键在于信息传播(C)环节,根据文献[6]讨论,I[,A]即为系统初始(输入)信息量,I[,E]即为系统输出信息量,I[,C]应符合包括载波模式、扩散模式和接触模式在内的信息传播方程组:

这里的技术处理是将I[,A]作为信源函数并与信源信息量等同起来。设I=I[,C]表示系统动态信息量,由(1)知I[,A]=1/αI,于是(2)式成为:

其中c为波速,k为媒体的信息扩散率,b为媒体常数, a为接触系数,t为时间,信息空间除物理空间外,也包括由学科、语种、地域等“空间”型变量[7]构成的信息空间。(3)式应为普遍意义的定量信息分析方程组,即信息科技基础理论的定量分析模型。

在当代信息科技中,起主导作用的是基于Internet/Intranet和各类有线、无线通讯系统构成的信息网络,信息的接触传播微不足道,故基本信息分析方程组由下列二式构成:

主要约束条件(初始条件和边界条件)为:

其中C为信道容量。通过I=I[,C],i=I[,A], 定量方程和定性模型在概念上得到统一。

3

基本信息分析方程组的求解及其对文献计量规律的解释

一门学科的分析模型应能逻辑化、体系化地推导和说明本学科已有经验规律的动力机理。信息科技中已有一些经验规律,如文献计量学中的文献增长与老化律等等[8], 下面就通过在特定约束条件下求解基本信息分析方程组来说明这些规律的动力机理,以体现分析信息学的功用。

当只考虑信息随时间变化规律时,用(1/c[2]乘以(4 )式)-(1/k乘以(5)式),消去空间变量并写成常微分方程形式为:

其中C[,1]和C[,2]为两积分常数。

(9)式表明:当前一指数项占主导地位时,I随时间呈指数上升,此即信息增长的Price曲线的理论机制; 而当后一指数项占主导地位且

时,I随时间呈指数下降, 此即信息老化的负指数曲线的理论机制(当然,信息老化主要是质量问题而非数量问题,这里体现的只是动力机制),一般情况下,I随时间变化的规律由(9)式中两指数项共同描述,这也就是为什么Price 曲线和负指数曲线都不能全面表述信息随时间变化规律的根本原因。

一般情况下,(10)式是类似定态Schrodinger 方程的二阶偏微分方程,可以根据实际情况和约束条件用分离变量法或积分变换法等方法求解,其解一般具有较复杂的形式,Bradford定律、Lotka定律、Zipf定律等文献“空间”分布经验规律的共同内在机理就包括在其解中,这也就是Sichel提出的GIGP模型[9] 等复杂形式的文献计量分布可能具有的解析表达。

当考察信息在动态时空中的一般分布时,情况更加复杂,只能用特定约束条件下的偏微分方程组(3)式描述, 这也就是表述一般信息系统动力机理的分析方法。Brookes 等国外情报学家曾为我们指出过许多有价值的理论建构方向[10~13],但从未能真正系统解释过文献计量规律的动力机制,这里从求解信息分析方程组得出的结论应该说具有一定启发意义。

4 信息价值分析

信息的真正价值在于信息质量的高低而非绝对信息数量的多少,这是信息异于其他物理量的特点之一,为分析信息质量,引入信息的价值系统V∈[0,1],设有价值信息量为J,令

J=I[V] (11)

当V=1时,J=1,所有信息都是有价值的;而当V=0时,J=1,可以认为只是告诉了有信息存在这一消息;一般情况下,V 相当于价值百分比系数,V越大表明有效信息越多。传递着的信息是I,而真正有用的只是J。(I-J)即为信息冗余。将(11)式代入(9)式,可以得到有价值信息的时间分布式。

由于引入了价值系数,Rescher模型和Rossean定律(重要文献是文献总数的平方根)可以解释如下:

VJ

________________

常规信息:V=1

J=1

有用信息:V=3/4J=I[,3/4]

重要信息:V=1/2J=I[,1/2]

非常重要信息:V=1/4J=I[,1/4]

最重要信息: V=0

J=1nI(定义)

信息与一般物理量的重要差异就是并非每单位信息都具有等同的价值,有的信息量虽小,意义却重要;有的信息量极大,内容却冗余无用,甚至造成“信息污染”。这就是信息质量问题,必须进行专门的信息价值分析。

文献浓缩律与冗余律正是信息质量问题的一种表现,老化律也与质量有关,信息价值分析的关键问题包括如何判定信息质量优劣和如何测度信息价值,与此密切相关的是核心文献问题。

V∈[0,1],V越大,表明所测信息集合中内容独特之信息量越多,创新越多,信息质量越高。如果从一个固定时间断面评价信息,可以认为J不是时间的函数,而仅与信息空间(x)有关,即:

J=J(x)(12)

这将导致一种在信息空间设置“过滤器”以获得重要信息的方法:

学科专业、语种、信息载体形态等特征均可作为信息价值分析中“筛选”核心信息的“过滤器”,例如,文史哲经典文献具有不可替代性,它们已成为人类文化基质,总是处于核心地位;科技经典则因时过境迁而老化,一般不会永远具有“核心”意义;对于不懂某语种的读者或用户来说,该语种信息即使重要也不具有核心地位,故可“筛去”;而载体形态“过滤器”则可立即“滤除”非所需载体上的信息;等等。这也是一种信息选择方法论。

这种利用信息“空间过滤器”而获取有价值核心信息的方法对图书情报信息处理尤为有用,也可供计算机数字信息处理、电讯波谱信息处理参考。通过适当的专业技术或限制方法筛滤出核心信息可方便地获得重要信息,尤其是在定量方法难以奏效时,值得重视这种方法的“最省力”效用,有时复杂的方法、高昂的代价不一定能得到理想的结果。

5 信息与知识的关系

影响信息吸收并再生环节的重要因素是信息与知识的关系问题,即究竟有多少信息转化成了知识并对信息的再生起了促进作用。按照Brookes的理论[10,11],新知识(NK)由已有知识(K )加上新增信息(dI)构成,而从逻辑上我们只能说新知识(NK)由已有知识(K )加上新增知识(dK)构成:

NK=K+dK (13)

故现有理论留下的漏洞是没有解决新增知识(dK)与新增信息(dI)的关系问题。

从概念上讲,有价值的信息才会使知识增加,故可以引入一个合理假说:单位信息增量产生的单位知识增量应与有价值信息量(有效信息量)成正比,即:

其中δ是信息的知识转化系数。将(14)式写成积分形式得:

(15)式表明知识是有效信息的积分。此时K的计量单位与I的计量单位一致。

实际上,信息与知识的区别是明显的,可以举出通常是知识而不是信息的例子,如:9×9=81;地球绕日运行。也可以举出通常是信息而不是知识的例子,如:下雨了;涨价了。此外,在表达形式上,知识常用判断句、规则(若…则…,if…then)语句和语义网络、公式等表达,而信息常用存在句、陈述句、图表、数据等表达;在实质内容上,知识一般具有内在结构,而信息则主要体现在具有功能上。这种区别类似人工智能和专家系统设计中知识库与数据库(信息库)的区别。

但信息与知识又是相互关联的,要理解吸收信息必需一定的知识基础,如果不知道“价格上涨”等的含义,当然无从理解“涨价了”这一信息。同时,知识一般不成为信息,尤其是已成为人类公有知识的常识,但在特定情况下,知识也可能转化为信息,如约定以“三三得九”暗示成功,则“三三得九”就传达了“成功”这一信息。从信息积累中找出规律性,可以构成知识,正是有效信息转化成了知识并促进了信息的再生。

6 信息的物理本质和哲学抽象

按照信息论创始人C.E.Shannon在其经典论著[14] 中的原始定义:“信息是用来消除不确定性的东西”;而控制论创始人N.Wienner 在其《人与控制》中定义为:“信息就是信息,不是物质,也不是能量”,在其《人有人的用处》中又有一个经典定义:“信息是人和外界相互作用过程中互相交换的内容和名称”。现在,不仅信息科技各分支可以对信息取不同定义,从物理学、哲学等角度也可以各有其说,在《中国大百科全书》中就可见一斑:《自动控制与系统工程》卷中定义信息为“符号、信号或消息所包含的内容,用来消除对客观事物认识的不确定性”,而《新闻出版》卷中则定义信息为“事物运动状态的陈述,物与物、物与人、人与人之间的传输特征”,最后还是《哲学》卷归纳得较为完善:“关于信息概念,在科学界尚无统一的、精确的定性定义。在哲学界…有4种观点:(1)信息是精神实体的特征;(2 )信息是物质的普遍属性;(3)信息是与物质和精神并列的第三种存在;(4)信息是物质载体与意识成分的特殊结合。”

在三大信息科技领域实践中,信息都是物理实在,都是可以测定、可以操作的物理量,因此,信息的物理实在性不容置疑,从物质系统整体考虑,将信息定义为物质系统的序[15]不会有太大问题,但这种序又包括结构和过程的话就太宽泛了,而进一步推论时空即信息和信息即能量则成谬误,在时空中实实在在流动着的信息怎么成了时空本身呢?只能说信息是与物质和能量并列的物理量,其具体形式可以多种多样,就象物质有气态、液态、固态,能量有动能、势能等等区分一样,数字信息、波谱信息和符号信息也是最常见的信息形态,此外,还有自然信息、社会信息、生物遗传信息、工程信息、医药信息、经济信息、宇宙信息等等。至于信息与物质和能量之间是否存在E=mc[2]似的普遍关系,则有待研究。各种信息形态存在于时空中,信息本身具有结构和过程特征,这些特征提供了建构分析信息学的可能。因而信息的物理定义可以是:信息是可以改变已有知识状态的数字或符号(包括语言、文字、数据、 编码、信号、符号及其组合)。与Shannon的信息概念定义不同,这里的信息物理定义把信息定义为特定的抽象事物(与知识过程相关联的数字或符号)。要进一步从各种信息形态中抽象出信息的一般哲学观念并非易事,只能参考物质是标志客观实在的哲学范畴,在哲学概念上将信息定义为“信息是标志客观知识的哲学范畴”。信息只有与物质和能量密切结合才能对客观物质和主观精神发挥能动作用。

收稿日期:1998年4月28日

标签:;  ;  ;  

信息科技基础理论的分析与构建_科技论文
下载Doc文档

猜你喜欢