信息单元再认识,本文主要内容关键词为:再认论文,单元论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言 自现代图书馆学、情报学问世以来,对于什么是信息,尽管学科内部始终存在分歧,但这两个学科以及它们合并而成的图书馆情报学,却相对一致地认为,信息是本学科研究活动和实践活动的对象,或至少同数据、知识、文献并列为其活动对象。正如1968年美国情报学学会在定义情报学时所明确表达的:“‘情报学’的知识体系关乎信息的生产、收集、组织、贮存、检索、解释、传递、转化和利用。”[1] 从理论上说,图书馆情报学既然将信息确定为学科和职业活动的对象,便应该明确信息的单元是什么。这不仅是因为我们对自身活动对象的认知本应包含知其定义(内涵和外延)、明其属性、悉其单元(如果有的话),而且因为凡收集、整理、贮存、提供等操作活动,必须按特定单元展开,这就如同拍卖行对古董的收集、整理、贮存和拍卖要按“件”进行一样。 然而,对于信息的单元是什么,如何划分,是否存在大小不等的单元,什么情境适用什么单元等问题,图书馆学、情报学以及后来的图书馆情报学都缺少系统探讨。曾经有过的零星讨论大都基于对信息进行组织整理及查询的需要,主要考虑一篇文献涵盖哪些知识单元(如概念、事实、思想)以及如何揭示这些知识单元。这事实上是把信息单元的分解问题转化成了信息主题的分析问题,因而未能有效解答有关信息单元的上述问题。 图书馆信息职业之所以能够在未知信息单元的情况下,完成对信息的收集、组织、整理、保管、提供等操作活动,这得益于印刷时代实体出版物对信息的天然分割。由于印刷时代的大部分信息都被打包成图书、期刊、研究报告等物理单位,因而,即使信息单元是未知的,图书馆信息职业依然可以按上述物理单位开展信息收集、组织、整理、保管、提供等活动,因而在很多情境下可以暂时搁置对信息单元的追问。然而,在互联网时代,信息载体的物理单位在很多时候已经淡出人们的视野,它对信息单元的替代性正在减弱。这在关联数据中表现得最为明显。关联数据技术通过清晰界定万维网上所有“事物”(包括人、事、物、地点、概念等)的属性和关系,使计算机可以自动“辨识”网上事物,推理它们之间的关系,从而在特定事物的不同信息之间建立起关联。这意味着,关联数据支持的关联可以发生在有关特定事物的任何“信息块”(information chunks)之间,而不是文献或网页之间。这样一来,一个值得思考的问题就是:怎样的“信息块”值得或适合互联?这类问题所凸显的,正是信息单元的重要性。 本文以于良芝2015年对信息概念的再定义[2]为基础,面向信息概念认知、信息组织整理、信息查询获取等需要,考察划分信息单元的可能性及划分方法。在前述的信息概念再定义中,作者从方法论的角度对以往信息定义进行了评述,并选择争议相对较小的“数据”概念作为起点,通过逻辑推理,从数据概念逐步推演出了信息、知识、作品、文献等其他概念。本文就是针对如此定义的信息,寻求其可能的单元。 1 从奥特勒、凯撒到关联数据:信息单元划分回顾 根据美国学者窦撒(Thomas M.Dousa)的回顾,划分信息单元的活动可以追溯到20世纪初的比利时文献学家奥特勒(Paul Otlet)和专门馆员凯撒(Julius Otto Kaiser)[3]。由文献学家和专门馆员率先发起对信息单元的关注并不奇怪。20世纪初的文献学(Documentation)致力于保障科学技术信息的查询和获取,专门馆员则致力于保障特定研究或实践领域的信息查询与获取,他们都比普通图书馆员更注重对信息的深层揭示,因而更注重对图书和论文的分析和分解。奥特勒和凯撒就认为,在信息组织整理过程中,图书可以首先分解为章节(chapters),然后分解为更细小的概念、事实、思想等知识单元;在信息检索系统中,每个具体的概念、事实和思想都应有独立的记录,以便用户可以直接查到它们。20世纪初最先进的信息检索系统是卡片索引,一条记录就是一张卡片。因此,奥特勒和凯撒倡导的信息组织就是要在知识单元(概念、事实、思想),相关表述(章节或段落),索引卡片之间建立对应关系。奥特勒将这样的信息组织整理原则称为专题原则(monographic principles)。 凯撒以他供职的商业管理领域为例,操作性地显示了信息组织整理如何揭示小于图书的信息单元。他认为商业管理领域的事实通常包括三个要素:具体事物(concrete)、国家(country)、过程(process)。将代表这三类要素的术语(如“纸张”“英国”“营销”)组合起来,就形成一条事实陈述。为了辅助信息的直接获取,凯撒还将这条陈述对应的图书片段加以概述,形成提要。将陈述、提要及其所在文献的书目信息一起记录在卡片上,就形成了一个信息单元的记录[4]。 奥特勒和凯撒的信息单元思想因此可以归纳如下:①在图书之下存在不同级别的信息单元,首先是章节,然后是概念、事实和思想,这就是说,信息单元至少包括图书、章节、概念和事实以及思想三个级别,其中“章节”按文本的原有结构进行划分,而“概念、事实、思想”则按信息所呈现的意义进行划分,即每个概念、事实、思想各自对应着一个信息单元;②为保障信息查询而开展的信息组织整理活动,需要揭示到最后一级信息单元。 在奥特勒和凯撒之后,还出现了若干有关信息单元的零星讨论。这些讨论也都围绕“信息组织整理工作应以怎样的‘信息块’作为描述单元”而展开。窦撒总结了在此过程中形成的几种不同主张:①以一份完整的文献为单元;②以文本结构划分的章节和段落为单元;③以命题的陈述为单元。每种观点都被指存在局限:以文献作为单元被认为过于粗略,不能支持信息的深度揭示;以章节和段落为单元被认为过度依赖作者对文本的分割,不能保证文本单元与知识单元相吻合;以命题陈述作为单元被认为容易导致陈述脱离语境[4]。 与国外学者讨论的信息单元相类似,近年来,我国学者提出了“知识元”(knowledge element)的概念。结合不同学者[5-7]所作的界定,知识元至少拥有如下属性:①最小,知识元不可再分割成更小的单位;②独立,知识元可以不依赖于其他因素而相对完整地表达知识;③可组织,知识元可以通过关联关系组织成更高层次的知识单位。知识元概念是作为知识组织和知识管理的单位被提出和使用的,现有成果中给出的知识元例子包括:公理、公式、定义、推论、事实、事件、数表等。另外,中文“知识单元”(knowledge unit)是与国外的“信息单元”类似的另外一个概念,知识单元也是用来作为知识计量、组织和管理的单位被使用,而且往往被视为文献单元的高级阶段。文庭孝等人[8-9]的研究表明,知识单元同样具备独立和可组织等属性,其实例包括文献、文献片断、文献知识点、概念、公式、章节等。此外,国内有学者[10-11]试图系统梳理文献单元、信息单元和知识单元的关系,将信息单元视为文献单元和知识单元的中间形态,其具体表现为主题词、关键词、摘要等。 尽管这些讨论没有针对信息单元的划分达成共识,但自20世纪中叶以来,很多信息组织整理技术都隐含地涉及信息单元的划分。20世纪50~80年代流行的印刷式期刊论文索引,如链式索引、保持上下文索引等,可以视作这类技术之一。这些索引的共同特点是把一篇文献的内容表达为若干概念串,然后依次为每个概念形成一条记录;每条记录都以其中一个概念为主要概念(检索点),以其他概念为语境,另附其所在文献的完整书目信息。假如一篇论文涉及4个概念,这篇论文在印刷式索引中就会被描述4次,分别按字顺排列在每个概念之下,以便人们从每个概念入手都能查询到这篇文献。这样的信息组织技术虽然没有突出信息单元概念,但一个主题概念对应一条记录的做法却是奥特勒专题原则的体现。20世纪90年代出现的超文本(hypertext)技术再次凸显了对信息分割的需要。超文本技术是在原本只能线性排列的“信息部件”(items)中增加可跳转链接的技术,可以辅助用户在阅读信息时突破线性阅读顺序,非线性地从一个“信息部件”跳转到另一个“信息部件”。因此,建立超文本数据库的重要环节就是将信息分割为合适的“部件”,这个过程被称为模块化(modulization)[12]。本世纪出现的关联数据技术同样隐含了信息分割过程,它利用URI技术(对互联网上的“事物”进行命名的技术)、本体(ontology)技术(对一个领域的概念及其语义关系进行定义的技术)和RDF技术(对互联网上的“事物”及其关系进行描述的句法规则),在有关相同事物的网上“信息块”之间建立起关联。信息块,而不是文献或网页,是关联数据链接的对象。 由此可见,从奥特勒和凯撒到关联数据,图书馆情报学已对信息单元进行划分进行了种种尝试,分别把信息单元称作“信息单元”、信息部件、信息块、文本块、知识元、知识单元等。不同尝试之间最显著的传承就是把信息单元的划分问题视作信息组织整理中的主题分析问题,而不是把它看成对信息这一事物加深认识并实施不同操作的一般问题。因此,信息单元的划分大都基于信息组织的实际需要,很少考虑信息的要素与属性,也很少与信息概念的界定同步进行。另外一个显著的传承就是根据信息表达的意义(概念、事实、思想等)对信息进行划分,从而将信息单元的划分问题视同知识单元的分解问题。 这样的信息单元划分已经暴露出若干局限性。首先,它们考虑实际需要多于理论与逻辑的严谨。奥特勒和凯撒都提到三个层次的单元:①图书;②图书章节;③概念、事实、思想。但这三层单元显然指向不同事物:图书指向物理实体,章节指向书中的表述,概念、事实和思想指向表述的内容(即意义)。这不仅显示了其划分标准的逻辑混乱,而且未解究竟什么是“信息单元”的疑问。其次,已有划分考虑知识单元的分解多于信息本身的划分,因而未能清晰界定这类单元在文献中的边界(例如,同一思想在文本中的分散讨论以及同一事实在文本和图表中的重复呈现,应该视作同一单元还是不同单元?)。再次,现有信息单元划分主要针对信息组织整理的需要,较少考虑其他活动(如收集、贮存、保管、陈列展示、提供等)的需要,因而不能确定由此形成的信息单元是否适用于其他活动。总之,相对于信息在图书馆情报学中的地位以及图书馆信息职业的活动需要而言,我们对信息单元的研究严重滞后。 “信息单元”研究的滞后至少与下列背景因素相关。一是印刷品的物理单元对信息单元的替代性缓解了探寻信息单元的紧迫感;二是信息概念的分歧模糊了单元分割的对象。信息单元本质上是对信息的分割,而要做到这一点,我们必须首先明确信息是什么,由什么构成。然而,对于上述问题,图书馆情报学从未达成共识。Zins通过德尔菲法收集的信息定义几乎是因人而异[13]。于良芝根据已有定义的分歧点,将其归纳为12类,其中有些定义将信息界定为客观存在,有些将其界定为主观存在;有些将信息视为数据的转化(如有意义的数据),有些将其视为知识的转化(表达的知识)[2]。上述信息概念的分歧不仅让“信息单元”的划分无所适从,有些甚至从根本上排除了对信息单元进行划分的可能性。 如果我们认同信息是图书馆信息职业活动的对象,认同信息收集、加工、贮存、提供等活动必须按单元进行,同时认同图书、期刊等物理单元在数字化时代不再适用于所有职业活动,那么,我们确实需要重新踏上奥特勒、凯撒的征程,尝试对信息的单元进行划分,而要做到这一点,我们就必须首先确认信息究竟是什么。 2 信息再定义作为信息单元划分的基础 如上所述,要对信息进行划分,我们首先需要知道划分的对象究竟是一种怎样的存在,即明确信息究竟是什么,这是对信息单元进行划分的前提。然而,截至目前,即使在图书馆情报学界,对信息概念的界定依然是众说纷纭。这意味着,在对信息单元进行划分时,我们首先需要从已知的信息概念中选择一种定义或为之形成新的定义。不管怎样,定义信息和划分信息单元应该被视作同一问题的两个方面。 本文以于良芝对信息及相关概念的重新定义为基础,探讨如何对如此定义的信息进行单元划分。选择这一定义的首要原因是,这一定义已经考虑了信息作为职业活动对象这一特性,蕴含了信息的可操作性,使信息具有了单元划分的可能性。事实上,于良芝在定义信息概念的同时已经预见了对信息单元进行划分的前景,并将信息单元的划分视作未来研究的目标[2]。选择这一定义作为信息单元划分基础的第二个原因是,该定义将信息与其他学科基础概念(数据、知识、作品、文献)参照界定,形成了逻辑关系清晰的概念链(界定方式如下所述)。因此,当我们以这一定义为基础考虑信息单元的划分时,我们事实上是以一组概念为基础,这有望使我们避免划分过程中因概念不清而出现的逻辑不一致性。 于良芝选取“数据”概念为起点,运用推理方法完成信息、知识、作品、文献等系列概念的界定过程。选择数据作为推理起点主要由于以下原因:首先,在上述系列概念中,数据的争议相对较小,人们至少在以下两点上已近达成共识:①数据是可感的(即可被人类感官看见、听见或触摸),在绝大多数时候还是有形的,表现为数字、文字、图像等形态;②数据用于表达意义,以满足人类分享意义、交流思想的内在需求。其次,在数据、信息、知识、文献等概念所代表的事物链中,数据通常被认为是最原始的;对数据进行某种意义的加工,才会产生其他概念所代表的事物。因而,数据概念也是上述概念链中最基础的概念;要理解其他概念,需要首先理解数据概念。 基于本学科及其他学科对数据概念的现有阐释,于良芝将数据定义为尚没有被赋予意义(meaning)但可以被判读的数字、文字、信号、图像、声音等,或虽然被赋予了意义,但可以与意义相剥离的数字、文字、信号、图像、声音等。前者如街头监控录像机拍摄的录像,后者如科学家用来表达科学发现的文字、数字或诗人用来表达思想和情感的诗句等。街头录像本身没有特别的意义,但一旦被交通管理部门、治安部门加以解释,就会被赋予特定意义;与此相比,科学论文的文字和图表本来就是科学家为了表达特定知识而编辑生成的,因而是携意而生的数据。不管是先于意义而在的数据还是携义而生的数据,其基本功能都是充当意义的外壳。 如前所述,数据之所以存在,是因为人类具有表达和交流意义的内在需求。由于意义本身是抽象的,因此必须借助数据加以表达,才能进入交流渠道。数据一旦和意义结合,就形成一种新的结合物。于良芝将这种结合物定义为信息,故有:信息=数据+意义。 人类通过数据表达和交流的意义千差万别,但可以区分出一些典型的意义类别,这包括:消息、事实、知识、故事、猜测等。例如,以下三组文字所表达的意义分别属于事实、消息和知识:①“2015年11月底北京空气中的PM 2.5持续多日超过500微克”;②“北京明天有雾霾”;③“雾霾产生于人类社会活动排放的细颗粒物(PM 2.5),当细颗粒物排放量超过大气循环能力和承载度,细颗粒物浓度就会持续聚积,此时如果遇到静稳天气,聚积得不到逆转,其浓度就会达到一定程度,从而形成雾霾”。知识是科学共同体内部最经常交流的意义,是意义的一个类别。知识和数据结合,构成信息的一个类别,即科学技术信息。 比较正式的消息通报(如新闻媒体的消息通报)、系统的事实报道(如统计机构公布的事实)、知识发现的表达、真实或虚构故事的叙述等都需要足够的智力投入。这类融入了一定智力投入的意义表达便是图书馆情报学所说的作品(work)。由于作品同样是数据和意义的结合,因而,作品属于信息的范畴。但作为智力活动的结果,它只是信息的一种。其外延比信息狭窄,但比科学技术信息宽泛。 特定信息,特别是作品类智力成果,若要在广泛的时空实现交流,就必须记录在一定的实物载体(纸张、磁盘等)上。信息与实物载体的结合物便是文献,故有:文献=信息+载体,或文献=数据+意义+载体。 上述概念的含义及其所指代事物的特征如表1所示。重新确认信息股_情报学论文
重新确认信息股_情报学论文
下载Doc文档