信息集成领域分析与研究_信息集成论文

信息集成的领域分析研究,本文主要内容关键词为:分析研究论文,领域论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G253 [文献标识码]A [文章编号]1003-2797(2007)03-0005-05

领域分析(Domain Analysis)方法是上世纪90年代中期由著名情报学者、丹麦皇家图书情报学院Hjrland和Albrechtsen提出的,经过以Hjrland为首的众多学者十余年来不懈地理论丰富和完善,现已初步形成了情报学中的领域分析范式,并成为情报学中重要的元理论之一。我国情报学者在领域分析研究伊始就敏锐地注意到了当时这一国际情报学界的新趋势,并积极地将其引入国内。文献[1,2] 就是其中的典型代表。在网络化迅速发展的今天,情报学非常有必要继续深入地利用领域分析方法对学科中出现的问题予以分析。作为情报学中的一个重要学科,信息集成是信息资源的开发利用的重要形式,它有利于解决由信息资源建设缺乏整体规划而带来的资源分布不均衡、“信息孤岛”现象严重等问题,对于提高信息资源的利用率、实现信息资源最大限度上的共享和增值有着很强的现实意义[3]。本文拟从领域分析的角度,就其中内容集成的问题做初步的探讨。

1 领域分析视角下信息集成中出现的问题

信息资源的内容集成主要涉及两个层次上的问题:一是信息内容本身的集成,包括学科间和学科内资源的集成;二是对信息资源的主题检索点集合(Subject Access Points SAPs)的集成。在集成之前,各种分散的信息资源均得到了不同程度的知识加工与组织,情报人员通过主题分析等多个步骤对资源进行描述,赋予资源中的信息内容单元(如科技文献)以一定的标识,形成了标识的集合,例如元数据、主题词、报道型和指示型文摘等,这些标识集合与原有的信息检索点(如作者、标题、文献类型)等相结合就构成了主题检索点集合,对其集成则构成了资源集成的第二个层次。集成的第一层次与第二层次间是相互对应的,第二层次的集成以第一层次集成为资源基础,第一层次的集成则以第二层次集成作为与用户交互的中介。从领域分析的角度看,这两个层次的集成上都有可能出现理论上的问题与困境,具体表现在以下两方面。

1.1 信息集成第一层次中的问题

领域分析理论认为,情报学研究的基本分析单元应是领域(Domain)。领域又称知识领域,它是劳动社会分工中的一部分,即话语社群(Discourse Community)。在不同的领域中,话语社群的工作客体和社会角色所反映的知识组织、结构、合作模式、语言和交流形式、信息系统和相关性判定标准都有着重大的差异[4]。在一个特定的话语社群中所使用文献的类型、出版物的结构、文献中的术语均是对该社群特定需求和特定情境的一种适应性的反映[5]。Mai进一步指出,学科(Disciplines)和专业(Specialties)并不足以构成领域,领域是分享共同目标的一个群体,它的边界和构成成分是由行动、行动的情境以及范式和研究前沿的限制来共同决定的,领域的理念将形式化结构与工作层次的视角结合在了一起[6]。学科和专业可以视作是由具有相似特征的多个领域(multiple-domains)积聚而成的复合体,是一种分层次的领域簇(Domain cluster)。

以上述观点为基础来审视基于学科的信息集成时,就会发现无论是学科间的集成还是同一学科内的集成在资源本身上都存在着这样的问题:不以领域为出发点的集成是将不同知识领域的信息资源生硬地组合在一起,学科和专业中所包含的每一知识领域的话语社群在进行信息查询和检索时会不得不面对与其社群自身的术语和语言、知识组织方式和结构、文献利用形式等诸多方面均迥异的其他知识领域信息资源的大量混入,造成检索成本大幅上升,话语社群内用户吸收信息的效率显著降低。因此尽管集成对于一个知识领域而言会使符合其话语社群中用户信息行为惯例的信息资源有一定程度的增加,但这是以话语社群的用户必须将此部分资源从新的、集成后更庞大的资源集合中筛选出来为前提的,因而用户的认知负担反而因集成而增加了。当然,这并非是对不同领域进行信息集成工作的否定。事实上,由于集成所带来的领域之间交叉与重叠的地带往往是新学科生长点的策源地,也是知识创新的源泉。不同领域间的信息集成不仅是必要的,也应当是可行的,关键是看集成是否是在以领域为基本单元的基础上进行的,以及采用何种知识组织策略来更有效地解决这种跨领域信息集成所带来的问题,即信息资源机械式地组合堆砌造成了话语社群用户的认知负担加重、检索适用相关资源质量下降的问题。这会在下文予以详细讨论。

1.2 信息集成第二层次中的问题

如前所述,信息资源集成第二个层次中的主题检索点SAPs的确定即是标引过程,它是根据两个步骤来进行的。首先是主题分析,其次是将主题分析所得的结果用情报检索语言转化为特定的标识,再将其有序地组织起来,形成主题检索点的集合。这两个步骤之间是有着逻辑上先后的有机联系的,因此对这一层次集成的问题研究不可避免地要回溯到第一个步骤,即主题分析中主题的确定,这是弄清楚集成第二层次存在问题的关键所在。只有这样,才会衍生出SAPs集合及情报检索语言等知识组织工具的问题。

(1)主题的概念与主题观。在传统研究中,一般认为主题(Subject)是文献所固有的属性,主题分析的过程就是标引员通过阅读文献竭力发现并找出其中所固有的主题,再现或重构文献作者主要思想的过程,这种认为主题是静态的、可重复的、客观化的观点是一种形而上学的主题观。文献[7] 指出,标引者间一致性(Inter-indexer Consistency)低的情况并不支持这种主题观。Hjrland则持与这种主题观相反的观点,他认为[8]:在利用一篇文献时,不同的人在不同的情境下会在其中找寻出他们所提出不同问题的答案,一篇文献理论上可以回答无限数量的问题,任何文献因而都有无限数量的主题,主题分析中确定文献主题的过程实际上就是对那些最能满足信息系统用户群体需求的主题赋予优先考虑的过程。标引实质上就是以舍弃文献的一些主题为代价来将另一些主题置于优先地位的。在一定意义上,可以认为“标引就是放弃”,这可视为主题的诠释观。这也正如Farrow在文献[9] 中所述,同一篇研究论文在诸如ERIC、PsycInfor的不同学科数据库中会得到截然不同的标引。

在进行信息集成之前,各分散的信息资源通常是经过标引等知识组织工作环节的。以文献信息资源为例,根据主题的诠释观,标引所确定的这些文献的主题是以能为其目标用户群体提供最优服务而产生的,也就是说,它们的目标用户群体——通过标引所确立的文献主题某一知识领域的话语社群能够找到文献中与本领域最为相关的那些内容,从而最大限度地吸收和利用文献中的知识。主题对他们来说是显性化了的主题(Explicit Subject)。可一旦进行跨领域的文献信息集成时,以满足某一知识领域话语社群的用户需求为目标而确定的文献主题对于另一知识领域中的话语社群用户来说,不一定就是恰当的,他们关心的往往是文献其它主题侧面的内容,可是集成所包含的其它文献资源对他们来说主题是被扭曲的,呈现的主题是无关的,所需的主题又是被标引所遮蔽的,是文献中尚处在隐性状态的主题(Tacit Subject),集成不会带来满意的效果。

(2)主题检索点(SAPs)集成中的问题。主题检索点可分为两类:一类是信息内容单元的描述性检索点,是对信息的形式特征进行描述;另一类是分析性检索点,是对信息内容的揭示。这里主要从内容与结构两个方面进行分析。内容方面突出表现在后一类检索点集成时出现的问题,它与主题观有着逻辑上的承接关系;标引员正是利用情报检索语言等工具,将业已确定的主题转化为叙词、分类号等主题检索点集合的。如前所述,就一篇文献而言,被确定的主题在满足其目标用户群体与其他用户群体的程度存在着差异,这就意味着,经标引得出的一篇文献的主题对不同知识领域中的用户来说具有不同价值的情况转化为主题检索点的形式而得以延续。文献[10] 指出,主题检索点并不具有独立于知识领域中的惯例规范以及著述文化的固定信息价值(information value),它的信息价值是相对于这种规范传统和文化而言的。因此在不认真考虑知识领域差异的情况下,主题检索点集成对于任何一个知识领域的话语社群来说都是少量具有高信息价值与大量具有低信息价值的主题检索点集合的混杂,这种新的集合并非是信息价值最优化的集合,用户群体也不会从中得到最大的收益。主题检索点在结构与形式方面的集成问题也是很明显的,Gazan通过对美国加州洛杉矶大学(UCLA)环境科学数字图书馆项目中不同资源元数据集成的研究,发现不同的话语社群对于元数据的结构、在编文献资源类型的有用性评价各不相同,加之主题字段内容词源的多样性,造成了基本没有实现全面的集成,从而未能满足预先设定的系统集成目标[11]。

2 可能的解决途径

2.1 知识组织中基于领域的社会认知范式的构建

基于领域的社会认知范式(Domain-based Social-Cognitive Paradigm)是领域分析范式与社会认知观在概念上的新综合。领域分析范式与社会认知观都是Hjrland提出的概念,两者是可以互换的指称[12]。不过,它们在概念表述的重点上有所不同,前者强调情报学的基本分析单元是领域,知识组织必须以领域为基础进行。后者强调认知处理的方式是以文化、历史、社会所建构的意义为中介的,它在许多方面与认知观截然不同。认知观对个体知识结构特质的强调使个体脱离出情景,抹去了对社会、文化、历史环境影响的考虑[13],社会认知观虽对个体认知感兴趣,但并非从孤立的心智或脑科学的角度进行研究,而是采用社会情景的方法来看待这一认知问题,认为个体内部的知识结构是通过参与到基于社会的知识领域中的过程才得以成型的,故称社会认知,是一种由外及内(Outside-in)的工作方法[14,15]。鉴于此,本文将两个概念予以新的综合,可以更加全面系统地表明其理论上的内涵。该范式在知识组织中应用的效果已得到实验的印证。Buckland等人以INSPEC数据库为实验对象的研究表明,亚领域(Subdomain,是一个非常类似于本文中领域的概念)中依据专业语言所产生的索引与面向所有领域的综合性索引有显著不同,且各亚领域索引也互不相同;对于亚领域范围内的检索者而言,基于(亚)领域的索引的检索效果(查全率、查准率)要明显高于综合性索引[16,17]。

基于领域的社会认知范式认为信息集成应当是面向领域的集成。首先要在单个知识领域内进行信息集成,这即是对集成发生之前或发生过程之中的知识组织工作持有这样的观点[18]:要在对一个知识领域的本质(包括历史发展、思想学派、研究前沿、研究传统、目标、对象、行为等)有了充分理解的基础上,认识到有待组织的特定文献在领域中的作用,沿着领域—用户—标引员—文献的路径进行主题分析、标引组织。其次是跨领域的信息集成。要以目标知识领域的话语社群为目标用户,对相关知识领域的信息资源依照目标领域的社会、历史、文化等维度的特征并围绕该领域话语社群需求开展新的主题分析和知识组织,尽量减少信息与用户之间的语义距离(Semantic distance),以完成集成的工作。当我们转换到以信息资源为主体的视角时,即可认为这是基于领域的多元知识表示(Domain-based Polyrepresentation)[注]。但这种工作量是巨大的,要有适宜的计算机算法的自动化处理对人工处理予以配合,才有完成的可能。

在该范式下集成可应用的知识组织方法很多,其中两种较为关键的是:认识论方法(Epistemological approach)和主题文献的心智建模(" Mental modeling" of subject literature)方法。

认识论方法是领域分析最基本的方法,没有这种方法,其它所有领域分析方法都会变得肤浅。认识论是对知识及如何获得知识的研究,是科学家共同经验的阐释和普凡化。它包含有经验主义、历史主义、理性主义、实证主义、社会建构主义等诸多不同的理论。一个知识领域往往有多种认识论,标引与信息检索的标准不仅仅依赖于用户研究、更要基础性地依赖于这些方法论和认识论的规范,认识论还构成了解释相关性(Relevance)、信息需求和信息行为的最广义层次[19,20]。Hjrland通过对心理学期刊的研究将上述观点予以证实,他发现与不同认识论密切相联的各种心理学范式(行为主义、认知主义、神经科学、心理分析)的相关性判断标准、引文模式都不相同。这种方法要求我们在进行信息集成时,必须以认识论研究作为最深层次的理论基础来考虑知识组织的问题。情报人员要认识到文献或信息内容单元的主题并非是客观给定的,而是受广义观点(Views)影响的,这种广义观点应当被信息检索者所认识且成为主题分析的一部分,它的最高层次即是认识论。面向领域的信息集成要按照认识论流派的异同对信息资源进行甄别和集中,只有这样才能最大限度地满足用户群体的需求,并为相关性提供一种框架性的理论基础,使得在资源相关性的大路向上不至于走错。

主题文献的心智建模并非是指主题文献像人一样具有了心智,而是指对主题文献的认知和社会维度的知识组织形成了所谓的“心智”。这样,用户在主题文献交互时,他们又与主题文献“心智建模”的社会建构交互,包括:不同的知识域、专用语言(LSP)、研究方法、文献模型、认知权威的模式、语义距离等因素,而理解这些因素的基础是认识论等知识理论。主题文献的心智建模方法认为:全文检索查全率偏低的原因是由用于讨论一个主题的自然语言可以使用一种无法预料的、多变的、有创造性的词语组合方式造成的,检索本身并非仅是努力处理这种自然语言创造性表达的问题,而是要对检索事物在现实中的相关真实知识集合加以掌握,而没有任何语言学理论能提供这种知识,它只能由情报学所提供。可见,主题文献的心智建模就是依照知识领域的认知与社会维度的结构和特点通过对主题在真实世界中的相关社会范畴和概念予以勾画、厘清,尽可能地把模型中反映客观实在和话语社群规范的社会建构(Social construction)呈现给检索用户,从而达到最大限度贴近和解决其真实需求的目的。这也正是Frohmann所表达的主张[21]。标引规则是以文本检索为目的的文本表现规则,而文本检索标示的是一组特定社会实践的集合。这样规则的建立有赖于在实际的、历史性的、真实社会世界里对构成文本检索的社会实践的通透理解。对信息集成而言,即是要求以某一主题的“心智”模型为标准尺度对信息资源进行语义上的相关性判断,将符合“知识的社会原则”资源进行集成,从而为用户提供与其信息需要和问题解决任务最为相关的资源集合,提高集成后的检索效率。

2.2 增强知识组织工具面向领域的情景适应性

在各分散的信息资源被集成之前,它们往往是由不同的知识组织工具所组织和描述。这些不同的知识组织工具兼容性是信息集成时必须考虑的问题。解决这种互操作性的方法之一是利用转换语言,建立映射(mapping)使不同知识组织工具之间建立起可沟通的语义结构,但这绝非易事。Mai以标引语言为例指出,由于在语言的先组程度与类型、等级层次结构和专指程度上存在不同,标引语言的转换在理论上是存在问题的[22]。Olson认为,事实上任何分类法都是有倾向性的,它们不可能是中立的和客观的[23]。Hjrland继而认为分类法总是有意或无意地反映了特定的价值观和视角,这些存在于每个主题领域的视角、范式或方法在深层次上与认识论理论有着很强的关联[24]。因此当我们处理知识组织工具的映射和兼容性问题时,实质上面对的是如何处理各种工具间所蕴含的不同理论视角、范式乃至于认识论之间冲突与不一致的问题。这解决起来非常棘手,目前暂时很难获得满意的方案。一个可以避免这个难题的思路是利用单一的、覆盖所有主题领域的知识组织工具来对信息资源进行统一的描述和表示,能担此角色的工具主要是综合性分类法与主题词表。但其中也有不可回避的矛盾,以分类法为例:文献的知识组织和表示应当具有尽可能高的专指性(Specificity),但任何文献的专指性总是相对于情景和使用而言的,因此只有针对一个特定的用户群体才能辨明文献专指性的强弱。专业分类法正以此为目的。而综合分类法的目的并不单一,它兼顾所有用户群体,并不特殊地服务于任何特定领域中的用户,专指性很难令人满意。以它作为工具组织信息资源尤其是人文社科领域的资源,其效果是有限的。

因此,首先要做的是增强知识组织工具面向领域的情景(Context)适应性,开发新的工具也要以知识领域的情景和结构作为基本的出发点。只有这样,针对每个话语社群用户的信息资源知识表示的专指性才能得到保障,用户需求才能得到满足。在这样的基础上,再通过建立某种工具间导航机制来完成领域间的工具虚拟集成。目前本体的构建就体现出与之相似的思路,建立的绝大多数本体都是面向较为狭窄的特定学科领域的本体,很少有项目试图建立面向所有学科的综合性本体。

3 结语

本文利用领域分析方法对信息集成两个层次中出现的问题予以分析,在集成的第一层次中指出了资源上的问题,第二层次中阐述了主题观及主题检索点集成中的问题,并提出了基于领域的社会认知范式和增强知识组织工具面向领域的情景适应性两条主要的建议。可以预见,领域分析作为情报学中社会学色彩很浓的一种理论范式,在网络环境下情报学技术传统与图书馆学人文传统相互借鉴的发展趋势会引起越来越多的关注。

[注]:这个概念是借鉴Ingwersen的多元表示(Polyrepresentation)概念而提出的,但与其有不同之处。多元表示中的各种知识表示类型是共时性的,在检索过程中可同时被应用。而基于领域的多元知识表示则是以领域为基本视角的知识表示簇,是把同一资源面向不同领域的各种知识表示集成起来,在检索时根据领域话语社群的不同在领域间进行知识表示的切换。

标签:;  ;  ;  ;  ;  ;  ;  

信息集成领域分析与研究_信息集成论文
下载Doc文档

猜你喜欢