数字图书馆知识组织语义互联影响因素研究,本文主要内容关键词为:语义论文,互联论文,数字图书馆论文,因素论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.76
1 引言
借鉴知识工程领域的语义互联理念[1],为解决数字图书馆语义异构问题,笔者提出数字图书馆知识组织语义互联的概念。数字图书馆知识组织语义互联是指对数字图书馆的信息资源基于知识元(概念)范式进行组织,将数字图书馆中复杂内容通过单一语义映射转换到统一语义空间,消除资源孤岛,使用户需求或虚拟角色(服务)在通过单一语义映射、在重构和抽象的基础上共享知识和享用推理服务,最终使数字图书馆各层(内容层、内容管理和功能层、用户交互层)形成语义互通和互理解。
语义互联的最终目标是屏蔽用户之间、用户与资源之间、用户与系统之间语义上的歧义从而为用户提供一致的服务。
语义互联贯穿于数字图书馆知识组织和知识服务的全过程,作用于数字图书馆概念结构的各个层面,涉及资源间的关联、资源与用户间的关联、多用户之间的关联等多个方面,必然存在多类因素影响它的实现。所以,正确识别其影响因素就显得尤为重要。
2 影响因素识别
2.1 主体因素
数字图书馆知识组织的主体是知识组织者和用户,两者都是具有主观能动性的人,因此主体因素是人为因素。人为因素通常分为主观因素和客观因素。主观因素即思想因素,包括动机和意愿、思维方式和信息素养。客观因素主要是能力因素,包括知识结构、学习能力、认知能力、知识组织能力等[2]。知识组织者和用户的主客观因素直接影响和决定语义互联的效能,只是两者作用时间、作用域和作用方式不同。知识组织者的作用域在系统的底层,即内容层和语义层,作用时间在语义互联的前期,即实施阶段,作用方式是直接的;用户的作用域在系统的顶层,即用户交互层,作用时间在语义互联的后期,即应用阶段,作用方式是间接的,是反馈方式的。
2.1.1 知识组织者 根据知识组织者对象的不同,可以将其分为两个层次:个体层面和团队层面。
·个体层面。在个体层面,影响知识组织的因素主要包括个体的主观因素和客观因素,如图1所示:
图1 知识组织者的主客观因素
主观因素包括组织者的心理因素和道德因素等,而客观因素主要是能力因素,包括认知能力和知识储备等。知识组织的整个过程是主观因素和客观因素相互作用的过程。
主观因素:心理因素主要包括人生观、价值观、习惯、偏好、成见、兴趣等,这些都会通过心理活动(记忆、思维的角度和方式等)表现出来,它直接影响知识组织语义互联过程的每一个步骤;道德因素主要包括职业道德和公共道德,这些通过影响知识组织者的行为标准和行为模式间接影响语义互联的精准。
客观因素:认知能力包括空间能力、语言能力、逻辑推理能力、理解能力等,这些能力的强弱直接影响语义互联的准确性;知识储备包括经验和受教育程度[3]。就经验而言,主要包括领域知识掌握程度、系统经验和网络经验。同工作经验一样,教育程度也是个体知识组织能力的一个重要影响因素:一方面,教育提供了新知识,能帮助人们改善对固有所知的理解;另一方面,教育通过改进认知处理和解决问题的能力而影响语义互联的表现结果。
另外,语义互联的成功还取决于知识组织者对用户需求的理解能力以及知识组织者与用户之间语义互理解的契合程度。这方面既受职业道德的影响,又受到知识组织者认知能力的影响。
·团队层面。从团队层面看,成员的知识异质性是影响语义互联的主要因素之一[4]。知识异质性强的团队更擅长在多个领域吸收外部知识,更容易占有更多知识的领域,从而对知识组织对象的专业性理解程度更深,对其语义标识也更精准,最终促进语义互联;同时,知识异质性也会促进团队内部知识整合,个体持有的独特性知识越多,对知识整合的要求越强烈,在不断的知识整合过程中,不断提升团队知识组织的能力,通过知识组织能力的增强更好地进行知识组织对象之间语义互联。
2.1.2 用户 数字图书馆知识组织语义互联的最终目的是提高知识组织的质量,提高用户知识获取的满意程度。从用户视角看,影响知识组织的因素同样分为主观因素和客观因素,但与知识组织者的又不完全相同。用户的主观因素包括心理因素,主要体现在满意度阈值,满意度阈值高促进知识组织者不断加强语义描述和标识,促进语义形式化描述工具——本体的不断学习与进化,促进语义互联的完善,而满意度阈值低则阻碍语义互联;客观因素除了包括认知能力和知识储备以外,还有语言表达能力,事实上语言表达能力与用户本身知识储备密切相关。用户认知能力高、专业领域知识储备多、语言表达能力强主要从两方面促进语义互联:一是可以选择的信息概念更为准确[5],表达的需求信息语义更为精确,与资源和服务之间的语义匹配度高,语义互联效果好;二是如果数字图书馆系统存在用户语义标注接口,那么用户可通过该接口直接对信息资源进行概念描述与语义关系的揭示,促进语义互联。用户通过作用于知识组织者和数字信息资源影响语义互联,用户的能力低,要求知识组织者能力高,要求数字信息资源的语义描述程度高;用户的能力高,与知识组织者、数字信息资源的语义互联匹配程度高,语义互联易实现。
2.2 客体因素
2.2.1 语义互联对象 数字图书馆知识组织语义互联的对象即为知识组织对象。知识组织对象不仅包括存储在数字图书馆系统中数字信息资源,还包括利用数字图书馆用户的兴趣与偏好。
·数字信息资源。数字图书馆中的数字信息资源一般存放在包含事实、规则和概念的集合中——称为知识库。事实是对基本信息的描述,规则是从专家的经验抽取出来的知识,概念包含信念和常识。
知识库的内容、语种和结构是语义互联的主要影响因素,如图2所示:
图2 知识库因素
数字图书馆的数字信息资源内容因素有专业领域和作用领域的差异,不同领域相同术语表示的概念可能完全不同,相同领域相同概念也可能采用不同的术语,这需要进行概念的规范性说明;语种因素也是影响语义互联的重要因素,多语种问题一直是数字图书馆知识组织和知识服务的难点,如何实现跨语种知识服务是语义互联需要解决的另一问题;结构因素包括两个方面:一是知识库系统结构不同,不同文档结构(word、PDF、网页)、不同的数据库管理系统采取不同的信息抽取方式和不同的存储方式;二是描述数字信息资源的语言不同,即语义元数据结构不同,需要对语言进行翻译,对语义互联提出新要求。
·用户兴趣与偏好。用户兴趣与偏好涉及用户的类型、专业、工作性质、兴趣爱好、访问数字图书馆的频率、获取知识的渠道、检索习惯等[6]。根据用户兴趣与偏好可以建立用户模型,用户模型包括很多种,其中包含用户关注领域的用户兴趣模型对语义互联起先导作用。利用用户兴趣模型对用户需求进行语义分析,利用其关注领域的已有本体进行语义标注,再与数字图书馆中信息资源进行语义匹配,提高语义检索准确率和召回率。基于用户相似的兴趣进行聚集,建立群体用户兴趣模型,将用户虚拟组织在一个关注领域一个语义空间,有利于用户之间共享和知识传递。
2.2.2 语义互联技术与标准 语义互联技术与标准是支撑数字图书馆知识组织语义互联过程的关键客体因素。没有技术,数字图书馆知识组织语义互联就失去了架构基础的支撑;没有标准,语义互联就失去了目标实现的依托。同时,技术标准的不适宜或过时对语义互联的实现也有着“致命”的冲击。因此技术与标准既是语义互联实现的必要条件,也是制约语义互联的重要“瓶颈”。
·技术因素。从技术维度来看,语义互联就是一个数字信息资源智能服务系统。数字信息资源智能服务系统主要涉及信息抽取、语义标注、知识库构建、用户模型构建、语义检索和本体构建、映射与整合等技术,如图3所示:
图3 语义互联技术因素
这些技术是语义互联涉及的核心技术,其他与之相关的技术还有数字对象唯一标识符技术、数字信息资源长期存取技术、文件传递技术等。
·标准因素。根据信息生命周期理论,本文将数字图书馆知识组织语义互联生命周期分为信息采集/语义标注、知识存储与管理、知识共享与利用三个阶段。语义互联发展相关标准制定与执行是一项复杂而又艰巨的工作,它贯穿于语义互联全过程。在语义互联生命周期的每个阶段都具有不同的标准,这些标准构成了数字图书馆知识组织语义互联生命周期管理相关标准的三维立体结构,如图4所示:
图4 语义互联相关标准的三维立体结构
信息抽取/语义标注阶段标准,主要包括文档格式标准、元数据标准、W3C推荐本体描述语言;知识存储与管理阶段标准主要包括知识模型、数据转换标准、数据编码标准、数据标识标准、元数据标准;知识共享与利用阶段标准主要包括用户模型、认证授权标准、访问权限控制标准与互操作协议等。
2.2.3 互联的语义模型 互联的语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,它试图在用户的信息需求和信息资源之间搭建一座桥梁,将两者灵活而有机地结合起来,从语义的角度来解析信息资源,进而从互理解的角度来提升用户检索的准确度和召回率,更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、本体、桥本体[7-8]和本体解析为组成要素的语义模型,利用语义模型实现数字图书馆知识组织过程中的语义互联。
2.3 环境因素
2.3.1 国家信息大环境 主要包括国家的信息政策、信息法律法规、国家信息产业发展总体水平、信息资源总体配置情况等。这是一个广泛的知识环境,通过对知识组织者和用户施加影响,影响到语义互联的效果。信息产业发展水平低,影响信息技术的使用,从而影响到语义互联工具的先进性;信息产业发展不均衡直接导致语义互联理论实践的认知程度与发展步伐的不平衡;信息资源配置的总体状况,特别是数字图书馆的规划、发展导向、资源的协调性等,影响知识组织及语义互联的研究。国家第23次互联网状况调查报告显示,2008年我国已拥有近3亿互联网用户,这个庞大的数字必然推进国家信息大环境的进一步改善。因此,数字图书馆的发展将面临更好的外部环境,语义互联理论与实践将受到现实的重视和积极的外部推动。
2.3.2 数字图书馆环境 相对于国家信息大环境来说,数字图书馆环境是组织环境,是一个小环境。这里的数字图书馆环境是社会子系统,主要指本身的规章制度、管理模式、领导能力、企业文化和战略、组织结构、激励机制。数字图书馆管理制度、管理模式对语义互联起着正向的支持和反向的约束作用;企业文化和战略对知识组织者的行为和价值取向有深刻的影响;组织结构合理、激励机制的完备可以提高知识组织者工作的热情,从而提高语义互联的效率。另外,数字图书馆知识组织理论与实践发展状况直接影响语义互联的发展。
目前较为成熟的数字图书馆知识组织技术都与语义互联有着密切的关系。语义互联旨在将现有网络发展成为一个数据交换与集成、知识化利用与管理的基础环境,其架构需要新的知识组织机制的支持,其实践需要以一定的理论为指导,同时也需要遵循相应的标准与规范。因此,知识组织理论与实践的发展既对语义互联提出明确的要求和目标,又为语义互联奠定了理论和技术基础。
2.3.3 工作环境 工作环境主要包括工作资源环境和工作场所的物理环境。工作资源环境指计算机软硬件环境和网络环境、工作资源的合理布局;工作场所的物理环境指温度、照明、噪音及工作空间等[9]。这些都是语义互联能否顺利进行的基础保障。物理环境的舒适性会影响到主体的疲劳度、情绪、精力,从而影响工作效率。可以看出,工作资源环境是内因,工作场所的物理环境是外因,内因起决定作用,外因通过内因起作用。下面重点讨论内因中的软件环境和硬件环境。
·软件环境,主要指对语义互联的技术支持情况。软件环境应是一个集成系统,是集语义分析、语义抽取、本体构建、本体映射、逻辑推理、语义呈现及语义智能检索为一体的数字图书馆系统。软件环境主要涉及数字图书馆系统能否为语义互联提供便利的平台。平台内部能力涉及平台对数字资源格式支持能力,平台对本体的编辑、映射、整合能力,平台的交互与导航能力,平台的编程能力及超级链接的能力,平台的检索与浏览能力以及隐含在平台内部各种算法和方法的有效性;平台外部能力涉及外部接口和互操作协议。互操作协议也是一种通信协议,需要定义信息检索的接口界面、查询语言、结果格式以及客户机与服务器之间的交互方式等。这些协议大都建立在底层通信协议之上。从语义分析到语义检索,从知识组织到知识服务,这些技术功能的完善、性能的优良,界面的友好、维护的简便都是影响语义互联的重要因素。
·硬件环境,主要指数字图书馆系统能否为知识组织创造一个便利的设备环境。这方面的影响因素主要是计算机技术、存储技术、网络技术、软件技术;四者进行统一设计优化,提供对数字资源采集与制作、数字资源保存与管理、数字资源发布与服务的硬件支持。目前我国还缺乏对海量数据和海量用户信息系统的研究工作。在数字资源的长期保存中,最先要解决是数字资源的存储问题。如果存储介质不解决,软件再好也不能解决长期保存问题。在异构集群中,利用虚拟存储技术把数字资源按照利用率和永久保存的策略,分别存储在在线磁盘、近线磁带和光盘组、离线磁带和光盘上,也是一个需要统筹解决的问题[10]。
3 语义互联影响因素作用机理分析
3.1 语义互联影响因素的相互关系
数字图书馆知识组织语义互联是由环境、主体和客体综合作用的结果,它们组成了一个多维的复杂系统,如图5所示。
图5 数字图书馆知识组织语义互联影响因素
3.2 语义互联系统模型
语义互联客体主要集成了语义互联对象、语义互联技术和互联的语义模型等功能为一体的智能系统。一方面,基于领域本体的语义互联在很大程度上更加依赖于知识组织者本身的知识储备与认知能力;知识组织者的专业领域知识对通过本体映射与整合完成语义互联过程是至关重要的,知识组织者对各种异构系统、异构知识库的熟练掌握可以提高数字图书馆的语义互操作,对网络技术的熟练掌握可以提高语义互联的效率。另一方面,知识组织者的语义互联活动在很大程度上将受到语义互联客体和用户因素制约,语义互联技术的成熟度、语义模型的准确度以及语义互联对象的清晰度都制约着知识组织者的活动。除此之外,与知识组织者、用户和语义互联并列的顶层因素是语义互联的大环境。事实上环境、客体和主体对语义互联有独立影响作用,同时三者之间又相互作用,彼此影响并共同作用于语义互联,如图6所示:
图6 数字图书馆知识组织语义互联系统模型
知识组织者在语义互联过程中发挥着主体作用,主体作用能否积极发挥,对语义互联的影响重大。语义模型和技术是语义互联的关键客体要素,通过知识组织者作用于语义互联的对象上进而制约着语义互联的过程。
3.3 语义互联影响因素的相互作用机理
基于对数字图书馆知识组织语义互联影响因素的分析,不难看出,各因素的作用是不等价与非同质的,具体表现是:国家信息大环境、数字图书馆环境和具体工作环境等要素在宏观上通过作用于主体因素而影响语义互联的过程,主体通过对客体的一系列活动影响语义互联的结果表现,语义互联的结果影响知识组织效率与质量、数字图书馆建设质量与发展进程。影响因素的作用表现在:
·环境是实施平台的保障。环境或推动或钳制主体能动作用的发挥,或增强或削弱技术的实际效果,或激发或压抑语义互联对象的活力,或提高或减少语义模型的具体功用,从而最终对语义互联的效率和质量起到积极或消极作用。
·主体是根本。语义互联要依靠知识组织者,为了用户,效率和质量则是两者的共同追求。主体在适应环境的同时也可以影响和改造环境,在语义互联的具体实践中充分发挥技术的现实作用,语义互联的对象和语义模型既是由主体加工又为主体所使用。
·技术是支撑。技术为语义互联的主体所用,贯穿于语义互联的各个环节,主体运用技术对语义互联对象施加影响,以至实现语义模型,支撑起语义互联的全过程;与此同时,技术也要符合和体现一定的标准,使语义互联的效率得以保证。
·互联对象是基础。作为主体作用接受者、技术的具体指向,语义互联的对象在各种资源的有效配置中发挥着基础性作用,不可或缺,令主体有的放矢,叫技术有计可施,让语义模型有用武之地。
·语义模型是纽带。语义模型可以帮助知识组织者高效地进行数字信息资源、用户信息资源以及用户需求的信息抽取与语义标注,进行知识库之间、用户与知识库之间、用户与用户之间的语义映射和语义聚合,使用户获取更有针对性和准确性的知识,从而成为连接主体与客体、知识组织者与用户以及数字图书馆系统各层之间的纽带。
·语义互联是目标。在环境的保障下,主体运用技术,发挥语义模型的效力,最终达到语义互联。
·知识组织效率与质量是语义互联的效果标志。语义互联的好坏要靠知识组织的实现效果来衡量,知识组织效率和质量的提高标志着语义互联的现实功能和社会效果的提升,意味知识组织在环境、主体、客体的综合作用下又好又快发展。
根据各因素的相互作用关系,笔者参考有关文献[11]构建了语义互联影响因素相互作用关系模型,见图7。
图7 语义互联影响因素相互作用关系模型
4 结语
本文对数字图书馆知识组织语义互联影响因素的识别及各因素之间关系和作用机理的研究,有利于认识和探索语义互联的核心问题,并基于核心问题提出语义互联策略,进而为研究数字图书馆知识组织语义互联应用模型、设计人性化的语义互联系统提供有意义的参考。
收稿日期:2009-06-23