基于Web2.0集成的知识抽取及其在知识建设中的应用_语义分析论文

知识构建中基于Web 2.0综合集成的知识提炼与应用，本文主要内容关键词为：知识论文,Web论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 问题提出、现状分析与方法选择

历经10余年的理论研究和实践探索，并结合人类知行学原理，笔者在充分理解和吸收前人研究成果的基础上，认为知识构建(Knowledge Architecture,KA)的内涵实质上就是通过对知识组织、标识、导航和搜索系统的组合设计，将知识内容(content)、用户群体(community)和应用环境(context)有机地集成在一个统一的知识共享空间中，彼此达到互动交融，使知识更易于理解和吸收的工作理念、工作方法和工作过程，其目标之一是为用户的知识获取、交流、应用和创造营造一个和谐的知识生态环境，以便用户能够根据要解决的问题和欲达到的目标，通过问题情境分析获得相应的信息，并将获得的信息提炼成满足自己需要的知识，进而在问题－环境－目标约束下将相应的知识激活为智能策略和行为，最终解决问题[1]。

1.1 问题的提出

从KA概念界定中不难看出，KA系统本应该是以用户群体为中心、以知识信息为主要内容、以适应环境解决问题为主要目的而构成的复杂知识系统。可是，在Web 1.0环境下，广大用户只是KA的受众，缺乏应有的适应性，用户的智能不能在群体交互中对知识生成发挥应有的作用；KA也只能在KA师的规划设计下采取自上而下的他组织方式，很难将KA打造成开放的复杂适应性系统。随着Web 2.0的兴起和网络信息环境的优化升级，广大用户可以在知识协同共享与创造中自适应地参与到KA之中，社会化媒体也能在其中得到广泛应用，改变以前仅能与语义Web在语义层次上集成、单独依靠机主人辅处理知识模式的现状[2]，为基于全信息的知识提炼与应用提供良机，同时亦为开放复杂适应性KA系统的建立提供新的平台。

在开放复杂KA系统的有序运行中，用户主体为了解决实际问题，除了在系统中进行必要的物质和能量交换外，最主要的知识活动就是在应用环境中利用功能主体与内容主体进行彼此的交互作用，以便从中有效获取信息、提炼知识、激活智能，进而根据情境有目的地解决问题。可见，KA系统在辅人以知行能力的过程中一定要实现“信息→知识→智能”的有效转换，建立起自己的知识生态系统结构，而全信息的获取只完成了KA知识转化机制的第一步，接下来的任务就是如何将获得的全信息提炼为知识，并自主加以应用，以便为KA用户提供解决问题的认知能力。所以，如何发挥Web 2.0对全信息的综合集成功能，促进广大用户基于自然语言理解的知识信息交流互动和群体智能协同集成，已成为KA健康成长和用户解决问题的关键。

1.2 国内外研究现状的分析

为了考察知识提炼与应用在开放复杂系统中得到一体化研究的进展情况，笔者分别以“知识提炼与应用(利用)”、“知识提取与应用(利用)”、“知识抽取与应用(利用)”及其对应英文词汇为主题词对中外典型数据库进行检索和统计分析。结果表明，国内少有人问津，而国外虽有不少相关研究成果，但从Web 2.0综合集成的视角来探讨的也寥寥无几。

1.2.1 国内研究现状国内几大数据库的检索结果表明，几乎没有人对知识提炼与应用进行过一体化研究，但是知识提取、抽取、挖掘和发现却引起了许多专家学者的广泛探讨。在图书情报学界，典型的研究者有化柏林、温有奎等人。例如，化柏林[3－4]为了建立一个可检索重用的知识库系统，主要以学术文献为对象，力图通过机器学习和自然语言分析两大技术路线，以特征规律和内容结构分析为手段，在参考自然语言处理(NLP)平台及知识抽取系统结构的基础上，提出了一个基于NLP的知识抽取系统设计解决方案。温有奎等[5－7]为了寻求科学研究中知识的关联发现和建立以知识元为基元的知识检索与服务系统，根据信息生成知识的结构取样性、变换性机制以及Zipf文献词频定律和Luhn自动抽取有效词的思想，依据概念内涵、外延的反变关系与信号时频的反变关系的相似性，利用文本知识结构的范畴来源理论和本体三元组构造技术，通过对知识信息谱进行分析与变换、利用最大熵概率模型有效地实现了文献信息基于创新点的知识元挖掘与语义集成；在此基础上，借助文献主题成因原理，通过文本逻辑结构分析建立文献主题与其属下知识元之间的本体转换模型，并利用两种异构本体间的互操作建立本体间的包含、映射与合并关系，实现整篇文献语境下所有知识元本体的语义互联互通，同时通过知识元(语义)链接实现相关、非相关文献间隐含关联的知识发现，将所有文献建成一个有机联系的知识组织体系，进而达到对知识的集成利用；针对网络信息将内容与显示方式集成在一起而难以被应用程序抽取语义的特点，又提出一种基于Web的智能网页文本知识元挖掘(ATMEM)与语义集成的解决办法：即通过网页格式转换(转换成TXT文件)、文本分词、词性标注等预处理，对经过预处理的TXT文件，使用ATMEM软件进行语义分析，主要通过对知识元有效句的抽取和三元组(对象名称、对象属性、对象属性值)特征提取，来自动挖掘出具有语义关系的由6个属性构成的知识元结构。

此外，赵宇翔等人[8]从信息生产过程视角对Web 2.0环境下用户生成内容的动因、特征、机理进行了实证研究，得出结论：网络用户生成的知识具有离散分布与集中融合的结论，知识生成的规律具有一定的自相似性，知识生成的模式对于创造内容的粒度和难度并不十分敏感，帕累托最优理论和长尾现象在其中得到了充分体现，这些为基于Web 2.0的知识提炼与应用提供了理论依据。而朝乐门[9]又从Web 2.0与语义Web综合集成的视角对大规模人机协同知识管理进行了深入分析，认为有效集成群体智慧、自组织功能、人机协同方式能够高效地提升知识提炼与应用的效果，这又进一步为基于Web 2.0综合集成的知识提炼与应用提供了理论方法。另外，胡昌平等[10]、焦玉英等[11]和张红兵等[12]则主要从Web 2.0环境下基于用户群体交互的知识创新服务组织与知识共享服务系统构建视角，着重提出知识应用系统的构建问题，并且为经过知识提炼后的KA系统用户知识应用提供了具体解决方法。

综上所述，国内研究着力于知识提炼及其服务系统的构建，虽然Web 2.0在知识提炼与应用中的综合集成功能已引起许多专家学者的关注，但是大多数人仍习惯性地从单独角度去研究，即使有少数人将两者结合起来研究，也未能从宏观到微观提出一体化建设的整体战略构想。因此，在充分理解和吸收前人研究成果的基础上，从Web 2.0综合集成的视角来规划KA系统一体化知识提炼与应用，不但非常迫切，而且切实可行。

1.2.2 国外研究现状以“knowledge extraction and application”为主题词对Elsevier和Springer数据库进行检索，发现有许多文献对知识提炼与应用进行过一体化研究，但基于Web 2.0进行综合集成研究的则少有发现。除了与我国有着相同或类似的研究方式与方法之外，国外的研究既深化了知识提取理论的视野和方法，又拓展了知识应用实践的广度和方式。譬如，V.C.Storey等[13]提出面向领域本体构建的Web信息半自动化知识抽取解决方案；Wu Qingxiang与D.Bell[14]基于粗糙集理论提出一种化繁为简的多学科复合知识提取与应用方式；A.Ittoo等[15]在知识库构建中提出基于Wikipedia少有监控的特定领域知识(包括部分与整体)关联关系提取的方法，可以有效减少语义不确定性对用户生成内容缺乏监督算法的消极影响。更有深度和借鉴意义的有：F.J.Kurfess[16]提出基于神经网络自组织结构化处理的知识提取与应用方法；L.E.Zárate[17]和A.Ultsch等人[18]提出了基于形式概念分析、利用人工神经网络(FCANN)适应性使用的知识提取与应用方法，即借助形式概念分析，无需参数调整和规则提取而从人工神经网络提取知识和表示知识的新方法。这两种方法既能满足用户解决问题的需求，又能达到对知识准确表示的愿望，可以与国内提出的基于NLP的知识抽取、面向本体语义集成和关联发现的知识元挖掘方法实现优势互补。

国外研究优于国内研究的显著之处有两方面：①对知识抽取之后的应用进行了广泛而深入的实践探索，形成了诸多覆盖生产和生活的应用研究领域。如在运用人工神经网络进行知识抽取时启用了支持向量机规则抽取的手段，在生物信息学蛋白质复合物的提取中、在雷达目标识别和信标系统的构建中、在基于病例推理的医疗诊断和患者意识模糊缺少监管的紧急呼叫中、在基于对气象大数据进行多因素综合分析的防旱抗涝中、在借助随机矩阵进行精准捕鱼的策略制定中、在3D涡轮叶片几何体的气动设计中，也都分别采用了知识提取并支持应用的技术与方法，有效地推动了现实问题的处理与解决，非常值得我们学习和借鉴。②在对知识提炼理论与知识应用实践的一体化研究上取得了不错的进展，而且理论研究的深度和实践应用的广度都要优于国内。虽然国外基于Web 2.0综合集成功能对两者进行一体化研究的也不多，但其许多理念和应用方法值得借鉴。

1.3 研究方法的选择

笔者在前期研究过程中，为了实现KA系统对信息的有效获取和综合利用，根据全信息的生成机理，提出了Web 2.0环境下基于自然语言理解的全信息获取与利用方法，即通过人主机辅和知行交互的方式来综合运用规则方法与统计方法，以实现KA系统用户对全信息的有效获取；同时，针对语义Web在全信息表示、知识提炼和智能激活中的先天不足，具体提出通过Web 2.0群体智能来构建全信息Web(CI-Web)，以实现KA系统用户对全信息的综合利用。这不但为全信息的高度共享提供了新的空间，更为人主机辅的知识提炼与应用创建了新的平台。

在此基础上，可以综合运用国内文本信息与网络信息一体化知识提取、挖掘和基于Web 2.0集成应用的手段和方式，并与国外提出的自主FCANN知识提取与应用方法实现有机整合，富有创建性地提出KA系统基于Web 2.0与CI-Web综合集成的一体化知识提炼与应用方法，使每个用户的智能在神经网络自组织知识结构化中发挥作用，产生群体聚合的效应。下面，就根据知识的生成机理和转化机制，在归纳KA应遵循的知识提炼与应用原则的基础上，依据基于Web 2.0综合集成的知识生成方法论，分别从宏观的Web 2.0视角与微观的CI-Web视角，探索知识在KA系统中得到一体化提炼与应用的设计构想和实现方式，以便实现用户对知识从定性到定量的提炼与应用。

2 知识构建中知识提炼与应用的基本原则

在探讨知识提炼与应用的基本原则之前，须说明：本文所说的信息一般均指由语法、语义和语用信息所构成的“三位一体”全信息，除非另有说明；同样，本文所说的知识一般也是指由全信息转换而来的、由相应的形式知识、内容知识和效用知识(与语法、语义和语用信息相对应)所组成的全义知识，因此对知识的全义表示，也要从其“三位一体”的组成部分着手，并进行一体化标识；本文所说的智能通常也是指从全信息、全义知识转换而来并由隐性智能与显性智能构成的全义智能。

在KA成长和能力生成中，信息、知识、智能具有不同的功能，发挥着不同的作用，三者有着共同的血脉渊源，即本体论信息(原始信息)是一切信息形态及其衍生物(知识和智能)的源头[19]。为了保证知识在转化过程中内涵的真实性和时空的完整性，知识提炼与应用必须同时遵守“信息保本”、“知识保真”和“人主机辅”三原则[20](见图1)，以便生成全义的知识，实现对智能的全面激活——即“智能保全”(由于本原则主要涉及智能的激活与调控，在此不再赘述)。

图1 基于“三保”的全信息知识转化机理与进程

2.1 信息保本原则

本原则是为了保证从外部世界获得的认识论信息必须由本体论信息转化而来，确保用于KA和从中获得的信息具有真实的客观性。因此，在KA实践中，一定要选择那些更加客观和公允的信息，用于KA的知识提炼，这也是让用户直接参加KA来群体甄别、修正信息以及自主进行知识提炼与应用的根源所在。这样，KA用户才能获得一个客观而公正的全信息，对外部世界的问题及其环境有一个原真的认识，才能从语法、语义和语用信息对问题所涉及的事物从其形式、内容、之于主体的效用有一个全面真实的掌握，进而才能面对目的、问题、环境随着问题解决的深入而进一步分解出明确的目标和形成相应的情境[21]。

2.2 知识保真原则

既然知识是由全信息归纳抽取而来的，那么在知识提炼与应用中就应该在信息保本(既与本体论信息相一致)的基础上求得知识转换过程对信息形式、内容和价值的全面包含和真实揭示，以获得一个同时反映事物结构形式、内容含义和效用价值的全义知识，实现对问题进行准确地分析和判断[21]。这一方面能够保障用户的主观知识得到不断完善和有效运用，使用户在有关目标的导控下不仅可以利用反映事物形式化要素的语法信息，还能利用反映事物内容要素的语义信息以及反映事物效用要素的语用信息进行有意识、有情感、有理智的思维和决策，通过情理融通激发出求解问题的完整隐性智能[22]；另一方面能够促进用户主观知识与客观知识的有机融合，使用户通过对全信息进行三位一体提炼，相应地生成全义的知识，并在此基础上通过知行统一迸发出解决问题的完整显性智能。

为了在KA成长和能力形成中实现知识保真，无论哪种KA范式都要遵循这种全信息的知识提炼原则，采取一切可能的知识转化技术和手段，按照如图1所示的对应关系，通过事物形式感知、效用判断、内容理解来对事物(本体论信息)进行全信息认知获取，通过归纳抽象来对各种信息资源进行知识提炼[21]。唯有如此，才能保障KA系统在结构、功能和行为上的统一，也才能保障对用户服务时生成协调一致的知行能力，并与用户的隐性智能实现顺畅契合和融洽对接。否则，转换而来的知识就不全义，生成的智能也不完整。

虽然我们在理论研究和学术探讨中一直提倡百花齐放、百家争鸣，但是在当今信息泛滥、文献质量良莠不齐、鱼龙混杂的情形下，在信息资源遴选方面一定要严格管控，对那些道听途说、没有确切理论根据和实践验证的信息源，或者语法结构不合法、语义逻辑不合理、语用价值不适用的信息素材，决不能将其划定在信息选择范围之内。

2.3 人主机辅原则

知识的生成是一种基于事物规律抽象和信息内容认知的知识处理过程，主要通过归纳和演绎两种方式实现[19]。一般来说，知识的归纳式生成主要应用于知识的最初提炼：事物的形态知识可以通过对大量同类事物的语法信息进行形式对比归纳出来；事物的效用知识可以通过这类事物的语用信息相对于主体目标的效用度来归结出来；事物的内容知识也可以通过对这类事物的语义信息进行归纳演绎得到，但这个归纳需要对上面所得到的形态知识和效用知识进行逻辑关联运算与推理。最后通过对知识进行三位一体的整合，形成事物的全义知识，这是知识生成的最主要处理方式[21]。知识的演绎式生成主要应用于从已有知识推理出新的知识：以归纳出来的知识作为基础，通过逻辑(或类比)推理而演绎出更具实际意义与应用价值的综合性内容知识(主要用于策略控制)和综合性效用知识(主要用于决策执行)[23]。

在这些知识生成方法中，基于归纳而抽象出的效用知识与内容知识、基于逻辑推理而演绎出的综合性内容知识和综合性效用知识都要经历开创性、主观性、非结构化、非程序化的知识处理过程，人在这类知识处理过程中具有高于计算机的抽象认知和环境适应能力；基于形式对比而生成的形态知识、基于类比推理而演绎出的综合性知识和基于三位一体的知识合成都要经历重复性、客观性、结构化、程序化的知识处理过程，计算机在这类知识处理过程中具有独特的知识处理能力。因此，在KA的知识提炼中，一定要采用人主机辅的知识处理方法，将知识归纳式生成与演绎式生成有机结合起来，以实现人类创造性认知能力和计算机非创造性认知能力在知识生成中的天然集成。

为了实现KA的一体化建设，在知识提炼与应用中只有采用Web 2.0与CI-Web综合集成的方法，才能为信息保本、知识保真和人主机辅原则的实施创造应有的环境条件和前提保障。

3 基于Web 2.0综合集成的知识生成方法论

在KA中，知识既是全信息得到有效提炼和综合利用的直接结果，又是智能得到有效激活和精确调控的重要保障。知识的生成在KA系统的知识转化机制中起着承前启后的中枢作用，直接影响着KA知行能力的生成及其服务水平。无论知识的归纳式生成还是演绎式生成，都需要在人主机辅原则下通过信息自组织与他组织的有机结合，使知识在结构序化中得到有效形成。这就需要Web 2.0为用户群体提供一种彼此交互的沟通机制和促进其个人智能的有效机制。这两种机制的实现依赖于Web 2.0对CI-Web的综合集成功能，依赖于Web 2.0对知识提炼与应用在宏观上的整体掌控；依赖于CI-Web对知识提炼与应用在微观上的准确定位。同样，这也理应成为KA系统基于Web 2.0进行知识生成所需要采取的方法。

3.1 传统知识生成方法的局限性

纵观国内外的知识提炼与应用研究，虽然也有一体化研究的先例，但几乎都立足于知识库系统构建的知识抽取，然后再加以利用。尽管本体自动构建技术、基于形式概念分析的人工神经网络自适应使用等经过机器学习和自然语言分析处理后，可以尽量减少冗余而又能比较准确地实现知识提取、表示、应用，但是对于用户的自主知识提炼与应用来说，还是缺乏足够的自我适应性。同时，这些方法还会陷入各种语言非结构化不易融合处理的困境，在实际抽取时更难以与用户主观知识相融，形成创新性的知识加以利用。这就导致在以前的KA研究中，一般都是将知识提炼与应用分开来进行——既在KA师规划设计下，KA总是试图通过各种技术支撑来对文献信息资源和网络信息资源进行知识(单)元提取与组织，然后借助本体构建起知识库供广大用户使用。

诸如此类的知识提炼及应用方式不但费时费力不易操作，由此构建的知识库也难以反映人的知识创造过程，容易丢失知识中所蕴含的情境和对创造者的目标，而且将知识提炼与应用人为地分成相对独立的两个部分，使本应该相继而生的两个知识活动过程很难得到综合集成，这既有碍于知识与用户、环境得到一体化构建，对于用户应用来说，知识也难以得到自主的提炼、激活和适应性利用。如此构建的KA系统，即使采用了最先进的信息技术也不会达到应有的质量和效率；对于KA的知识转化机制的实现来说，用户群体更难以与知识内容和应用环境融为一体，无疑形成了一个向智能转化的瓶颈。要想充分发挥人脑神经网络在知识一体化提炼与应用中的自组织结构化处理功能，使用户的隐性智能得到自由施展，去游刃有余地解决问题，KA必须将网络信息环境优化升级到Web 2.0的层级，以便使用户成为KA的适应性主体，让其神经网络和隐性智能自由地发挥功能和作用。

3.2 基于Web 2.0知识生成方法的适应性

人工智能理论证实，在知识转换、提炼和应用中，只有采用综合集成的方法，才能使人主机辅、群体交互在复杂适应性系统构建中发挥最大的作用，达到最佳的效能。Web 2.0的开放性、去中心化、创造性和个性化充分体现了以人为本、协同创新的思想理念。在促进知识有序生成中，Web 2.0能够以Blog、Wiki、Tag、SNS、RSS、IM等应用为核心，将六度分隔、协同学、长尾、XML、Ajax等复杂的新理论和技术移至后台，用户在简单规则的约束下即可在群体协作中实现对网络信息自组织与他组织的综合集成，使知识在多元化、多样化、个性化的信息生产交流中得到有序、有效、创新生成[24]；同时，每个用户也会在主客观知识的融合、交互与共享中使各自的知识得到自我更新和完善，在解决问题的过程中自主应用知识。此外，Web 2.0能与语义Web尤其是与CI-Web进行全方位的综合集成，形成全信息的知识共享空间，这确保知识在信息保本中得到一体化提炼，在人主机辅下得到保质保量的生成，在知识保真中得到全面有效的应用[9]。

总之，在Web 2.0的综合集成作用下，知识的自组织机制与他组织机制得到了有机整合，用户主体、内容主体和功能主体也相融在了一起，这使KA中的知识提炼与应用变成了一个整体，能够直接围绕着问题的解决而协同组合起来，为人主机辅的知识生成与应用开创新的方法论。

4 基于Web2.0综合集成的知识提炼与应用方法

透过知识生成的人主机辅机理和知识转化的“三保”机制可知，Web 2.0的信息自组织功能和序化机制既能在宏观上通过人机协同的大规模知识处理，使知识的交流、共享、创造和利用在群体协作中完成，以确保KA系统对知识进行优质的定性提炼与应用[9]，又能在微观上通过与CI-Web的综合集成，使KA系统中每个用户都可以对知识进行全义地表示、关联、发现、获取、集成和应用。这样，通过Web 2.0与CI-Web的综合集成，就能在宏观和微观上为KA系统共同建立起知识从定性到定量提炼与应用的科学方法[25]。

4.1 知识在Web 2.0中的定性提炼与应用

在Web 2.0环境下，每个用户都可以在知识信息生产过程中广泛应用各种社会化媒体持续不断地与环境以及其他用户进行智能性的、主动性的和适应性的交互作用，从中学习和积累经验，并根据学到的经验改进自身的媒体使用方式和知识创造形式，致使普通用户也能像KA师一样参加知识的构建，变成KA的适应性主体。在用户主体的带动下，网络中用户所处理的知识信息和所使用的社会化媒体也变成了KA的适应性内容主体、功能主体[26－27]。如此一来，在用户主体与KA师的共同参与下、在三大主体的相互作用、相互影响和共同发展中，知识自组织机制与他组织机制在KA系统中得到了有机融合，KA中的知识组织、标识、导航和搜索子系统也在KA系统中得到了完美统一。这不但使KA系统演变成一个开放的复杂适应性系统，为用户适应性使用功能主体进行内容创造营造了和谐的知识生态系统，而且知识也能在群体协作中得到自主提炼，保障用户知识生成的质量和知识应用的效果。

4.1.1 知识在复杂KA系统中的自主提炼与应用从图2可知，在基于Web 2.0的复杂适应性KA系统构建过程中，每个用户主体都可以通过自己注册的子系统与Web 2.0提供的社会化媒体进行系统互动；每个内容主体都封装了被用户访问、标识的记录，与其他内容主体相互关联的内部状态以及内容被访问后以怎样的方式调整与其他主体之间关联的行为规则；每个功能主体也都设置了用于登记被用户使用情况、与其他功能主体相互调用的内部状态以及用于调整功能主体与不同用户主体之间关系、将相应功能推送给最适合用户使用的行为规则[28]。这样，在内部状态的协调下和行为规则的约束中，不同的功能主体和内容主体就会围绕着一定的用户群体在各个层次上形成一个理论上不可分割实际上不可还原的有机体(如基于自组织的个人KA可以促进网站KA的优化，并经过循环反馈最终导致社会KA的涌现)，并依靠三者之间的信息流而联通，从此预示着复杂适应性KA系统的建立。而系统中用户的行为和拥有的知识信息既具有分立的异质性，同时又具有协调的统一性，这使它们虽处于远离平衡状态，但为了取长补短，又需要在竞争和协同中通过各类主体之间所存在的复杂信息流进行非线性的相互作用[29]。在标识机制下，具有相同行为特性和知识需求的用户就会在松散耦合中相聚成不同的类群，具有相似的内容主体也会在离散分布中积聚成不同的类别，如此用户便可在功能、内容主体的内部状态和行为规则的联动感知下，凭借所积累的经验，采用更适合的功能组合，联合更多的群体进行交互协作，经过主体之间的彼此适应与认可，使其神经网络及其所附属的智能和知识信息，既可以独立自主地发挥能动作用，又可以在彼此互动中产生聚合效应[28]。这样，信息中蕴含的知识便会在循环反馈的主体协同合作和用户群体交互中得到高质量的定性提炼，然后，KA就可以综合利用经过训练的人工神经网络、形式概念分析和本体自动构建等技术方法，将知识及其生产和创造过程所包含的情境一体化地加以表示并存入KA知识库中，供广大用户重用。这时，每个用户不但能在KA知识库中获取高质量的相应知识，更能在群体互动中进一步主动获得真正想要的知识，并根据当时自己知识活动的情境和目的，将所需要的知识自适应地应用到所要解决的问题中来，进而推动KA系统朝着更加能够满足用户需要的方向演进。

图2 基于Web 2.0人主机辅的知识定性提炼与应用

4.1.2 知识在和谐生态系统中的适应性提炼与应用随着Web 2.0应用的普及与深化，互联网愈加呈现出自组织、开放性、去中心化、聚合性、高度交互性和创新性等特征，这使每个用户都能表现出前所未有的适应性、主动性和智能性，也为用户、内容和功能主体和谐共生构建了一个网络化的知识生态系统。在基于Web 2.0的KA知识生态系统有序演化过程中，任何主体所做出的努力就是尽量去适应别的主体[28]。为了达到彼此和谐共生，3类主体需要在相互适应中达到协同认可，并在相互融合中实现动态平衡。如根据功能主体和内容主体的内部实际状态，有针对性地调整与用户主体的行为规则，将用户主体推送到最有可能使用的相应用户面前，而用户也应该形成自己的特色、得到其他主体的认可[28]。在这个和谐知识生态系统中，以及那些不能满足用户主体需求的内容、功能主体，那些不能适应实际需要的用户主体都将被陆续淘汰出局。这样，经过大浪淘沙后的3类主体便会更加和谐地共生在一个平衡的知识生态系统中，构成一个跨越时空的、综合集成的知识共享空间，其中每个用户都可以在与其他用户主体交互协作中更适应地使用功能主体进行知识提炼与应用，并将提炼与应用的范围延伸到知识链的长尾，不管知识的粒度和难度有多大，其都会在用户经验知识、规范知识和常识知识所形成的知识内生态结构中得到有意识、有情感、有理智的高，质量提炼，在环境、问题、目标所构成的框架下得到富有情境感知的高效应用。

4.1.3 知识在自组织与他组织融合中的高效生成与应用知识的有序生成和自主应用既来自于知识创造过程的他组织机制，更取决于自身的自组织功能，只有两者的有机结合才能确保知识生成的质量和知识应用的效果[28]。Web 2.0的出现，颠覆了Web 1.0环境下由KA师主导控制的“自上而下”的知识他组织机制一统天下的局面，由广大用户集体智慧主导控制的“自下而上”的知识自组织机制变为KA的主要组织方式[29]。这两种组织机制在KA系统中的综合集成，不但降低了KA系统单独依靠KA师提炼知识的高成本和高风险，而且使基于群体智能进行大规模的知识处理成为可能，还能保障知识能在充分共享和交融中得到集成生成。在KA师所架构的静态知识结构中，用户群体所生成的动态知识结构会不断地对其进行优化，形成日益完善的KA知识组织体系，产生持续创新的高质量知识，还能在动态结构所提供的逻辑视图与静态结构所提供的视觉视图的共同参照下，使知识得到高效能的应用，使用户的问题得到圆满解决。

4.2 知识在CI-Web中的定量提炼与应用

唯有全信息才能生成全义知识，也唯有在两者的共同促动下才能生成全义智能，促进用户隐性智能与显性智能的综合启动。所以，要想在CI-Web中对知识进行定量提炼与应用，就需要对知识进行全义表示、全面互联、完整发现、准确获取、融合集成和共享应用。

CI-Web是与Web 2.0深度融合而构建起来的群体智能网络，能够对语义Web进行完善和升华，可基于自然语言理解的人机知行交互方式实现对全信息的深度理解和全面获取，为KA系统中每个用户进行人主机辅的知识提炼与应用提供新的实践平台和技术支撑。与机主人辅的语义Web知识处理方式相比，基于CI-Web人主机辅的协同知识处理能力更强，更符合人类知识生成与应用的应然需求。人可以在知识提炼和归纳生成中发挥主导作用，知识的演绎和整合可交给更胜任的计算机来完成，这就保障了知识定量生成与应用的质量。下面以语义Web为参照，来探讨KA系统基于CI-Web的知识定量提炼与应用过程。如图3所示。

图3 基于CI-Web人主机辅的知识定量提炼与应用流程

4.2.1 知识的全义表示语义Web只能访问网络中的语义资源，实现与Web 2.0在语义层次的集成和理解，主要通过XML、RDF(S)、OWL对知识进行语法、语义层表示，知识的语用层表示需用Web services代替，知识的表示能力有限，仅能形成综合性内容知识，实现对事物语义层的认知[30]。KA中每个用户都是一个拥有全信息、全义知识和全义智能的复合体，可以在Web 2.0环境下通过CI-Web实现对全信息的综合利用：不仅能访问语义信息库还能访问全信息库，可以在深度理解中依靠自己的知识信息和智能，充分发动自己的情理融通器官去对外部信息进行认知，从而在隐性智能的支配下、在主客观知识的交融中实现对知识形式、内容、效用三位一体的表示，进而形成综合性内容知识和综合性效用知识，激发出人的完整智能。

4.2.2 知识的全面互联语义Web只有通过基于命名空间Namespace、URI的互联、基于SOAP协议和本体构建的互通、基于智能Agent和领域本体的互操作，才能实现知识在数据之间建立计算机理解的联网关系，知识联网的层级较低[30]。CI-Web可以基于全信息自然语言理解在知识之间建立人机协作的知识网络。每个用户都是一个高度自组织的网络知识体系，在CI-Web中可以通过全信息群体交互实现自己主观知识与外部客观知识的有机关联：不但能够将每个知识单元通过其形式、内容和效用的内部结构联结起来，构成个体知识网络，不同知识(单)元之间也能在人机协作和用户交互中彼此关联成知识个体间网络，而且还能将主客观知识一并交织融合在知识网络之中，形成知识融合网络，并基于知识的多层次关联进行高效的知识共享和应用。

4.2.3 知识的完整发现语义Web只能采用“对象－属性名称－属性值”组成的三元组构成的语句来描述一个知识元，支持以知识元为单位的知识检索、推理和验证，来发现知识文档及其内部的知识元并标识，但发现的知识仅限于语义层次，缺乏完整性，对用户应用的有效性也不足[25]。而CI-Web可基于全信息自然语言理解支持对知识任何粒度的人机协同发现。作为一个有意识、有情感、有理智的知识主体，用户可以在问题发现、分析、解决中预设目标，明确情境。这样，每个用户就能在情境提示下基于CI-Web或以知识的语法、语义和语用信息为索引来检索，或以形态、内容和效用知识为基点来推理，以发现具有完整意义的知识，并在情境感知中加以应用。

4.2.4 知识的准确获取语义Web中用户要想获得所需的知识，一般都要在得到知识提供方的信任授权后才能由计算机去完成知识的获取过程，并通过对所获得知识的评价反馈，为其他用户的知识选择提供参考，知识获得的效率和准确性对于用户应用来说还不够理想[30]。而CI-Web可以在对知识全义表示、全面关联、准确发现的基础上，使每个用户实现对知识的准确获取。在KA中，每个用户都是一个全义知识的拥有者和奉献者，在CI-Web的全力支持下，用户既可以在知识奉献中有效地获得其他用户的知识，又可以在群体互动中将彼此的知识修正完善，为大家提供准确获取三位一体知识(即全义知识)的空间和条件，从而推动综合性内容知识和综合性效用知识的进一步获取，提高用户知识获得的丰富度和准确性。

4.2.5 知识的融合集成语义Web主要采用机主人辅的方式，通过知识网格、虚拟视图和公共数据仓库实现与显性知识的集成，通过Jena、API、Protégé-owl、OWIAP与应用程序集成来访问语义知识，通过语义桌面和语义门户实现与主观知识集成，只能显示知识的语义内容及其关联关系，缺少与人进行全义知识耦合的语用要素[30]。而CI-Web可以通过人主机辅的方式，在用户KA系统应用中从知识的形式、内容和效用3个方面与主客观知识实现全方位的融合。在基于CI-Web的知识融合集成中，每个KA用户都具有一定的主客观知识，本身就是一个知识的融合体，在群体交互中既能提高自我主客观知识的融合力，又能显著地提升不同学科、不同领域、不同语言乃至整个人类知识体系的融合度和整合力，为全社会经济发展提供高度集成和深度融合的综合性知识，为用户应用提供各种知识形态。

4.2.6 知识的共享应用与Web 2.0集成，CI-Web能为KA系统建立起一个开放性、自组织性和综合集成性的知识生态系统，每个用户都可以通过各种主题和渠道，使用Web 2.0的各种应用和技术，在群体交互的各种共享空间中实现跨学科、跨语种、跨国界的知识共享应用，在群体沟通、交流、创新中进行知识生产和创造，并将共享和创新结果存储在KA系统的知识仓库中，以便为后来的其他KA用户直接使用或深度挖掘，让知识在更大规模的人机协同处理中得到永续的一体化提炼与应用。

综上所述，Web 2.0通过与CI-Web的全信息综合集成，可以为KA系统中每个用户提供对知识进行全义表示、全面关联、完整发现、准确获取、融合集成和共享应用的能力，使知识在定性提炼与应用的基础上，又得到定量的提炼与应用，为知识从定性到定量提炼与应用开辟了一种全新的途径，为KA一体建设展现出新的方法。

5 结语

知识提炼与应用是用户知识活动相继而生的两个连续过程，在KA系统中亦应得到一体化组织。可是，在以前的KA研究中往往采取分步独立实施的办法，人为地造成了知识内容很难与用户群体及其应用环境有机地融合起来，势必严重影响KA的质量与效果。

为了构建一个开放、复杂、适应性的KA系统，在KA中实现对知识提炼与应用的一体化建设，本文主要以知识及其转化过程为对象，采用文献统计分析和比较研究的方法，根据知识的生成机理、转化机制和解决问题的过程要求，在高度概括国内外研究现状的基础上，系统地总结了知识一体化提炼与应用的四大基本原则，在国内外对比分析中有理有据地提出了基于Web 2.0综合集成的知识生成方法论，并通过对Web 2.0与CI-Web综合集成的特点和功能解析，具体提出知识从定性到定量提炼与应用的详细解决方案和相应策略措施。这种基于Web 2.0综合集成的知识提炼与应用方法，能够有效吸收和整合国内外有关知识提取与应用的理论方法、先进技术，使之在一体化KA中得到集成运用，这既能在宏观上使用户群体在相互适应中将知识自组织与他组织机制有机融合起来，为KA系统构建起和谐的知识外部生态结构，又能在微观上使每个用户在基于自然语言理解中将知识提炼与应用自然结合起来，为KA系统构建起和谐的知识内部生态结构，从而使KA用户在知识内外生态结构共生中实现对知识从定性到定量的提炼与应用，进而使KA系统在坚实的基础与组织保障中得到一体化建设，实现创新发展。

收稿日期：2014－08－26 修回日期：2014－09－19

标签：语义分析论文; 用户研究论文; web技术论文; 群体行为论文; 组织环境论文; 归纳演绎论文; 用户分析论文; 信息集成论文; 功能分析论文;

基于Web2.0集成的知识抽取及其在知识建设中的应用_语义分析论文

猜你喜欢