数字环境下面分类的解释与扩展_元数据论文

数字环境下分面分类法解读与拓展,本文主要内容关键词为:分类法论文,环境论文,数字论文,下分面论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G254.11 [文献标识码]A [文章编号]1003-2797(2010)05-0046-07

1 导言

良好的信息组织基础是实现高效检索的前提,分面分类法提供了一种知识表示与组织方法,属于信息组织层面,目的是为了更好地服务于检索与利用。20世纪30年代印度图书馆学家阮冈纳赞针对文献新事物新主题的出现与原有分类法表达不相适应这一矛盾,提出满足知识领域发展变化、无限容纳的系统化动态分类理论——分面分类法。图书馆领域经过数十年的理论研究与实践,在科学文献组织和管理上对分面分类法进行了总结和提炼,逐渐形成了成熟的分面分析技术和分面词表编制方法,其中分面分析技术作为文献主题分析和标引的基础已经得以确认。

当前我们处在数字化、网络化的信息环境,信息技术的应用在信息组织中的比重越来越大。在物理环境中,事物只能存放于一处,找寻路径单一固定。数字环境打破了这一局限,颠覆了纸本检索工具的空间限制,有效的技术支撑使得数字资源可以存在于多处,以多种检索途径满足多样的用户搜索需求。数字环境的新秩序催生信息组织模式的变革,传统分类法工具显得力不从心,满足多维认知角度和多元检索途径的要求使得分面分类法的研究与应用价值得到重新审视。

目前分面分类法本身的研究是在阮冈纳赞的分面分类理论和随后的英国分类研究小组研究成果的基础上进行改编、寻求技术支持以及向新领域推介等,其本质思想并未发生变化。精简其过于复杂的理论体系和晦涩难懂的术语表达,使其更加容易理解和应用,这是当前研究需要继承和保持的风格。

本文拟从信息组织的传统优势切入,以继承和发展的眼光,尝试从以下几点对数字环境下分面分类法进行解读和适当拓展。(1)继承和延续成熟的分面分析方法,使其更加系统和实用,具备可操作性;(2)结合元数据描述,使得主题分析框架更加饱满;(3)简化繁杂的标识组配制度,面向用户易用性、机器可读与自动组配的考虑;(4)从编制分面词表工具扩充到立体空间的信息构建,从纸本形式到数字化表征与存储;(5)明确人工与机器结合的构建思路。

2 分面分类设计方法

这里讨论的分面分类设计方法面向数字环境下特定领域的组织与搜索需求,设计满足专业化、个性化的分面类表,主要用于网站信息架构、电子商务产品目录、企业内容组织工具以及提高搜索效率的后控词表等。以用户为中心作为设计理念,提炼出一套分面分类设计方法,具体分为明确对象、主题分析与描述、分面划分、分面次序、焦点划分及排序、分面标识、分面类表、修订与维护等八个步骤。

2.1 明确对象

脱离了用户的分类注定会是失败的。设计分面分类之前需要明确两个对象:最终用户和需要组织的信息内容。从用户处着手,了解用户的搜索需求,搜集哪些信息内容需要组织,在此基础上明确分类的主题范围。

最终用户分为目标用户和潜在用户两类。对于已经明确的目标用户,如企业内容管理系统的使用人员,采用访谈和问卷的方式来了解他们搜寻信息的特点和存在的找寻需求。对于未知的潜在用户,如开发某一主题网站以吸引感兴趣的人群参与,这就需要定位用户群,可以采用人物角色(Personas)的方法[1]调研少数真实用户的特征,从而塑造一个用户角色来代表某一类用户。

收集和整理用户关注和使用的各类内容是明确用户之后开展的。内容对象都拥有主题,或单因素主题或多因素主题,例如网站都拥有各自的主题、企业内容管理系统中包含行业及业务工作等方面的专业词汇表。分析内容对象所表达的核心主题,在此基础上兼顾与核心主题相关的边缘主题。为满足用户多样化的搜索需求,收录一些边缘主题往往是必要的。明确核心主题与边缘主题后就确定了主题范围,界定好了分类的边界,这为下一步分析奠定了基础。如果忽视这一步,容易导致主题分析和描述的不全面,最终影响应用效果。

2.2 主题分析与描述

确定主题范围之后,分面的具体划分依赖于主题分析。传统主题结构揭示了文献主题构成因素及其之间复杂的关系,提供了分析参考框架。主题结构中明确的主题构成因素,也被称为“基本范畴”(fundamental categories)[2]。预设一定数量范畴的经验性假设有助于分面分析,但将其作为放之“四海皆准”的通用面来机械套用,这是不合适的。

在情报检索语言发展过程中产生了许多主题结构,如柯茨的“事物、部分、物质、行为、性质”[3],阮冈纳赞的PMEST“本体、物质、能量、空间、时间”[4],维克利的“物质(产品)、机体、构成、结构、形态、性质、活动对象、活动、操作、过程、施动者、空间、时间”[5]、张琪玉的主题因素结构图[6]等。除此之外,Web信息架构与企业知识管理领域也总结出一些简单实用的主题结构,如Wurman的LATCH模式“位置、字顺、时间、类别、层级”[7];Morville和Rosenfeld的“主题、产品、文档类型、受众、地理位置、价格”[8];Patrick Lambe的“人与组织、事物及其组成部分、活动周期、位置、时间或次序、主题”[9]等。这些主题结构具有相似的组织功能与目的,前者主题分析更加深入和系统,逻辑层次明显,理论性强,后者的简单、灵活与实用性是其最大的优点。

元数据是信息组织的基础,作为事物主题分析与描述的基本元素。从实现的功能和作用上看,主题分析与元数据描述两者理念一致,相得益彰。元数据描述机制将抽象认知层面的主题分析具体化,提供主题分析后如何描述和编码的实现机制。具体元数据方案多种多样,覆盖各个专业领域,为信息描述和组织活动提供规范和依据。

将主题分析与元数据描述结合起来,使得主题分析通过元数据描述方法与技术得以丰富和落实,形成适用于分面分类的主题分析与描述框架。这个综合框架以主题结构作为分析主体,元数据作为描述主体,二者形成一定程度上的对照和补充。在主题结构方面,综合各种主题结构的普遍特点,采用以用户检索利用为前提、事物主题为中心的原则,本文提出七个维度的主题分析框架:本质、参与者、活动、主题、关联、载体、情境。

(1)本质:包含事物的构成、结构、性质以及表达事物的概念等有关事物本身。

(2)参与者:与事物发生直接、间接关系的主体,其中突出一个主体类型——最终用户。将最终用户单独列出来是为了在分析阶段纳入第一阶段的明确对象意图。定位准用户,为后面按需设置具体分面瞄准方向。

(3)活动:围绕事物展开的各类活动,包括过程、工具、条件、方法等。

(4)主题:事物所属学科、专业领域等。

(5)关联:事物与其他事物之间的双向互动联系。关联维度是最具联想力的,发散性思维常会引申出各种潜在事物关联。

(6)载体:事物的存在形式、物理状态等。

(7)情境:事物所处的位置、空间、时间、次序等。

这七个维度与分面的具体划分还有一定距离,每个维度下可进一步细分。通过主题分析框架引导,再结合具体元数据方案(如果存在的话),将主题分析的结果通过元数据描述出来。主题分析框架并不试图穷尽主题元素,只是提供分析参考。根据不同领域与具体情况,扩展分析维度,深入细化下去。

2.3 分面划分

元数据的概念提出之前,分面的概念已经存在,与认知维度、事物属性紧密相关。分面是事物认知维度的产物,维度之间是正交的,因此分面之间是互斥的。属性是指事物自身各类特征的具体表现,从事物属性出发,通过组织和提炼得到具体的分面。从抽象程度上讲,事物属性是分面划分的一个基础。这里,事物属性已经通过元数据描述得以外化。

Yee等人[10]提出Faceted Metadata这一概念(国内有直接译为“分面元数据”),其应用情景是在元数据充分描述的基础上,运用分面分析思想来组织和呈现图片元数据信息。是否存在分面元数据这种类型?实际上,分面元数据并不是一种元数据类型,而是对分析与描述得到的元数据集合进行分面分类组织的一种方法。分面元数据的提法很容易让人引起误解,应谨慎使用。元数据作为描述的基础,已经明确其地位,无需再强调分面元数据。

分面是按照某一分类特征产生出来的一组类目,每个分面相当于一个独立的分支树。分面结构宏观上看作是由多个分支树组成,本身可以是不完整的,完备性条件不是必须的。分面内结构通常有两种类型:平面(flat)和等级(hierarchical)。平面结构相当于一个取值列表,焦点数量不限。等级结构是指一分面分支中存在亚面(子面)和焦点的细分。平面结构最常见,也最容易实现,等级分面结构较为复杂,分类和技术实现难度较大。

分面划分的总体依据是具有检索意义和利用价值,最终提升信息检索效率。一方面,经典分类原则可作为基本参考;另一方面,用户的需求分析也是分面划分的重要依据,应结合起来考虑。

阮冈纳赞在冒号分类法中提出三个结构平面:概念平面、词语平面和标记平面,围绕这三个平面设计了一系列规则(Canon)、原则(Principle)和假设(Postulate)。规则是必须遵守的,原则是强烈推荐的,假设没有对错之分,本意只是为分类提供“有益”的参考和行动指引,不存在绝对的对与错,只有“有用”和“无用”之分[11]。归纳和简化概念平面的规则,纳入对用户的考虑,统一以原则的形式给出分面划分的五个原则:

(1)差异化。一次仅使用一个分类特征,用于划分一类事物的分类特征必须产生至少两个类目。

(2)关联意图。每一分类特征应与分类意图相关联。即分面的选择应反映主题与应用范围,具备实用价值。对于不同应用场景,同一主题的分面划分也有所不同和侧重,明确分类目的和意图,不盲目随意设面。分类意图一旦确定,分类特征应保持明确,分面也要保持稳定与一致。在实际应用中,可能会针对不同用户需求展示不同的分面选项,即存在一个“转轴”机制,将用户关注点与具体分面进行对接。

(3)同质与互斥。分面之间不能重叠,一个分面仅代表事物的一个特征,整体划分必须以独立分类特征为依据。同时,同一分面内各类目即焦点也应互斥,即不存在同一分面下属于两个焦点类目的实体对象。

(4)关注用户。以用户为中心的设计思想要求分面划分参考用户研究的结论。相关用户研究包括搜索日志挖掘、用户搜索行为分析、焦点小组、卡片分类等,这些方法可以得出用户的认知和搜索角度,继而落实为具体的分面。当前,关注用户在分面划分中被重点提升,围绕事物主题分析的分面划分是基础,继而匹配成与用户需要的分面才是关键。

(5)多与少的权衡。事物拥有多少属性特征就存在多少个分面,分析与描述地越是充分,得到的分面和提供的搜索途径会越多。这是否就一定能提高用户信息获取的效率?回答是否定的。信息超载已经成为信息社会的普遍问题,对当代人而言,不是选择太少,而是选择太多。太多的选择并没有给人们带来想象中的满足感,反倒让人们无所适从。美国社会学家Barry Schwartz提出选择的悖论:多即是少,只寻求“够好”而并非执意“最好”[12]。选择的悖论同样适用于分面划分,在组织层面就应注意分面数量多与少的权衡,无法做到穷尽分面,也并非越多越好。“够用”就好,根据需求变化再做扩展或删减。分面数量会直接影响展示和利用效果,分面的动态局部展示是有效缓解分面数量过多的一条途径。

这五个经验性原则中并未包括基本范畴,这样做的理由是主题分析框架已经吸收基本范畴思想,不再作为分面划分的原则。

2.4 分面次序

在文献主题标引中,划分出若干个分面后,需要确定分面次序,这决定了首先按照哪种途径进行分类。分面次序(也称引用次序、分面公式)是情报检索语言研究中句法规则的一种,用来解释复杂主题因素之间的位置和含义,同时也是构造分面标识的基础。不同的分面次序从不同角度去控制句法层面的结构,符合某种认知的逻辑关联性,服务于正确理解主题的心智模型,能够为当前分析用户搜索行为提供参考。分面次序能够保证文献标引的专指性与一致性,降低单元词无序导致的检索噪声,提高检索效率。

不同用户的搜索需求和角度各异,数字环境下固定分面次序的优势不再,反倒成为导致搜索机制僵化的原因之一。技术的支持允许按照特定需要转换分面次序,不要求用户按照某种固定的分面次序原则去搜索,而是将分面作为活动台阶,允许用户根据自己的需要来“铺路”,最终形成的搜索路径可以看作个性化的分面次序。给予若干种选择,赋予用户一定的控制权,让用户自主选择走哪一条路。因此,不预先设定分面次序是当前面向搜索应用的一个突破。

不固定引用次序,并不意味着分面就不需要次序。除了用户自由选择分面形成的个性化分面次序之外,分面展示本身还是一个二维平面,仍需要一个默认载入的分面展示次序,作为用户浏览和搜索的起始界面。

由此可见,分面次序的研究扩展为用户搜索策略(搜索路径与查询构造)与分面展示次序两部分。如何设定一个看上去合理、清晰、有用的分面展示次序,以下三个原则可供参考:

(1)逻辑原则。分面的排列应符合思维习惯,不能随便罗列。“具体性递减”、“重要性次序”、“从本质到外在”等都可作为排列的参考。注意到一点,用户可能不会特别关注分面排列的逻辑性,其作为一种潜在原则,建议遵守。

(2)用户原则。根据用户研究的结论,将用户关注的分面排在前面,这是人为提升分面的重要性,其依据是尽可能方便用户搜索。

(3)数量原则。分面下关联的实体数量按从多到少排列。若该分面下无关联实体,则不显示该分面,否则只会增加认知负担。

2.5 焦点划分及排序

焦点(也称为分面取值)是组成分面的基本元素,主要以线性列举的形式呈现,包括单值、区间和渐进等三种主要类型。单值是将离散的焦点一一罗列,例如商品的品牌分面的焦点取值是一个个品牌名称。区间是将焦点划分为一定间隔的小区间,例如价格分面,如0-50,50-100,大于100等。渐进主要用于处理密集型焦点的细致变化情况,过密的焦点形成一个逐渐演变的线条,例如颜色由深到浅,音乐的旋律等。焦点列举过多过细,与分面数量过多一样,都会对用户选择产生负担,渐进焦点类型是有效缓解焦点过多,形成模糊选择的一种处理方式。

与分面次序相比,焦点排序对用户使用而言,显得更加直观与重要。用户选定一个分面后,能够快速有效定位关注的焦点。阮冈纳赞在冒号分类法中制定了详尽的焦点排序有关原则,即有效序列原则(Help Sequence)[13]。英国分类研究小组随后也提出焦点排列的几点原则,但实质与阮冈纳赞的有效序列原则基本相同,只是存在少数争议。这里以有效序列原则为基础,整理出面内焦点排序的七个原则:

(1)时间原则。焦点按照时间由远及近,由近及远排列。

(2)空间原则。焦点按照空间位置进行排序,具体可分为地理位置、自上而下、自下而上、从左至右、从右至左、顺时针、逆时针、从里到外,从外到里等。

(3)数量原则。焦点按照数量递增或递减原则排列。

(4)复杂性原则。焦点按照复杂性递增(简单到复杂)或复杂性递减(复杂到简单)的顺序排列。

(5)惯用序列原则。对于一些约定俗成的排序方法予以遵守,尽量与人们对某事物主题的认知保持一致。参考综合分类法的各种复分表设置,例如地理表、年代表、民族表等。

(6)实体保障原则。若一个焦点下包含的实体数量多于其他焦点,则将该焦点排在其他焦点之前。这也就是传统文献保障原则,根据包含实体的多少来决定焦点的次序。

(7)字顺原则。若面内焦点不具备有意义的排序依据,可按照字母或拼音顺序排列。

这七个原则根据情况选择一种或多种组合使用。除给出默认焦点排序外,还应根据不同的应用场景制定更为具体的焦点排序规则(rule)。

2.6 分面标识

文献主题的分面分析最终转化为代表该文献主题的一个分面标识,这个转化也就是分面合成(组配)的过程。分面标识的构成方式是分段组合式的,根据引用次序使用分面连接符组合在一起的。遵守类号组配规则,复杂文献主题对应的分面标识会变得冗长复杂,导致不易辨识和降低检索效率,这方面理论研究较多,实际应用较少。

分面标识作为分面分析合成方法的最终产出,在数字环境下为分面及焦点赋予标识,仍然具有实际意义。分面标识作为系统化符号语言,其简洁性、跨语言等特征为分面分类设计提供方便。从计算机处理和实现的角度看,分面标识为技术人员设计分面分类数据结构中分面及焦点的标识符提供依据,这为计算机可读可理解奠定了基础。分面标识的当前定位主要面向系统设计,作为搜索查询的内部支撑部件,而不再适合作为普通用户的前端检索工具。

前面讨论了不固定分面次序的策略,分面标识不需要采用类似冒号分类法的分面次序和连接符的方法。分面次序不固定,导致描述同一事物的分面标识不唯一,也就是存在多个分面标识实则定位同一事物的情况。与之相对应的是,不同用户通过多条搜寻路径找到同一事物的过程,其背后的实质是查询构造中的分面标识组装,这样分面标识与搜索应用产生直接联系。在数据库技术的支撑下,不管分面标识的组装次序怎样,只要选定特定的分面及焦点,就可以实现唯一定位。这里需要明确与区分的是,分面标识的轮排次序在搜索应用中反映的是用户搜寻过程形成的多样路径。

2.7 分面类表

分面及焦点划分与排序确定后,一个分面类表的主体就完成了。在传统分面类表编制中,除了引用次序之外还有对应的一个类表次序,即按一定顺序将分面编入分类表中,形成分面类表。一般情况下,类表次序与引用次序一致或相反。分面类表作为分面分类设计的具体成果,为方便起见,建议类表次序与引用次序一致。

分面类表只是一个阶段性产物,而不是终极目标。分面类表设计好后,需要与用户交流与讨论,以进入实际应用阶段。如何在项目中具体应用和执行,除了技术实现人员的职责之外,分类人员也常常需要介入其中。分类人员的关注点不仅仅是设计分面类表,还要对分面类表的组织能力、展示效果以及最终如何提升搜索效率进行综合考虑。因此分面分类法的研究内涵也得以扩展,从组织层面到交互展示层面再到最终搜索效率的提升。

根据不同的应用需要,分面类表的具体表征和存储包括以下三种形式:

(1)传统词表模式。根据特定的内容组织和搜索需求,从专业咨询的角度编制词表,其作用是为内容组织和搜索配置提供方法和依据。这类情况主要以文档形式交付,类似于传统的纸本词表。除给出分面类表外,如果词表规模较大,应补充索引部分。

(2)数据库模型。对于需要实施分面分类组织的具体系统,可能仅仅给出分面类表文档是不够的,需要提供实际可供数据库设计参考的数据模型。给出数据库分面分类结构设计方案,将内容组织与数据存储紧密结合,套用该数据模型就可以构建一个运用分面分类组织的数据库系统。在关系型数据库中设计分面结构的Schema,参照关系与实体E-R模型,主要处理的是一对多或多对多关系。William曾讨论了简单列表取值的洗涤剂产品的分面组织采用多个二维表的实现思路[14]。分面结构的关系型数据库存储模式与搜索阶段的查询语句构造自然结合起来,技术实现比较成熟。

(3)XML交换格式。对于特定领域的分面类表存在共享和重用的需求,基于XML的分面数据交换格式是一种解决途径。当前还不存在统一规范的用于分面数据表征XML格式,目前可用的编码方案有:基于Topic Map技术的XFML[15](可扩展分面标记语言)以及SKOS(collection部分)[16]等。

2.8 修订与维护

分面分类设计是一个反复迭代的过程。分面分类是具有灵活扩展性的动态分类系统,能够迅速应对需求变化调整,在不影响已有结构的同时进行扩充和修剪。例如根据用户搜索需求反映的维度,增加新的分面;新增元数据取值,对应新增焦点;根据用户对焦点区间的敏感度,适当调整区间间隔等等。修订工作的整体流程大体分为分析、提议、决策和实施四个阶段,如图1所示。

图1 修订与维护流程图

(1)分析。通过需求搜集、用户行为研究、搜索日志分析、内容分析等手段发现应对变化所要做出的调整意向。

(2)提议。根据分析阶段提出的调整意向,制定具体的调整策略。

(3)决策。由分类人员、内容管理者、用户发言人和技术人员等人物角色组成的管理小组,对分面调整的合理性、可行性进行论证,做出决策。

(4)实施。修改分面类表,对以分面类表作为构建依据的信息架构、存储结构以及搜索配置进行联动修改。

分面类表应保持与用户需求和内容对象切合的同步变化,固定周期的版本更新策略不再适用,分面分类的理想状态是永远的beta版本,做到随需应变。

3 小结

对信息组织方法本身的研究有其重要意义,本文试图跳出文献分类的圈子,将分面分类法与当前信息环境进行对接。原有分面词表编制方法与主题标引中的分面分析依然有用,有了技术支持,使得纸本时代无法做到的多维分析与检索等成为可能。分面分类法的原则与建议在一定程度上可被技术人员编码为计算规则用作自动处理。

分面分类应用逐渐转向更广阔的领域交叉与融合。举例来说,与设计师合作,通过界面和交互行为设计来充分展示底层信息架构的价值;与计算机专家合作,在搜索引擎中集成分面结构用于搜索结果的关联与限定,将分面分类法用于领域本体的多维构建等。

David Weinberger以互联网社会学家的眼光通过具体案例揭示了分面分类法在信息技术推动下迎来了应用的“曙光”:分面分类将树形浏览的用户界面友好性同计算机数字化的处理能力结合起来。如果没有计算机,这种分类体系的实现是根本无法想象的[17]。

在数字环境下,分面分类法作为信息组织与检索利用的基础,这一提法依然站得住脚。图书馆学在信息组织方法层面的贡献将推动分面分类法的研究朝向构建多维化、具有灵活扩展性的底层信息架构,服务于设计信息找寻与发现的方向发展。

标签:;  ;  ;  ;  ;  ;  

数字环境下面分类的解释与扩展_元数据论文
下载Doc文档

猜你喜欢