大型综合性中文门户网站信息组织体系分析,本文主要内容关键词为:门户网站论文,中文论文,综合性论文,体系论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G254
1 网站的定义
网络信息资源分布是以网站为单位的。那么网站究竟是媒体、通信工具,还是商务中介?目前还尚难定论。不过我们可以这样认为,网站是一种载体,其属性、功能取决于它承载的内容。网站具有包容性和映射性,即它是一个将文字、图像、声音以数字化形式存储,并通过网络、计算机、终端形式再现的信息源。网站既可作为信息传递的索引,也可以是信息的集散地或信息传递的中间站[1]。
根据网站的基本属性,可将其划分为以内容为主的网站和以应用为主的网站两类。从网站发展的时间历程看,以内容为主的网站是最先发展起来的,目前在众多的网站中仍占很大的比例,人们平时上网看新闻、查信息、聊天等,也主要是登陆到这一类网站。
按照网站的信息服务模式,可将其分为综合门户型网站和垂直门户型网站两类。综合门户型网站指第一代网站,具有全面、广泛的横向服务特点,目前国内大多数网站属于此类。垂直门户网站指针对某一特定领域、某一特定人群或某一特定需求提供有一定深度的信息和相关服务的网站,其特点是“专、精、深”。下文以国内大型综合性门户网站为例,探讨基于内容的门户网站的信息组织体系。
2 国内大型门户网站信息组织体系分析
网站的信息组织体系反映了对网络信息进行整序、优化,并集成为一个便于有效利用的系统的方法和过程[2]。为了满足用户准确、快速获取信息的需求,各大综合性门户网站采用了各具特色的信息组织体系,其方法和特点各不相同。
2.1 Yahoo!中国(http://cn.yahoo.com)的信息组织体系
Yahoo!是WWW上最早、最著名的网络目录和最流行的Web导航指南,创建于1994年[3]。Yahoo!中国的收录范围包括网站、Web页,新闻组等资源。在专题的安排上,Yahoo!中国既包罗了学术信息资源,还包括了大量的非学术信息资源和许多娱乐信息资源。Yahoo!中国的信息组织采用等级式主题分类方法,依事物分类,而不依学科分类,把相关的网络信息资源集中在一起。
2.1.1 类目体系 Yahoo!中国基于《中国图书馆图书分类法》,依据信息量的大小,对该分类法进行了改造,按宽泛的主题领域将网络信息划分为14个基本大类(见表1)。
表1 Yahoo!中国的大类体系
艺术与人文
新闻与媒体
商业与经济
休闲与运动
电脑与因特网
参考资料
教育
国家与地区
娱乐
科学
政府
社会科学
健康与医药
社会与文化
在每一个基本类目下,再根据其拥有的信息资源、网络站点的多寡,细分为不同层次的子类目,级别越低的类目中的网站其主题越明确,以“电脑与因特网”大类为例,其子类目的结构如下:
一级类目:电脑与因特网
二级类目:
因特网
三级类目:
对等文件共享(P2P)(117)
公司@
聊天室与论坛(28)
软件
其中,“@”表示这个主题在Yahoo!中国等级索引中多次出现,括号中的数字则代表该主题词下收录的站点数量。
从中可以看出,Yahoo!中国的信息组织体系是Internet信息资源的一个主题索引体系,它建立了一个由类目、子类目等构成的、可供浏览的、详尽的索引等级结构。其类目设计合理,结构完整、全面,类目等级层次鲜明,各级类目的详略、宽泛程度不一,从而为网上丰富的信息资源的准确归类提供了基础和保障[4]。
2.1.2 分类原理 著名的Internet Scout Project的分类专家Aimee Glassel认为,“印度著名分类学专家和图书馆学家阮冈纳赞的冒号分类法体系与Yahoo!网络信息的主题目录组织之间存在着密切的联系”,从而揭示了Yahoo!应用分面分析方法对网络信息资源分类的实质。Yahoo!分类目录对分面分类原理的应用具体表现在以下几个方面:
●利用宽泛的主题领域建立分类索引。为了使其分类体系既具有无限的容纳性,又具备相当的专指性,Yahoo!采用了较为宽泛的类目体系,并通过分析与综合的方法建立了较为完整的分类索引。这与分面分类的思想不谋而合,因为将知识分为宽泛的类目,可以多方面地反映主题内容,以避免列举式分类表的线性单项式的结构,这正是阮冈纳赞《冒号分类法》的主要原则[5]。
●根据上下文进行信息内容的组合。仅从Yahoo!的分类结构外表看,也许会认为它与叙词表相近,这主要是因为Yahoo!使用了词汇而非符号来组成相应的概念词串。但是从组合类目的能力来看,它远远比普通的叙词表复杂,通过分析Web页面的内容特征,可在Yahoo!分类体系结构中得到某些类目词组成的概念词串或标引词串,将其放入相应的类目层次中,可发现这些概念词串或检索词串中包含的独立词汇都有自身的含义,但是一旦将它们与其他词组合,则会形成上下文关系,具有更深层次的含义。从这一点上看,与分面分类法是及其相似的[5]。
●提供不同的路径入口。“虚拟的信息集合”是Yahoo!的一大优点,体现在其拥有的概念模式和引用次序(即分面排列次序)的灵活性上。在传统的图书馆中,一本书只能放在书架的某一个固定位置。但在数字化、网络化的世界里,数字化信息资源却不用再限制在唯一的物理或逻辑位置上,而可以将某一信息源分到类目结构中的不同位置。将分面分析方法应用到网络信息资源的组织中,Yahoo!中国能够在其庞大的分类登记结构中为某一信息源提供不同的路径分支入口,这样就能从不同的路径,为检索相同内容的不同用户提供服务,使检索获得成功[5]。
由于Yahoo!将人工编制的等级式索引与通过自动搜索软件获得的关键词索引相结合,具有类目设置均衡,重点突出,专题性、科学性强的特点,因此可使用户进行笼统的主题浏览和检索,较好地满足他们族性检索的要求。同时,它也允许用户根据兴趣,从任意等级类目入手,选择不同深度的浏览检索范围,使其能迅速进入感兴趣的类目。提供不同的路径入口可以以网状结构多方位、多层次地揭示知识的内在相关性,方便用户从不同角度查找资源[6]。但Yahoo!的人工标引方式会导致信息更新速度较慢,信息标引数量和标引深度不够。主题树的方式也使得检索专指性较差。
2.2 搜狐(http://www.sohu.com)的信息组织体系
搜狐网站的全部内容采用人工分类,共设置有18大类,各大类下再细分为二、三、四级类目,各级于类目总数达5万多个,形成了一个十分庞大的树状结构,目前共收录经过选择的网络资源大约25万条[7]。其大类的设定基本上是稳定的,但各级子类目则处于不断变化之中,主要体现在新类目的增加上。搜狐网站对每周新增类目都进行报道。搜狐的信息组织体系强调从不同角度设置类目,注重类目设置的个别化和对多属性类目的重复反映,其组织体系具有以下特点:
2.2.1 以主题立类为主,学科立类为辅 其立类原则与Yahoo!中国十分相似[7]。在一级类目中,按主题立类的有14个:娱乐与休闲、体育与健身、旅游与交通、生活与服务、工商与经济、公司与企业、卫生与健康、社会与文化、国家与地区、电脑与网络、新闻与媒体、个人主页等。按学科立类的只有6个:文学、艺术、社会科学、教育与培训、科学与技术、政治/法律/军事。
2.2.2 以主题聚类为主、学科分散 例如,在“旅游”这一主题内,搜狐统一集中在“旅游与交通”大类之中,即:综合旅游网站、旅游路线报价、新闻与媒体、旅游摄影@(凡带@符号的类目为交替类目,下同)、旅游景点、旅游热点、交通、旅游常识、游记、旅行社@、预订服务、聊天与BBS、宾馆饭店@、气象信息@等。
2.2.3 强化生活性类目,淡化学科性类目 在18个一级类目中,生活性类目就有6个,即娱乐与休闲、体育与健身、卫生与健康、生活与服务、社会与文化、旅游与交通等。而学科性类目也只有6个(见2.2.1节)。为了突出生活性类目,搜狐对传统学科性类目进行了压缩或降级使用,例如把在《中国图书馆分类法》中处于显赫地位的哲学、宗教、语言、文字、历史等,由一级类目降为二级类目,并压缩在社会科学大类里;把处于次要地位的娱乐业、企业经济、服务业、生活服务技术、计算机技术、贸易经济、新闻学、广播电视事业、旅游经济、交通运输以及世界地区表、中国地区表等,经过整合、重组、改造后提升为一级类目[9]。
2.2.4 多数类目按用户使用频率高低排序 例如,在一级类目中,搜狐把“娱乐与休闲”大类冠于首位,再排体育与健身、旅游与交通、生活与服务、文学、艺术、国家与地区、新闻与媒体、社会与文化等类目,体现了网络信息组织体系的实用性和大众化。又由于以使用频率为序,因此搜狐的分类大纲中“生活与服务”与“娱乐与休闲”、“电脑与网络”与“科学与技术”、“教育与培训”与“社会与文化”等原本密不可分的类目却相距甚远。这样排序虽然强调了重点,但体现不出类目之间的关系,一旦频率变化,会给用户造成一种类目纷繁复杂的表象,而且这种排列只能照顾大多数用户而不能兼顾其他。
22.5 在同一个划分等级中,采用多种不同的划分标准
例如,在“文学”大类下共列举了院校系所、散文/杂著@、诗歌/韵文@、综合网站、儿童文学、古典文学、纪实/传记@、校园文学、科幻文学@、民间文学@、港台文学@、轻松文学、另类文学@、军事文学@、文学理论与批评、出版/发行、个人主页@、奖项/活动、流行书籍、图书馆@、新闻媒体、英文作品@、组织机构、聊天/论坛、网上书店@、打工文学@、文学史27个二级类目,在这同一个划分等级中,搜狐共采用了13个划分标准:载体、读者对象、网站、时代、体裁、组织、题材、国家、类别、理论、语言、作者、地区[10]。由于采用了13个划分标准,因此划分出来的同位类具有包容性。如外国文学,包含其同位类散文、诗歌、民间作品、儿童文学等。这样做的好处是减少了分类体系的层次性,从而也减少了点击次数,便于用户快捷检索信息;缺点是影响类目体系的清晰度,可能降低信息的查准率。
2.2.6 突出、提示热点 如申奥成功后,除可通过路径“体育与健身>体育赛事>奥运会>北京2008奥运会@”查找到与北京2008奥运会相关的网站,还可从“体育与健身”类下直接列举的“北京2008奥运会@”进行查找。再如,“旅游与交通”下直接列举了“九寨沟”,虽然“旅游与交通”是一级类目,“九寨沟”是四级类目,但用户可以直接点击“九寨沟”,而不必再层层点击查询[11]。这种根据用户需要突出组织和显示相关资源的划分标准,能使分类体系及时反映用户需求和资源变化。
搜狐的信息组织体系为网络资源分类体系的编制做了有益的探讨,其从地区角度进行的揭示是国内网络分类目录中最充分的。用户一般只要遵循其分类规则和一定的查询规律,就可以通过层层查找,找到需要的网络资源。
2.3 新浪(http://www.sina.com.cn)的信息组织体系
新浪网内容丰富、分类详细,其信息组织体系共有17个大类,1万多个细目和20余万个网站[7],能为用户提供全面、及时的中文信息内容。新浪网的信息组织体系具有以下特点:
2.3.1 类目设置比较均衡 新浪的每个大类平均下辖二级类目28.2个,其中下辖二级类目最多的为教育就业类,共有二级类目46个;所辖二级类目最少的是个人主页类,共有二级类目15个。详见表2。
表2 新浪大类所辖二级类目数量分布(单位:个)
娱乐休闲
生活服务 体育健身
社会文化
政法军事
个人主页
31
31
37
37
18
15
计算机与
国家与
互联网
文学
医疗健康
科学技术
新闻媒体
地区
26
29
23
27
31
31
商业经济 艺术
教育就业
社会科学
参考资料
24
29
46
26
19
可见,新浪信息组织体系各大类下所辖二级类目数量比较均衡,如按集中的信息数量分级,各大类的分布也比较平衡。信息量在1万条以下的有3个大类;1万到10万条之间的有5个,10万条以上的有8个,见表3(需要指出的是,新浪对“国家与地区”按区域直接划分为31个二级类目,分别对应我国的31个省、市、自治区,但其三级类目按主题划分,因此这里未列出“国家与地区”类所集中的信息数量)。但是,各大类所集中的信息数量差别却较大。最大的是社会文化类,信息高达2 248 274条;最小的是参考资料类,只有信息2200条。这也是网站分类中普遍存在的问题。
表3 新浪大类所辖信息数量分布(单位:条)
娱乐休闲
生活服务 体育健身 社会文化 政法军事 个人主页
1 019 890 345 491
39 863
2 248 274 8102
19 738
互联网
文学
医疗健康 科学技术
新闻媒体 商业经济
213 510
28 611
118 868
445 381
564 134
457 535
艺术
教育就业
社会科学 参考资料
99 031
38 244
9 536
2 200
2.3.3 二级以下类目采用版块化显示方式 例如,教育就业类最上面的第一个类块是求职招聘就业方面的内容;第二个类块则是热门的综合教育类;第三个类块是各级各类教育;第四个类块是按学科划分的,分为语言、艺术、音乐、计算机等类;第五个类块是与教育相关的机构和主题概念类;最后一个类块是资源类。显然,这种按同一分类标准划分类目的集中排列方式比按使用频率和字顺组织划分类目的方式,更能清晰地呈现类目关系。
2.3.4 设置了“少儿搜索”特色化栏目 在新浪网信息组织体系的17个一级类目后,列举了“少儿搜索”,包括卡通漫画、童话、儿童节、美术、体育、智力游戏、玩具、医院、育儿、少年报、科学普及等内容。为检索少年儿童方面的网站提供了直接入口,这是新浪网区别于其他网站的一大特色。新浪网还在详细的二级类目列举页面上方设置了“新浪推荐”栏目,在每级类目的列举页面右侧设置“热门连接”栏目,并进行了简单的归类,这也是它不同于Yahoo!中国与搜狐之处,为用户快速进入自己感兴趣的项目提供了直接入口,同时又保持了界面的简洁。
2.4 网易(http://www.163.com)的信息组织体系
网易信息组织体系采用“开放式目录”的管理方式[7],在功能齐全的分布式编辑和管理系统的支持下,网易邀请各界专家参与可浏览分类目录的编辑工作,主题的设置可随网络资源的变化而增删。它目前将网络资源划分为18个一级类目,每个一级类目又细分为若干二级类,层层细分,直到类下为具体的网站或网页[12],共收录条目25万个。网易的信息组织体系有如下特点:
2.4.1 以主题立类为主,学科立类为辅 在全部18个大类中,按主题立类的有14个:经济金融、电脑网络、新闻出版、娱乐休闲、生活资讯、情感绿洲、公司企业、社会文化、教育学习、体育竞技、医药健康、旅游自然、少儿乐园、综合参考。按学科立类的只有4个:艺术、科学技术、政法军事、文学。这一立类原则在网络资源组织中非常实用,能构架起通用性的大类结构,基本上反映了网络资源的分布情况,符合用户的信息利用习惯。
2.4.2 使用次分类体系 网易在使用“开放式目录”(主分类体系)组织网络信息资源的同时,还使用次分类体系组织本网站信息:新闻、体育、财经、科技、商业、游戏、娱乐、女性、生活、房产、招聘、旅游、健康、文化、教育、出国、汽车、手机、导购、收费信箱,便于某类用户查询。次分类体系通常用于“热门信息”或本网站信息的组织,在Yahoo!中国、搜狐和新浪中也有运用,但网易的次分类体系比较简明。
2.4.3 提供便捷的行业搜索功能 网易信息组织体系在一级类目的详细列表下方增加了“行业分类”,引导用户直接进入“行业搜索引擎”,突出了网易的特色服务。当用户第一次使用“行业搜索引擎”时,在打开其主页面的同时会弹出“个性定制”提示栏,方便用户定制一个或多个行业。使用“个性定制”功能后系统会记录用户的信息,以便用户以后每次使用时都在这个设定的行业范围内进行搜索。同时,也考虑到用户不断变化的需求,在搜索结果页面设有“全部行业”的选择提示,但不会影响用户原有的个性定制。
2.4.4 按贴近生活、社会、时代的程度排列类目 如先排经济金融、电脑网络,接着是新闻出版、娱乐休闲、生活资讯等,最后排列综合参考。对二级类目的排序大致也遵循上述原则。如对生活资讯大类中的二级类目,大体按照工作→住→行→食→家庭→学习→身体等次序排列。由此可见,网易的信息组织体系从立类到序类都强调实用性、易用性、多维性、灵活性和简明性。但同时也存在一些问题,如把农业科学归入科学技术大类,把各地幼儿园/幼教和各地小学/教育归入少儿乐园大类,而不入教育学习大类等。另外,把社会文化大类与文学大类、艺术大类拉大距离,把文学大类与艺术大类人为地分割开,不太符合类目之间的逻辑关系[13]。
3 网站信息组织体系中存在的问题
网站信息组织体系具有重视以事物为中心设置类目,类目收录范围宽泛,多重列类、重复反映,排列方式简便,直接以语词组织信息,更新迅速等优点,但仍存在以下问题:
3.1 类目设置缺乏规律性
不少系统同位类的展开是多元的,往往同时采用多个标准,每种标准使用时又并不完整设类,有时还同时列出不同等级的类目,使得同位类的设置缺乏必要的规律性。这就造成某些类目之间关系含糊不清,增加了类目体系的不确定性,使得信息的查找不容易把握[14]。
3.2 类目归属存在不合理现象
根据知识之间的联系合理确定类目之间的归属,是建立分类体系的一个基本要求。网络分类系统中类目归属的不合理现象,有两种情况:一种是在确定类目的下位类时,相关类收入范围过宽,导致收入一些超出母类外延的类目;另一种是未能按照知识之间的关系,合理确定类目的归属,这种处理显然不利于分类体系的有效使用[14]。
3.3 同位类排列不能揭示类间关系
按照类名字顺或检索频率排序虽然可以方便同位类的列举,但这种列类方式不能反映并列类目之间的联系,缺乏对知识门类系统显示的能力,也不能揭示类目之间的相关性。特别是在同位类采用多种划分标准的情况下,更容易造成类目关系的混乱。
3.4 横向关系的揭示上存在不一致现象
传统分类对横向关系的揭示包括设置交替类目、选择类目、类目参照等多种方法。而网站的信息组织体系则通过链接方式,将具有多重联系的类目(如交替类、交叉关系类目、总论与专论等)在各相关类目下重复反映,以增加类表的多维性,这是一种进步,但在处理过程中缺乏一致性及对范围的适度控制。
3.5 部分类名不确定
在网站信息组织体系中,类名有时不能确切概括类目的内涵,有时只有象征意义。此外,由于网络类目的下位类范围较宽,上位类有时很难有效限定其含义,加之网站信息组织体系一般不使用注释揭示类目的内涵,因此容易使一些类目的含义和范围难以确定,影响使用效果。
3.6 分类规则有待完善
网络分类体系的多维性和网络资源的多样性,需要详尽的分类规则。但到目前为止,多数系统仍没有建立起适合网络资源特点的详尽的标引规范,从而影响标引的准确性和一致性,无法充分揭示有价值的网络信息,造成标引质量降低,影响实际检索效果。
4 改进建议
网站的信息组织体系应在保持实用性、易用性和多维性的基础上增强规范性、逻辑性和覆盖能力,同时要具有广告性、大众性和竞争性[14]。具体有以下几项建议:
4.1 学科分类与事物分类兼顾
单纯按学科分类很难将网上的动态信息及某些新事物涵盖,而单纯按事物分类又使得分类体系缺乏系统性。在大类设置上,应尽量将哲学、社会科学、自然科学、农业等学科性较强的类目按学科分类独立出来,学科性不强的类目则按事物分类。
4.2 类目组织以内在联系为主,以检索频率为辅
由于网络信息是立体、交叉、纷繁复杂的,因此必须采用立体交叉、网状的信息组织方式,使类目排列既能客观充分地揭示知识空间的主体联系,又便于用户理解使用。
4.3 类目划分应清晰
大多数类目的数量应该控制在3-4层为宜[15],同一划分等级可采用不同的划分标准,但依不同的划分标准划分出来的子类最好间隔开,让用户一目了然。
4.4 类名设置要便于理解
鉴于综合性门户网站主要是面向大众的,因此在栏目命名上应采用自然语言,甚至口语,避免采用学术性和专业性太强的词汇(如电子商务命名为“网上商城”等)。同时通过列举下位类的方式揭示本类的内容范围,或提示重点、热点的内容,或提示隐藏较深的内容。这样做,好比在类目下加了注释,有利于用户理解。
4.5 通过设置路径指示帮助用户定位
所有界面均应设置“路径指示”,帮助用户在层层浏览中随时了解自己所处的位置,起导航路标作用,而且还可以根据指示路径的链接直接返回本类的任何一级类目。在用户容易发现的位置设置“帮助”项目,内容涉及用户在信息搜寻过程中可能遇到的问题。现有的大型门户网站组织体系在这两方面都做得比较好。
通过分析大型综合性中文门户网站的信息组织体系,可以看出这种自编分类体系组织网络信息资源的做法,已经逐步发展成组织通用性网络资源的主流。各网站根据网络资源组织的需要、用户需求和技术环境等,构建了不同于传统文献分类法的类目体系,探索了适合网络环境的技术方法,并且呈现出“分类主题一体化”的趋势。同时也要看到,各大门户网站的组织体系优缺点不尽相同,认识并分析其缺点,可以为编制统一的网络资源组织体系提供依据,促进网络信息资源组织体系规范的形成。