图书馆网站基于微格式的语义化组织研究,本文主要内容关键词为:语义论文,图书馆论文,组织论文,格式论文,网站论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
语义网是能够根据语义进行判断的网络,是万维网之父蒂姆·贝纳斯·李提出的下一代的网络。权威信息技术调研机构Gartner 2007年5月研究报告[1]显示,在未来10年间Web技术的改善将会实现在文档中嵌入语义结构,预计在2012年基于语义的超文本技术将成为普遍使用的Web技术,预计到2017年语义网能够初步实现。作为人类信息知识宝库的图书馆,经过近20年大规模的数字化和信息组织,其提供给用户数字图书馆服务的图书馆网站也已经成为万维网上的重要数据节点,而且数字图书馆的资源数据多数都是经过人工或者半人工按照一定标准标记的具有一定语义的结构化数据。元数据研究专家,美国卡罗莱纳大学图书情报学院Jane Greenberg教授系统地分析了语义网和图书馆之间的相似性(如:服务目标都是信息利用和知识发现、数据都建立在大量国际和国家标准基础上、都拥有大量的结构化数据等),认为图书馆可以也应该在加快语义网中发挥重要的作用[2]。图书馆资源的语义化对于用户来讲,利用方式更加便捷,方式也更加多样化,也有利于提高自身的服务质量。目前语义网的建设主要是通过关联数据、RDFa和微格式等[3]对传统网络页面和数据进行标识,包括瑞典皇家图书馆[4]、美国国会图书馆[5]等在内的国外大型机构都开始利用关联数据、RDF提供关联数据。相对于关联数据和RDFa,微格式针对的是微内容,实现方式则主要依赖于现有网络标准,秉承“以人为本,力求简单”的原则[6],实现更为简单和灵活,不需要重新转换和发布XML文件,不需要重新构建资源发布整个网站,可以根据某个具体图书馆技术力量和需求,只选择有语义化需求的部分微内容,根据相关标准稍微修改下相关的HTML代码即可实现。因此,研究微格式在图书馆资源的组织和应用则具有更为实际的意义。
2 微格式信息组织体系及其应用优势
2.1 微格式信息组织体系
微格式(Microformats,有时缩略为μF)是一系列基于网络的语义置标标准,通过复用现有的HTML/XHTML标签在网页和其他支持(X)HTML环境中传递相关元数据和其他属性[7]。从2005年6月产生[8]至今近5年的时间中,微格式凭借其开放、动态发展、轻量级、重复用、易学易实现等优势[9]已经逐渐被认可和应用:HTML从HTML5开始已经完全支持微格式;Firefox 3和Internet Explore 8网络浏览器也利用专门开发的插件Operator[10]和Oomph[11]来检测和使用HTML页面中的微格式;搜索引擎Yahoo[12]和Google[13]也先后在2008年和2009年开始将微格式数据纳入到其搜索结果之中;万维网标准化组织W3C则设立了专门的标准GRDDL[14]来支持微格式成为语义网相兼容的数据;Dreamweaver等网页开发工具、Outlook等个人信息与通信管理工具以及GoogleMap等也都开始支持微格式的相关应用。
微格式主要有基本微格式(采用XHTML支持的rel、rev、class等属性定义具有语义的属性集,嵌入到网页文件中直接使用以解决单一问题)和复合微格式(由基本微格式和标准的XHTML元素组成,解决描述复合数据类型现存标准方案与XHTML之间准确转换问题)两种格式[15]。根据所要解决的问题,笔者将现存微格式信息组织体系划分为六大类微格式(详见图1):①数据结构化定义和标记的微格式,主要有XMDP和XOXO两种,前者用于定义其他微格式的结构,后者则以模块化XHTML的形式定义微格式以便于互操作;②描述超链接属性的微格式,以rel-value的形式为各种链接添加语义标签,目前主要有6种;③描述个人和组织信息的微格式。用于描述发布个人或组织联系信息(hCard)、日程安排信息(hCalendar)、新闻消息(hNews)、产品信息(hProduct)、社会关系(XFN)等;④描述评论机制的微格式,目前有hReview和votelinks两个,前者用于描述评论内容,后者用于描述投票;⑤针对载体类型的描述标记微格式。此类微格式是近几年随着微格式实践的深入发展而推出的微格式,如用于音频资源描述的hAudio、对图表进行描述的figure、用于描述网络标签的xFolk等;⑥描述具体应用的微格式,如用于描述酒的wine,描述货币的currency等。需要说明的是,微格式信息组织体系是一个不断发展的体系,随着预解决的问题研究和实践的深入,不但会推出新的微格式类型,现有微格式也会被完善,应用功能也会越来越丰富,如,对hReview的研究[16],微格式编码和可视化的研究[17]、XFN抽取与可视化的研究[18]。
图1 微格式信息组织体系
2.2 微格式信息组织体系的应用优势
微格式的设计先考虑人,后考虑机器,并遵循减化(Reduce)、复用(Reuse)和再循环使用(Recycle)的3R原则。因此,微格式坚持从普通用户的习惯出发建立简单的数据格式,支持普通用户的分散开发和通过简单程序调用;微格式定位在轻量级标记语言,格式短小简洁,格式总数则尽量保持“微型”规模;微格式不强调重新发明语法,也尽可能少的进行新定义,尽量采用广泛使用的已有格式进行定义,重复利用已取得普遍接受的可运行代码构建组块,在不改动现有HTML语法的基础上进行语义化转化,充分利用已“有”的资源,享受“无”需处理一堆麻烦的好处[19];微格式提供的是问题解决型方案,所有微格式的提出都面向一个或者一类特定问题,坚持模块化和可嵌入的开发方式,既可以在现有HTML或XHTML中嵌入模块化的微格式,也可在微格式使用中嵌入其他微格式内容,实现复用和可循环使用。
利用微格式改造的HTML页面原有内容、样式等都可以保持不变,却为HTML页面增加语义化处理的能力,不仅让数据更便于人类阅读,也保持数据对机器解析的友好性,外部应用程序、聚集程序和搜索引擎等在爬取网站的时能够识别信息内容的语义并对信息内容进行调用、重组和转换等操作,更便于数据的共享。而且这种实现无需很高的技术门槛,也无需繁杂费时的开发过程即可轻松实现,这使得微格式信息组织体系具有很强的实用性。微格式针对所需解决问题的“增补”式改造,用户则可根据需要用简单程序实现对所需内容的自由调用和重组,这又使得微格式信息组织体系具有很强的灵活性。
利用微格式改造的图书馆网站,不但方便了用户利用现有软硬件工具或者自己编写的简单程序筛选和抽取自己需要的资源和信息,也方便图书馆之间的资源共享、图书馆管理机构等对图书馆信息自动抽取统计分析、图书馆资源进一步集成融汇。改造后的图书馆网站,很多HTML代码都转化成了具有语义标签的XHTML代码,语义HTML的优势[20]也体现出来,比如:网站样式表出现问题时能够使页面呈现清晰的结构;视障用户的读屏软件可根据语义标记“读”网站内容;对样式表支持较弱的手机、PDA等可根据自身条件依据语义标记显示合适界面;搜索引擎的爬虫或者网站的整站搜索则可以借助于语义标记来确定上下文和各个关键字的权重,提高查询结果的针对性;便于图书馆网站分散化管理和维护,各部门可根据自己的需要维护和管理部门相关部分。
3 图书馆网站基于微格式的语义化组织
3.1 图书馆和相关馆员信息的微格式化改造
图书馆网站是图书馆实体机构在互联网上传递自身信息,与用户实现互动的主要媒介。一般而言,图书馆网站上公布图书馆组织和相关馆员的信息有:(1)在“联系我们”等栏目中公布的实体机构的通信地址、相关部门的联系人、联系电话、电子邮件;(2)实体机构包括历史沿革、特藏资源、馆藏统计数据等在内的介绍类信息;(3)以实体机构最近推出服务、开放时间变更、资源试用等为主的新闻、动态、消息报道等;(4)在参考咨询栏目等处公布的参考咨询馆员专业、特长、联系电话、电子邮件以及QQ、MSN等即时交流工具的账号等。(5)包括专家讲座、数据库培训讲座、学术会议等相关的日程安排。(6)兄弟机构、管理机构和下属机构的网络链接列表。这些组织和馆员相关的信息所包含内容和格式很相似,具备语义化结构化的潜质,可以最优先微格式化。
微格式信息组织体系中描述组织和个人信息的某些微格式可以用于这部分信息的微格式化。各类联系方式的微格式化采用的hCard[21],新闻消息类内容可以采用hNews[22],各类日程安排类内容采用hCalander[23],图书馆和参考咨询馆员简介性内容则可以借助于hResume[24]或hNews格式进行微格式化,机构链接列表则可以借助于XFN[25]描述与本机构和列表机构之间的关系。各种规范都详细规定了必备项目和可选项目,为了尽可能规范要揭示的项目,规范中提及的要描述项目比较繁杂,可以根据需要进行选择。为了便于人们编制微格式,微格式网站提供专门的在线工具(比如hCard的在线生成工具http://microformats.org/code/hcard/creator)以“所见即所得”的方式进行编码,只要按照语义提示内容在后面的方框内填入需要描述的信息,即可自动生成和预览用于发布的HTML代码。工具已经尽可能多地涵盖了要描述的项目,但是由于国内外情况和各馆的情况不同,肯定有部分项目没有涵盖,可以根据同类描述进行修改调整,比如hCard工具对即时交流工具账号的描述中没有“QQ”和“MSN”,但可以根据列出的“AIM screenname”等同类项目在代码中直接修改调整。将这些自动生成的代码代替原有HTML代码或者嵌入到相关页面的相应HTML代码模块中,就可以实现诸如“点击增加图书馆(或馆员)电子邮件和电话号码到我的通讯录”、“点击将参考咨询馆员QQ号增加我的QQ中”、“点击增加图书馆培训日程安排到我的日程安排中”等类似的链接直接导入到用户相应工具中。利用微格式编码的图书馆各类新闻动态消息也可以通过简单的程序代码实现在学校新闻网站、学生BBS等网站自动抽取和显示,无需每次重复发布。如果包含统计数据等的图书馆介绍能够每年度及时更新,各级图书馆协会、图书馆管理组织的图书馆年鉴、各类统计数据则可以直接抽取这些按照微格式编码的各类介绍,而无需费大量精力去征集相关数据和资料,包含图书馆各部门联系方式的图书馆通讯录的制定也可以实现在线的直接抽取。Jeff Wisniewski在“优化图书馆网站但无需打破现有模式重新设计的诸多措施”[26]中也提及“为了使图书馆主页更加稳定、用户利用起来更加方便,应该利用hCard等微格式对相关馆员联系方式等进行编码,便于人阅读,也便于机器获取”。
3.2 图书馆网站超链接的微格式化改造
图书馆网站利用超链接将诸如网页、图片、音频、视频、目录、数据库、各类服务系统(参考咨询系统、文献传递系统)、网络导航、各类评论、电子邮箱、版权声明等网络信息内容连接起来为用户提供更好的服务。目前图书馆网站上的这些超链接是一种非结构化的数据,多数链接用户在点击之前并不知道该链接资源是什么方面的内容,有些超链接虽然用户知道,但是机器却很难识别,无法实现预定目的的自动抽取。网站设计和管理者想通过对某些超链接赋予一定含义,比如目标链接地址不允许网络爬虫软件跟踪或者进行链接权重分析和排名等,但是在目前的情况无法实现,只能在目标网页增加相应内容,为超链接增加语义属性则变得非常有意义。
微格式信息组织体系中描述超链接属性的微格式可以用于图书馆网站超链接的微格式化改造。表2列出了用于描述超链接的主要微格式及其功能[27]。超链接描述微格式以rel-value的形式为超链接增加语义,value值代表的是超链接的内容。除下表外,在http://microformats.org/wiki/existing-rel-values以枚举的形式列举了其他可供描述的语义值。
当然,微格式的超链接描述是针对普通网站的链接属性,对于图书馆这样某个行业的专业机构,目前的所有属性值中也必定有很多图书馆资源内容并没有囊括,需要进行拓展,比如增加opac、database这样的数据类型。微格式是开放性标准,可以根据需要补充相关类型并在微格式的官方网站注册,接受其他人的补充和评论,最终成为相关的标准。
3.3 图书馆网站资源描述的微格式化改造
图书馆网站资源是图书馆数字服务的主要载体,借助于微格式进行的数字资源语义化描述有利于资源的进一步集成融汇,也有利于图书馆之间的资源共享。图书馆网站资源的微格式化可以考虑从以下两种途径入手:
(1)对于以静态页面形式发布的资源,利用现有微格式信息组织体系中针对载体类型的微格式进行数字资源描述的微格式化改造。微格式信息组织体系提供的是枚举型问题解决方案,目前推出的微格式还只是针对部分载体和数据类型,包括用于音频资源描述的hAudio,用于音视频图片相关信息描述的hMedia,用于图表描述的figure、用于Atom提要描述的hAtom、用于引文描述的citation、用于网络标签描述的xFolk 6种。各种微格式规范对所描述信息的项目进行了详细说明,并有多种编码实例进行示范。根据规范和编码实例可以很容易实现编码,比如对于视频资源陈红导演的《古老的故事》,其hMedia编码格式为:
这些微格式也可以和前面提及的其他微格式hCalander、hReview等一起共同描述资源。也有人利用具体应用的微格式描述资源,如Marion等人[28]利用专门用于编码纬度和经度的GEO微格式描述和传递科学数据,最后编码成GeoRSS,供其他工具利用,实现更为丰富的资源集成融汇。
(2)通过对现有元数据格式的微格式化改造来实现数字资源描述的微格式化改造。图书馆网站上的数字资源还有相当多的资源不是以静态页面的形式存在,经过各种元数据描述以后存储在相应数据库中提供页面端的检索利用。要想实现这些资源的微格式化,就需要对相关元数据进行微格式化改造。虽然美国信息技术专家Marshall Breeding一直倡导在下一代的自动化系统中要对微格式进行支持[29],但是目前还未见支持MARC的微格式或者相关研究,但是对通用元数据标准DC的微格式化已经有了较为成熟的研究成果。西班牙卡罗三世大学等机构的研究人员将DC和微格式结合,创建了DCMF格式[30],并用PHP开发了将用DC描述的书刊信息转化为微格式的工具[31]。也有人讨论微格式与书目数据标准OpenURL COINs结合的问题[32]。另外,在耶鲁医疗信息中心开发利用的名为unAPI的网络API中,利用了微格式URI的编码格式、基于HTML的指向有关某个站点数字对象unAPI的自动发现链接和HTTP界面功能集,在HTML编码的网站上发布含有语义信息的对象,用户则可以获得很多可用格式或元数据标准的任何资源的描述元数据,以便于用户可以按照自己适合的方式利用这些元数据资源[33]。
标签:html标签语义化论文; 语义分析论文; 用户研究论文; 网络编码论文; html语言论文; 编码转换论文; 元数据论文; 语义网论文;