中文网络资源(Chinese Web Archives)归档及统计分析*,本文主要内容关键词为:统计分析论文,中文论文,网络资源论文,Chinese论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
国际上有很多组织或机构都试图去收集和保存网页信息,但收集和保存互联网上的网页面临许多困难或挑战。首先是技术上的困难,由于网络的规模巨大及网络多变等特点,没有任何一个组织能独立完成对所有网页的收集和保存,因此,世界上网络资源归档项目大都只针对部分网页进行。其次是法律方面的挑战,主要是与网页内容相关的版权、责任和隐私等问题。此外,国际上没有专门的组织对网页收集和保存标准或者策略进行规范和指导,导致收集的网页数量和保存情况千差万别。表1显示了截至2011年底全球已经归档保存的Web资源的规模。
尽管表1只是近似数据,但可以看出,美国的Internet Archive上的网页超过了1500亿,存储容量达5.5 PB的数据。该项目自1996年成立起就定期收集并永久保存全球网站上可以抓取的信息,成为全球最大的网络资源保存项目。
据中国互联网络信息中心(CNNIC)在2012年1月的报告称,截至2011年底,我国共有775万域名,其中有353万中国国家码顶级域名“.cn”,网站数量约230万[2]。
中文网络资源归档的重要性不言而喻。由于网页数量巨大,网络资源归档通常采用网络爬虫自动采集,中国两个大型的Web归档项目,北京大学的Web InfoMall[3]和中国国家图书馆的WICP[4]都采用此方法。Web InfoMall是中文网络资源收集和保存最大和最全面的存档站点,它提供长久存储和访问历史信息等功能。截至2010年底,Web InfoMall归档了自2001年以来的30多亿中文网页、800多万域名的2000万网站。WICP保存了自2003年以来所有的中国政府网页(gov.cn),它们来自8万多个政府网站,还有电子期刊和电子报纸等,容量超过18TB。本文基于Web InfoMall向全球提供的两个中文网页测试数据集,分析中文网页、网站以及域名的大小,中文网页、网站中主要顶级域名的分布以及在中国国家码顶级域名“.cn”中二级域名的分布情况。
1 中文网络资源归档项目
2002年1月,首批中文网页保存归档在Web InfoMall中,此后每天约增加150万页的数量。截至目前,Web InfoMall已保存超过30亿的中文网页,在线数据总量约为100TB。通过它能访问以前的网络信息和浏览以前的历史网页。Web InfoMall的目标是获取和保存尽可能多的中文网页(在网页消失之前)。互联网上的数据普遍具有多变的特征,据统计网页的平均生命周期为100天左右,“.com”域名的网页生命周期较短,“.gov”则较长。50%的当前浏览网页将在1年左右后消失。图1是Web InfoMall的体系结构。
WICP是中国国家图书馆在2003年启动的中文网络资源收集和保存项目,图2显示了WICP体系结构。WCIP重点收集对中国社会、经济等有重大影响的网页以及“gov.cn”域名的中国政府网站。截止到2010年底,它保存了8万多个中国政府网站中的所有网页(“gov.cn”域名)、315种电子期刊和报纸。WICP对网络资源的保存按照专题进行分类和保存,目前保存的网络资源有100多个专题,如2008年北京奥运会、非典、载人航天工程等,在线数据库导航可以访问约2万个服务项,如政府信息、国内外图书馆的服务项目、电子期刊和所有专题内容等。
2 中文网络资源的统计分析
本章主要分析由Web InfoMall提供的两个中文网页测试集,见表2。
cwt100g(100GB中文网页测试集)收集了2004年6月的17 045个主机和4 737 349网页,容量约100GB。通过抽取链接分析这组数据中,得知69%的网页都链接到相同站点,链接到其他网站的网页中有81%链接到本地(省)网站,平均每个主机上的网页数为278。cwt200g(200 GB网页的中文网页测试集)收集了2006年4月的29 184个主机和32 223 476网页,容量约200GB,每台主机的平均网页数是1104左右。
2.1 网页分析
我们把Web看成一个分层系统,网页在最底层,网站在中间层,最上层是域名。我们使用北京大学天网搜索引擎抓取的2004年6月和2006年4月的两个网页数据集,原始数据的大小近300G,其中包含从源页面到目标页面的超链接。cwt100g有560万网页,有1.6亿个超级链接,这相当于每个网页都有29个链接。在cwt200g有3700万网页,20亿的链接,这相当于每个网页都有54个链接。中文网页中顶级域名数量分布差异较大。从表3可以看到“.com”域名占绝大多数,其次是“.cn”域名,“.net”和“.org”紧跟其后。进一步分析中国国家码顶级域名(“.ch”)下的二级域名分布情况,由表4可知,“.com.cn”和“.gov.cn”占绝大多数。
从表5可知,在cwt200g数据集里“.com”域名占绝大多数,其次是“.cn”域名,“.net”和“.org”紧跟其后。此外,也分析了中国国家码顶级域名(“.cn”)下的二级域名,由表6可知,在cwt200g数据集中“.com.cn”域名最多,其次是“.gov.cn”和“.edu.cn”,“.net.cn”和“.org.cn”紧随其后。
2.2 网站分析
网站也叫主机,被认为是第二层,即Web服务器上承载的网页的集合。更确切地说,一个主机对应的地址即从http://开始到第一个“/”之间的部分,如http://……./下的所有网页。cwt100g有560万个网页、17 045个主机,相当于平均每个主机有278个网页;cwt200g有3700万个网页、29 184个主机,相当于每个主机有1104个网页。中文网站中顶级域名数量分布差异较大。表7表示,cwt100g数据集中“.com”域名占大多数,其次是“.cn”,然后是“.net”和“.org”。此外,通过对国家码顶级域名(“.cn”)下的二级域名分析,表8表明“.com.cn”域名最多,其次是“.gov.cn”和“.edu.cn”,“.net.cn”和“.org.cn”紧随其后。
表9表示,cwt200g数据集中“.com”域名占大多数,其次是“.cn”,然后是“.net”和“.org”。此外,通过国家码顶级域名(“.cn”)下的二级域名分析,表10表明,“.com.cn”域名最多,其次是“.gov.cn”和“.edu.cn”,“.net.cn”和“.org.cn”紧随其后。
统计数据表明,中国互联网发展并不均衡,与全球互联网相一致的是,商业类网站比重最大。通过对顶级域名的分析可知,中文网站中“.com”和“.cn”占大多数,对二级域名分析可知,“.com.cn”数量最大,其次是政府网站“.gov.cn”,这些数据也反映了中国在商业领域和政府信息化方面得到了比较大的发展。
3 中文网络资源的长期保存和归档
目前网络资源归档的焦点集中在Web资源的收集和长期保存上。针对网络资源长久保存,不同项目在遵循基本要求的前提下,具体实现方法各不相同。Web InfoMall使用自定义的存储格式来保存网页[6],本文分析的两个测试数据集中的网页存储格式为:(1)一个网页文件包含若干个记录;(2)一个记录,包括头部、数据和空行;(3)头部包括一定数量的属性。第一个属性必须是“版本”属性,最后的属性必须是“长度”属性;(4)属性,包括属性名和属性值,它们由“:”隔开。基于上述格式保存的中文网页,近日我们完成了2个中文网页测试集的统计分析
为了支持长期保存和利用,Web InfoMall在该存储格式上定义了中文网页数据按照<Column,Key,Timestamp>三元组顺序存储的带时间维度索引的存储结构,即Timed SSFile(TSFile)[7]。该存储结构支持对采集的中文网页动态添加和用户访问。TSFile是一种不可改变的文件(immutable),即一旦创建后,不能在原先的文件上进行修改,从而保证了后人获得数据存储的真实和可信赖。
中国国家图书馆WICP网络信息保存使用OAIS[8],采用机器可读的目录和都柏林核心元数据标准集(Dublin Core)。此项目还尝试使用了科技数字信息保存技术,如格式化和迁移等。虽然还没有真正建立网络资源长久保存的有效途径,WICP正在寻求在图书馆界人士的共同努力下来收集和长久保存数字信息。
4 结语
经过10年的探索和积累,中文网络资源自动收集、归档和长期保存等技术领域已经取得实质性进展,实现了中文网页自动采集、自动存储、长期保存、用户访问等基本功能,并开发了相应的自主知识产权的软件及系统。同时,我国在中文网络资源归档方面还存在明显的不足:一是缺少法律保障,中文网页归档的诸多问题,如版权、内容责任、隐私保护、数据保护等,都需要制定相应的法律。二是缺少组织机构保障,目前我国中文网络资源归档还是基于学术的自由研究,没有相应的政府组织对中文历史网页归档中涉及的标准和质量等进行规范和管理。