Internet学术信息整合管理模式研究,本文主要内容关键词为:管理模式论文,学术论文,信息论文,Internet论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
浙江天宇信息技术有限公司协办
学术交流是科学研究不可分割的重要组成部分,需要同步规划以适应科研发展的需要。2003年7月23日我国全面启动“国家科技基础条件平台建设”[1]项目,针对我国科技发展创新基础条件薄弱、资源配置分散重复的问题[2],进行全面建设和调整,其重大领域和支持重点之一正是科技数据共享[3],网络资源共享服务体系、网络协同工作体系和网络运行管理服务体系是重要组成部分[4]。以此为导向,我们开始从资源整合角度探索我国Internet学术信息的宏观管理模式。
1 知识生产与学术信息需求
学术信息交流过程与知识生产过程相伴而生,不仅科研过程中信息交流无处不在,而且科研成果的传播、教授与应用也需要通过信息交流来实现,IanRowlands的知识生产生命周期模型问最能说明知识生产、积累、传播、应用与信息交流间密不可分的关系。但是,科研、教育和应用过程中交流信息的内容和利用信息的方式存在差异:科研以探索和创新为主,需求最新、最全的各种原始信息和他人已经完成的研究成果,需要利用正式和非正式的学术交流方式来获取知识、激活思维;而教育和应用是对成熟知识成果的吸收和利用,需要经过评价、验证和筛选的知识,其吸收和利用有时需要有一定的指导。为了准确把握当前研究人员学术信息需求的特点,我们研读了Eti Herman的调查结果(2002)[6][7],结果发现:
(1)主题是研究者科研的出发点和信息需求的首要方面,很多学者最关心的还是本主题领域内的信息,其次是跨学科/领域的信息。但是,在跨学科/领域信息的吸收理解上很多学者存在一定的智障,为此,他们通过小范围合作、请教同事、咨询专家、扩充知识面、全面查询所跨学科/领域基础知识、阅读摘要等方式来缓解需求危机。
(2)需要了解本主题/领域内的最新研究成果、同行的研究进展等信息,自然学科在这方面表现尤其迫切。对“新”信息的追求延伸出对信息传递速度与便捷性、信息时效性的要求:多数学者都希望有快速完善的信息传递服务;自然科学对信息时效性要求一般在3年,最长为5年,社会学科为3-5年,人文学者需要信息长期积累,对信息时效要求相对较低。
(3)各学科对获取研究主题内全部信息的要求存在差异,自然科学要求最高,其次是社会科学,人文科学相对最弱,这使他们对出版周期相异的图书、期刊、数据库、同行交流等的需求也相应存在差别,其要处理的信息量也不同。多数研究者强调信息检全,而不认为信息过载是影响其信息吸收的主要问题;不过,过量的冗余信息的确为信息选择与吸收带来了负担,学术标准降低和复制技术发展被认为是信息量增大的主要原因。
(4)在研究的不同阶段对理论、事实、统计数据、思想等信息类型的需求也不同:发现问题时需要理论和观点信息,回顾成果时需要历史性和描述性信息,构造研究程序时需要方法信息,研究过程中需要特定信息、统计信息、方法和技术的详细信息,阐释观点时又需要理论、观点信息和历史性、描述性信息。
(5)非常重视信息的内容质量和权威性,往往从有否著名学者推荐、是否是重要期刊和权威的出版社发布来判断信息质量。各学科对原始信息的需求也存在不同之处:自然科学和社会科学研究者信任并乐于利用他人的研究成果,而人文学者更相信原始信息,乐意实地考察或通过电话、电子邮件、手机、面谈等非正式交流方式获取一些无法用语言表述或文献记录的信息。
(6)很多学者已开始利用Internet,但是态度谨慎,对网络信息质量和信息的及时性存在担忧,并认为网络在非正式交流方面存在局限。
2 Internet学术信息交流发展现状和面临的问题
Internet以其资源分布与服务全球化、信息传播与利用跨时空、信息传播速度快和复制方便、信息选择自由度大等特点深深吸引着研究人员,使越来越多的学者加入Internet学术交流圈,这是当前学术交流中一种很明显的现象。为了对这一现象有一个全面的了解,我们从诸多的Internet调查研究中选择董小英等对我国Internet学术界用户的调查(2002年)[8]进行考察,因为这项调查范围较广,人数较多,尤其是高学历、高职称用户所占比例较大(调查总参加人数709人中,学生占51.41%,其中博士和博士生占14.17%,硕士占51.67%,在拥有专业职称的受访者中接近1/3拥有中级或高级职称),具有一定参考价值。参照作者分析和我们对调查数据的理解,我们发现:
(1)我国学者已普遍开始使用Internet进行学术交流,尤以自然科学为明显:57%的用户有2-5年上网历史,10%近一年内开始上网,7%上网历史超过5年。用户学历越高上网时间越长,53%的博士和博士生每周上网时间超过8小时,而硕士为41%,本科为30%。最大的用户群体在自然科学领域(66.24%),其次是社会科学(20.09%)和人文科学(13.68%),人文科学和应用科学领域的用户在网上花费的时间相对较多,其次是社会科学。69%的被询问用户认为互联网对其工作是有用的(其中26%认为非常有用),学历越高给互联网有用性打分的均值也越高。
(2)正式交流仍然是主要交流方式:用户79.6%是为了查找专业信息资源,42.8%是为了跟踪学科领域最新研究进展,38.3%是为了查找在其他地方难以找到的资料,13.9%是为了与国内外的同行进行交流。在各类型信息中,对研究报告的需求最大(58.8%),其次是各个学科专业领域的最新消息和进展情况(48.8%),软件占38.2%、统计数据占17.5%、专业会议和相关活动占12.7%、与同行进行学术讨论占11.7%、国际组织和本国政府文件占9.2%、教学大纲占5.2%、其他占5.2%。用户认为最有价值的资源是万维网资源(52.1%),其次是图书馆资源(46%)、数据库资源(43.8%)、电子期刊(37%)、软件(37.1%),而BBS或新闻组占5.4%、远程会议为1.4%。
(3)Internet上的学术交流方式和传统方式被学者们同时混合利用,但Internet已经越来越成为主流方式:查询服务中,搜索引擎最常用(76.8%),然后是利用网页上的链接浏览(36.5%),其他途径有阅读期刊和书籍(34.3%),通过数据库(32.1%)、图书馆目录(29.9%)、浏览参考文献和引文(20%)、同行交流(21.7%)、书店(15%)、参加会议或浏览私人藏书(8%)。
(4)人们利用Internet不仅是为获取专业资源和最新信息,也为了获取更多的灰色文献:524名被调查者中认为最需要的信息,是专业信息的244次,是最新学术或专业发展信息的163次,是电子文献的91次、现代远程教育的63次、专业领域学位论文与会议录的55次。用户特别提到的信息需求领域包括技术(37次)、教育(24次)、市场和政府(18次)信息。
(5)在Internet上人们更加依赖各种信息服务来协助完成学术交流:在互联网服务中,电子邮件利用比例最高(84.8%),其次是万维网资源(58.2%),搜索引擎占51.1%,下载软件占42.5%,查询图书馆资源占38.9%,42.28%的受访者定期浏览电子期刊。学历越高需要进行非正式交流的比例越大,18.3%的博士和博士生通过与同事交流来获取信息。
(6)多数用户认为利用Internet进行学术交流还存在一些问题:多数用户认为中文网站与英文网站存在差距,59.3%认为是信息的质量,48.8%认为是信息的时效性,34.9%认为是信息的种类,14%认为是界面和网页设计。用户利用互联网的困难依次为速度慢(60.1%)、信息质量不高(37%)、上网费用较高(38.4%)、很难找到相关资源(30.1%)、病毒和黑客袭击(19.6%)、网络不够稳定(18.1%)、缺少中介服务(8.8%)。此外,语言障碍也很明显,因为大约有95%的用户从互联网上检索中文信息,69.7%检索英文信息,2.7%检索日文网站,1.7%访问德文网站,访问俄文、法文和其他语种网站的用户均小于1%。
(7)根据他们的调查,用户还认为他们需要可靠、权威、综合和系统的专业信息资源与服务,需要来自专家或顾问的建议和推荐,希望能以较低的价格或免费下载论文,能提供更加专业化的数据库而非消息类的信息,希望搜索引擎具有更专业化的功能,还需要回溯性的学术论文和出版物数据库。用户认为高质量的网络信息应具备准确性和权威性(396次)、时效性和及时更新(255次)、快速(212次)、内容丰富(185次)、便于检索和查询(143次)。
与Eti Herman对英国学者的调查相印证,我们可以看到Internet不仅仅是为满足学者们的学术信息需求提供了一种新的媒体形态,而且提供了更大的交流空间和交流形式,对于学术交流、知识教育和成果应用中的信息交流也极具价值。但是,其存在的问题也是显而易见的,因此,为了更好发挥Internet的学术交流价值,就必须予以治理。
3 Internet学术信息整合宏观管理模型
3.1 设计思想
通过上文研究,我们认为Internet学术交流的治理目标应是:提高网络信息的内容质量,保证信息传播及时、便捷、安全,保证有价值的信息被长期稳定地保存、高效稳定地查询和存取,减少学术交流的语言障碍和智力障碍,创新适于网络的学术交流方式。但是,目前已有的网络信息控制与管理的诸多研究,要么提出的建议太抽象,如文献[9][10][11];要么只是微观管理方法,管理分散无力,不能达到总体的整合效果,如文献[12][13];要么只是局部的改进,如文献[14]。
图1 Internet学术信息整合宏观管理模型
我们的方法是,借鉴《开放档案计划》(Open Archives Initiative,OAI)[15]的设计思路:使信息生产和信息服务相互分离,信息生产者以标准的元数据格式向信息服务者提供元数据记录,而信息服务者可以利用这些跨库、跨系统、跨学科/主题/领域的元数据记录,开发和提供深层次的、个性化的信息服务。以这种机制为基础,我们要促进现实世界和网络世界间信息互动和保障信息质量,因而设计了公共评价平台和与之配合的评价标准和奖惩办法;我们要净化数据,并长期保存数据,保证这些数据被合理利用,因而设置了中央知识库及各种利用的方法;我们要降低机制运行的成本,并促进信息生产和服务的积极性发挥,同时保证学术交流开放存取,最大程度地满足学者的信息需求,因而设计了培育信息服务市场,使生产者和服务者都能按商业方式运作的运行机制。而这一切无疑应由国家政府设置专门机构来进行管理。根据这个思路,我们设计了如图1所示的Internet学术信息整合宏观管理模型。
3.2 管理机制
整个模型分为三大模块:
(一)信息生产、提交与评价。以评价为动力和监督机制,鼓励网络学术信息生产,在保证信息内容质量的同时,促进新的学术交流方式的创建。在图1中由如下步骤组成:
1)表示两种行为:一是各学术网站将本站已有信息或更新信息的元数据以标准格式主动提交给相应主题的公共评价平台。使通过元数据指示的地址,学术网站管理中心的专家、其他网站、网络用户可以达到这些信息并予以综合评价。二是各学术网站也可以参与评价其他网站的信息。
(2)学术网站管理中心聘请或邀请的专家组织评价。
(3)广大网络用户对提交信息进行评价。
(4)公共评价平台评价各类学术网站提交信息。
(5)将评价结果提交学术网站管理中心,结果要在公共评价平台上公布。学术网站管理中心按评价结果,汇合其对中央知识库的贡献率定期评定网站的级别,并按网站级别为其授予开展商业活动的许可和发放资助性质的奖励。
(二)信息提炼、整合、基于主题进行分类重组。旨在集中和优化那些描述信息的信息(元数据),为信息自动化处理提供较高质量的数据基础,同时也是将网上有价值的学术信息集中起来、长期保存并进行统计分析的方法。在图1中由如下步骤组成:
(6)将通过评价符合收录标准的元数据由学术网站管理中心“购买”后加入中央知识库,元数据本身的知识产权仍然归属提交网站,元数据一旦被接受其链接的地址就不能更改,或由中央知识库授权更改。提交元数据理论上应是标准的,没有重复的,但为防止实际上可能出现的不标准现象,需要在入库前进行预处理,即优化为标准格式和过滤重复数据。所有元数据经过自动分类处理后进入基于主题的子库。学术网站管理中心定期对中央知识库进行统计分析,包括对中央知识库贡献率的统计(贡献率结果要输入域名库中,以备学术网站级别评定之用)和内容分布的统计(在中心的网站上公布分析结果,以引导学术信息网站建设,或干脆制订信息生产计划,由管理中心出资委托一些网站建设)。
(7)为中央知识库建立镜像网站。主要是考虑到中央知识库的信息安全和防止网络拥塞。
(三)信息服务与网络学术信息利用。信息服务提供者可以从中央知识库的镜像网站上和发布一次信息的学术网站上免费或廉价获取原始信息,在此基础上开展信息咨询、信息检索、语言翻译、情报服务等的业务。几乎全部服务都以商业方式运作,以此驱动提供高质量、多品种、专业化、个性化的网络信息服务。用户也可以直接访问中央知识库和生产一次信息的学术网站。在图1中由如下步骤组成:
(8)信息服务提供者可利用中央知识库镜像站点的数据资源提供服务。中央知识库中的数据经过过滤和优化,具有标准化、结构化特点,适合进行自动化处理,因此,采用这些数据能提高信息组织效率和信息服务质量,数据免费提供还可使其节省大量成本。
(9)信息服务提供者也可从各学术网站上直接获取数据。学术网站应向信息服务提供者免费或低价提供原始信息(信息生产成本由其开展商业活动、评定级别所获得的奖励、中央知识库收购元数据支付的资金予以补偿),使信息服务提供者可以降低成本、提高利润。模型以此鼓励网络信息服务业市场的发展,从而使专业学者可以从信息过载中解放出来,将更多精力用于创造活动。
(10)指各学术网站在发布、更新信息之前,通过信息服务提供者免费“查新”。生产和提交中央知识库中已有的信息不会提高网站本身对中央知识库的贡献率,这就使学术网站在重复生产信息时充分思量其必要性,尽可能利用链接、导航等方式代替重复,以此来控制网络学术信息的恶性膨胀,避免信息过载,减少网络传输负荷。
(11)广大网络用户对中央知识库的利用。中央知识库是网络学术信息元数据的长期保存之所,元数据能简单明了地表达信息的内外特征,适合研究者选择信息、全面了解学科/主题/领域的发展概貌,或降低跨学科/领域研究的障碍。
(12)与(13)表示信息服务网站与网络用户间的提问与回馈。学术网站管理中心可以建设一些面向大众的信息服务网站,向公众提供免费的、一般性的信息服务;但其他信息服务提供者全部要向用户收费,因为他们不被允许开展任何除信息服务之外的赢利性商业活动,其业务开展的成本虽低,却要完全以信息增值服务来赢利。
(14)与(15)表示网络用户与各学术网站之间的信息交流。任何公众都可以免费或以低的费用存取任何学术网站发布的信息。“开放存取”[16]已在西方发展多年,符合学者的利益,也是未来学术交流的发展趋势。
3.3 管理机构及其职能
管理机构由国家信息决策机构和学术网站管理中心构成。
国家信息决策机构。是本模型的最高管理机关,负责:
(一)制订相关政策、下达相关任务,统驭网络学术信息建设和服务的目标,使网络信息建设与服务与国家科研规划保持同步,与传统学术交流手段协调发展。
(二)给学术网站管理中心划拨资金,授予其资金分配权、信息生产网站经营许可权、信息服务定价权、组织专家设备开展相关服务和研究的权利。
(三)监督学术网站管理中心的政策执行情况和任务完成情况。
图1中表示为:(16)国家信息决策机构向学术网站管理中心提供政策指导、资金支持和管理要求。
学术网站管理中心。是本信息整合宏观管理模型具体管理措施的实施者。它从CNNIC[17](中国互联网络信息中心)获得部分DNS、IP地址、域名服务等资源(专用于学术信息生产与服务网站),从国家信息决策机构获得政策指导、资金支持和相关管理权力,对学术网站实施宏观管理:
(一)改革域名组织方法。使域名本身能反映出注册网站生产信息的内容性质、服务对象、信息组织形式、学术交流方式、提供服务的类型等;并根据申请为学术网站分配网络资源。
(二)组织网络信息评价。根据国家信息决策机构制订的有关政策制订具体的信息评价标准和评价方法,以此引导信息生产网站的创新和发展,如:可以强调知识创新性,也可以奖励传统信息数字化、网络化,还可以对一些非正式交流产生的信息予以肯定,或对新出现的学术交流方式予以鼓励等;建设和管理公共评价平台;组织专家、网站和公众,根据各网站自行提交的元数据对相应学术信息进行民主评价,保证评价有意义、有质量、公平、透明;及时汇总、通报评价结果,将结果保留在学术网站管理中心以用于网站级别的定期评价,同时也将结果在公共评价平台上公示;通过评价准予录入的元数据还要将评价结果链接在中央知识库中该元数据的相关项中。
(三)元数据采集与管理。创建和维护中央知识库;“收购”按一定标准评价为合格的元数据信息;对录入元数据进行过滤、优化,最后形成标准格式的元数据;因主题是学术信息需求的首要特征,因此要对元数据进行自动分类,按类管理各子库;创建和维护各子库的镜像网站,供网络用户浏览、供信息服务提供者采集数据;定期对中央知识库进行统计分析,重点分析各信息生产网站的贡献率和知识分布情况,贡献率保留在学术网站管理中心以用于网站级别的定期评价,贡献率和知识分布情况同时也在公共评价平台上公布,以引导此后的信息生产;根据知识分布情况和现有信息生产发展状况,制订信息生产发展规划,在一些必要领域委托或资助一些网站按需要完成。
(四)根据公共评价平台的评价结果和网站对中央知识库的贡献率,结合信息生产特点,制订合理评价方法,定期评定信息生产网站的级别,并将结果放入域名库中;研制自动追加域名的程序,当用户访问某站点时,程序会将该网站的域名级别自动追加在地址栏里,既不影响对网站的识别,又可以帮助用户识别该网站的信息质量;根据评价结果为信息生产网站授予从事商业赢利活动的许可(不是对信息内容的审批和检查),并颁发国家奖励。
(五)信息服务的宏观管理。组织有关专家、联合多家网站、联合相关的研究机构对信息服务技术和管理问题进行研究,为网络信息服务业发展提供理论与技术指导;定期调查、通报网络信息服务发展状况,避免重复建设,使整个服务市场结构合理;创建一个面向普通网民的服务网站,提供信息服务网站名录、信息查询技能培训、信息服务技术发展报告、信息市场发展状况报告等内容的信息;建立一些面向公众、具有普通查询功能的免费服务网站,避免在信息查询方面筑起利用的壁垒。
在图1中表示为:(17)学术网站管理中心对信息服务网站进行宏观管理;(18)学术网站管理中心对学术信息生产网站进行宏观管理。
4 结语
上述Internet学术信息整合宏观管理模型的可取之处在于:(1)通过评价信息来鼓励生产信息。评价与国家购买挂钩,使需求很大的信息和需求较小的信息均可因需受到关注;还可拉动传统信息的数字化、网络化。(2)不妨碍学术自由,同时使宏观管理加强。学术网站域名集中注册,创建中央知识库,在信息评价结果、中央知识库和域名库之间建立关联,这些使网络学术资源的分布情况被了如指掌,分散的学术资源显性化、集中化、存储更稳定、更新与变化也能被及时掌握;却并不以牺牲信息自由为代价,因为学术网站管理中心的管理只是引导,无论是信息生产网站还是服务网站都可以按自己的兴趣开展业务,而且它致力于学术信息开放存取。(3)兼顾科研、教育、应用对信息交流的需要。采用信息免费和服务收费的方式,在保证专业研究机构和高级研究者获得更高质量信息服务的同时,保证那些刚入围的学生或经费不多的学者也可以获得接近学术信息的权利,从而维护学术信息共享,研究机会均等,也可使国外用户广泛获取中文文献,扩大我国科学的影响力;而中央知识库的免费资源可以使网民和商业企业有更多机会接触成熟的学术成果,使科学普及、科技成果应用和文化事业发展受益,并且不会增加额外成本。(4)不会改变现有的网络信息发布与利用方式,所改变的只是成本补偿方式和宏观管理办法。
所以,理论上该模型应该可以达到“提高网络信息的内容质量,保证信息传播及时、便捷、安全,保证有价值的信息长期稳定地保存、高效稳定地查询和存取,减少学术交流的语言障碍和智力障碍,创新适于网络的学术交流方式”的目标。至于实现该模型的一些细节问题,如:评价标准的制订、知识产权的规定、元数据标准的制订、国家资助的方式和力度、中央知识库管理与维护等就无法在这里一一细述,但是,显然这些也是决定该模型取得实质性成功的关键因素。
收稿日期:2004-08-05