浅谈情报学的若干发展热点,本文主要内容关键词为:情报学论文,热点论文,浅谈论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
由于社会信息化程度的加深,人们迫切希望将信息研究得更透。因此,情报学领域呈现出非常活跃的景观。以下仅根据自己的阅读和思考,对情报学的若干热点领域作一简单介绍。
1 知识发现
原来,人们提数据库中的知识发现(KDD),现在也提文本中的知识发现(KDT)。
在数据库中找到有用模式的过程称为数据挖掘,与此类似的叫法还有知识萃取(Extraction)、信息发现、信息收获(Harvesting)、数据考古、数据模式处理,等等。知识发现的说法出现于1989年。知识发现的目标与数据挖掘的目标类似,不过这一提法强调了该过程的最终产品是知识[1]。
也有人认为,数据挖掘就是KDD。在美国麻省理工学院出版的杂志《技术评论》2001年第1期《将改变世界的10项技术》一文中,数据挖掘名列第三。视像挖掘出开始成为热门。
该过程所发现的知识的主要用途是:假说的形成与验证;为预测、规划和预言建构模型;决策规则的发现;信息清理;发现反常情形;信息组织与结构的确定;信息系统的优化[1]。
KDT就是把KDD技术用于文本来萃取知识。这种说法最早在首届知识发现国际会议(1995)上提出。KDT方法可分分分类过程和挖掘过程。
分类的目标是识别出文本中存在的概念,可以通过分析词组或短语来识别概念。挖掘过程则采用分布分析来发现感兴趣的模式,这里采用的技术有关键概念列表法和联想(相关)法[2]。
国内计算机界有人研究KDD,合肥工业大学的朱东华教授的工作属于KDT,是从美国佐治亚理工学院的A.Porter教授那里学来的,有所创新。但总体上说,国内研究KDT的人很少。
2 知识管理研究的新视角
知识管理已经热了很长时间了,至今热度不衰。通过长时期的知识管理研究,有人认识到,通过一些软件程序俘获专业决策知识和探索法(Heuristics)的努力,只能获得有限的成功。这是因为,真想通过知识管理来俘虏知识的话,就必须超越人们头脑中属于意识范围内的隐含知识,延伸至无意识范畴内的隐含知识,这从伦理上说不可取。对于许多知识工作者来说,只有在他们学到的东西同其传授、传递给其他人的东西同样有份量时,才谈得上是一种公平交换,否则,他们不会真心实意地参与知识管理。因此,知识管理面临着挑战[3]。
有人则区分了作为技术的知识管理和作为人的知识管理,后者是一新的视角,它有以下假定:
1)知识在社会网络中流动,知识的发展与实践的社区(Community of Practice)的发展密切相关。
2)知识的本性是社会的,重要的隐含知识居于创造了它的社区之中。
3)知识管理的任务是通过开发社会资本来创造知识资本。
4)知识管理强调的是隐含知识的分享与应用,强调新知识的创造。
5)对于分享隐含知识,加强联系和个性化战略的开发是重要的。
6)知识管理战略旨在发展人与人之间的知识分享。IT也许非常有用,但它基本上无助于以下问题:诚信的建立,社会网络,规范和实践[4]。
国内的知识管理研究,无论从哪个视角上说都比较弱,比较浅。
3 知识加工
随着信息服务向知识服务的转向,人们也开始研究知识加工问题。知识加工的过程和涵盖的主要活动如下:
1)收集过程,即知识发现、捕获和创造。包括的活动有:数据挖掘;文本挖掘;信息萃取。
2)组织过程,即知识分类与结构化。包括的活动有:编目;标引;聚类和分类;过滤;挖掘。
3)精制化过程,即知识内容的改善。采用内容分析技术使知识更简明、易理解和有用。包括的活动有:上下文关联(Contextualizing);合作;压缩;投射;挖掘。
4)表现过程,即表现知识的方式。包括的活动有:语义网络;框架;决策树;谓词逻辑。这里强调的是知识表现系统要有灵活性,让用户自己决定将该系统主要作为什么东西,作为定理证明者、框架式的系统还是联想网络。
5)传播过程,即通过各种传播渠道和格式进行知识交流与传播。包括的活动有:知识流——交流传播;知识共享——发表;知识推送——知识推送与对知识的牵引[5]。
4 文献计量学研究的新领域
过去,同引、同被引都是指涉文献的概念。现在出现了一个有趣的指涉论文作者的概念,叫引用认同(Citation Identity),指的是作者所引用的所有作者的集合。著名作者在创作出自己的不朽文献之时,其引用认同将同其指纹一样独特。人们之所以要进行引用,是因为被引文献与作者正在写的东西具有各种相关性,最重要的是主题相关性,此外还有类别相关性(概念之间的平行)、因果相关性、方法相关性、证据相关性、诗意相关性等。因此,进入重要学者的引用认同,可以作为对个体研究人员的评估指标之一。我们可以说,被一位可敬的人物反复引用是好事,被许多可敬的人物反复引用则更佳,被几百名可敬的人物反复引用则将获得传世美名[6]。
网络计量学的研究也越来越多。武汉大学邱均平教授有过综述,不再重复。
5 关于内容的研究越来越多
1)内容增值重于内容本身的价值。在网络硬件设施基本完善之后,向网络不断输入受用户欢迎的信息内容便是专业信息人员最重要的使命。所以以E打头的新兴业务都离不开内容。正如盖瑞·麦戈文先生所说的,如果传统商业是靠人来销售,那么电子商务则是靠内容来销售;如果传统的教学方式是靠人来教授,电子学习(E-learning)则是用内容去教授[7]。
与ICP这种专业化服务者的问世相一致,对网上内容以至一般性内容的专门研究越来越多。例如,有人指出因特网对内容市场发生的影响是内容本身的价值不如过去重要(并不是内容不重要,内容是一切信息服务的基础),但开展内容增值的能力越来越重要,这种能力包括:能否有效地检索利用网上内容,能否将自己拥有的内容同其他内容提供商拥有的内容联系起来[8]。
2)科技文献内容提供的特殊性。值得注意的是,科技文献(尤其是期刊文献)这种内容具有特殊性,想通过科技文献的内容提供来盈利是非常困难的。首先,长时期以来,科技期刊的读者通常是不付钱的,付钱订购期刊的是各种类型的图书馆。有人幽默地打比方说,这好比猫食产业。猫食的消费者——猫是不付钱的,而且可能对食物非常挑剔,可是猫的主要照样给它买吃的[9]。且不谈用户不付钱这种习惯该不该改变,反正一时半会儿是肯定改变不了的。其次,大部分科技文献用户(包括个人用户和机构用户)的经济购买力都是有限的,即使在发达国家也是如此。因此,美国目前的网上内容提供服务的定价是很低的。例如,以娱乐产业资讯为重点的variety.com网站,每年订购价才59美元,《华尔街日报》网络版加上其他相关信息服务的年订购价也是59美元,《消费者报告》网站的年订购价则只有24美元[10]。科技文献内容网站的用户量不可能有上述网站的用户那么多,于是,科技文献内容网站面临着两难处境:定价高了,没人用得起;定价低了,赔不起。直至现在,国外较普遍的做法是向印刷版科技期刊的订户赠送网络版,而不敢指望单纯靠网络版盈利。第三,网络内容提供服务业是凭借将本站点的内容与其他提供商拥有的内容联系起来的能力来创造附加值的[8]。读者希望在电子版刊物中获得这一类的电子增强服务,但期刊论文作者并未提供相应的东西,怎么办呢?让作者以外的人来做有关的事是可行的吗?做这些事所投入的费用,电子期刊社能靠多收费来收回吗?从以往出版光盘版书籍的经验来看,多收费是行不通的。公众不愿意在纸质产品的基本内容价格之外为电子增强服务之类的新功能再多付很多钱[11]。
我国仍是发展中国家,内容提供服务业面临的困境更加严峻。在现阶段,应大力鼓励公共部门(包括政府机构和有关事业单位)尽可能多地提供免费信息内容,以培养用户的信息利用习惯,从另一方面说是信息依赖性。只有在用户信息依赖程度很深的情况下,停止免费信息的提供后才会给内容提供商造成商机。另外,要想发展内容提供业,政府部门(包括所属的事业单位)不应与民间的内容提供商争市场。一个政府部门不将自己拥有的信息向社会公开,却凭借信息收集方面的垄断地位做起内容提供生意来,肯定是不合适的。再者,从宏观的角度来分析,某一政府部门有偿提供信息所得的收入,远远抵消不了其他政府部门向前一部门获取有关信息所付出的总费用,其实是得不偿失的。这就意味着,将原先政府所属的专业化科技信息机构转变为非营利的公益性科技信息机构,并且对它们给以充分的经费支持,让它们多多开展免费的(或以免费为主的)内容提供服务,是符合我国现阶段国情的举措,有助于使我国更快地实现经济社会信息化,有助于培育未来的内容提供服务业的用户,也符合我国科技事业发展的根本要求。
3)什么样的内容能让用户掏钱?有这样4种情形,信息消费者愿意为信息内容支付信道费用和信息费用:①与信道费用相比,信息费用很低。因此,不值得去换一个更便宜的信道。②存在着信息垄断。比如,媒体很难复制。在CD刚问世时,CD压制机很贵,那时卖CD就可能有利可图。③信息需求特别,故其他信息提供者没有积极性挤进来。例如,警察给线民提供信息费。④信息的价值主要取决于信息质量的时候,用户不敢冒险换一个便宜的信道。
通过以上分析可看出,具有盈利可行性的信息往往是决策信息,因为决策对信息质量的要求高。另外,信息费用与信道费用相比,应当较低[12]。
6 与情报学教育有关的探索
情报学专业是培养专业信息人才的,因此对交流能力、信息技能等等的讨论,都是与情报学教育相关的内容。有人认为,交流能力有3个方面,即信息利用能力(Access)、交流动机(Motivation)和交往能力(Competence)。信息利用不必解释了。动机指喜欢不喜欢交流,例如,是否感到电话聊天很舒服,经常接触的亲戚朋友的数量有多少,对周围事物的关切程度有多深,等等。交往能力指善于不善于交流,如,是否经常打电话,是否会选择打电话的适当时机,在电话上能否把事情说清楚,等等。我国学界对上述定义的后两个方面尚未充分注意[13]。
英国国家图书馆和大学图书馆常务会议(SCONUL)1999年对信息技能所下的定义包括7个方面:①识别信息需求的能力;②将填平信息“鸿沟”的种种手段加以区分的能力;③制定驻存(Locating)信息的战略的能力;④发现和检索信息的能力;⑤对不同来源获得的信息进行比较与评估的能力;⑥因地制宜地组织、应用和向别人传达信息的能力;⑦为创造新知识而对现有信息进行综合与延伸发展的能力[14]。
用英国的这个定义来衡量,我国情报学界偏重于④和⑦,对其他方面均注意得不够。
7 关于情报研究
由于情报研究是我国特有的概念,西方文献中与情报研究相关的文献一向较少。与中信所情报研究工作的重点之一(国外科技领域跟踪)相关的文献发现1篇,题为《全球科技情报:检索利用的新动作》。该书将民用部门对国际科技情报的搜集和评估活动称为ISTI,这与中信所的国外科技发展跟踪研究是非常接近的。主要区别在于,国外的ISTI往往很深,往往是情报人员与领域专家相结合来做这样的事。美国联邦政府中提供技术分析报告的主要部门有:OTA(已关闭),海军研究局(ONR),NSF,能源部,NASA,商务部等。开展ISTI的重要非政府机构有斯坦福国际研究所(SRI INTERNATIONAL),ATIP(专门分析亚洲国家和地区的技术信息)等。该书各章标题如下:①导言。②提供国际科技情报(ISTI)服务的历史:响就变化的需求。③确定未来的全球科技评估需求。④响应用户需求的各种选择。⑤评价全球技术评估的产出和结果。
这篇报告启示我们,中信所当然可以进行科技政策研究,但最能发挥中信所特色的、别人不易取代的,还是与科技本身联系更紧的科技领域自身的跟踪预测研究。台湾科资中心也是这么定位的。
8 关于情报学与信息技术的关系
美国ASIS改名ASIST是值得注意的动向。由于信息技术发展很快,且商业价值明显,故万众瞩目,原来较冷的研究领域也可能变为热门。在《技术评论》2001年1月推出的《将改变世界的10项技术》清单中,有两项应当说原本是属于情报领域的,一是数据挖掘,一是自然语言处理。现在,主要是信息技术推动着情报学,情报学较被动。但有些情报学专家指出,其实情报学的很多成果对于信息技术领域的探索,尤其是信息检索方面的探索都有指导意义,但信息技术界在比较盲目地摸索,情报学专业人员未能与他们结合起来。
情报学与信息技术的相对脱节的关系在情报学内部也存在。生于克罗地亚、曾任ASIS主席的美国著名情报学家萨拉塞维克认为,情报学可分为两大块。第一块:情报学家对文献和文献结构进行分析研究,研究作为内容载体的文本;研究不同群体中的信息传播,尤其是科学传播;情报的社会背景;情报利用;情报搜寻和情报行为;关于情报和相关论题的各种理论。这一块的任务,有人称为情报分析。第二块就是检索。现在两者之间存在着鸿沟。他号召未来的情报学家要填平这道鸿沟。“待这两端成功相连之际,便是情报学这门学科羽翼丰满之时。”[15]
但笔者认为,填平这一鸿沟是极其困难的,因为两项任务所需要的知识背景和知识偏好是完全不一样的。
9 情报学的范围
情报学的主要内容和分支学科包括:情报的性质;情报存取;信息产业、信息市场和信息玩家;知识组织;出版传播;信息营销;信息经济学;数据库生产;电子信息系统;联机检索;最新信息报道;数据库设计;情报学史。情报学的近邻学科包括:计算技术;法律与政府(比如版权问题的研究);传播学;行为科学;图书馆学;统计学;通信技术;等等[16]。
收稿日期:2002-01-25