重点学科导航人机结合信息筛选方法,本文主要内容关键词为:重点学科论文,人机论文,方法论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2007-07-19
【分类号】G250.73
1 引言
重点学科导航是高校图书馆现代信息服务和学科咨询服务的深层次信息产品和研究成果。然而,长期以来,学科导航建设一直存在网上学术资源筛选、更新困难和导航数据维护艰难等方面的问题,造成许多高校的学科导航数据库出现资源陈旧、与教学科研需求不符、使用效果差等现象。为此,本文按照人机结合筛选、维护与更新信息资源的思路,针对现有的网络学科导航系统开发设计了相关功能模块,为重点学科导航建设可持续性发展提出一种可供参考的解决方法。
2 网络学科信息资源采集人机结合筛选模式
信息资源筛选是进行网络信息组织面临的首要问题。多年实践证明,单纯走计算机筛选或完全人工筛选都存在一定的弊病。虽然计算机软件进行信息筛选,收集范围广、效率高,但准确率很低、垃圾信息太多、分类混乱;而依靠人工检索收集,效率低下,收集信息不全,带有一定的随机性和随意性,难以满足飞速增加的资源信息收集需求,可持续发展性差。采取人机结合筛选方式,是快速、准确收集网络学科信息资源的有效途径。
2.1 系统开发的总体构思
(1)由负责学科导航的管理人员,根据各院系历年学位论文(包括研究生和本科生)中的关键词,聚类分析并抽取高频词(因为这种方式很容易体现各个专业的研究领域、学科建设方向等)。以此为基础将某些特定主题领域的关键词参照主题词表、叙词表等工具补充汇编成“初始学科用户词表”,包括上下位主题词、常用的相关相近关键词等。通过后台管理平台加入词表数据库,形成实用、开放式扩充并具有通用规则关联知识库特征的用户词表[1]。
(2)系统从用户检索导航资源的过程中,抽取新增关键词并对词表库中的专业词按使用频度进行排序,从而使用户词表库不断得以扩容和逐渐贴近用户使用特色。同时,通过后台管理平台人工干预处理,对词表库中新增词条进行规范和补充,对不当词条和低频词删改以维护词表库的数据。操作流程见图1。
图1 用户词表人机结合维护框图
(3)在用户自助使用系统所提供服务即Knowledge Discovery Service(KDS)[2] 的过程中,用户按照系统所提供的用户词条模板选择检索词条,系统自动生成所选择的词条组合检索信息,用户点击搜索按钮即可进行导航资源信息的匹配搜索。当然,用户也可以在用户词条模板的相应位置添加新关键词。
(4)系统实现用户推荐新学科资源的机制。在不断将相匹配的学科专业关键词以词条模板形式提交给用户搜寻网上学术资源的同时,系统会根据用户检索、推荐资源情况动态增加导航数据库中的内容、调整其排列,使导航数据检索范围与准确度进一步符合用户需求。
(5)为了解决由于网络资源的动态变更性而带来的导航系统维护困难的问题,系统实现定时对导航库数据进行巡检,对死链接和链接重定向两种形式的链接失效情况给出报告。为避免机器智能程度不足带来的误删除操作,由管理人员对链接失效原因进行判断并处理。采用这种人机相结合维护的方式,可有效保证学科导航系统的正常运行。
2.2 基于角色用例的学科导航体系结构
重点学科信息导航保证可持续发展的关键是及时维护与更新。为了解决这方面的难题,系统采用了用户推荐学科资源、直接参与重点学科导航建设的做法。用户推荐资源通常是自发和随机的,而每学期选修《文献检索》、《大学论文写作》课程的各专业大学生,则可视为一种特殊用户角色,专门组织安排搜集各自专业网上学术资源并进行推荐和初步描述(可称之为“做加法”)[3]。这是高校特有的一种可利用人力资源,用这种形式每学期可获得数百条质量较高的新学科资源导航数据。其他角色的用例描述如下:
(1)用户角色:利用用户词表模板对导航资源进行检索;添加新的专业词条;进行新学科资源的推荐;报告导航分类、数据和资源链接等方面的错误。
(2)管理人员角色:形成初始学科用户词表,将以前收集的导航数据导入相关数据库;利用系统后台管理平台进行词条管理,包括词条的专业性、相关词的补充以及不当词条的删除;审核推荐学科资源导航数据著录是否规范、记录是否完整、数据的准确性等;系统定期进行导航数据自动巡检和提供报告,管理人员对无效链接进行判断和处理,同时审核和处理用户提交的有关导航数据错误的报告。
(3)专家角色:为保证导航资源的质量,将已入库的导航资源信息交给拥有该学科审改权限的院系专家,利用系统后台管理平台进行筛选、增删和数据描述准确性修改(可称之为“做减法”)[3]。同时也可推荐新的导航资源等。
系统体系结构示意图及系统主要功能模块如图2、图3所示。
图2 系统体系结构示意图
图3 系统主要功能模块框图
3 关键技术的实现
系统采用J2EE的开发模式,使用第三方的驱动链接数据库,利用JTDS包执行数据库的添加、删除、修改、查询操作。开发平台采用Eclipse3.0集成开发环境。页面展示使用JSP技术,基于Web方式发布。其它的技术处理有:
(1)系统采用JavaBean的形式统一封装数据,后台逻辑函数处理;
(2)利用分支函数生成不同条件下的SQL语句;
(3)分页利用SQL语句实现;
(4)点击数的增加利用Ajax实现;
(5)利用Java.net.URL包里的URL建立链接并检测URL是否有效;
(6)利用Java.util.TimerTask实现定时任务调度。
各学科导航数据在左侧框以目录树的形式呈现。检索命中的学科资源数据在右侧框以规范标引的数据格式罗列。系统提供基本搜索、高级搜索和分类搜索功能,便于用户浏览检索使用;按照人机结合筛选的设计要求,提供用户添加词条、推荐新学科资源、提交错误报告等功能;系统完成词条抽取、排序和形成用户词条模板,按导航数据被检索次数对词条进行排序,自动巡检导航资源并提供失效链接报告等功能。限于篇幅,类似用户注册登录、后台多级权限管理安全机制等内容在此不再罗列,仅介绍主要功能模块并对部分关键代码进行说明。
3.1 学科资源推荐与处理方式
重点学科导航数据添加采取用户、专家推荐,系统抽取并根据用户检索频度排序,管理人员审核、标引推荐资源数据,并同专家一起对使用频率很低、不合适的资源审核处理。其中,用户推荐学科资源的步骤为:
(1)根据系统提供的用户词表模板,选择关键词并利用各类搜索引擎和访问各种网络学科信息资源门户网站来收集专业学术资源;
(2)利用学科导航系统所提供的IE自动站点添加系统 (IE插件形式,含去重功能),添加所收集的专业学术资源并进行初步描述;
(3)管理人员审核新增导航资源的描述内容、进一步标引用户所推荐资源的数据格式,入库;
(4)专家对不合适的资源进行审核、修改或做删除处理。
用户推荐资源流程框图如图4所示。
图4 资源推荐操作流程框图
3.2 资源搜索次数统计及排序
为实现系统对用户进行的资源检索统计和排序,并根据用户推荐资源情况,调整各学科分类下的资源排列顺序,使数据检索范围与准确度不断符合用户需求。系统采用Ajax模式来实现资源点击次数统计。因为JavaScript是无法直接访问Java函数的,而资源搜索次数的统计,需要调用Java逻辑函数实现。事实上,用户点击动作是调用了JavaScript点击触发函数。故而可以通过JavaScript去访问一个事先准备好具有Java逻辑函数的Servlet。这样,就间接实现了JavaScript函数调用Java函数。在统计出搜索次数后,可以通过SQL的order by语句对其进行排序并显示。
资源检索统计并排序的操作流程如下:
(1)用户点击资源信息,调用JavaScript点击触发函数;
(2)用JavaScript触发函数中语句访问Servlet的URL, Servlet返回JavaScript脚本函数;
(3)Servlet执行实现资源搜索次数计数的Java函数,得到搜索次数;
(4)执行SQL语句对得到的搜索次数进行排序。
业务流程如图5所示。
图5 资源搜索次数统计排序业务流程图
3.3 资源URL检测主要应用原理
系统提供用户推荐资源以及服务器自动校验有效URL等功能。用户进入资源推荐界面后,先根据页面提示填写资源信息并点击URL测试按钮,测试URL连接是否有效。系统通过调用Java.net.URL包建立与对应资源的服务器连接并主动接收返回的页面流,如果未接收到,则表示该URL无法链接,添加资源失败,相反,则为有效 URL,资源添加成功并等待管理员审核。资源URL检测原理如图6所示,关键代码见例1。
图6 资源URL检测原理图
例1:
public boolean conHTTP(String url){
try{
//探测指定的URL是否有效
URL netUrl=new URL(url);
//打开链接
URLConnection conn=netUrl.openConnection( );
DataInputStream in=new DataInputStream(conn.getInputStream( ));
_//主动接收返回数据的存储单元(这里只判断URL是否通,不用全部接收)
byte[]buffer=new byte[16];
//如果返回的数据流不为空则为有效URL
if(in.read( buffer)>0){
return true;
}else{
return false;
}catch(MalformedURLException e) {
//创建URL()对象失败或openConnection()失败
return false;
}catch(IOException e){
//建立网络数据流失败
return false;
}finally{
//必须执行,释放资源,所以放在finally里执行
in.close( );}
3.4 定时复审资源应用原理
系统可实现管理员审核资源或服务器定期自动审核资源。系统定时复审资源原理如图7所示。
图7 定时复审资源原理图
操作流程:
(1)服务器初始化时加载定时器;
(2)当有资源要复审时;
(3)若管理员要求操作,便由管理员审核;
(4)若管理员忙,当定时器任务被触发(时间逻辑)便开始处理任务;
(5)当定时器任务完成,进入等待状态,等待下一周期再一次被触发。
业务流程如图8所示。
图8 定时复审资源业务流程图
3.5 测试过程与结果
通过页面操作与直接使用数据库工具SQL查询效果,比较页面搜索的完整性。测试结果程序SQL语句封装正确,完整性得到保证。使用Microsoft Web Application Stress Tool对Web进行1000个用户并发压力测试,峰值附近的曲线陡直且平衡值在27%-85%之间,对于并发所产生的压力系统可以接受。对系统进行集成测试,各项功能模块运行正常。由于系统尚未完全投入使用,在试运行过程中,可能还会发现问题需要不断完善。
4 结语
采用人机结合信息筛选方式,在充分考虑利用最新技术发挥计算机智能的同时,系统开发强调了人工参与的各个环节。人工收集、筛选的“加减法”对解决收集各专业信息的困难,提供了切实可行的办法;采用用户词表模板进行导航资源检索的方式十分方便,搜索范围与准确度易于满足用户需求。结合机器对词条抽取和排序,可使用户词表不断得以扩容;根据用户检索频度常用学科导航资源会按类逐渐向前排列,从而逐渐体现出用户使用特色;专家通过基于内容的多级权限管理体系,审核相关学科的导航资源,有利于重点学科导航数据的质量保证;系统自动巡检对死链接和链接重定向两种形式的链接失效情况给出报告,人工对链接失效原因进行判断并处理,对保证重点学科导航库的正常运行科学合理。
以上做法充分发挥了大学生、教授、图书馆员以及学科导航系统各自的优势,信息采集、质量控制、导航数据维护,形成本校的重点学科导航特色都得以保证和落实。作为一种促进重点学科导航建设可持续发展的系统开发思路,期望能为同行们提供一些借鉴和参考。