基于文本挖掘的形态分析方法的关键问题,本文主要内容关键词为:形态论文,文本论文,关键论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2011-05-15
应用于科技规划与管理、科技政策制定的技术预见、预测等研究已经在许多国家和机构广泛开展[1-2],并在支持各层面的科技决策活动中发挥了重要作用,这些面向未来的技术分析活动受到越来越多的关注[3-5]。
形态分析以参数分解和问题构建为基础,是一种引导构造性发明的非定量建模方法[6]。在Alan Porter 总结的13类面向未来技术分析方法中,形态分析属于矩阵类方法[1]。形态分析方法最早可追溯到13世纪,但“形态分析”名称的正式出现是在20世纪40年代[7]。20世纪70年代,Wissema首次系统阐述了形态分析在技术预见研究中的应用方法,他将应用于技术预见的形态分析方法分解为4个步骤:①识别主题的基础属性;②发现基础属性的可能值;③各基础属性值的排列组合;④识别已出现的排列组合,发现未出现的组合[8]。
1 基于文本挖掘的形态分析方法
传统形态分析中形态结构定义、形态属性值的发现过程完全依赖领域专家的知识和经验,缺乏客观数据的支持[8-9]。因此,有学者提出基于文本挖掘的形态分析方法,借助文本挖掘工具从数据集的文献标题、摘要、全文等信息中抽取关键词,通过计量、咨询专家等手段从关键词中筛选能够反映形态结构和形态属性值的特征词。
针对产品开发和技术机会发现问题,2004年Yoon 等人提出文本挖掘与形态分析相结合的方法。他们使用文本挖掘工具从专利文献中抽取关键词,然后借助领域专家筛选特征词、定义技术形态结构、表现技术形态,进行形态分析[10],并通过LED专利技术的实证分析证明基于文本挖掘的形态分析方法的可行性及其优势。Lee等人将这种方法扩展到多种形态的关联分析,他们分别从IT服务专利文献和《联合国中心产品分类》中抽取特征词组成IT服务的技术形态和概念形态,并使用形态同现矩阵对两种形态进行关联分析[12]。面向不同的应用需求,基于文本挖掘的形态分析方法都取得不错的效果,这种方法增加了分析过程中客观数据的支持,减少了对领域专家的依赖,提高了形态分析效率。
基于文本挖掘的技术形态分析方法的主要步骤如图1所示:①构建领域数据集;②借助文本挖掘手段从数据集中获得特征词集;③以特征词集辅助领域专家定义形态结构;④表现主题形态;⑤形态分析。
图1 基于文本挖掘的形态分析方法流程
2 基于文本挖掘的形态分析方法的关键问题
基于文本挖掘的形态分析方法可以概括为两方面的4个关键问题。第一个方面是主题形态构造,包括特征词选择、形态结构定义、形态表现3个关键问题;第二个方面的问题是形态分析。
2.1 特征词的选择
关键词能够反映文献主题的实际内容[12],可以代表文献主题的形态属性值。特征词选择是关键词的精选过程,主要方法包括计量法和混合法。
计量法的前提是词频反映了关键词重要程度,计量法通过词频统计等计量手段赋予关键词权值,选择权值满足条件的关键词作为特征词[13]。混合法以计量手段辅助领域专家选择特征词,主要步骤是:①通过文本挖掘获得关键词集;②通过计量方法对关键词集进行过滤;③领域专家从剩余关键词中筛选特征词[14-17]。
计量法以词频为依据,忽略了词间关系影响,选词准确性、可靠性较差。混合法在计量基础上融入领域专家意见,在提高选词效率的基础上保证了较高的准确性和可靠性。
2.2 形态结构定义
形态结构是组成主题的基础属性及其等级结构,形态结构定义方法包括专家法和混合法。
专家法定义形态结构完全依赖研究者或领域专家的知识和经验。Yoon、Phaal等人在手机产品技术路线图方法研究中,通过咨询领域专家整理了Type、Camera、Input Equipment、Antenna等7个产品形态属性和Location、Shape、Band、Material等6个技术形态属性[18]。混合法以情报分析辅助专家定义形态结构,主要思路是:①通过共现、聚类等手段分析特征词重要性并建立特征词关系网;②领域专家以特征词关系网为依据定义主题形态结构[14-16]。
专家法定义形态结构准确、可靠、规范,但受专家知识范围和主观意识影响,方法效率受到限制。混合法中融入情报分析,增加客观数据对形态结构定义的支持,减轻了对领域专家的依赖,提高了形态结构定义的效率。
2.3 主题的形态表现
形态分析以科技文献为分析基础,每篇文献主题都有具体的形态。形态表现是按形态结构使用特征词表现文献主题形态,包括特征词向量表现法和特征词词频向量表现法两种。
特征词向量表现主题的形态,即使用特征词本身组成空间向量反映主题实例的属性值组合情况[13,15]。目前,形态分析主要使用特征词向量表现主题形态,其优点是形象直观。特征词词频向量表现法使用特征词词频组成向量表现主题的形态[16-19]。特征词词频向量表现主题形态可以方便地使用联合向量进行多形态关联分析。
2.4 形态分析方法
形态分析包括单形态分析和多形态关联分析。单形态分析主要穷尽形态结构内形态属性值的所有排列组合,以此发现尚未出现的组合情况[10,16,19]。多形态关联分析的目的是发现多个形态属性、形态属性值之间的关联关系,具体应用如问题解决方案[7]、产品技术路线图[13,17-18]等跨领域分析。多形态关联分析与单形态分析相比,在解决复杂问题方面更具优势,在实际应用中也具有更高价值。
2.4.1 单形态分析方法 单形态分析针对单个主题形态结构属性值的排列组合关系展开研究,主要方法是矩阵法。图2是形态矩阵示意图,假设实现某一主题包含A、B、C、D 4个属性,其中{A1、A2、A3、A4},{B1、B2、B3、B4},{C1、C2、C3、C4},{D1、D2、D3、D4}分别是属性A、B、C、D的属性值。方法步骤:①首先将主题的特征词按照形态结构填入矩阵,则该主题完成的途径包括4×4×4×4=256种途径;②将已经出现的排列组合情况标出,如图中深色区域A2-B1-C3-D4表示该组合系列已经在专利技术中出现过;③找到未出现的排列组合情况。2004年Yoon和Park等人利用形态分析识别LED领域的专利技术机会研究[11]、2009年黄鲁成和李江在专利技术共享度研究中[14]都使用了矩阵法进行形态排列组合分析。
图2 形态矩阵示意
2.4.2 多形态关联分析方法 多形态关联分析是针对多个形态及其形态属性值之间的关联关系进行分析,目前多形态关联分析方法主要是相关矩阵法(correlation matrix)。
多形态关联的相关矩阵法是Yoon、Phaal和Probert 在形态分析应用于移动电话技术路线图的研究中提出的[18],研究目标是发现移动电话新产品的技术路线,主要步骤是:①使用单形态分析,发现所有的产品形态属性值以及技术形态属性值的排列组合;②计算产品形态与技术形态各个属性值之间的Pearson相关性;③以产品形态为主形态,依次将与产品形态各属性值相关性最高的技术形态属性值列入矩阵的同一行即得到形态相关矩阵,例如图3右侧的A1与D1表示产品形态A属性的A1属性值与技术形态D属性的D1属性值相关性最高;④识别产品形态未出现的形态属性值组合,例如A1-B3-C2是未出现的产品形态,则与之相对应的技术形态为D1-F3-D2。虽然这种方法是在设计产品技术路线图中提出的,但是同样适用于其他跨领域的多形态关联分析。
图3 形态相关矩阵分析方法
3 存在的问题及未来趋势
基于文本挖掘的形态分析方法在技术机会发现、产品路线图等研究中具有独特优势,已经在应用中取得了很好的效果。但是,在应用中也发现该方法存在一些问题,影响其效率以及分析结果的质量和可靠性。这些问题主要包括:
●单纯以词频为依据选择特征词,忽略了词间的影响,选词准确性、可靠性还有所欠缺。
文档频次、互信息、信息增益、卡方统计、TF·IDF 等特征选择方法已有较成熟的应用。Yang曾对上述方法进行过比较研究,发现卡方统计量法在特征词选择方面的效率最高,其次是信息增益法、TF·IDF[20]。未来,应该吸收、借鉴这些方法的优点,改进现有形态特征词的选择方法。
●在形态结构定义方面,现有的形态结构定义方法和过程对领域专家、经验有较强的依赖。混合法中情报分析的作用还是很弱,专家无法提供足够的信息支持,限制了实际应用效果。
未来应该充分运用因子分析、共现分析、聚类、分类等分析方法,加强情报分析方法在形态结构定义中的作用。进一步减少形态结构定义对领域专家的依赖,提高方法的效率。
●目前,形态分析应用研究主要集中在单形态分析,单形态分析简单方便,但是不能胜任产品技术路线图等复杂应用,而现有多形态关联分析方法只有相关矩阵方法。
石夫乾等曾将关联规则挖掘用于手机用户兴趣特征数据的关联关系发现[21],研究中所使用的兴趣信息与形态属性很相似。未来应该借鉴关联规则挖掘等其他领域的关联研究方法,丰富多形态关联分析方法的思路,增强其解决复杂问题的能力。