国外专利分析工具的比较研究_聚类论文

国外专利分析工具的比较研究,本文主要内容关键词为:国外论文,专利论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】TP319 G353.1

1 引言

专利是最有效的技术信息载体。专利文献仅占期刊文献总量的10%左右,却囊括了全球40%左右的新产品信息[1]。对专利数据的分析早已成为一种重要的评估方法,应用于科学技术、经济发展、商业运作等多方面。

专利分析工具为专利分析提供了技术保障。专利分析工具的好坏极大地影响了专利分析的效率及专利分析结果的准确性。目前,国内外专利分析工具层出不穷,各有专长。本文选取了15个国外主要的专利分析工具进行比较,分析其特色,希望能为专利分析人员选取适当的工具以及软件公司改进专利分析工具提供参考。

2 专利分析一般方法

在研究专利分析工具之前,先讨论一下这类工具中所运用的专利分析的一般方法。其中包括[2]:

(1)数据整理和概念分组。数据整理即通过手工或自动的方式对数据域内的词语进行标准化处理。概念分组包括词语的标准化以及同义词的识别。那些拼写错误的词汇将被清除,同义词将被合并或替换。例如,已经合并的两家专利申请企业的专利将被清理组合成一家后并入企业的总专利清单。

(2)列表或直方图。列表或直方图是通过将两个或两个以上实体(国家、公司、个人或某个领域)的专利在某个数据域上的统计数据进行比较绘制而成。可选的数据域有专利权属人、专利发明人、专利类别、年代、国家等。

(3)比较矩阵(Co-occurrency Matrices)。将两个或两个以上的数据域相比较,生成比较矩阵,用以发现两种数据域的相互联系。两个数据域中的数据分别分布在X、Y轴上。矩阵中的数字表示同时拥有两个数据域中对应数据的文档的数量。例如,可以用X轴表示时间,Y轴表示专利权属人,矩阵中的数字代表每年专利权属人申请专利的数量。

(4)有结构数据聚类。有结构数据,亦称为有域数据,是指被标记过或者属于某数据域的数据。例如,XML文档或者数据库中的一个字段。这种数据的标记和数据域不是文档的作者创建的,它们可能是某一系统早已约定的。例如,Derwent数据库和美国专利数据库中收集的专利文档具有不同的结构。聚类,通俗地说,就是将相关文档放在一起。有结构数据聚类的依据是,具有相同结构和大量相同编码的文档是相似的。有结构数据聚类的关键是如何将不同结构的文档转化为相同的结构存储在本地数据库中。

(5)无结构数据聚类。无结构数据,亦称为文本数据,是指没有被索引或分割到单独数据域的文本数据。文本中仅有的结构就是句子、段落等。它们在作者写作时产生,并由作者随意编纂。因此,分析软件很难根据上下文来理解文本。例如,在无结构文本中,软件不能区分一个数字串是代表日期还是专利号。原始文本必须先经过处理,识别其中包含的概念和习语。与有结构数据聚类不同,无结构数据聚类是根据概念,而非编码。其依据是,具有大量相同概念的文档是相似的。无结构数据聚类过程比较复杂。聚类首先从识别相关词开始。这一过程涉及词汇的提取。英文文本被空格、破折号等标点符号分割为一个个字符串,称为标记(在中文文本中,词语之间没有空格分割,因此必须采用分词和语义分析技术提取词汇)。标记是词汇的基础。软件在分析文档时识别出所有的标记,由于在全文文档中,标记的数量非常巨大,因此,必须去除停用词,如“a”、“the”、“be”等,它们与文档内容无关,称为无实义词。此外,用户还可根据实际应用添加其他停用词。去除停用词后,文档词汇大大减少,接下来需要抽取词干,整理那些只有后缀不同的词汇,最后运用TFIDF运算法则产生用于聚类的词汇的倒排档。倒排档中处于两端的词汇将不参与聚类,将剩下的词汇进行统计分析,找到文档间的共用概念,便可生成聚类。

(6)文档聚类地图。将文档聚类排列到一个二维空间,就构成了一张地图。地图上空间距离的远近代表了文档集合之间相同元素的多少。具有较多相同元素的文档集合位置更紧密,而具有较少相似元素的集合位置较远。文档聚类地图可视性强,便于理解,可以清晰地展示出不同主题之间相似性的强弱,以及那些拥有多个类别的特点,不适合被划分到任何一个单一类别中的文档。

(7)引文分析。所谓专利引文,是指当专利发表时,出现在专利文档第一页上的对早期专利的提及。它代表了该专利所用到的最相关的专利技术。通过专利引用历史,可以将专利文档联系起来,并通过“树”或“图”结构直观地展现这种联系。沿着这些结构,可以看到早期技术怎样被改进,新技术怎样被孕育。进而计算引用量,发现关键技术以及潜在的竞争者。

(8)“主语/行为/宾语”(Subject/Action/Object,SAO)。“主语/行为/宾语”是一种自然语言处理技术。它可以根据语法规则表示句子中的概念。例如,“碘可预防甲亢”这句话包含主语(碘),行为(预防)以及宾语(甲亢)。利用Java工具(J-RAN)可以自动提取用自然语言描述的文档中的相关概念,即SAO中的二元素[3]。采用此法处理专利文档,可以进行知识挖掘,构造知识库。

3 专利分析工具的分析比较

本文选取了15个国外主要的专利分析工具或专利分析技术提供商,分别是MS EXCEL[4]、Derwent Analytics[5]、Delphion[6]、Aureka[7]、VantagePoint[8]、BizInt Smart Charts for Patents[9]、SciFinder[10]、STN Express with Discover[11]、STN AnaVist[12]、Wisdomain Analysis Module和Citation Module[13]、M-CAM DOORS[14]、Vivisimo[15]、OmniViz[16]、RefViz[17]、Invention Machine Knowledgist[18]。

根据上面介绍的8种专利分析一般方法,对15个国外专利分析工具进行比较分析。

3.1 数据整理和概念分组

除BizInt Smart Charts for Patents外的14个工具均不同程度地支持数据整理和概念分组。

其中,Delphion、Wisdomain Analysis Module、MCAM、Vivisimo、Invention Machine Knowledgist的功能比较简单,仅提供同义词表进行概念分组。并且这些分组除用于列表和直方图的生成之外很少用于其他交互。

SciFinder、STN Express with Discover以及STNAnaVist也主要是以提供同义词表的方式进行概念分组,但这系列工具专注于化学领域,对化学专利信息的概念分组细致入微。SciFinder的Panorama功能凭借其详细的分类和多样化的命令选项使得专利信息能够得到全景呈现。STN Express with Discover具有独特的R-group功能,可利用可变分组分析表工具像化学家一样分析识别一个结果集合中相关物质的相同基础结构。STN Ana Vist建立了一个公司名称叙词表,用于分组并标记公司名称的多种变体。允许用户对公司名称进行分组和编辑,并保存这些定制信息用于将来的分析。STN AnaVist还利用CAS词表对数据库中的技术术语进行标准化,使数据更集中,结果更有意义。

VantagePoint为Derwent Analytics提供技术支持,所以VantagePoint和Derwent Analytics有许多相似之处。它采用模糊匹配技术对数据进行识别、删除、合并。该软件可以纠正拼写错误,替换连字符和大写字母,支持专利发明人姓名多种书写方式的统一。但不处理缩写形式,为解决这一问题,该软件允许用户在系统完成数据整理后再添加修改分组。VantagePoint还提供独立于数据整理的概念分组功能。它主要提供同义词的替换功能。

MS EXCEL通过PivotTable功能支持数据整理和列表生成,其用法可参考MS EXCEL帮助文档。

Aureka ThemeScape、OmniViz及RefViz则是通过查询或者在文档聚类地图中选择文档来完成概念分组的。其中,Aureka是利用ThemeScape视图,OmniViz和RefViz则是在Galaxy视图中进行选择。Aureka ThemeScape和OmniViz均源于Battelle,拥有许多相似性。

3.2 列表或直方图

MS EXCEL、Derwent Analytics、Delphion、Aureka、VantagePoint、BizInt Smart Charts for Patents、SciFinder、STN Express with Discover、STN AnaVist、Wisdomain Analysis Module以及Invention Machine Knowledgist支持列表或直方图的生成。

其中,MS EXCEL主要依靠手工输入或从其他文件中导入生成列表。

VantagePoint、Derwent Analytics、Delphion PatentLabⅡ(由Wisdomain公司开发)以及Wisdomain Analysis Module都是基于用户选择的域创建列表。在列表的基础上还可执行数据清理、分类、查看详细信息等操作。VantagePoint生成的列表可以方便地导出到其他分析工具中,如MS Excel和BizInt Smart Charts for Patents。

Aureka可以生成许多Top10列表,下载后可用MSEXCEL的Pivot Tables功能进行列表清理。

BizInt Smart Charts for Patents支持众多数据源,可以利用多种系统的数据生成列表,并包含所有的域。该工具显示图片方便,易于表示化学专利信息,支持多种排序操作,并可自行添加注释列。

SciFinder、STN Express with Discover以及STNAnaVist均从检索结果集合中创建列表或直方图,并允许用户选择特定的检索结果项缩小范围。但SciFinder列表中的数据清理功能不尽如人意。STN Express with Discover可将分析结果以STN Ana Vist可处理的格式保存,实现了与STN AnaVist的整合。STN AnaVist可以从检索结果集合中生成更多样式的列表、直方图及比较矩阵,并在聚类结果的可视化界面(Research Landscape)以及生成的列表、直方图、比较矩阵之间建立联系。当选择其中一个界面的任一项目时,其他界面的对应项目便会以不同的色彩显示[19]。

Invention Machine Knowledgist生成的列表并不单独以报表的形式出现,而是与其提供的“问答式”服务紧密结合,列出答案清单。

3.3 比较矩阵

MS EXCEL、Derwent Analytics、Delphion、Aureka、VantagePoint、SciFinder、STN Express with Discover、STN AnaVist以及Wisdomain Analysis Module支持比较矩阵功能。

VantagePoint和Derwent Analytics比较矩阵的生成方式同它们的列表或直方图生成方式相似,仍然基于用户选择的域。如果之前已进行分组,则用户还可选择是用分组结果或原始数据生成矩阵。此外,用户还可定义一个阈值,用于清除矩阵中小于此阈值的关联,便于用户快速发现那些关联性较强的项目。

Aureka仍然通过MS EXCEL的Pivot Tables功能生成比较矩阵。该工具主要特色是引入了“RoundTrip Analytics”[20]的概念。“RoundTrip Analytics”是Aurigin公司定义的,用来描述Aureka工作平台的互操作能力。

SciFinder以菜单和按钮界面导航生成比较矩阵,同时允许用户在CAS索引词、CAS注册号等字段中进行选择。CAS注册号与CAS索引的匹配功能,以及返回注册记录的链接功能为用户获取化合物信息提供了强有力的支持。此外,SciFinder生成的比较矩阵可以以MS EXCEL格式导出。STN Express with Discover的比较矩阵功能与SciFinder相似。STN AnaVist在SciFinder的基础上有所加强。可以直接从检索结果生成比较矩阵,并在列表、直方图界面、选定文档界面以及Research Landscape界面之间建立联系。这在3.2节中已作说明。

Delphion PatentLab-Ⅱ以及Wisdomain Analysis Module基于用户输入的数据域名称生成比较矩阵。所生成的矩阵可以以MS EXCEL格式导出。

3.4 有结构数据聚类

Derwent Analytics、VantagePoint、STN AnaVist、OmniViz、RefViz具有有结构数据聚类功能。

正如在有结构数据聚类概念介绍中提到的,有结构数据聚类的关键是如何将不同结构的文档转化为相同的结构存储在本地数据库中。为完成这一任务,4种工具都是通过解析引擎从各个数据源提取数据,进行转换,最终存储在各自的数据库中。解析引擎必须知道每个数据源存储的数据的详细格式。例如,从Derwent Innovations Index中提取数据时,解析引擎必须知道AU表示Inventor,且AU的取值类型为字符串(String),多个作者名之间用逗号“,”分割。除此之外,解析引擎还必须知道哪些数据值得提取(一般每次只提取最新更新的数据)。最后解析引擎负责将来自各个数据源的不同格式的数据以相同的格式存储到本地数据库相应的字段中。

VantagePoint和Derwent Analytics在提取数据后采用factor map和cross-correlation map模型进行聚类。

图1是factor map的示例[21]。图中的节点代表主题词,它们是基于共同出现的频率组合而成的。节点的大小与该节点所含文档的数量有关;节点之间连线越粗表示它们所代表的主题越相关。图2是cross-correlationmap的示例[21]。其中,每个节点表示一个专利发明人。专利发明人节点之间连线越粗表示这些专利发明人的专利中所用的主题词越相关。

图1 factor map示例

图2 cross-correlation map示例

OmniViz对于不同的数据域采取不同的处理方法。例如,当处理数字类型时,该软件提供了强大的统计度量功能。此外,用户还可以选择采用有监督聚类,指定聚类类型的数量。聚类完成后,OmniViz自动为聚类结果生成可视化视图。默认的视图选项是Galaxy视图。Galaxy视图是将聚类文档(或者其他数据元素)围绕在一个质心周围的二维图像。质心是一个小圆圈,代表聚类的中心。根据不同的算法,有时质心是散射开的。点击质心,可以打开参与聚类的文档列表视图。

RefViz同是OmniViz公司的产品,但只具有OmniViz的部分文本分析,仅使用K-means聚类算法进行有结构数据聚类(详情参见文献[22])。

STN AnaVist遵循K-means等常规聚类算法,但其关注点有所不同。详细说明见3.5节。

3.5 无结构数据聚类

Derwent Analytics、Delphion、Aureka、VantagePoint、STN AnaVist、Vivisimo、OmniViz、RefViz具有无结构数据聚类功能。

无结构数据聚类的一般步骤前面已经介绍,所有支持该功能的专利分析工具基本上遵循该步骤,只是在个别处理中有所扩展和创新。

VantagePoint和Derwent Analytics允许用户只标记出文档中的一部分用于聚类。

Aureka ThemeScape、OmniViz以及RefViz允许用户选择附加停用词,并利用相关反馈概念支持用户对系统产生的初始结果进行再处理,有效地利用了用户的领域专家意见。

Delphion Clustering的聚类过程几乎不与用户有任何交互。用户直接得到聚类的最终结果,每个分类用属于该类的文档中的共用词汇来标记。

STN AnaVist的无结构数据聚类连同有结构数据聚类一起,在文档中9个不同的数据域(包括公司、发明人、年份以及从无结构文档中提取出的概念)之间建立起关联,支持前文提到的列表直方图界面,选定文档界面以及Research Landscape界面之间的关联。

Vivisimo是一款搜索引擎,其优秀的文本聚类功能可用于专利文本数据聚类。该工具的聚类算法比较独特,为该公司私有,与其他普通的聚类算法只将一个文档放到一个类别不同,该算法允许将具有多个类别特征的文档放到多个分类中。此外,与一般采用地图方式表示聚类结果不同,Vivisimo采用层级文件夹的方式表示聚类结果。

3.6 文档聚类地图

Derwent Analytics、Aureka、VantagePoint、OmniViz、RefViz、STN AnaVist支持用地图表示文档聚类结果。

正如3.4节介绍的VantagePoint和Derwent Analytics以factor map和cross-correlation map表示聚类结果。这里需要特别指出的是,factor map和cross-correlation map与经典的地图理论有些不同,图中节点间距离的远近与它们所代表概念的相关度没有直接联系,取而代之的是,用节点间的连线的粗细表示相关度。

Aureka采用ThemeScape视图为用户提供了聚类结果的直观展示。如图3、图4中的山峰表示出现频率高,占有优势的主题词;点表示文档[23]。它们之间的距离表示其联系的紧密程度。通过点击文档点可以得到文档的详细信息。

此外,ThemeScape还支持以时间片的方式对生成的等高线图进行再组织。例如,当从1995年至今的文档聚类等高线图生成后,可以将时间片设置为3年一个周期,这样,用户就可以清楚地看出哪个主题随时间的流逝变化最剧烈。

图3 Aureka Theme Scape示例1

图4 Aureka Theme Scape示例2

OmniViz除了在3.4节中介绍的Galaxy图,还有多种可视化工具,如ThemeMap等。图5是ThemeMap示例[22],图6是Galaxy示例[22]。此外,OmniViz也具有时间片的功能。

图5 ThemeMap示例

图6 Galaxy示例

RefViz只具有OmniViz的部分可视化功能,仅使用Galaxy视图。

STN AnaVist采用Research Landscape视图表示聚类结果。图7是Research Landscape示例[22]。图中每个点表示一篇文档,点的密度越大表示对应的概念被研究得越多。

图7 Research Landscape示例

3.7 引文分析

Delphion、Aureka、Wisdomain Citation Module、MCAM DOORS支持引文分析。

Aureka采用Hyperbolic Trees表示专利引文分析的结果。如图8,中间的是基础专利,根部是后向引用,分支是前向引用[23]。系统会自动为树的不同特征着色。用户也可以为某个特征(如年代,专利权属人等)自定义颜色,并且这些自定义将被系统保留。此外,用户还可指定建立多少代前向后向节点。点击并展开专利树,可以看到专利文档特征的多种组合方式。

图8 Aureka Hyperbolic Trees示例

图9 Delphion Citation Link示例

Delphion Citation Link与Aureka Hyperbolic Trees类似,也可以用色彩定义不同特征并通过点击节点查看专利文档的详细信息。图9是Delphion Citation Link的示例。

Wisdomain Citation Module看上去与Delphion的Citation Link非常相似。Wisdomain Citation Module的特别之处在于它不仅有前向后向引文分析,还具有旁系分析(Collateral Analysis)。旁系分析是用来识别那些与专利主题没有直接引用联系但却非常相关的专利文档。它们在前向后向引用分析中不能被识别。旁系分析为用户呈现出这些专利,使得他们可以更全面地了解竞争态势。

M-CAM DOORS的引文分析在后台进行。采用M-CAM公司独有的类似于DNA基因序列分析的语言分析系统跟踪与既定的专利主题相关的概念和专利引用。当发现可疑的新技术和新专利时,系统会提醒用户。该系统在评估专利技术的重要性、新颖性、唯一性及对其他专利的依赖性等方面,具有其他系统难以比拟的功能。

3.8 “主语/行为/宾语”(SAO)

在所列出的15个专利分析工具中,仅有Invention Machine Knowledgist使用了SAO技术对处理文档,为用户提供“问答式”服务。

Knowledgist利用SAO技术从选定的文档中提取出句子,进行索引。这些语义索引的结果被存储在Knowledge数据库中。当用户提问时,Knowledgist查询Knowledge数据库得到答案。此外,Knowledgist还从文档句子中提取名词词组和主题词,组成一个知识分类目录。用户可以检索这些知识分类目录,以缩小研究范围。

事实上,这种基于知识库的问答式系统的实现技术并非只有SAO。Ontology也是构建知识库,实现机器推理的一种极佳方式。目前,CAS正在研究如何将Ontology应用与专利分析。

3.9 其他

以上8个方面的比较已经比较全面地展示了这15个专利分析工具,但仍有一些其他的特点没有涉及,这里进行必要的补充。

Derwent Analytics在软件中预置了多个分析模块。单击不同的分析模块,导入数据,即可按照模块预定的功能自动完成专利分析,生成分析报告。这一功能免去了复杂的专利分析策略的制定,极大地方便了初学者。根据AstraZeneca公司的信息专家的工作经验,最大限度发挥Derwent Analytics功效的关键在于拥有大量的专利摘要用于分析。因此,拥有Derwent数据库的无限制访问权限无疑对Derwent Analytics的使用有至关重要的影响。

Delphion自称是专利Web搜索的先驱,提供美国、欧洲、日本、世界知识产权组织以及Derwent数据库的专利信息全文检索的Web访问接口。它声称拥有最完整的专利记录,可以访问超过4000万条记录(相比之下,Derwent只能访问2000万条记录)。目前,Delphion软件已经被用于其他Thomson产品的前端。它甚至成为该公司大多数产品的入口。

VantagePoint支持对VBScript的扩展。它添加了5个VB类以及50余个VB方法。用户可编辑VBScript脚本,实现一些特殊的定制分析功能。

STN Express with Discover可以对STN中的大量数据库以及其他扩展数据库进行便捷的检索。但AstraZeneca公司的信息专家表示,STN Express with Discover可以作为一个通讯工具来访问存取其他服务器(如Questel *Orbit),但从这些服务器中得到的输出数据却不能像STN数据那样被很好的处理。STN Express with Discover只对STN数据集进行了最优化。

Vivisimo提供了基于XML标准的文本数据聚类API,可以直接被C、C++、Peri、Java等语言调用。

OmniViz采用XML定义数据源、分析方法以及数据输出格式,因此可以轻易地与用户现有的复杂运行环境实现无缝结合。

OmniViz公司将RefViz定位于一般大众而非信息专家,运用于小数据量的个人数据库中的文献分析和可视化。但AstraZeneca公司的信息专家们在他们的实际工作中发现RefViz可以应用于更广泛的领域。他们利用RefViz分析专利摘要的文本和书目元素,从全新的视角展示专利数据。

4 专利分析工具比较结果

总结第三部分中比较结果,绘制比较结果一览表如表1所示。

5 结语

通过上述讨论,可以总结出—些对专利分析工作者和专利分析软件开发商有意义的信息。

对于专利分析工作者,如果只需简单的统计分析,可以选择简单易用的MS EXCEL和BizInt Smart Charts for Patents。如果需要完整的专利数据,可以选择支持多种数据源的Delphion及BizInt Smart Charts for Patents。如果只对Derwent数据库分析,Derwent Analytics当然是最佳选择。如果针对STN数据或者化学专利分析,则SciFinder、STN Express with Discover、STN AnaVist都是不错的选择。如果希望从不同的视角分析专利信息,可以尝试使用RefViz和Invention Machine Knowledgist。如果要将专利分析运用于商业竞争、知识创新,则需要Aureka、STN AnaVist、Wisdomain Analysis Module、Citation Module和M-CAM DOORS。

对于专利分析软件开发商而言,专利分析工具的关键技术是文本挖掘和可视化。VantagePoint、Vivisimo和OmniViz是这些技术的主要提供商。那些在这方面没有优势的专利分析软件开发商可以利用他们的服务开发自己的产品,扬长避短。当前的专利分析工具在许多方面存在不足,如多种数据源的融合度低、可扩展性差、知识挖掘程度浅等。幸运的是,信息技术的发展已经为部分问题提供了很好的解决方法。例如,利用XML Schema定义不同的数据源,可以帮助机器理解不同结构的信息。利用先进的软件工程思想架构软件(如开放的接口、插件技术、模块定制)可以实现软件的高度可扩展性。此外,Invention Machine Knowledgist的成功激励更多的专利分析软件开发商将自然语言处理、人工智能等领域的创新应用于专利分析工具中。

收稿日期:2006-11-01

收修改稿日期:2006-11-24

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

国外专利分析工具的比较研究_聚类论文
下载Doc文档

猜你喜欢