实践研究
面向技术需求的潜在技术转移专利识别*
● 詹文青1,2,肖国华1,3
(1.中国科学院成都文献情报中心,四川 成都 610041;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190;3.南京大学信息管理学院,江苏 南京 210093)
摘 要: [目的/意义]为了在大规模的专利文献中,面向技术需求实现专利文献和技术需求的匹配,识别潜在的技术转移专利,以提高技术转移信息服务水平。[方法/过程]文章基于语义TRIZ标注专利文献和技术需求的技术问题、技术功能、技术效果三种技术特征词组,通过同义词典计算特征间的相似性,构建语义的文本—词项向量空间模型,计算专利文献和技术需求的相似性,根据相似度排序识别潜在的技术转移专利。并以新能源汽车电池领域为研究对象进行实证研究。[结果/结论]实证结果表明,针对技术需求,在一定程度上能识别与其匹配的专利文献,识别潜在的技术转移专利。[局限]本研究的局限性在于抽取的技术特征词组数量有限,未来将结合关键词和技术特征词组更加全面地表示专利文献和技术需求。
关键词: 专利;技术转移;语义TRIZ;语义相似度;专利文献;实证研究
在当今的知识经济时代背景下,为了提高自身的核心竞争力,国家和企业越来越重视专利的申请,专利申请数量的逐年增加,给科技进步与创新带来了机遇。技术转移使得专利实现其社会经济价值,但是如何从大规模的专利中识别有技术转移潜力的专利是目前的产业界、学术界的难题之一。
一方面,高校应届毕业生在就业过程中,通常会选择与自身所学专业对口的岗位进行求职。然而,随着社会人才市场的竞争不断加剧及社会生活压力的逐步增强,大多数毕业生在最后往往不得不放弃专业要求,选择从事与专业无关的岗位工作,这种社会现实的存在无疑给大学毕业生的就业岗位选择带来了更加沉重的负担。另一方面,社会用人单位也同样面临着新的人才选择问题,符合岗位需求的应往届毕业生越来越多,求职者的学历优势、专业能力、职业素养等考量标准也变得更加多元化及复杂化,合适的岗位人才选择面临着更大的压力。[2]
目前潜在技术转移专利的识别方法主要包括专利引文分析法、社会网络分析法、应用统计分析法、专利组合方法、TRIZ分析方法等。专利引文分析法、社会网络分析法、应用统计分析法主要基于专利结构化信息、统计性信息来识别潜在的技术转移专利,K.Bergman等[1]从引文分析的角度识别潜在的技术转移专利,但是新专利的引用率往往低于旧专利,运用引文分析法显然低估了新专利的重要性。J.Choi等[2]用社会网络分析和统计模型(决策树、多元回归分析)构建技术转移预测模型。专利组合方法、TRIZ分析方法主要基于专利文本识别潜在的技术转移专利,张端阳等[3]认为专利组合主要体现在相似专利和互补专利上,而专利组合的形式有利于技术转移。H.Park等[4]从TRIZ演化趋势的角度评估专利,识别可能发生技术转移的专利。技术转移的成功与否与诸多因素有关,而现有关于潜在技术转移专利的识别研究多关注专利本身,只考虑的是技术拥有方。本研究从技术需求方出发,综合技术需求的市场因素,实现专利文献与技术需求的批量化匹配,一定程度上解决专利文献和技术需求的信息不匹配问题,以识别有技术转移潜力的专利。
1 相关研究
通过调研国家项目承担建设的网络平台和一些技术转移示范机构网站的技术需求模块,发现技术需求多是由用户注册账户,发布需求信息,不像专利文献那样有结构化的加工信息,而且技术需求模块行业分类粒度较大,很难从现有结构化的层面实现专利文献和技术需求的匹配,本研究考虑从文本内容的层面出发以实现专利文献与技术需求的批量化匹配。
在专利文献中,技术词多以主语—谓语—宾语(Subject-Action-Object,SAO结构)表示,例如“电解质能够测量空气中的湿度”,其中SAO结构就是“电解质—测量—湿度”。SAO的概念来自于发明问题的解决理论(TRIZ)[5],该理论是前苏联发明家G.S.Altshuller(根里奇·阿奇舒勒)和他的研究团队,通过分析250万份专利,总结出来的发明创造原理和规律[6]。2004年,发明机械公司[7]提出语义TRIZ,认为语义TRIZ能智能地“理解”数以百万计的专利术语,基于SAO的三元组结构从语义层面更好地理解专利,为创新过程提供了一种新颖的方法。目前已有学者将SAO结构应用于专利分析和挖掘方面进行了相关研究,比如技术演化分析[8-9]、合作伙伴识别[10]、专利侵权识别[11-12]、技术功效图构建[13]等。
图2 依存句法结构图
潜在技术转移专利识别的方法构建流程见图1,主要分为数据获取、特征工程、文本语义表示、通过技术需求文本和专利文献的相似度匹配识别有技术转移潜力的专利四个部分。以下对特征工程、文本语义表示、潜在技术转移专利识别研究分别进行阐述。
2 方法构建
SAO结构的主语S作为创新活动的解决方案来考虑,以“电解质—测量—湿度”的SAO结构为例,“电解质”是“测量湿度”的一种创新解决方案,而在本研究中,从技术需求的角度来看,需求方关注的多是问题能得以解决而不是什么能解决该问题,所以并不是创新发现的过程,这时候主语部分显得不是最关键的思考点,本研究通过抽取技术需求文本和专利文献的动宾结构(Verb-Object,VOB)表示技术信息,并基于语义TRIZ将VOB标注为技术问题、技术功能、技术效果三类特征词,进行供需方的批量化语义匹配,从而面向技术需求实现潜在技术转移专利识别。
图1 潜在技术转移专利识别的方法构建流程图
2 .1 特征工程
3.2.2 特征标注 使用TDA工具基于语义TRIZ将VOB结构分别标注成技术功能、技术效果、技术问题。标注后获得专利文本的VOB结构4887个,其中技术功能VOB结构3500个,技术效果VOB结构1217个,技术问题VOB结构170个,技术需求文本VOB结构58个,其中技术功能VOB结构23个,技术效果VOB结构31个,技术问题VOB结构4个。以{VOB1,VOB2,VOB3,…,VOBn } 的动宾结构词袋模型分别表示专利文献和技术需求文本,裁减掉VOB结构个数只有一个的专利文献和技术需求,得到总的专利文献和技术需求1165篇,特征标注所得的VOB结构示例见表1。
2.2.1 VOB之间相似度的计算 哈工大同义词词林按照树状的层次结构把所有收录的词条组织到一起,同一行的词语要么词义相同或十分接近,要么词义有很强的相关性[16]。VOB的词组结构不能直接利用词典计算相似性,需拆分为动词和宾语分别进行计算。本研究根据田久乐等提出的词语相似度算法对两个VOB词组间的动词与动词、宾语与宾语的相似度分别进行计算。有学者认为VOB之间的相似度是动词间相似度与宾语间相似度的算数平均数[13],但是本研究认为算术平均数容易受极端值影响,并且忽视了动词和宾语之间也存在相互联系,比如“测量温度”和“测量电压”的两个词组,动词“测量”与“测量”之间的相似度为1,宾语“温度”和“电压”之间的相似度为0,如果使用算数平均数,VOB之间的相似度是0.5,夸大了词组相似度,但是使用几何平均数所得的相似度为0。所以选择动词间相似度与宾语间相似度的几何平均数作为VOB词组之间的相似度的度量。即:
2 .2 文本语义表示
以{VOB1,VOB2,VOB3,…,VOBn } 的动宾结构词袋模型为基础,构建文本—词项的频次矩阵U ,利用《哈工大同义词词林扩展版》计算VOB之间的相似度得到词项—
主题班会如期召开,按照既定程序一项项进行。在班会的最后环节,我拿出我的检讨书,郑重地说:“刚才几位同学的检讨很诚恳,认识很深刻,勇于承担自己的责任,值得每一位同学学习。作为班主任,我在这次事件中也有不可推卸的责任,在这里我也真诚向全体同学检讨,虚心接受大家的批评与监督……”
2.1.2 特征标注 利用VOB结构作为语义索引,并不等于是语义TRIZ的范畴,只有语义索引表示专利特有的“技术问题、解决方案、技术功能、技术效果”等技术信息时,才能称为语义TRIZ[15]。本研究中,保留专利文献解决的技术问题、实现的技术功能、达到的技术效果的VOB结构,技术需求面临的技术问题、想要实现的技术功能、想要达到的技术效果的VOB结构。这一步需要人工利用TDA工具完成数据清洗,清洗过程主要包括删除没有实际意义的、不能表示技术信息的动宾结构。所保留的VOB结构,表示为VOB结构的词袋{VOB1,VOB2,…,VOBn }。为了提高专利文献和技术需求文本匹配的精准性,对专利文献和技术需求的样本进行裁剪,只选择VOB数目大于或者等于2的专利文献和技术需求文本。
军校军事英语教学是建立在已有语言基础上的二语教学。教学对象为军校学员,他们已掌握大量以母语形式呈现的军语;经过前期通用英语学习,积累了一定英语词汇。但与通用英语词汇不同,军事英语词汇专业性更强,但是学时更短,学员学习起来难度更大。感觉词汇记忆困难,汉语军语与英语军语匹配困难。因为在利用本族语(中文)进行军事英语词汇教学实践过程中,学员除了会受到通用英语词汇词义的影响之外,还会因为中英两种语言文化差异,存在词语形式与意义在跨语言匹配上的障碍。
2.2.2 专利文献和技术需求文本的语义向量模型 基于哈工大同义词词林构建VOB语义相似度矩阵来反映同义词和相关词的关系,那么可以通过矩阵分解的思路认为:文本—词项的语义矩阵M 可以分解为文本—词项频次矩阵U 和VOB语义相似度矩阵V 的乘积来构建专利文献和技术需求文本的语义向量模型,即M =U ·V , 文本—词项语义矩阵分解示意图见图3。
图3 文本—词项语义矩阵分解示意图
3.4.1 技术需求和专利文献的语义相似度计算 根据3.3节的文本—词项语义矩阵M ,每一篇专利文献和技术需求文本作为行,以 {VOB1,VOB2,VOB3,…,VOBn } 的向量表示,利用Python工具计算每个文本间的余弦相似度,文本之间的相似度矩阵见表4。
2 .3 潜在技术转移专利识别
文本—词项的语义矩阵M 使用余弦相似度计算得到两者之间的相似矩阵,针对每一篇技术需求,按照其专利文献的相似度从大到小排序,相似度较大的专利文献可认为能与技术需求相匹配,可能是技术需求方所需要的专利,从而有潜力发生技术转移。
3 实证研究
3 .1 数据获取
随着全球变暖与自然资源的日益枯竭,环保、节能、可持续发展的新能源汽车的研发和生产已成为世界汽车工业发展的新方向。而新能源汽车最关键的技术就是电池的相关技术,本研究以“新能源汽车电池”为研究对象。在Incopat专利数据库检索新能源汽车领域中国申请和授权的发明专利,检索式为“TI=(新能源汽车OR电动汽车) AND TI=电池”,获得结果2118条,去除不相关获得专利2112条。在科易网、技E网和飞天众智三个代表性的技术交易平台手动检索新能源汽车电池领域的技术需求31条。
3 .2 特征工程
3.2.1 特征抽取 利用Python工具调用哈工大语言云API构造HTTP请求,根据依存句法分析获得专利文献和技术需求文本全部的依存关系。筛选其中以VOB为标识的词组得到VOB结构词组33239个,保留在所有文本中VOB结构出现次数大于或等于两次的VOB结构21849个。
实验方法主要参照已发表文献[27]。实验组药物浓度为0.01、0.1、0.5、1、5、25和50 μmol。每组设6个复孔,药物作用时间为24 h或48 h。
2.1.1 特征抽取 首先对专利文献与技术需求文本进行特征选择。针对专利文本的摘要、技术需求文本的需求描述部分根据依存句法分析抽取VOB结构作为文本特征。中文的依存句法分析所使用的典型工具是哈工大语言云[14],通过调用语言云API构造HTTP请求能抽取一句话中词语与词语之间的依存关系,每种关系都有特定的结构简写标注,比如VOB、ATT等。比如“该电池恒温和空调系统可以调控电池盒内的电池的温度。”这样一句取自专利摘要的话,利用哈工大语言云标注了依存关系类型的依存结构图(见图2),其中VOB的关系表示动宾结构,可以发现该专利实现的功能是“调控温度”。
3 .3 文本语义表示
基于VOB的词频构建专利文献/技术需求-VOB的向量空间模型(VSM),每篇专利文献和技术需求以VOB的向量表征,由单个关键词作为特征的VSM过于稀疏,而用VOB的词组作为特征的VSM会更加稀疏。而且VSM的前提假设是每个词之间相互独立,难以反映同义词、相关词的关系,为解决以上问题,本研究基于《哈工大同义词词林扩展版》的词典对专利文献/技术需求-VOB的向量空间语义化处理。
表1 特征标注所得的VOB结构示例
词项语义矩阵V ,通过矩阵相乘进而得到文本—词项语义矩阵M 。
3.3.1 VOB结构之间的相似度计算 通过计算两两VOB结构的动词之间的相似度、宾语之间的相似度的几何平均数得到VOB结构之间的相似度,而动词之间的相似度和宾语之间的相似度根据2011年田久乐等[16]提出的算法计算词语相似度。VOB结构相似度计算结果以对称方阵的结果保存见表2,对角线上的值都是1,表示该VOB结构与本身相似度为1。
表2 VOB结构之间相似度示例
3.3.2 文本—词项语义表示 设定阈值p =0.7,筛选出VOB结构大于等于0.7的VOB相似矩阵记为词项—词项语义矩阵V ,使用Python中sklearn库构建文本—词项的频次矩阵U ,矩阵U 是一个高度稀疏矩阵,VOB结构与VOB结构之间的语义关系没有反映出来,为得到文本—词项语义矩阵M ,运用到矩阵分解,即M =U ·V , 文本—词项语义矩阵M 示例见表3。
3 .4 技术需求和专利文献的匹配
由示例可以看出,矩阵U 中,文本D2和文本D3之间直接使用余弦相似度方法计算的文本相似度是0,但是实际上词项T1与词项T2之间存在强相关关系,矩阵U 的向量空间模型没有反映出来,矩阵U 与矩阵V 的相乘过程得到矩阵M ,是该词项在文本中的权重与该词项与所有词项之间的语义关系相乘过程,矩阵M 可以反映文本中的所有词项之间的语义关系。
“A 5)gigantic monster came and crushed the little brother with his 6)massive feet!”said one of the Frogs.
表3 文本—词项语义矩阵M 示例
表4 文本相似度矩阵示例
3.4.2 潜在技术转移专利识别 面向技术需求,与技术需求相似度高的专利文献视为有技术转移潜力的专利,比如对于技术需求d22,d22的标题是“寻求电动汽车充电站电池自动更换”,需求描述为“寻求电动汽车充电站电池自动更换装置和方法。技术诉求:车辆进入充电区,机械手快速将取出电池,马上换取一块已充满的电池,整个过程流畅精准快速。需求成因:随着电池技术的发展以及充电技术的提高,电池容量增加,重量继续减轻,充电时间更短,电动汽车的发展方向应是快速更换电池。”将专利文献与技术需求d22相似度按照从大到小排序,选择前3篇专利文献,专利文献的相关信息见表5。
结合技术需求文本对表5进行解读发现,技术需求d22主要涉及用机械的方式自动更换电动汽车的电池,专利文献p274涉及电动车更换站更换设备及其流程设计,使用机械化的流程来快速更换电池,节省人力和时间。专利文献p1345涉及可调节大小的电动汽车电池仓以更换电池更加方便。专利文献p841涉及更换电动汽车的换电小车,该换电小车可以多角度、不同位置地装卸、更换电池。其中专利文献p274和专利文献p841较符合技术需求d22的要求,具有参考价值。但是专利文献p1345并不涉及机械的手段来更换电池,只是对电动汽车的电池仓大小的可调节进行设计,本研究认为其中原因是抽取专利文献和技术需求文本的特征词较少,以后的研究中将结合关键词和动宾结构VOB作为文本特征。
在中国,由于受限于经济发展水平、国民收入水平和传统的家庭养老观念,养老地产的出现不过10余年的时间。由于目前养老地产的服务标准不规范、设施匮乏、企业缺乏长远的规划等等原因,一些养老地产项目因此受到质疑。但随着房地产业发展进入细分时代和养老服务需求进入高峰期,养老地产的出现和发展成为一种必然。近年来,国际投资、国内保险资金、房地产资金纷纷进入养老地产领域,养老地产发展前景被普遍看好。
表5 与技术需求d22匹配度较大的专利文献信息
基于语义TRIZ与文本相似度计算,实现面向技术需求的潜在技术转移专利识别,在实际应用中可以链接技术需求数据库与专利文献数据库,向不同的技术需求推荐与之匹配度较高的专利文献,以促进技术转移转化。
动物低氧培养箱(美国Biospherix公司),氧气控制器设定氧气为5%(体积分数)培养箱为透明有机玻璃制成以便观察箱内情况。培养箱一侧装有氮气进气阀门,此阀门与箱外的氮气瓶相连,打开氮气阀门使箱内气体出去从而使箱内氧浓度降低。培养箱内一侧安装氧气控制器探头,此探头与箱外氧气控制器相连。箱内装有风扇保持空气流动同时不允许空气置换。培养箱壁有通风孔,仅留2个通风孔以控制通风量。低压生成装置,包括真空抽滤泵(LabTech),密闭瓶,气体流量计。用胶管将密闭瓶与真空抽滤泵相连接,将压力调至0.75 MPa,气体流量计控制气体流量为0.15 m3/h。
4 总结
技术转移有利于经济高质量发展,在大规模专利文献中,如何面向技术需求的市场因素识别有技术转移潜力的专利文献是本研究的出发点。本研究通过依存句法分析抽取专利文献和技术需求的动宾结构VOB特征,基于语义TRIZ将VOB特征标注为技术问题、技术功能、技术效果。利用《哈工大同义词词林扩展版》计算VOB之间的相似度,构建词项—词项语义矩阵V ,由矩阵分解的思想得到文本—词项语义矩阵M 。使用余弦相似度计算专利文献和技术需求的相似度,根据相似度排序,识别潜在技术转移专利,针对技术需求的潜在专利文献识别结果有一定的参考价值。
本研究区别于前人研究主要体现在三点,一是面向技术需求识别潜在技术转移专利,考虑了市场因素,并不是只站在专利文献单方面的角度。二是基于语义TRIZ组织专利文献和技术需求,体现了技术特征信息。三是提出动宾结构相似度计算方法,将词项之间的语义关系反映在文本—词项的向量空间模型中。但是本研究也存在不足之处,忽略了关键词在文本中的作用,未来的工作中将综合关键词和技术特征词组两个因素考虑,并且随着技术需求数据库的不断完善,以后的研究将综合结构化的信息和文本内容的信息更加全面地识别有技术转移潜力的专利。□
参考文献
[1] BERGMAN K,GRAFF G.The global stem cell patent landscape:implications for efficient technology transfer and commercial development[J].Nature Biotechnology,2007,25(4).
[2] CHOI J,JANG D,JUN S,et al.A predictive model of technology transfer using patent analysis[J].Sustainability,2015,7(12):16175-16195.
[3] 张端阳,肖国华,李文燕.面向专利集成的专利技术相关性测度方法研究[J].情报杂志,2014,33(11):54-61.
[4] PARK H,REE J J,KIM K.Identification of promising patents for technology transfers using TRIZ evolution trends[J].Expert Systems with Applications,2013,40(2):736-743.
[5] 杜玉锋,季铎,姜利雪,等.基于SAO的专利结构化相似度计算方法[J].中文信息学报,2016,30(1):30-35.
[6] ALTSHULLER G S.Creativity as an exact science:the theory of the solution of inventive problems[M].Gordon and Breach,1984.
[7] VERBITSKY M.Semantic TRIZ [P].Invention Machine Corporation,Boston,2004.
[8] PARK H,REE J J,KIM K.An SAO-based approach to patent evaluation using TRIZ evolution trends[C].IEEE International Conference on Management of Innovation and Technology.IEEE,2012:594-598.
[9] ZHENG Y,FANG L,et al.An SAO-based approach to technology evolution analysis using patent information:Case study—graphene sensors[J].Chinese Journal of Library & Information Science,2015,8(3):62-75.
[10] 温亮,邱鹏君,马萍萍,等.基于SAO语义分析的潜在技术合作伙伴识别[J].北京理工大学学报:社会科学版,2017,19(4):91-96.
[11] PARK H,YOON J,KIM K.Identifying patent infringement using SAO based semantic technological similarities[J].Scientometrics,2012,90(2):515-529.
[12] 翟东升,蔡文浩,张杰,郭程.基于图相似度的专利侵权检测方法研究[J].图书情报工作,2018,62(5):97-105.
[13] 段庆锋,蒋保建.基于SAO结构的专利技术功效图构建研究[J].现代情报,2017,37(6):48-54.
[14] CHE W,LI Z,LIU T.LTP:a Chinese language technology platform[C].International Conference on Computational Linguistics:Demonstrations.Association for Computational Linguistics,2010:13-16.
[15] 胡正银.基于个性化语义TRIZ的专利技术挖掘研究[D].北京:中国科学院大学,2015.
[16] 田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报:信息科学版,2010,28(6):602-608.
Identify Potential Technology Transfer Patents Oriented Technology Demand
Abstract :[Purpose/significance] In order to match the patents and the technology demand oriented technology demand in the large-scale patents,identify potential technology transfer patents,and improve the level of technology transfer information services.[Method/process] This study labels three technical feature phrases of problem,function and effect for patents and technology demands based semantic TRIZ.Through calculating the similarity between features by the synonym dictionary,constructing a semantic text-items vector space model,this study calculates the similarity between patents and technology demand,and identifies potential technology transfer patents according to similarity ranking.This study takes the field of new energy vehicle battery as the research object for empirical analysis.[Result/conclusion]The result shows that,in view of the technology demand,it can identify the matching patents to a certain extent and identify potential technology transfer patents.[Limitations] The limitation of this study is that the number of technical feature phrases extracted is not large.In the future,the patents and technology demands will be more comprehensively combined with keywords and technical feature phrases.
Keywords : patent;technology transfer;semantic TRIZ;semantic similarity;patent document;empirical study
DOI: 10.16353/j.cnki.1000-7490.2019.05.021
*本文为国家社会科学基金项目“‘大众创业、万众创新’背景下的科技成果转化信息服务体系研究”的成果之一,项目编号:17BTQ065。
作者简介: 詹文青 (ORCID:0000-0002-1901-1469,通讯作者),女,1993年生,硕士生。研究方向:技术转移,语义TRIZ,情报分析。肖国华 (ORCID:0000-0002-0577-5038),男,1975年生,博士生,硕士生导师,研究馆员。研究方向:技术转移,情报研究,信息平台。
作者贡献声明:詹文青 ,数据收集、实证研究、撰写论文与修改论文。肖国华 ,提出论文思路、论文审阅与修改。
录用日期: 2019-01-21
标签:专利论文; 技术转移论文; 语义TRIZ论文; 语义相似度论文; 专利文献论文; 实证研究论文; 中国科学院成都文献情报中心论文; 中国科学院大学经济与管理学院图书情报与档案管理系论文; 南京大学信息管理学院论文;