基于中文专利的新技术术语识别研究_谷俊.pdf

基于中文专利的新技术术语识别研究_谷俊.pdf

ID:52332041

大小:1.26 MB

页数:6页

时间:2020-03-26

基于中文专利的新技术术语识别研究_谷俊.pdf_第1页
基于中文专利的新技术术语识别研究_谷俊.pdf_第2页
基于中文专利的新技术术语识别研究_谷俊.pdf_第3页
基于中文专利的新技术术语识别研究_谷俊.pdf_第4页
基于中文专利的新技术术语识别研究_谷俊.pdf_第5页
资源描述:

《基于中文专利的新技术术语识别研究_谷俊.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、情报科学·博士论坛·第31卷第1期2013年1月基于中文专利的新技术术语识别研究1,23谷俊,严明(1.南京大学信息管理系,江苏南京210093;2.上海宝山钢铁股份有限公司,上海201900;3.南京政治学院基础部,江苏南京210003)摘要:首先利用ICTCLAS分词系统和停用词表抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选后得到术语集,由专家人工判定识别出有效的新技术术语。最后给出了应用实例并进行分析,验证

2、了方法的有效性。关键词:技术生命周期;术语识别;热点词元中图分类号:G306文献标识码:A文章编号:1007-7634(2013)02-144-06StudyofNewTechnologyDetectionBasedonChinesePatents1,23GUJun,YANMin(1.InformationManagementDepartment,NanjingUniversity,Nanjing210093;2.BaoshanIronandSteelCo,Ltd.,Shanghai201900;

3、3.BasicDepartment,NanjingPoliticalInstituteofPLA,Nanjing210003)Abstract:Firstly,theelementoftermsinpatentsareextractingbyICTCLASsegmentationsystemandstopwordslists.ThentheHotelementsoftermsarefilteredbasedontermsweightscomputingbyimprov⁃ingTFIDFmodel.

4、Secondly,thehotelementsoftermsarecombinedorderlybycomputingthedistancebe⁃tweentwowords,andobtainthetermscollectionbytermsweightscomputingandthresholdfiltering.Thevalidnewtechnologytermsaredetectedbytheexpertsartificially.Finallytheavailabilityofthemet

5、hodisprovedthroughtheanalysisoftheappliedexample.Keyword:technologylifecycle;termdetection;hotelementsofterms谋取最大利益。基于专利的技术生命周期反映了1引言技术发展变化的不同阶段,包括萌芽阶段,成长阶【2】段,成熟阶段和衰退阶段。在萌芽阶段,由于该技专利文献作为技术信息最有效的载体,囊括了术刚刚起步,企业进行技术投入的热情不高,专利全球90%以上的最新技术情报,相比一般技术刊物申请量和专利

6、申请人的数量都不多;在成长阶段,【1】或是产业技术有了突破性的进展,或是企业根据市所提供的信息早5-6年,而且70%-80%发明创造只通过专利文献公开,并不见诸于其他科技文献,场价值和行业政策的判断,增加研发投入,使得专相对于其他文献形式,专利更具有新颖、实用的特利申请量和专利申请人的数量急剧上升;在成熟阶征。对于企业来说,基于专利文献的技术生命周期段,由于技术发展业已成熟,没有过多的企业愿意的分析能够帮助企业总览技术发展路线,能够让企再花费成本投入该项技术的研发,也没有新的企业业挑选最优策略实现

7、自身的技术发展,从而为本身进入该领域,因而专利申请量和申请人数量增加趋收稿日期:2012-03-07作者简介:谷俊(1981-),男,安徽和县人,博士研究生,工程师,主要从事信息智能处理与检索研究.-144-情报科学·博士论坛·第31卷第1期2013年1月势减缓;在衰退阶段,可能是替代技术的出现,或者国家专利局统计,截至2010年12月,在华发明、实该技术研发遇到了瓶颈,导致专利申请量和申请人用新型和外观设计专利总量约为703万件,其中发【11】数量逐步减少。依据技术生命周期理论,如何从专明专利将

8、近200万件。为了验证本文所述方法的利文本中识别出新的技术领域,并对其进行监控,可行性,我们从其中下载了截至2010年12月标题为企业提供及时有效的预警信息是本文研究的重或摘要中含有关键词“炼铁”的专利数据作为实验点。对象,共计1403件专利。从表结构上看,包括申请号,申请日,名称,公开(公告)号,主分类号,分案原2相关研究申请号,分类号,颁证日,申请(专利权)人,地址,发明(设计)人,国际申请,国际公布,进入国家日期,目前基于中文专利的新技术术语识别研究相专利代理机构,代理人,摘

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。