国内外文本分类研究计量分析与综述.pdf

国内外文本分类研究计量分析与综述.pdf

ID:52457402

大小:209.97 KB

页数:5页

时间:2020-03-27

国内外文本分类研究计量分析与综述.pdf_第1页
国内外文本分类研究计量分析与综述.pdf_第2页
国内外文本分类研究计量分析与综述.pdf_第3页
国内外文本分类研究计量分析与综述.pdf_第4页
国内外文本分类研究计量分析与综述.pdf_第5页
资源描述:

《国内外文本分类研究计量分析与综述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一国内外文本分类研究计量分析与综述发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流胡泽文王效岳白如江山东理工大学科技信息研究所淄博255049[摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。[关键词]文本分类计量分析社会网络分析可视化图

2、谱[分类号]G250TP391QuantitativeAnalysisandReviewofTextClassificationResearchatHomeandAbroadHuZewenWangXiaoyueBaiRujiangInstituteofScientificandTechnicalInformation,ShandongUniversityofTechnology,Zibo255049,China[Abstract]Thispapercarriesoutthequantitativ

3、eanalysisandvisualizationtothehistoricalliteraturesoftextclassificationdomainbyusingthebibliometricanalysismethod,thecomputerstatisticanalysistechnologyandthesocialnetworkanalysissoftware.Bydrawingtheliteraturequantitydistributionmapandco-occurrencen

4、etworkofthecorekeywords,excavatesthedevelopmenttrends,thecurrentresearchsituations,hotspotsandthefutureresearchtrendsetcintextclassificationdomain,andmakesareviewontheresearchhotspotsandfutureresearchtrends.[Keywords]textclassificationquantitativeana

5、lysissocialnetworkanalysisvisualizingmap1引言随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、

6、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。2样本与方法样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概

7、况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。表1样本数据的检索情况数据库检索入口检索词时间范围文献数量一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。CompendexTitle"textclassification"OR1969-2009954"textcategorization"ScienceD

8、irect1969-Present去重:60中国期刊全文数据库(CNKI)篇名文本分类(精确匹配)1999-2009615中国硕博学位论文数据库(CNKI)题名文本分类(精确匹配)1999-20092223分析与结果3.1文献数量分析对表1中1980-2009年30年间的国内外文本分类文献数量进行分析(5年一个区间,30年共计6个区间),具体如图1所示。从图1可以看出,国外在文本分类方面的研究存在如下特点:①起步较早。德国学者Giere,W.和Dettmer,H.在1986年就提出基于词典的文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。