Text Mining in R.pdf

Text Mining in R.pdf

ID:33927488

大小:365.43 KB

页数:30页

时间:2019-02-28

Text Mining in R.pdf_第1页
Text Mining in R.pdf_第2页
Text Mining in R.pdf_第3页
Text Mining in R.pdf_第4页
Text Mining in R.pdf_第5页
资源描述:

《Text Mining in R.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、TechnicalReport2012R语言环境下的文本挖掘TextMininginRVersion0.0220120321刘思喆主页更新http://bjt.name/todo联系方式sunbjt@gmail.com新浪微博@刘思喆Copyright©2012RandalltheContributorstoRtm.Allrightsreserved.R以及Rtm的作者拥有版权©2012。保留所有权利。Permissionisgrantedtocopy,distributeand/ormodifythisdocumentunder

2、thetermsoftheGNUFreeDocumentationLicense,Version1.2oranylaterversionpublishedbytheFreeSoftwareFoundation;withtheInvariantSectionsbeingContributors,noFront-CoverTexts,andnoBack-CoverTexts.你可以拷贝、发布或者修改这份文档,但必须遵守自由软件组织颁布的GNU自由文档许可证1.2或者以后版本的条款。InvariantSections包括Contribu

3、tors,没有Front-CoverTexts和Back-CoverTexts。目录1文本挖掘介绍32自然语言处理技术㔬述32.1相关的R包.......................................32.2stemming和Tokenization...............................52.3中文分词........................................63tm包63.1简介...........................................6

4、3.2数据读入........................................63.3数据输出........................................83.4语料库的提取......................................83.5信息转化........................................93.6转化为纯文本......................................93.6.1去除多余的空白................

5、.................93.6.2小写变化....................................103.6.3停止词去除...................................103.6.4填充.......................................103.7过滤...........................................103.8元数据管理.......................................113.9标准操作和函

6、数.....................................133.10创建词条-文档关系矩阵................................143.11对词条-文档关系矩阵操作...............................143.12字典...........................................164网页解析的利器–XML包174.1网页解析........................................174.2字符集转化.......

7、................................215XML同tm包的配合使用(todo)216一些文本挖掘方面的应用216.1基础分析技术......................................226.1.1文本聚类....................................226.1.2文本分类....................................236.2潜变量语义分析(notdone)..............................246.3主题

8、模型(Topicmodel)...............................24目录用R语言做文本挖掘

9、2A附录26A.1关于XML文件.....................................26A.2关于正则表达式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。