试析基于web的文本挖掘技术的研究

试析基于web的文本挖掘技术的研究

ID:35128385

大小:1.67 MB

页数:61页

时间:2019-03-19

试析基于web的文本挖掘技术的研究_第1页
试析基于web的文本挖掘技术的研究_第2页
试析基于web的文本挖掘技术的研究_第3页
试析基于web的文本挖掘技术的研究_第4页
试析基于web的文本挖掘技术的研究_第5页
资源描述:

《试析基于web的文本挖掘技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨工程大学硕士学位论文基于Web的文本挖掘技术的研究姓名:刘岩申请学位级别:硕士专业:计算机应用技术指导教师:张健沛20040101摘要如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确面全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的

2、讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括:首先,探讨了Web挖掘的有关理论;其次,在研究Web文本挖掘技术的基础上,介绍了一种Web文本挖掘系统的体系结构;再次,具体讨论了Web信息的自动获取的总体设计思想,并对获取信息的预处理工作进行了研究:第四,为了将遗传算法应用到本文设计的算法中,对遗传算法进行了详尽的分析;最后,在对传统的遗传算法进行改进后,提出了一种基于遗传算法的特征提取算法。实验表明,该方法

3、是可行的。关键字:Web挖掘;文本挖掘:特征提取;遗传算法AbstractIt’SarealchallengeforUStomaketheInterneteasiertouse.TheinformationintheInternetiSinshortoforganization,andfullofamassofpages,andontheotherside,peoplewanttoobtaintheinformationquicklyandaccurately。Withthefloodofinformationonthe

4、Web,WebminingiSanewresearchissuewhichdrawsgreatinterestfrommanycommunities.Currently,thereiSnoagreementaboutWebminingyet.Itneedsmorediseussionamongscientistsinordertodefinewhatitisexactly.Meanwhile,thedevelopmentofWebminingsystemwillpromoteitsresearchinturn.Thisp

5、aperdiscussestheprincipleofWebmining,andfocusesonWebtextminingarchitectureandtechnique.Thepaperincludesfollowingcontents:Firstly,discussestheprincipleofWebmining:Secondly,onthebaseofthestudyoftheWebtextminingtechnique,introduceanarchitectureandfunctionofWebtextmi

6、ningsystem:Thirdly,discussesthedesignphilosophyofdataacquisitionbasedonworldwildweb.andstudiesthepreprocessingoftheWebdata;FourthlyinordertoapplytheGeneticAlgorithmtothetheoryputforwardbyUS,analysestheGeneticA190rithmparticularly:Atlast,onthebaseoftheimprovemento

7、fconventionalGenetiCAlgorithm,weputforwardadocumentfeatureextractalgorithm.Theresultofexperimentshows,theapproachiSfeasible.Keyword:WebMining;TextMining;FeatureExtract:Genetic.Algorithm哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参

8、考文献相对应。除文中己注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日第1章绪论1.1研究课题的来源、目的和意义本课题来源于黑龙江省自然科学基金项目,即“基于We

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。