欢迎来到天天文库
浏览记录
ID:52390749
大小:2.78 MB
页数:77页
时间:2020-03-27
《互联网搜索词分类关键技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、tOgreeofTITLE:&曼墨曼垒!QhQ旦K星Y墅Qh里Q!Q毂Qf兰里主星盟殳主S星丛堡hK曼Y鲨Q!鱼墨g!垒墨§i鱼堡丛iQ坠Author:Supervisor:里!Q鱼墨曼Q!&旦Q&堕g!Q堕gSubject:College:△曼墨Q堡i亟±星里!=Q鱼墨墨Q!丛i塾!垒垒g£Q塑卫坠!鱼!△乜p!i堡垒!iQ塾!曼堡h坠Q!QgY£Q蛩堕P旦±曼!S堡i皇塾Q殳SubmittedDate:2011.03.09浙江大学硕上学位论文摘要川
2、IllIi
3、l
4、
5、m㈣IIfII㈣7fllI⋯洲Y18
6、53278摘要随着互联网的飞速发展,互联网上的数字信息量也开始呈指数型增长,人们要从信息海洋中获取自己需要的特定信息变得越来越困难。能帮助人们从海量信息中找到真正所需的搜索引擎,作为网络用户的信息获取平台,已成为互联网上不可或缺的网络应用。网络用户对搜索引擎的依赖越来越严重,用户的搜索行为已经成为其上网行为中很重要的一部分,而搜索行为中最为重要的就是用户提供的搜索词,这些搜索词直接或间接的反映了用户潜在的兴趣和需求,能够很好的为用户个性化应用以及网络定向广告投放等网络服务提供基础。因此,本文提出了对搜索词进
7、行分类分析。针对互联网搜索词分类的问题,本文详细分析了互联网搜索词产生的相关背景,总结概括了搜索词的定义,详细描述了搜索词的特点,并针对现存的一些技术方法分析了搜索词分类的难点,最终提出了一个二阶段的搜索词分类解决方案:基于伪相关反馈的搜索词预处理与基于文本分类技术的搜索词分类。将未知的搜索词分类问题通过伪相关反馈理念转化为可以利用已有文本分类技术解决的问题。在搜索词分类问题的解决过程中,本文针对文本分类技术中的一些技术进行了研究比较,提出了一种在初步特征选择后进一步精减特征的基于重构思想的特征精选方法,该
8、方法结合列选择方法定义了一个对初选特征选取特征子集的目标函数,利用贪心和直推式实验设计的思想来求解目标函数,最终获得局部最优精简特征子集,并通过实验证实了此方法的可用性。本文还通过详细全面的实验,对比分析了多种特征选择方法与分类方法组合的分类结果,最终选择出了适用于本文分类问题的特征选择方法与分类方法。在最后,本文还提出了搜索词分类问题可以进一步改进与应用的方向。关键词:搜索关键词,伪相关反馈,特征选择,文本分类ont11eIIltemetisculttofindspeci6cneed丘Dmtheocean
9、ofinfornlation.Thesearchen百ne,whichisoneofthemostpopulartoolstoretrieVeinf.o衄ation,isindispensableforhelpingusergetmassinfo肌ation.Themtenletusersmoreandmores甜ouslyd印endsearchen百ne,andsearchbehaviorhasbecomethecon】monIntemetbehaviorofusers.Themostimportantp
10、撕ofsearchbehavioristheIntemetSearchkeywords(ISK)proVidedbyusers.TheseISKcandirectlyorindirectlyrenectedmeusersIpotentialinterestsaIldneeds,whichis向ndamentalformanypersonalizedne觚ork印plications,suchaSdirectionaladVenisingandomerne俩orkservices.Therefore,this
11、paperproposedanoVelprocessofISKclass湎cationanalysis.Toaddressmisprobl锄,wes啪madzedtheback孕oundaJldde611itionofISK.ThenweanalyzedthecharacteristicsofISK,basedwhichweproposedatwostagesolutionforISKclassi6cation.Firstlywedes嘶bedtheISKbypseudoreleVallcefeedback
12、,andtheIlwecaIl印plytextclassificationtechnologyforISKclassification.WealsoproVidedaIlideathatusespseudoreleVaIlcefeedbacktoconVenuns01Vedclassificationtowell—smdiedtextclassification.Beyondmeprocessofs01vingI
此文档下载收益归作者所有