Web页面用户评论信息抽取技术研究.pdf

Web页面用户评论信息抽取技术研究.pdf

ID:52388028

大小:2.67 MB

页数:78页

时间:2020-03-27

Web页面用户评论信息抽取技术研究.pdf_第1页
Web页面用户评论信息抽取技术研究.pdf_第2页
Web页面用户评论信息抽取技术研究.pdf_第3页
Web页面用户评论信息抽取技术研究.pdf_第4页
Web页面用户评论信息抽取技术研究.pdf_第5页
资源描述:

《Web页面用户评论信息抽取技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ADissertationSubmittedtoZhejiangUniVersityfortheDegreeofMasterofEngineering’-,’-,⑧TITLE:一S地盘Q旦地鱼堕堕丛iQ卫星圣堡垒堕iQ坠熏鱼堡h里Q!QgY量里盟鱼垒卫垒g曼墨Q兰!曼Y重星盟Author:SuperVisor:Subject:College:YinJianweiSubmittedDate:Jan5m.2011浙江大学硕}:学位论文{嗍《llllIlllIIllllImllIIlm洲旷_Y1853223摘要Wreb页面上用户的商品评论信息已成为影

2、响电子商务消费者进行购买决策时的关键因素之一。近年来随着电子商务的发展,关于商品的评论信息呈指数级增长,从而导致潜在用户难以在这些大量信息中寻找到有参考的评论信息,大大减低了评论信息的应用范围。论文将通过对web页面评论信息现有系统结构和抽取算法的分析,结合信息抽取课题,研究如何在大规模、Ⅳeb页面评论信息下确保抽取的高准确性和高效性。论文在分析典型、wb页面信息抽取系统和算法的基础上,根据现有系统的优缺点和抽取算法的不足,提出了基于树权值的信息抽取算法,该算法通过对抓取到的、Ⅳeb页面转化为标签树结构,将标签树进行噪音去除等预处理后,自底而上

3、的为每个树节点赋上权值,使得不同层次不同标签的节点具有不同的权值,然后根据相似树和位置连续性来识别出数据记录区域,包含数据记录的标签树集进行树对准操作后生成基准树作为抽取模板,最后根据抽取模板对数据记录进行对准和抽取。该算法具有很强的自适应性,能根据不同评论信息的结构产生不同的抽取模板,同时不需要过多的人为干预,抽取结果显示该算法在抽取上有较好的效果。基于这个算法,论文设计了一个将单个web页面转化为标签树,从标签树中识别出数据记录区域,然后将数据记录对准后产生模板,最后将属性标注过的模板从一系列web页面中抽取信息的系统。对实现这个算法的系统

4、与其他算法的系统进行了实验对比,结果表明该系统在无需人为过多的干预,具有高度自动化的同时,也具有较高的准确性,同时在运行时间上远远优于其他系统。关键词:用户评论信息,权值,标签树,信息抽取W曲pagesofproduct’sreViewshaVebecomeakeyfIactorine—commerce’scons啪erdecidingt0purchaSeaproduct.WiththedeVelopmentofe·commerceinrecentyears,la唱elyincreaSingreViewsoftheprodudresulting

5、证ala玛emlmberofpotentialusersisdi衔cuhtofinduse如linfomationinthereviews,soreViews伊eatlyreducedthescopeof印plication.PaperwillaIlalyzetlleexiStingsystemarchitecnlreandaJgorit№softhewebpageextraction,combinedwiminf.0mationextraction,studyhowt0keephigllaccuracyandemciencyofextract

6、ioninlarge-scalewebpagesofr.eviews.Paperwillanalyzethe够picalinfonnationextractionsystemandthealgorithllfindmeadv锄tagesanddisadvantagesofPxistingsystemsaIldextractionalgorit

7、lIIls,proposesawei曲t-baSedinfbmationeXtractionalgorithm.ThealgorithmchaIlgescrawledwebpageintoatagtree

8、蛐mc眦,dosomepreprocessingtometag仃.eesuchastherloiseremovalaIldsoon,部signedthe、wightforeachnodeofthetreef幻mbottomtoup,makingnodeswimdi仃erentlabelsindi俄relltleVelshasdi虢rent、Ⅳeights,menidenti匆dataregionsthrou曲thesimilartree锄dthecontinualposition,thesetoftag—treeWhichcontainsdat

9、arecordaligIledandgeneratedabasetreeasatemplateofex仃action,finallyalldatare

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。