半结构化网络信息抽取技术及应用研究new

半结构化网络信息抽取技术及应用研究new

ID:34646588

大小:6.18 MB

页数:80页

时间:2019-03-08

半结构化网络信息抽取技术及应用研究new_第1页
半结构化网络信息抽取技术及应用研究new_第2页
半结构化网络信息抽取技术及应用研究new_第3页
半结构化网络信息抽取技术及应用研究new_第4页
半结构化网络信息抽取技术及应用研究new_第5页
资源描述:

《半结构化网络信息抽取技术及应用研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国科学技术大学硕士学位论文半结构化网络信息抽取技术及应用研究姓名:于静申请学位级别:硕士专业:模式识别与智能系统指导教师:李淼20080601摘要本课题研究是实验室课题“电脑农业"的一部分,针对农产品的季节性,周期性和区域性的特点,进行实时的信息采集尤为重要。本文针对农产品市场价格数据,采用了基于)(ML和XPath的方法,以生成简单、精确和健壮性较好的抽取规则,开发了可视化网页信息抽取平台,使得用户通过简单的输入、点击、复制、粘贴等操作,即可完成同一站点页面簇中各页面分量价格数据的自动化批量抽取。抽取结果具有很好的精确性

2、和召回率。该平台可以实时、自动地抽取网络上的数据,并在对抽取结果进行整理、清洗后存入后台数据库。然后建立查询网站,使收集到的数据能够通过网页的形式展现给用户。同时本文采用了基于参照文本和文档对象模型(DoM)相结合的方法来对农产品供求信息进行抽取,该方法利用基于参照文本抽取的灵活性和DoM树结构定位的精确性,可以对网页结构多变的一类网页准确的进行信息抽取。同时结合GSM和网络爬虫技术,开发了基于GSM和Web信息抽取的短信推送服务平台,能够将用户感兴趣的信息以短信的方式及时推送给用户,有效地解决了用户信息服务个性化、信息更新

3、及时性以及农村用户在获取农产品供求等信息时对互联网的依赖等问题,改变了传统的依靠搜索引擎获得信息的服务模式。关键字:网络爬虫Web信息抽取WrapperGSM推送服务ABSTRACTThistopicresearchisapartoflaborato巧researchaS“theComputeragriculture”.Duetothecharacteristicsofseasonal,periodicalandregionaloftheagricultumlproduct,reaLl—timeinfomlationcoll

4、ectionisparticularlyimporrtant.Inthjsthesis,wehavedevelopedtheVisualWebInf-onnationExtractionPlatform,baSedonmeXMLandXPathmethodt0generatesimple,precisea11drobusti11f.omlationextraCtionmles.Theplatf.0nIlcallenableuSerstocompletet王1eautomatedbatchcollectionofag,icul

5、tllralmarketpricedata,行omtheclusterofW曲PagesinthesameWebsiteonlythrou曲somesimpleoperationssuchasentering,clicl(ing,copying,paStingetc.Theex位lctionresultshavehi曲accuracyaIldrecall.Theplacfomcanc01lectreal-timedataontllenetworkautomatically,cleanupthedata,andfinallys

6、toreintotheback.enddatabaSe.ThenwecreateaqueryW曲sitesothatthecollectedresultscanbepresentedtotheuserintllefo珊ofwebPages.Tllist11esisstudiedtheeXtractionofagriculturalproductssupplyaIlddemand证formation如rcher,baSedonthereferencetextsarldDocumentsObiectModel(DOM).7nle

7、excellencemnexibilit)rofmereferencetext-basedmethodandpositiomngaccuracyoftheDOMtr.ee.baSedmemod,callmal(eaccuratei疵肌ationex廿actionfromacatego巧ofW曲PageswhosestllJetureisalwayschangeabIe.ThenwitllthetechnologyofGSMandW曲Crawler,、ⅣedeVelopedaSMSPushSeⅣicePlatf-0mlbaSe

8、donW曲Info肿ationExtractiona11dGSM,Whichcouldpushusers’interestedimmationt0themtimelyinf-0msofSMS.Tlleplatf.o肌e虢ctivelys01vedt11eindividuationofuse

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。