web信息处理与应用:web crawling

web信息处理与应用:web crawling

ID:34489393

大小:2.88 MB

页数:59页

时间:2019-03-06

web信息处理与应用:web crawling_第1页
web信息处理与应用:web crawling_第2页
web信息处理与应用:web crawling_第3页
web信息处理与应用:web crawling_第4页
web信息处理与应用:web crawling_第5页
资源描述:

《web信息处理与应用:web crawling》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、WebCrawling金培权jpq@ustc.edu.cnWeb信息处理与应用金培权(jpq@ustc.edu.cn)课程知识结构Chp.1IntroductionChp.2CrawlerChp.8NERChp.10TextMiningChp.3TextProcessingChp.9RelationExtractionChp.11SocialNetworkChp.4IndexingAnalysisChp.5QueriesChp.12WebInformationApplicationsChp.6RankingChp.7EvaluationChp.13A

2、dvancedTopics*Web信息处理与应用1.2金培权(jpq@ustc.edu.cn)本章讨论的问题WebWeb网页如何获取?Crawler/SpiderTextProcessingQuery/RankingInfo.ExtractionIndexingWebMiningWeb信息处理与应用1.3金培权(jpq@ustc.edu.cn)本章主要内容IntroductiontoWebCrawlingSomeBasicSolutionsWeb信息处理与应用1.4金培权(jpq@ustc.edu.cn)网络爬虫基础TheInternetasaN

3、etofComputersWeb信息处理与应用1.5金培权(jpq@ustc.edu.cn)网络爬虫基础TheWebasaNetofDocumentsWeb信息处理与应用1.6金培权(jpq@ustc.edu.cn)网络爬虫基础Web的图模型网页为节点网页中的HyperLink为有向边Web信息处理与应用1.7金培权(jpq@ustc.edu.cn)网络爬虫基础WebCrawler的任务定义从一个种子站点集合(Seedsites)开始,从Web中寻

4、找并且下载网页,获取排序需要的相关信息,并且剔除低质量的网页Web信息处理与应用1.8金培权(jpq@ustc.edu.cn)网络爬虫基础基本过程WebWeb信息处理与应用1.9金培权(jpq@ustc.edu.cn)基本算法PROCEDURESPIDER(G)1LetROOT:=anyURLfromGInitializeSTACKLetSTACK:=push(ROOT,STACK)InitializeCOLLECTIONWhileSTACKisnotempty

5、,问题:URLcurr:=pop(STACK)•重复搜集?PAGE:=look-up(URL)curr•遇到回路会无限循环?STORE(,COLLECTION)curr•G如果不连通呢?ForeveryURLinPAGE,i•G如果大到STACK容不下呢?push(URL,STACK)i•如何控制搜集G的一部分呢?ReturnCOLLECTIONWeb信息处理与应用1.10金培权(jpq@ustc.edu.cn)改进的算法PROCEDURESPIDER(G,{SEEDS})4InitializeCOLLECTION

6、ofURL-pagepairs>InitializeVISITEDForeveryROOTinSEEDSInitializeSTACKLetSTACK:=push(ROOT,STACK)WhileSTACKisnotempty,DoURL:=pop(STACK)currUntilUntilURLURLcurrisnotinVISITEDcurrisnotinCOLLECTIONinsert-hash(URL,VISITED)currPAGE:=look-up(URL)currSTO

7、RE(,COLLECTION)currForeveryURLinPAGE,ipush(URL,STACK)iReturnCOLLECTIONWeb信息处理与应用1.11金培权(jpq@ustc.edu.cn)完备性问题Crawl==图遍历?Completenessisnotguaranteed假设从一个page出发能到达web上的任何一个page.实际情况并不一定这样Web信息处理与应用1.12金培权(jpq@ustc.edu.cn)网络爬虫的性能衡量数量覆盖率——“全”搜索引擎索引的网页(一次收集)占目标区域中所有可能网页

8、数量的百分比质量覆盖率——“好”搜索引擎索引的网页中“高质量”网页占目标区域中所有可能重要网页数量的百分比

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。