互联网搜索SearchingtheWeb-3-Webcharacteriza

互联网搜索SearchingtheWeb-3-Webcharacteriza

ID:39058253

大小:398.31 KB

页数:31页

时间:2019-06-24

互联网搜索SearchingtheWeb-3-Webcharacteriza_第1页
互联网搜索SearchingtheWeb-3-Webcharacteriza_第2页
互联网搜索SearchingtheWeb-3-Webcharacteriza_第3页
互联网搜索SearchingtheWeb-3-Webcharacteriza_第4页
互联网搜索SearchingtheWeb-3-Webcharacteriza_第5页
资源描述:

《互联网搜索SearchingtheWeb-3-Webcharacteriza》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、12.互联网搜索SearchingtheWebWeb特性Web测度Web图结构1Web有多大?存在的问题从某种意义上说,Web是无限的动态内容,比如日历Soft404,对应错误的网址返回一个页面:www.yahoo.com/isavalidpage静态网页包含重复内容,很大一部分是镜像(~20-30%)有一些服务器很少被连接谁会关心?最终用户搜索引擎设计者搜索引擎抓取策略,对召回率的影响2基于搜集随机页面的统计方法Randomqueries随机构造查询,提交给搜索引擎E1,从前100个结果中随机选择一个页面p,通过在页面p中选取6-8个

2、低频词并提交给第二个搜索引擎E2,看p在不在E2中出现;同样,提交查询给E2,获得查询结果页面,看在不在E1中出现。反复进行以上操作从而得到E1与E2所包含网页数目的比例。Randomsearches从给定的搜索记录中随机选取,向搜索引擎提交,从查询结果获取随机页面。RandomIPaddresses产生随机IP地址,向它发送页面请求,收集此IP地址上的web服务器的页面。Randomwalks如果web图结构是一个强连接图的话,可以发起一个随机游走,并逐渐收敛到稳态。随机游走过程中当前URL为随机选取的URL。3通过RandomQueries进行URL采

3、样理想策略:产生一个随机URL,看此URL是否在其他搜索引擎索引中出现问题:随机URL很难找4随机从每个搜索引擎采样URL每个搜索引擎采样20,000个随机URLs构造词典,从词典中随机选2个以上的词构造并提交随机联合查询,结果条目控制在200个以内。从这200个结果选取一个随机URL测试是否出现在其他引擎中用页面中最少出现的8个词来查,看查出的URL是否匹配计算交集以及尺寸比率Intersection=x%ofE1=y%ofE2E1/E2=y/xE1E2通过RandomQueries进行URL采样5存在的问题随机短查询可能会使查询结果偏向长的文档,导致查

4、询结果不是随机结果其他的一些问题由于是从搜索引擎E1中查询并拣选结果,结果URL依赖于E1的排名算法E2可能不能合适地处理8个词的联合查询搜索引擎可能会拒绝测试查询,认为是机器在查询而不是真实的查询连接超时6Randomsearches从本地日志选取随机的搜索记录只使用小结果集的查询在结果集中提取URL使用比率统计数据好处:由于本地日志是真实的查询记录,统计结果能够较好地反映人对查询覆盖率的感知7Randomsearches[Lawr98,Lawr99]575&1050查询,来自NECRI科学家的查询日志6Enginesin’98,11in’99具体实现限

5、制查询返回结果为小于600提交查询后计算每个搜索引擎返回的URL数对每个查询计算搜索引擎大小比率以及重叠把上面每个查询计算值的平均值作为搜索引擎索引大小比率以及覆盖重叠的估值问题采样与日志源相关程度大重复页面必须有非零的结果集8QueriesfromLawrenceandGilesstudy1.adaptiveaccesscontrol2.neighborhoodpreservationtopographic3.hamiltonianstructures4.rightlineargrammar5.pulsewidthmodulationneural6.un

6、balancedpriorprobabilities7.rankedassignmentmethod8.internetexplorerfavouritesimporting9.karvelthornber10.zililiu11.softmaxactivationfunction12.bosemultidimensionalsystemtheory13.gammamlp14.dvi2pdf15.johnoliensis16.riekespikesexploringneural17.videowatermarking18.counterpropagatio

7、nnetwork19.fatshatteringdimension20.abelsonamorphouscomputing9Web大小的估算[Lawr98,Bhar98a]Capture–Recapture方法假设搜索引擎覆盖Web随机独立的子集假设如果E2包含E1的x%.那么E2也包含Web的x%如果知道E2的大小可计算Web的大小:100*E2/xE1E2WEBBharat&Broder:200M(Nov97),275M(Mar98)Lawrence&Giles:320M(Dec97)10RandomIPaddresses[Lawr99]产生随机的IP

8、地址如果可能的话,在给定地址找到web服务器从服务器收集所有页面优

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。