搜索引擎的技术架构

搜索引擎的技术架构

ID:42291081

大小:449.50 KB

页数:8页

时间:2019-09-12

搜索引擎的技术架构_第1页
搜索引擎的技术架构_第2页
搜索引擎的技术架构_第3页
搜索引擎的技术架构_第4页
搜索引擎的技术架构_第5页
资源描述:

《搜索引擎的技术架构》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎的技术架构By:觉白极客SEO之搜索引擎算法系列因为了解,所以才能做的更好搜索引擎真的这么简单?答案是,NO!我们要透过现象看本质,不要被搜索引擎简单的外表所欺骗。事实上,搜索引擎已经成为互联网应用中最具技术含量的应用之一。优秀的搜索引擎需要复杂的架构和算法,以此来支撑对数以百亿计的海量数据获取、存储,以及对用户查询的快速而准确的响应。那么接下来,我们从两个方面来学习下搜索引擎的技术架构。第一部分搜索引擎如何获取并存储海量的数据首先,应该讲到的是爬虫。因为搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网信息获取到本地。其次,“网页去重”。我们把互联网信息获取到本地后,由

2、于互联网上有些信息是完全相同的或者近似重复的,因此就需要网页去重模块对此作出检测,并去除重复内容。在此之后,搜索引擎会对网页进行解析,抽取出网页主体内容,以及页面中包含的其他页面链接。之所以保存链接,是因为这种链接关系在网页相关性排序阶段是可以利用的,通过“链接分析”可以判断出页面的相对重要性。最后,因为网页的数量太多,搜素引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,使用少量的机器明显是不现实的,因此搜索引擎开发了一整套的云存储与云计算平台。回顾刚才所学到的是搜索引擎如何获取并存储海量的网页相关信息,这些功能因为不需要实时计算,所以可以被看成搜索引擎的后台计算系统。而搜索

3、引擎的最重要的目的是为用户提供准确全面的搜索结果,如何响应用户查询并实时的提供准确结果构成了搜索引擎前台计算系统。第二部分搜索引擎的前台计算系统当搜索引擎接收到用户的查询词后,首先应该是对查询词进行分析,希望能够结合查询词和用户信息来正确推到的真正搜索意图。其次,搜索引擎缓存系统。在分析完用户查询词的搜索意图后,那么首先会在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能在缓存系统中找到满足用户需求的信息,可以直接将搜索结果返回给用户。那么如果没有找到,搜索引擎将调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜素结果

4、。而排序的重要参考因素就是,一个是相关性因素,另外一个是网页重要性因素。反作弊模块除了我们刚才所学到的模块,搜索引擎的“反作弊”模块也是非常重要的。因为搜素引擎作为互联网用户的上网入口,对网络流量的引导至关重要,甚至可以说起到了至关重要的作用。于是,各种“作弊”方式就流行起来了,通过各种手段将网页的搜索排名提高到与其网页质量不相称的位置,这严重的影响了用户的搜索体验。因此,反作弊模块是必不可少的。搜索引擎架构示意图及总结结束语谢谢大家的观看!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。