搜索引擎工作原理——seo优化参考

搜索引擎工作原理——seo优化参考

ID:15992473

大小:131.00 KB

页数:4页

时间:2018-08-07

搜索引擎工作原理——seo优化参考_第1页
搜索引擎工作原理——seo优化参考_第2页
搜索引擎工作原理——seo优化参考_第3页
搜索引擎工作原理——seo优化参考_第4页
资源描述:

《搜索引擎工作原理——seo优化参考》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、深圳市指易达电子商务有限公司提供 ,公司网址:http://www.zeeeda.com/搜索引擎工作原理——SEO参照目前搜索引擎很多,各个搜索引擎的算法有所差异,但搜索引擎的工作原理大致是一样的。下面简单介绍搜索引擎的工作原理,以及顺带讲做SEO时改注意的东西。一.(蜘蛛、机器人)跟踪链接爬行和抓取。  搜索引擎蜘蛛听过跟踪超级链接在互联网上爬行,访问链接指向的页面,获得页面的HTML代码,并将代码存入自己的数据库。搜索引擎蜘蛛的爬行方式有:广度爬行和深度爬行。一般情况下,广度爬行和深度爬行是混合使用的。因为整个互联网的数据太大,蜘蛛没有足够的条件爬完所有的页面,实际

2、上搜索引擎只爬行和收录了互联网的一小不部分。从提高蜘蛛爬行的角度讲,增加外部链接,也是是很有必要的。同时,也可以知道,网页不要放得太深,离首页越近,被蜘蛛爬行的机会越大。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML是一样的。蜘蛛在爬行和抓取网页时,会对网页内容进行检测,如果发现网站上的内容是大量转载和抄袭的,那可能就不会再继续跟踪爬行链接了。所以,多写原创性的内容,会促进搜索引擎蜘蛛的爬行。二.预处理:  “预处理”常被等同于“索引”,因为索引是预处理最重要的步骤。   1.去标签、代码。提取文本内容。  搜索引擎蜘蛛抓取的页面数据量

3、大,包含了大量的HTML格式标签、Javascript等无法用于排名的数据。搜 索引擎预处理,首先就是去除标签和程序代码,提取出用于排名处理的文本内容。  2.去杂,消除噪声。  绝大部分页面上存在一部分对页面主题没有什么贡献的内容,比如导航条、广告上的文字。比如,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子的话,搜索用户的体验是很不好的。因为那写个帖子,并不是搜索者想要的。所以,这些词算作噪音,会给页面主题起到分散作用,故去之

4、。   3.分词  搜索引擎存储和处理页面及用户搜索都是以词为基础的。一个句子,所有的字和词都连在一起,搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“写作技巧”将被分词为“写作”和“技巧”两个词。中文分词方法基本上有两种:基于词典匹配;基于统计。搜索引擎对页面的分词取决于本身的算法,跟页面本身如何无关。优化唯一能做的是提示搜索引擎,哪几个字被当做一个词处理,比如可以通过HTML标签把相关词标为黑体。深圳市龙岗区平湖华南城环球物流中心19楼电话:0755-85233755传真:0755-85233756网址:www.zeeeda.comP4   4.去

5、语气助词等没有具体意义的的词  页面中会出现很多对内容信息没有任何意义的词,比如感叹词“啊”“哈”“吖”、助词“的”“地”“得”、副词介词“而”“但是”“可是”。搜索引擎会在索引页面内容前去掉这些词,是索引的数据主题更突出,减少无谓的计算量。  5.去重复  用户搜索时,如果在前两页看到的是来自不同网站的同一篇文章,那用户体验就太差了,虽然都是内容相关,所以在进行索引前,识别和删除重复内容,这一过程叫做“去重”。   6.正向索引  搜索引擎提取关键词,按照分词程序划分好词,把页面转换为一个关键词组成的集合,同时记录每个关键词在页面上的出现频率、出现次数、格式(如黑体、H

6、标签、锚文字等)、位置。这样,每个页面都记录为一串关键词的集合。每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合,这样的数据结构称为正向索引。 7.倒排索引 正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。所以将正向索引库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,也就是每个关键词对应一系列文件。 8.链接关系计算  搜索引擎在抓取页面后,会事先计算出:页面上有哪些链接指向哪些其他页面,每个页

7、面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。所以,长期坚持做好链接,是搜索引擎优化中的重要组成部分。 9.特殊文件处理 处理HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、Wps、Xls、PPT、TXT等文件,搜索引擎能够检索出上述文件中的内容,所以可以在百度文库等平台分享自己的资料,全方位做好优化工作。 三.排名 经过倒排索引之后,搜索引擎就准备好可以随时处理用户处理了。用户在搜索框中输入关键词,排名程序调用索引库数据,计算排名给用户。 

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。