欢迎来到天天文库
浏览记录
ID:34418510
大小:24.63 KB
页数:12页
时间:2019-03-06
《seo入门知识点seo基础技巧seo教程》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、www.cdtedu.com达内教育—中国IT培训领导品牌SEO入门知识点,SEO基础技巧,SEO教程SEO方面的知识,很是有趣,能学些新东西的感觉总是好的,随着经历增多心境较之前也少了些浮躁,当下的年纪也正是钻研些好玩事物的大好时光. 1.SEO定义: SearchEngineOptimization(全称)也即搜索引擎优化,就是从搜索引擎上获得流量的技术。搜索引擎的主要工作包括:通过了解搜索引擎的工作原理掌握如何在网页流中爬取网页、如何进行索引以及如何确定某一关键词排名位置从而对网页内容进行科学的优化,使其符合用户浏览习惯的同时提高排名与网站访问
2、量,最终获得商业化能力的技术。 2.搜索引擎工作原理: 主要有三段工作流程:爬行抓取、预处理、服务输出 2.1爬行抓取 主要功能是对网页进行抓取,目前有三种爬行抓取方法 批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时较长,在几周左右,缺点是增加了额外的带宽消耗,时效性也不高。 增量收集:在原有已收集的网页基础上搜索新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。 站长通过工具向搜索引擎主动提交网站,这种方法的响应速度比较慢,主流上还是提倡让搜索引擎蜘蛛主动来爬取。 2.1.1常见蜘蛛 搜索引擎蜘蛛是搜索
3、引擎的一个自动程序,作用是访问互联网上的网页、图片、视频等内容,建立索引库,一般用法为spider+URL这里的URL是搜索引擎的痕迹,可以通过查看服务器里的日志里是否有该URL,同时还能查看一些列属性。www.cdtedu.com达内教育—中国IT培训领导品牌 百度蜘蛛:可根据服务器的负载能力调价访问密度,降低服务器的压力,但百度蜘蛛通常会抓取同样的页面,导致其他页面无法被抓取而不能被收录,一般通过robots协议来避免 Baiduspider+(+http://www.baidu.com/search/spider.htm) 谷歌蜘蛛:属于比较
4、活跃的网站扫描工具,其间隔28天左右就会派出蜘蛛检索有更新或者有修改的网页。谷歌蜘蛛的爬取深度要大于百度。 Mozilla/5.0(compatible;Googlebot/2.1;http://www.google.com/bot.html) -雅虎中国蜘蛛 Mozilla/5.0(compatible;Yahoo!SLurpChina;http://misc.yahoo.com.cn/help.html)** -微软必应蜘蛛 msnbot/1.1(+http://search.msn.com/msnbot.htm) -搜索蜘蛛爬行抓取速度
5、较快,抓取的数量相对较少,且不抓取robot.text文件 Sogou+web+robot+(+http://www.sogou.com/socs/help/webmasters.htm#07) -搜搜蜘蛛 Sosospider+(+http://help.soso.com/webspider.htm) -有道蜘蛛 Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;) 2.1.2爬行策略 深度优先爬行:沿着一条线抓取下去,知道最后,
6、然后返回到另一条线www.cdtedu.com达内教育—中国IT培训领导品牌 广度优先爬行:在一个页面发现多个链接后,把所有第一层的链接抓取一遍,然后再沿着第二层、第三层…… 2.1.3预处理 也即对抓取回来的数据进行一个索引工作,其中包括多个流程,在后台提前完成。 2.1.3.1关键词提取 将HTML、JS、CSS等标签&程序去除,提取用于排名的有效文字。 2.1.3.2去除停用词 即反复出现的无用词,如:“得、的、地、啊、阿、再”等 2.1.3.3分词技术 是中文搜索引擎特有的技术支持,中文不同于英文单词与单词之间用空格分隔,因此搜
7、索引擎必须把整个句子切割成小单元词,分词的方法有两种 基于字符串匹配的分词方法按照方向的不同,可以分为正向匹配、逆向匹配和最少切词,混合使用后产生正向最大匹配,逆向最大匹配、正向最小匹配、逆向最小匹配。笔者个人理解为按照中文的习惯对整句进行组词形式的拆分。 基于统计分词方法直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果匹配起来发挥切词的最高效率。 2.1.3.4消除噪声 消除网页上各种广告文字、图片、登录框、版权信息等对搜索引擎无用的东西。 2.1.3.5分析网页建立倒排文件 ![Upload索引.
8、jpgfailed.Pleasetryagain.] 正向索引:把页面转换为一
此文档下载收益归作者所有