垂直搜索引擎SEO优化搜索规则.ppt

垂直搜索引擎SEO优化搜索规则.ppt

ID:56800121

大小:324.00 KB

页数:19页

时间:2020-06-28

垂直搜索引擎SEO优化搜索规则.ppt_第1页
垂直搜索引擎SEO优化搜索规则.ppt_第2页
垂直搜索引擎SEO优化搜索规则.ppt_第3页
垂直搜索引擎SEO优化搜索规则.ppt_第4页
垂直搜索引擎SEO优化搜索规则.ppt_第5页
资源描述:

《垂直搜索引擎SEO优化搜索规则.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、垂直搜索搜索引擎简介搜索三大定律网络爬虫垂直搜索引擎搜索引擎简介搜索引擎分类(全文搜索、目录索引、元搜索引擎)搜索引擎原理从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序垂直搜索的核心技术实际上就是智能spider的技术开源方案(Lucence+Nutch)或者(Spinx+Scrapy)未来展望搜索引擎原理从互联网上抓取网页建立索引数据库在索引数据库中搜索对搜索结果进行处理排序智能Spider技术WEB结构化信息抽取是垂直搜索引擎和通用搜索引擎最大的差别数据分析与信息模式化匹配信息入库与信息存储开源方案Lucence-纯java语言

2、的全文索引检索工具包,APACHE基金jakarta的一个子项目,主要适用于文档集的全文检索,以及海量数据库的模糊检索Nutch-是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎,Nutch是基于Lucene的Hadoop-Hadoop是Apache下的一个项目,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成的分布式计算开源框架Sphinx-Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能

3、Scrapy-基于phython的一个比较强大的爬虫框架未来展望WolframAlpha是开发计算数学应用软件的沃尔夫勒姆研究公司开发出的新一代的搜索引擎,能根据问题直接给出答案的网站搜索三大定律相关性定律人气质量定律自信心定律网络爬虫网络爬虫工作原理如何写爬虫安装Scrapy(source安装、easy_install安装、pip安装)创建工程,抓获数据,数据流持久化XPATH的理解图片抓取与存储垂直搜索引擎Sphinx搜索引擎中文分词排序搜索引擎全量更新和增量更新推荐系统提高搜索质量的常用算法Sphinx搜索引擎中文分词中文分词(Chine

4、seWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词TF-IDF(termfrequency–inversedocumentfrequency)加权技术常用开源技术(SCWS、ICTCLAS、庖丁解牛、CC-CEDICT)排序倒排是用文档的关键词作为索引,文档作为索引目标的一种结构“PageRank”的网页排名算法全量更新和增量更新一般网站的特征:信息发布较为频繁;刚发布完的信息被编辑、修改的可能性大;两天以前的老信息变动性较小。基于这个特征,Sphinx主索引和增量索引。对于每次爬取的记录建立主索引,每天凌晨自动重

5、建一次主索引;对于爬取信息变化的记录和新记录,间隔1分钟自动重建一次增量索引。推荐系统个性化的推荐-基于用户过去的行为作出推荐社会推荐-基于相似用户的过去的行为进行推荐基于item的推荐-基于事物间的相似性进行推荐前面三种方法的混合推荐系统周边搜索提高搜索质量的常用算法PageRank算法HITS算法及其变种ARC算法SALSA算法Reputation算法THANKYOU!Q&A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。