中文信息处理报告

中文信息处理报告

ID:8436480

大小:178.00 KB

页数:10页

时间:2018-03-27

中文信息处理报告_第1页
中文信息处理报告_第2页
中文信息处理报告_第3页
中文信息处理报告_第4页
中文信息处理报告_第5页
资源描述:

《中文信息处理报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文信息处理报告---搜索引擎中文信息处理报告课题名称搜索引擎中的关键技术及解决学院(系)电子信息与工程学院专业计算机科学与技术学号学生姓名张志佳完成时间2009年1月3日第10页共10页中文信息处理报告---搜索引擎目前,国内的每个行业,领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文搜索引擎应运而生。中文搜索引擎与西文搜索引擎在实现的机制和原理上大致相同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而汉语自动分词技术就是其中很关键的部分,也是进行后续语义或者是语法分析的基础。汉语

2、自动分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,在Internet上有上百亿可用的公共Web页面,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,都需要达到很高的要求。更具体的说,现在的搜索引擎要达到下面的三要求,才能适应当今这样一个信息爆

3、炸的时代,分别是:数据量达到亿,单次查询毫秒级,每日查询总数能支持千万级。撇开搜索引擎要用到的数量庞大的服务器硬件和速度巨快的网络环境不提,就单单说说搜索引擎中软件部分的三大核心技术。我个人以为:一个优秀的搜索引擎,它必需在下面三个方面的技术必须是优秀的:中文分词,网络机器人(Spider)和后台索引结构。而这三方面又是紧密相关的,想要解决中文分词问题,就要解决搜索时间和搜索准确率两方面的难题。而搜索时间上便是通过网络机器人(Spider)和后台索引结构的改进实现的,搜索准确率则是通过分词本身算法的求精来实现的。下面的文章将从这两个

4、大的方面来解决这两方面的问题。为了能够更清楚的来说明现在的搜索引擎是如何解决这几个难题的,首先对搜索引擎的组成及工作原理在这里简要的说明一下。搜索引擎的工作,可以看做三步:从互联网上抓取网页,建立索引数据库,在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。下面是搜索引擎的工作原理图:SpiderSpiderSpider信息数据库信息数据库信息数据库检索器索引器输入输出过滤器排序器前向索引后

5、向索引字典PageRank网络………………搜索引擎工作原理图1第10页共10页中文信息处理报告---搜索引擎搜索引擎工作原理图中的相关术语说明如表1:表1术语解释说明搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。索引器索引器的功能是从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。排序器

6、由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页,只需按照现成的相关度数值排序,相关度越高,排名越靠前。一,搜索引擎中的关键技术介绍在介绍关于搜索引擎中的分词技术是如何解决的,相对搜索引擎中其它的一些关键技术做一下简要的介绍,对谈一下自己对相关技术的一些想法。其实这些技术和中文分词技术是很有关联性的。可能给你一片几千字的文章,让你对它进行分词可能你通过编编程序便可以实现,但是搜索引擎要解决的问题是怎样去处理互联网中海量的,且没有规则的信息,要解决的问题就不仅仅是简简单单的分词问题了,可以说下面要介绍的一些关键技术正是分

7、词技术的一个基础,是为分词建立一个良好的搜索环境和数据结构。1,网络机器人(Spider)的设计为了保证搜索到的信息的实时性与相关性,就要保证在互联网上面搜到的网页获取的很及时。并且对于互联网上面现在已经有几十亿的网页进行处理,必然要选择一种很好的方法才可以。搜索引擎是通过两种方式来获得互联网上面的Web页面的,一种是定期(比如Google一般是28天)派出Spider(蜘蛛)程序,抓取网络上面的新页面,将相关的信息记录在数据库中。另一种方式是网站的拥有者向搜索引擎提交网址信息,同样将相关的信息记录到数据库中。而上面所说的Spide

8、r(蜘蛛)程序,是一种专业的Bot程序,是一个功能很强的Web扫描程序。它可以在扫描Web页面的同时,检索相应的超链接并加入扫描队列等待以后的扫描。我们知道网络上面的超链接的使用是很普遍的,因此一个Spider程序理论上可以扫描互联网

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。