chp09_网上信息搜索

chp09_网上信息搜索

ID:33839889

大小:2.18 MB

页数:75页

时间:2019-02-28

chp09_网上信息搜索_第1页
chp09_网上信息搜索_第2页
chp09_网上信息搜索_第3页
chp09_网上信息搜索_第4页
chp09_网上信息搜索_第5页
资源描述:

《chp09_网上信息搜索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、多媒体文化基础第9章网上信息搜索林福宗清华大学计算机科学与技术系linfz@mail.tsinghua.edu.cn2010年6月第9章网上信息搜索9.1信息搜索工具9.2信息搜索方法9.3网页评估方法9.4网页搜索方法9.5图像搜索方法9.6影视搜索方法9.7音乐搜索方法9.8多媒体搜索引擎2011年1月9日多媒体文化基础2of74概要网上信息是网上文件所含内容的描述网上信息(web-basedinformation)网上信息搜索是查找多媒体文件信息的过程文字搜索(textsearch[1])——搜索文字文件的信息图像搜索(imag

2、esearch)——搜索图像文件的信息声音搜索(audiosearch)——搜索声音文件的信息视像搜索(videosearch)——搜索影视文件的信息信息搜索的必备知识搜索工具有哪些搜索工具的特性搜索信息的方法搜索工具的使用2011年1月9日多媒体文化基础3of749.1信息搜索工具(1)两种类型的搜索信息方法主题搜索(subjectsearch)主题是用简明的术语或短语描述信息资源的标题主题搜索是搜索编辑人员(如图书管理员)赋予信息资源的标题,搜索范围限定到描述信息资源的术语或短语关键字搜索(keywordsearch

3、)关键字是用于概括信息资源核心内容的字词关键字词可出现在标题、摘要和正文的任何地方关键字搜索是搜索包含关键字的信息资源2011年1月9日多媒体文化基础4of749.1信息搜索工具(2)四种类型的信息搜索工具(informationsearchtool)网页目录——主题搜索工具网页目录像书前面的目录,列出每一篇、每一章、每一节的标题和相应的页码网页索引——关键字搜索工具网页索引像英文书后面的索引[1],列出书中所有关键词和每个关键字所在的所有页码专题数据库——基本属于关键字搜索工具网页搜索门户——主题搜索和关键字搜索相结合的搜

4、索工具2011年1月9日多媒体文化基础5of749.1信息搜索工具(3)1.网页索引索引(index)是由关键字和关联数据组成的列表,说明信息及其存储位置网页索引(Webindex)是万维网上的网页或网站信息的列表如果把万维网看成是一本“超大型的书”,那么网页索引就是这本书后面的“索引”网页索引放在“索引数据库”里网页索引包含“所有”网页的关键字和每个关键字所在的“所有”网页地址和简短说明按照网页索引提供的信息,可找到包含这个关键字的所有网页2011年1月9日多媒体文化基础6of749.1信息搜索工具(4)网页索引用搜索引擎创建

5、搜索引擎的工作原理搜索引擎(searchengine)是由网爬虫、索引器、数据库、查询和网页排名等部件组成的程序2011年1月9日多媒体文化基础7of749.1信息搜索工具(5)搜索网页:使用网爬虫(crawlers)/网蜘蛛(spiders)不停地在网上搜索网页,并将搜索到网页暂时存放到网页库创建索引:通过索引器(indexer)分析网页、抽出词汇、创建索引,并将索引存入索引数据库,以备用户查询接收查询:当用户查询时,把查询请求告诉查询引擎(queryengine),将查询结果返回给用户搜索引擎可分成两种类型独立搜索引擎(indi

6、vidualsearchengine),简称为搜索引擎,拥有自己的网页索引数据库,如Google、必应和百度元搜索引擎(metasearchengine),没有自己的网页索引数据库2011年1月9日多媒体文化基础8of749.1信息搜索工具(6)网页索引的性能查全率(recall)搜索引擎返回的匹配文档数量占所有相匹配文档总量的比例。例如,总共有100个相匹配的文档,搜索引擎只返回其中的80个文档,则其查全率是80%查准率(precision)搜索引擎列出的文档与查询内容相匹配的程度。列出的匹配文档越多,说明查准率越高。例如,搜索引

7、擎列出80个文档,若其中有20个文档包含搜索字词,则其查准率为25%查询速度查询速度的衡量比较困难2011年1月9日多媒体文化基础9of749.1信息搜索工具(7)网页索引的特点网页索引是查找网页的最好工具,尤其是查找包含关键字(keyword)、短语(phrase)和引述(quote)的网页网页索引是用搜索引擎创建的,能较及时地对新创建和更新的网页做索引给用户返回的查询结果中,通常有与查询请求不相关或相关性很小的网页虽然创建网页索引的原理相同,但各个公司开发的搜索引擎的性能不同,包括搜索速度、搜索范围、搜索算法和排名算法,呈现给

8、用户的结果也就不同。虽然差别不是很大,但比较明显2011年1月9日多媒体文化基础10of749.1信息搜索工具(8)2.网页目录(Webdirecto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。