北京理工大学信息检索课件-1概论x

北京理工大学信息检索课件-1概论x

ID:39163104

大小:1.80 MB

页数:71页

时间:2019-06-26

北京理工大学信息检索课件-1概论x_第1页
北京理工大学信息检索课件-1概论x_第2页
北京理工大学信息检索课件-1概论x_第3页
北京理工大学信息检索课件-1概论x_第4页
北京理工大学信息检索课件-1概论x_第5页
资源描述:

《北京理工大学信息检索课件-1概论x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一讲概论戴林dailiu@bit.edu.cn2012.9《信息检索》课程提纲课程介绍搜索引擎发展历程信息检索信息检索中的关键问题搜索引擎Web搜索引擎搜索工程师课程介绍内容基础知识、索引技术、排序技术、文本分类和文本聚类、情感计算、跨语言信息检索、开源项目分析……共36学时,授课36学时,约16个主题教材讲义、PPT参考文献:《搜索引擎:信息检索实践》(美)W.BruceCroftDonaldMetzlerTrevorStrohman译者:刘挺秦兵张宇车万翔《信息检索导论》ChristopherD.Manning

2、课程介绍授课方式讲授、课后预习考查方式及格、中、良、优大作业回目录搜索引擎发展历程回目录搜索引擎的鼻祖:Archie1990年由Montreal的McGillUniversity(麦吉尔大学)学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie(ArchieFAQ)实际上是一个可搜索的FTP文件名列表现代搜索引擎的起源:Wanderer1993年MIT的学生MatthewGray开发了WorldWideWebWanderer,它是世界上第一个利用网页之间的链接关系来监测Web发

3、展规模的机器人(Robot)程序。最开始只是用来统计互联网上的服务器数量,之后发展为也能捕获网址。Yahoo1994.4美籍华人JerryYang(杨致远)和DavidFilo完成了一套搜索软件。最初Yahoo的数据是手工输入的,实际上只是一个可搜索的目录。1995年1月,正式成立Yahoo网站第一个现代意义上的搜索引擎:Lycos1994.7CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了Lycos.提供了前缀匹配和字符相近限

4、制、网页自动摘要、数据量相对较大。Infoseek1994年底,Infoseek推出,沿袭Yahoo!和Lycos的概念。友善的用户界面、大量附加服务使其后来者居上。1995.12与Netscape的战略性协议使它变得很强势2001年2月,Infoseek改用Overture的搜索结果第一个元搜索引擎:Metacrawler元搜索引擎(AMetaSearchEngineRoundup)。用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再

5、返回给用户。第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni开发的Metacrawler(1995)。第一个支持自然语言搜索的搜索引擎:AltaVista1995年12月出现(AltaVistaPublicBetaPressRelease)。AltaVista是第一个支持自然语言搜索的搜索引擎。2003年AltaVista被Overture收购,后者是Yahoo的子公司。搜索引擎的后来之王:Google1995年,佩奇来到斯坦福读博士,开始网络链接结构方面的研究项目Ba

6、ckRub。之后,他和布林提出了PageRank技术,用于对网页评级之后用于搜索引擎,改写了搜索引擎的定义,建立了Google。搜索引擎的后来之王:GoogleGoogle在斯坦福引起了人们的关注。佩奇开始准备出售该技术,但是没有成功。Sun公司创始人的投资,随后成立公司。2000年和Yahoo合作,一飞冲天。2004年7月上市,市值250亿,增长速度超过微软。Google之特点专注、进取、朴素、低调、神话般的创业故事中文搜索引擎老大:百度2000.1李彦宏创立了百度。2001.8发布百度测试版。目前是最大的中文搜索

7、引擎MP3搜索特色百度的特点专注于技术专注于中文搜索北大天网由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。利用教育网优势,有强大的FTP搜索功能。中国互联网使用率使用率使用率信息渠道生活助手网络新闻77.3%网络求职15.2%搜索引擎74.8%网络教育24.0%写博客19.1%网络购物25.5%交流工具网络销售4.3%即时通信69.8%网上旅行预订3.9%电子邮件55.4%网上银行20.9%娱乐工具网上炒股14.1%网络音乐68.5%网络影视61.1%网络游戏47.0

8、%回目录信息检索什么是信息检索信息检索(InformationRetrieval,IR)就是从数据源中找到满足需求的信息的过程。传统信息检索根据笔画从字典中查找某字的读音和意思从《三国演义》中查找貂蝉出场的章节和地点从《概率论》中查找贝叶斯公式等等电子信息时代的信息检索从手机通信录中查找某条短信从电子词典中查找某单词的例句从某个网页中查找某关键

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。