中文信息检索专题ppt课件.ppt

中文信息检索专题ppt课件.ppt

ID:59391437

大小:233.00 KB

页数:41页

时间:2020-09-20

中文信息检索专题ppt课件.ppt_第1页
中文信息检索专题ppt课件.ppt_第2页
中文信息检索专题ppt课件.ppt_第3页
中文信息检索专题ppt课件.ppt_第4页
中文信息检索专题ppt课件.ppt_第5页
资源描述:

《中文信息检索专题ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文信息检索专题ChineseInformationRetrieval苏州大学计算机科学与技术学院一、历史计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统,它标志着计算机信息检索阶段的开始。计算机信息检索技术已经从脱机检索、联机检索、光盘检索发展到了网络检索阶段。一、历史(续)中文文本信息检索最早见于“748工程”中的汉字情报检索。80年代中期后,由于计算机处理能力的大大提高和应用的普及化,中文文本信息检索的研究广泛开展,各种汉字文本索引方法、检索算法以及实用化系统开始出现。二、信息检索的定义信息检索是一门研究从一定规

2、模的文档库(DocumentCollection)中找出满足用户提出的信息需求(UserInformationNeed)的技术。文档可以是Web网页、邮件、文章、段落和句子等内容。三、信息检索和数据库检索信息检索处理的主要数据往往是无结构(Unstructured)或者半结构的(Semi-structured),最典型的例子是无任何结构的文章或者只有tag标记的Html文档等;另一方面,信息检索的结果也往往是不精确的,不能像数据库查询那样有100%的正确率。如查找关于“雅典奥运会”,可能会漏掉有关“2019奥运会”的文章。四、信息检索相关技术自然语言处理人工智能模式识别机器学习神经

3、网络数理统计计算机网络内容管理……五、信息检索的对象文本图像音频视频……六、结构、半结构和非结构化数据结构化的数据包含了各种可以命名的部分,并按照一定的结构对内容进行组织。如数据库中就包含了各种结构化的记录。非结构化数据无法用一定的格式对它进行组织和定义,搜索工具也无法根据特定的语义通过SQL的方法对它进行检索。如一本小说中的一段文字,一份报纸中的一则广告等都属于非结构化数据。半结构化数据是指部分有结构,部分没有结构的数据。七、例子(结构化数据)表11.1学生信息表学号姓名性别院系年级12030901李小佳男机械学院201913030902张大力男信息学院201914030903王

4、莉女电子学院2019…………………………七、例子(非结构化数据)播激励网络(SpreadingActivationNetworks)是一种最常见的基于神经网络的信息检索模型,一般由概念层和文档层组成,有时还有提问层。用户提问的概念在概念层被激活,被激活的切题概念和关联概念按权值不同传送到文档层,并到达潜在相关的概念和文档,然后将最高度激活的文档作为结果返回给用户。而且,允许由文档或文档和概念结合形成初始提问。为了提高检索质量,用户得到检索结果时,可以就某些文档做出相关性反馈,给它们分配一个相关值;也可以随时改变一些高度激活的概念和文档节点的相关性,评价和影响被激活的节点。系统在相关

5、和不相关的文档内分析概念的分布,优化用户的提问。此外,当层间的激活传送过几次后,在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。七、例子(半结构化数据)From:Subject:xxxxDate:Wed,15Sep201907:24:01+0800MIME-Version:1.0Content-Type:text/plain;charset="gb-2312"Content-Transfer-Encoding:7bitX-Priority:3X-MSMail-Priority:NormalX-U

6、nsent:1X-MimeOLE:ProducedByMicrosoftMimeOLEV6.00.2800.1165在相同文档中经常出现的概念也作为提问概念被激活,这样就可以自然地、灵活地进行概念扩展,让用户和系统相互作用。八、信息检索系统的模型文档库用户的检索要求生成检索表达式对检索表达式进行分析和扩展检索文档表示文档索引检索结果相关性反馈九、中文信息检索特点词语切分和词语词法分析进行词性标注及相关的自然语言处理信息扩展十、信息检索的评测召回率(Recall,又称查准率)和准确率(precision,又称查全率)。准确率是一个给定被检索文档的相似度的概率。召回率是一个给定相关性文

7、档的被检索的概率。十、信息检索的评测(续)其中,E(效率)用来指定准确率和召回率重要性。P代表准确率,R表示召回率,α是变量,值为0-1。如果取值是0,表示召回率更重要;取值1/2表示召回率和准确率同等重要;取值1表示准确率更重要。十一、信息检索的模型一般而言,有两种信息检索的模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法和语义的分析,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。