最新智能检索技术ppt课件.ppt

最新智能检索技术ppt课件.ppt

ID:62142217

大小:1.15 MB

页数:60页

时间:2021-04-19

最新智能检索技术ppt课件.ppt_第1页
最新智能检索技术ppt课件.ppt_第2页
最新智能检索技术ppt课件.ppt_第3页
最新智能检索技术ppt课件.ppt_第4页
最新智能检索技术ppt课件.ppt_第5页
资源描述:

《最新智能检索技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、智能检索技术1.检索?和智能检索?“检索”简单的说就是指从文献资料、网络信息等信息集合中查找达到所需要的信息资料过程。“智能检索”是由抽词检索与全文检索发展而来,它是对检索词具有较高的判断、理解和处理能力的人工智能型的多媒体检索系统。2.智能检索技术几方面?(1)文本智能检索技术(2)图像智能检索技术(3)视频智能检索技术文本检索技术——基于索引的检索技术1、文本文档库要进行检索之前,首先检索系统将所有的检索对象收集起来,构建集中的本地文本文档库。例如:对于web搜索引擎,其检索对象主要是web网页,因此搜索引擎需要从互

2、联网上抓取尽可能多的网页保存到本地文本文档库中,一般这个过程由程序自动完成,在此不过多讨论。文本文档库2、文本提取基于文本文档库进行文本提取。文本提取过程主要是提取各种格式文档中的字符串。文本检索系统不仅面向互联网的web网页,还面向各种文本类型,例如:XML,PDF,MicrosoftWord等等。下面以XML格式信息为例,介绍如何从该格式的文档中提取文本内容。文本提取☞解析XML文档XML文档一般都是纯文本文档,其文本内容可以直接读取,读取时需要一些工具对其中的信息进行解析,可选择的工具有SAXAPI(Applica

3、tionProgrammingInterface)等。→XML的SAXAPI定义了一个以事件驱动的接口。在这个接口中,当某个分析事件发生时,解析器(解析器是在读取文档时,激活一系列的事件,这些事件被推给事件处理器,然后由事件处理器提供对文档内容的反问。)会调用几个方法中的一个予以响应,而这些方法由调用程序提供。触发事件包括文档或文档元素的开始、结束或解析出错等。3、文本预处理提取出文本字符串之后,还需对文本字符串进行预处理以选择合适的词来建立索引。文本预处理首先将文本中包含的词分析出来,即分词(☞)。在语义表达方面并不是

4、所有词的表达能力都是同等的,因此除了分词之外,文字预处理还包括停用词删除、词干提取、索引词选择和建立词典等操作。文本预处理☞分词■分词的概念词是最小的能独立活动的、有意义的语言成分。关键词查询的前提就是将条件分解成若干关键词。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子Iamastudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的

5、汉字序列切分成有意义的词,就是切词也称为分词。我是一个学生,分词的结果是:我是一个学生。■常用分词方法分类(1)基于字符串匹配的分词方法——基于字符串匹配的正向最大匹配算法(2)基于统计的分词的分词方法——又叫无词典分词法或统计取词方法(3)基于理解的分词方法——试验阶段分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。■基于字符串匹配的正向最大匹配算法又称“机械分词方法”(由左到右的方向)基本内容它是按照一定的策略(某种算法)将

6、待分析的汉字串与一个“充分大的”机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别一个词)。→按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配;→按照不同长度优先匹配的情况,可以分为最大(最长)匹配最小(最短)匹配ASM(AutomaticSegmentationModel)模型对于机械分词方法,一般可以建立一个一般的模型,即ASM。该模型形式的表示为ASM(d,a,m),其中d,a和m的含义取值如下所示:d:匹配方向,+1表示正方向,-1表示逆方向;a:每次匹配失败后增加或减少字串长度(字符

7、数),+1为增字,-1为减字;m:最大或最小匹配标志,+1为最大匹配,-1为最小匹配在实际应用中,基于字符串匹配的正向最大匹配算法[ASM(+1,-1,+1)]就是一种广泛应用的机械分词方法,该方法依据仅一个分词词表和一个基本的切分评估原则(即“长词优先”原则)来进行分词。这种切分方法,需要最少的语言资料(仅需一个词表,不需要任何词法、句法、语义知识),程序简单,开发周期短。基于字符串匹配的正向最大匹配算法流程图待切分字符串C、词典S最大的词长MaxLenC是否为空Y结束从C左边开始,取出候选字串w,w的长度为MaxLe

8、n查看w是否在词典S中存在N将w最后边一个字母去掉识别出词wYSegment(S,C,MaxLen){begin←0;k←0;while(begin<=n){end←min(n,begin+MaxLen-1);w=C.substring(begin,end);while(ws){end←end-1;w=C.subst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。