基于奇异值分解的信息检索

基于奇异值分解的信息检索

ID:33752029

大小:305.54 KB

页数:8页

时间:2019-02-28

基于奇异值分解的信息检索_第1页
基于奇异值分解的信息检索_第2页
基于奇异值分解的信息检索_第3页
基于奇异值分解的信息检索_第4页
基于奇异值分解的信息检索_第5页
资源描述:

《基于奇异值分解的信息检索》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn基于奇异值分解的信息检索1,211仲兆满,高维春,李元金(1天津工业大学计算机学院,天津300160;2连云港师范高等专科学校计算机系,江苏222003)摘要:针对web信息检索的特点,提出了一种基于奇异值分解和欧氏距离算法的信息检索算法。该算法能解决传统信息检索搜索时间慢、空间占用量大的问题。实验证明了该算法的有效性。关键字:信息检索;奇异值分解;欧氏距离;Salton向量空间模型1引言随着www在全球范围内的不断普及和应用,www上的信息资源种类及其数量不断扩大,因此,研究高效的信息搜索方法成了一个非常重要的课题。信息检索是从任何信息集合中

2、识别和获取所需信息的过程及其所采取的一系列方法和策略。从原理上看,它包括存储和检索两个方面。信息的存储主要是指对在一定范围内的信息选择基础上进行信息特征描述、加工并使其有序化,即建立数据库;检索是借助一定的设[1]备与工具,采用一系列方法与策略从数据库中查找出所需信息。目前信息检索主要有两种方式:基于目录结构的检索和基于关键字的文档检索。基于目录结构的检索是一种被动的处理方式,用户只能通过系统所提供的分类情况进行检索。缺少必要的用户交互手段,并不知道用户真正所需要的文章,因此,在许多搜索引擎的实现过程中,并不提供基于目录的服务。而基于查询串的文档信息检索则属于一种主动的处理方式。它所完成的

3、任务是接收用户从客户端(主要是浏览器)所提交的信息串,经网络传输后提交相关的信息检索机制,并将最终的结果按照一定的排序规则排序后传输给用户。这种检索方式具有较好的用户交互能力。近年来,不少科研工作者致力于这方面的研究,并成功应用于各种Web的应用中。Salton[2]等人提出的向量空间模型(VectorSpaceModel,VSM)将文档和用户查询式转化为向量形式,根据向量之间的相似程度对所有返回结果进行排序,并在搜索引擎系统中得到了较为广泛的应用。但是,随着文档集合的扩充,数据库表的记录的会增大,特征值也会变得很大。对应的文档向量空间大小的维数会急剧上升,直接影响查快率。[3]雷景生等人

4、提出了一种改进的向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。[4]刘志为等人提出一种N层向量模型,它能较好地适应文档集合的动态扩充。-1-http://www.paper.edu.cn本文针对传统向量空间模型在Web信息检索中存在的缺陷,采用奇异值分解和欧氏距离算法的信息检索,能够减少文档的维数,提高查找的速度。2Salton向量空间模型的算法向量空间模型使用以下的一些知识:在对文本进行处理时,由于一个文本所包含的属性非常多,因此,为了简化文本处理的计算过程,需要对文本信息进行预处理,

5、通过特征选取的方法,尽可能降低文本处理过程中的计算量。由于所涉及到的文本向量和词频矩阵非常大,而且单词与单词的依赖性将会使得文本信息处理无法完成,因此在对文本信息进行处理的过程中,一般都基于单词与单词之间互相独立的假设来降低文本信息处理的复杂度。同时考虑到文本向量空间过大的问题,需要对文本信息进行预处理,过滤到一些无关的属性,以降低文本向量空间的维数并减少无关信息对文本信息处理过程的干扰,使文本信息处理的精度得到提高。常用的预处理方法是特征选取方法。定义1特征项t:也称为索引项,是指出现在文档d中且能够代表该文档性质的基本语言单位。定义2特征项权值Wik:是指特征项tk代表文档di的能力大

6、小。Wik的计算采用特征项频率tfik和反比频率idfk计算:wik=tfik+idfk=tfik*(log2(N/nk)+1)(1)其中,tfik表示特征项tk在文档di中出现的频率,N代表文档集合中的文档数量,nk代表在文档集合中出现特征项tk的文档数目。从公式(1)可知,tfik越大,wik值越大;同样nk越小,wik值也越大,说明该特征项tk更能够代表文档d的内容。定义3文档向量:设文档集合中共有m个不同的特征项t1,t2,……tm,分别计算文档di(i=1,……,N)的特征项t1,t2,……,tm的特征项权值,由这些特征项权值所构成的向量(wi1,Wi2,……,wim,.)成为文

7、档d,的向量。由于特征项t1,t2,……tm互不相同,我们可以将文档向量看作是m维欧氏空间的向量。这样,文档之间的相似程度通过向量的形式转化为向量之间的数学计算模式,使得在进行文档归类以及查询匹配过程中的计算过程比较简单、快速。定义4相似度:两文档向量之间相似的距离程度记为相似度。文档di、dj相似度定义为di、dj所对应的文本向量之间的夹角余弦:-2-http://www.paper.edu.cnm∑wik*wjkk=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。