文本信息分析

文本信息分析

ID:44423137

大小:211.49 KB

页数:10页

时间:2019-10-22

文本信息分析_第1页
文本信息分析_第2页
文本信息分析_第3页
文本信息分析_第4页
文本信息分析_第5页
资源描述:

《文本信息分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文本信息分析1.中文文本信息过滤技术研究1.1文本过滤技术文木信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文木过滤和文木检索及文木分类有很人的相似之处。1.1.1文本信息过滤技术发展1958年Luhn提岀的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后來的文本过滤做了很好的铺垫。1982年,Dernzing首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一•般邮件,以此提示对信息内容进行有效控制。1987年,Malo

2、ne等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(MessageUnderstandConference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。20世纪90年代以來,著名的文本检索会议TREC(TextRetrievalConference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文木过滤的项目;从1997年TR

3、EC-6开始,文本过滤主要任务确定下来;TREC-7乂将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文木分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。1.1.2中文本过滤技术中文文本过滤技术在最近几年得到了业內人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很

4、快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其小,小科院计算所、复口人学都曾参加了TREC评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。然而,基于11前提出的屮文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差界较大,对于文本信息的预处理方法不同,因此而向英文的众多过滤算法是否适合中文文木过滤还冇待检验[2]。1.2中文文本过滤的关键技术文本过滤工作基本上可以概描为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户

5、模板与文木匹配技术。因此,文木过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:图1过滤系统一般模型1.2.1中文分词小文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。H动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分诃单位进行划分的过程[3]。口动分词是汉语所特冇的研究课题,英语、法语等印欧语种,词与词Z间存在着自然的分割,一般不存在分词的问题。中文自动分词己经研究了20多年,但是目前仍然是制约中文信息处理的瓶颈[4]。汉语除了连续巧

6、写Z外,汉语词汇没冇形态变化,也没冇各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于卬欧语法的研究,分析结果对分词有用的信息较少;汉语的词序义极为灵活,和对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为儿十万词,而汉语的词汇高达儿百万乃至上千万。一个汉字序列可能有儿种不同的切分结果,产生歧义现象。这些都给自动分词造成了极人的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下儿类。(1)机械分词法:主耍有最大匹配法(MM法)、逆向最大匹配法、逐词匹配

7、法、部件词典法、词频统计法、设立标志法等。(2)语义分词法:语义分词法引入了语义分析,对H然语言H身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。(3)人工智能法,乂称理解分词法,如专家系统法、神经网络方法等。1.2.2过滤模型信息过滤系统的性能,关键在于模型的完善程度如何。冃前描述文木信息的模型冇很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、基于模糊集合的信息过滤模型。其屮,向量空间模型(VSM)的最大优点在于它在知识表示方法上的巨大优势:文本被形式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。