一个基于语义分析的文本过滤方法

一个基于语义分析的文本过滤方法

ID:9637015

大小:51.50 KB

页数:4页

时间:2018-05-04

一个基于语义分析的文本过滤方法_第1页
一个基于语义分析的文本过滤方法_第2页
一个基于语义分析的文本过滤方法_第3页
一个基于语义分析的文本过滤方法_第4页
资源描述:

《一个基于语义分析的文本过滤方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、一个基于语义分析的文本过滤方法摘要基于统计的文本过滤方法比较适用于主题过滤,对具有倾向性的文本进行过滤的效果不理想。本文提出了一个倾向性文本过滤的方法,在采用语义模式分析的同时,引入了特征区域权重因子,实验表明其查准率、查全率较高。关键词文本过滤;语义分析;语义模式1引言随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。目前,网上信息大多是文本形式,所以内容过滤大多是针对文本的。所谓文本过滤指的是从大量文本中找出满足用户需求的文

2、本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。网上的不良信息包括暴力、色情、邪教等主题,主题性信息过滤大多采用基于统计的过滤技术,利用关键词匹配技术来实现,这种方法只能过滤出与主题相关的文本,不能区分出文章的立场和态度。而有些文章虽然也包含相关的主题,但却可能对主题持有不同的立场,例如包含“法轮功”主题的文章,有些是站在批判法轮功的立场上来表达观点的,有些却是站在支持法轮功的立场上的,因此对这类信息进行分析时,不仅要分析其主题内容,还要分析它的立场和态度,即它的倾向性,采用基于统计的主题

3、过滤技术是不能较好地解决这种过滤要求。要解决这个问题,除了要进行主题分析外,还要对文本进行语义分析,理解文本表达的主题思想,弥补统计方法缺乏语义信息的弊端,从而更精确地满足用户的信息需求。本文提出了一个基于语义分析的信息过滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。2倾向性文本语义模式分析2.1文本语义模式目前的自然语言理解技术还不能全面而精确的解析和表达文本的主题思想,而倾向性文本过滤通常用于特定领域,语义分析只需基于特定领域知识,无需对

4、文本进行全面的语义分析,只要分析出不同的倾向性。因此,对文本进行语义分析所产生的语义单元不必过细,可以简化。语言学家CharlesJ.Fillmore于1986年提出了“格语法”[1]的概念,对于文本分析采用简化的局部分析的方法,语义分析采用格语法。格语法以动词为中心研究语句的深度结构,认为句子的其他成分都是对动词的修饰,每一种修饰称为一个“格”。一个句子以动词为中心词,动作的施加者称为施事格,动作的承受者称为受事格,动作的地点称为地点格等,而格关系则是谓词和格之间的语义关系。对于倾向性分析,最重要的语义关系是施事格和受事格,其他的格对于倾向性影响

5、较小,当文本中出现了与句子中各个角色关系相对应的格(即句子结构)时,才能判断为相关。为了表示语句中的语义关系,本文采用了简化的语义模式来表示文本的基本语义框架。在进行语法和语义分析时,根据动作的施加和接受,可以将文本分为4种语义模式:(a)主()模式(b)主()模式(d)关键对象(Who)模式在许多文本中,有些主体、行为或个体本身就表现出对问题的倾向,如个体“非法邪教”、行为“欺骗”本身就已经反映了强烈的倾向性,模式d中把具有这种特性的主体、行为或个体统称为关键对象。2.2过滤模板的表示对于文本的倾向性过滤要求的表达,同样可以忽略句子中对倾向性影响

6、较小的时间、地点等因素,因此我们采用如下简化的过滤模板来表达文本的语义关系(见表1)。表1过滤模板的表示表1中,Relevancy表示相关度,它代表不同的语义模式对作者观点的倾向性的权重,用正值表示正相关,负值表示负相关,Relevancy的绝对值越大,则表示倾向性越强。采用这种设置可以正确的判断在正面信息中引用负面信息的情况,例如,在过滤宣扬法轮功的反动信息的过滤模板中,批判法轮功的语义模式就具有负的相关度,这样可以避免在批判法轮功的文本中引用了法轮功言论而导致倾向性误判的情况。3倾向性文本过滤方法3.1过滤步骤对文本的过滤过程分为3个步骤:(1

7、)对文本进行语法和语义分析,切分出每个句子中的语义模式。(2)根据文本所在的特征区域和对应模板的相关度,计算该语义模式的加权相关度。(3)计算全文语义的相关度,与过滤阈值进行比较,若相关度大于阈值,则认为该文档与过滤模板匹配。3.2相关度权重设置不同的语义模式对作者的倾向性观点的表现能力是不一样的,因此,过滤模板中不同的语义模式的相关度一定是不同的,表示正面倾向的语义模式设置为正权重,表示反面倾向的语义模式设置为负权重,比如,批判法轮功的各模式权重可分别设置为1~4,宣扬法轮功的各模式权重可分别设置为-1~-4,绝对值越大表示该种倾向性越大。3.3

8、特征区域权重设置文本特征区域是文本能够体现文章主题思想的重要区域[4][5],它包括主标题、副标题、摘要等区域。国内有人抽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。