信息过滤与邮件过滤

信息过滤与邮件过滤

ID:40094910

大小:559.81 KB

页数:31页

时间:2019-07-20

信息过滤与邮件过滤_第1页
信息过滤与邮件过滤_第2页
信息过滤与邮件过滤_第3页
信息过滤与邮件过滤_第4页
信息过滤与邮件过滤_第5页
资源描述:

《信息过滤与邮件过滤》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、山东师范大学信息科学与工程学院2007-01网络信息过滤纲要研究背景和现状关键技术研究实现和结构主要工作总结研究背景和现状研究背景网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。研究背景和现状研究现状当前信息过滤的研究以TREC会议为核心,主要是文本过滤。国内有关信息过滤的研究以核心算法

2、为主,主要集中在特征抽取、学习算法和过滤算法上。出现了一些过滤软件,但存在较多问题,过滤效果不佳。关键技术研究现有网络过滤技术及其存在问题网络过滤新技术研究关键技术研究现有网络过滤技术及其存在问题断开物理连接资源有限,更新速度慢,多半是过期的网页地址库(URL)过滤需要不断更新地址库基于关键字的页面内容过滤。易被伪装技术突破过滤往往矫枉过正关键技术研究网络过滤新技术研究--针对内容进行过滤关键技术研究关键技术文本表示特征选择分类算法模糊模式识别关键技术研究信息表示(文本表示)信息过滤的主要工作是比较用

3、户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有效地表示信息空间,一般采用模型化的方法表示信息空间。目前常用的文本表示模型有:布尔逻辑模型向量空间模型概率推理模型潜在语义索引模型关键技术研究布尔逻辑模型一种相对简单的信息过滤模型。在过滤时,它以文档中是否包含特征项来作为取舍的标准。特点是实现容易、操作方便结果非真即假,限制性过强关键技术研究向量空间模型以特征项作为文本表示的基本单位,特征项构成特征项集,将文档表示为向量。关键技术研究概率推理模型向量空间模型中,假设文档向量空间的基是相互正交的,

4、没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性计算,由模型自身决定。关键技术研究潜在语义索引模型利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。LSI向量中的值是通过SVD分解得到的缩减了的值,内容相近文档的向量也是相近的。关键技术研究特征选择前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选

5、择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。主要包括分词与选择两部分。关键技术研究分词--文本内容与文本中出现的词关系十分密切,汉语词间没有明显的标志,分词的目的就是准确的识别文本中的单词。基于字典的字符串匹配方法基于统计的分词基于句法与自然语言理解的方法关键技术研究选择--训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对

6、分类作用不大,甚至存在较大副作用。常用的特征选择方法有:文档频率信息增益互信息关键技术研究分类算法--其目的为找到特征空间与类别之间的映射关系。常见方法:Racchio方法K-元最近邻居(KNN)方法NaïveBayesian方法支持向量机(SVM)方法关键技术研究Racchio方法--根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类,关键技术研究K-元最近邻居(KNN)方法--给出一

7、个测试文档,从训练文档中找出与该文档最近(用相似度度量)的k个文档,用这k个邻域文档所属的类别作为测试文档的候选类别。关键技术研究NaïveBayesian方法--是一种概率方法,它利用先验概率的联合概率计算出后验概率,并且根据样本集构造分类标准,根据测试样本的后验概率对测试样本进行分类。关键技术研究支持向量机(SVM)方法--建立在一套较为完善的机器学习理论——统计学习理论基础之上,并具有较好的泛化能力。关键技术研究模糊模式识别人类为了对事物进行识别,要对事物按不同要求进行分类,因此根据这种思想可以

8、把不同事物归于不同的种类,用于这种分类的数学工具就是经典集合论。经典集合并不能描述所有的事物,特别是涉及到与人的认识有关的概念和现象。由于模糊性更能有效的表示“有关的”、“类似”等概念,将模糊集合的概念应用到信息过滤中。网页过滤实现和结构系统结构网页过滤实现和结构内容过滤模块网页过滤实现和结构树状分类器网页过滤实现和结构系统流程图垃圾邮件过滤实现和结构垃圾邮件过滤实现和结构提升方法(boosting)总的思想是学习一系列决策行动,在这个序列中每个决策对它

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。