电离辐射计量网页识别方法

电离辐射计量网页识别方法

ID:38268299

大小:192.02 KB

页数:4页

时间:2019-05-28

电离辐射计量网页识别方法_第1页
电离辐射计量网页识别方法_第2页
电离辐射计量网页识别方法_第3页
电离辐射计量网页识别方法_第4页
资源描述:

《电离辐射计量网页识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第39卷第5期原子能科学技术Vol.39,No.52005年9月AtomicEnergyScienceandTechnologySep.2005电离辐射计量网页识别方法1,21耿增民,刘万春(1.北京理工大学计算机科学与工程系,北京100081;2.中国原子能科学研究院计量测试部,北京102413)摘要:Internet上拥有取之不尽用之不竭的资源。将某一行业或领域的资源更多、更好地提取出来一直是Web挖掘的研究方向之一。本文以Bayes、Rocchio和Widrow2Hoff算法为基础,研究了电离辐射计量领域的网页分类,并对3种算法

2、的试验效果给出了分析。关键词:Web挖掘;网页识别;电离辐射中图分类号:TP181文献标识码:A文章编号:100026931(2005)0520477204ClassificationAlgorithmofWebDocumentinIonizationRadiation1,21GENGZeng2min,LIUWan2chun(1.ComputerDepartment,BeijingInstituteofTechnology,Beijing100081,China;2.ChinaInstituteofAtomicEnergy,P.O.B

3、ox275220,Beijing102413,China)Abstract:ResourcesintheInternetisnumerous.It’soneofresearchdirectionsofWebmining(WM)howtominetheresourceofsomecallingortrademoreefficiently.ThepaperstudiestheclassificationofWebdocumentinionizationradiation(IR)basedonthealgorithmofBayes,Rocc

4、hio,Widrow2Hoff,andanalysestheresultoftrialeffect.Keywords:Webmining;Webdocumentclassification;ionizationradiation随着Internet的发展,越来越多的资源被源,Web挖掘技术可运用到国防电离辐射计量放置在Internet上。据IEEE的报告,Internet领域。上的网页数量以每天100万个网页的速度增长。但网页数据大都是粗糙和有噪声的,故造1Web网页识别流程成了“网页数据丰富,知识贫乏”的现象。为解111数据挖掘及W

5、eb数据挖掘的定义决这一问题,从数据挖掘学科分离出了Web挖数据挖掘(datamining,DM)本质就是发掘的分支。现数据实质与数据间的关系的探索过程,找出电离辐射计量是非常重要的国防军工计量潜在于数据中的现实事务的规律和趋势,进而专业。由于国防的需求,许多核大国积累了大把感觉转化为事实。数据挖掘的目的在于从数量的数据和测量方法。为更好地利用这些资据库中获取知识(KDD,knowledgediscovery收稿日期:2004212229;修回日期:2005204212基金项目:国防科工委2003条件建设资助项目(2003WL01)作

6、者简介:耿增民(1968-),男,河北元氏人,工程师,博士,人工智能专业478原子能科学技术第39卷indatabase)。随着Internet的广泛应用,使得2特征提取数据挖掘的对象从数据库中的数据延伸到网络特征就是能显著标识电离辐射文档的关键上的数据。Web数据挖掘(Webmining,WM)词条或短语(如中子注量、4πβγ符合、剂量当就是充分考虑了Internet上数据网络链接结构量)。特征提取的方法很多,最简单的就是词频的数据挖掘。在这种情况下,又产生了一新概统计,但它过于简单,对标题或文摘之类的字符念:从网络上获取知识(KD

7、W,knowledgedis2段不适用。本文采用了Gain特征提取算法。[1]coveryonWeb)。Gain特征提取算法基于决策树思想。首先,滤对电离辐射人员来说,挖掘的数据对象可以除文档中无意义的高频词(如它、虽然、http是经过测量得出的数据集,也可以是来自网络上[2]等)和低频词,以减少程序的运算量。再计算的比对数据或与计量相关的网页文档资源。各剩余单词的Gain。对于第i个单词Wi,先按112Web网页识别过程照此单词是否在本HTML源文件中出现过,Web网页识别是Web挖掘的第1步,本将训练集划分为两个新的子集T1和T2

8、。T1=质上属于数据预处理的范畴,因为它提供了数{所有出现过第i个单词Wi的HTML源文据挖掘的原料。但从机器学习的角度来说,它件},T2={所有没有出现过第i个单词Wi的属于二值分类,即分类出正例(电离辐射网页)HTM

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。