基于wsft模型的深层网文本获取方法

基于wsft模型的深层网文本获取方法

ID:35059222

大小:5.54 MB

页数:66页

时间:2019-03-17

基于wsft模型的深层网文本获取方法_第1页
基于wsft模型的深层网文本获取方法_第2页
基于wsft模型的深层网文本获取方法_第3页
基于wsft模型的深层网文本获取方法_第4页
基于wsft模型的深层网文本获取方法_第5页
资源描述:

《基于wsft模型的深层网文本获取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号10532学号S1324W1070-分类号TP311密级公开碱或A拿HUNANUNIVERSITY工程硕±学位论文基于WSFT模型的深层网文本获取方法学位串请人姓名李虹宣lT程学院培养单位信息科学a导师姓名及职称杨巧中教巧杨志新硏究员学科专业软件工程研究方向数据巧掘论文提交日期2016年5月13口学校代号:10532学号:S1324W1070密级:公开湖南大学工程硕±学位论文基于WSFT模型的深层网

2、文本获取方法学位串请人姓名:李虹宣导师姓名及职疏:杨赏中教授杨志新研究员培养m位:信息科学与工程学院专业名赖;软件工程论女捏交日期:2016年5月13日论文答銳日期:2016年5月31日答雜委员会主巧:杨舍民教授AnApproachBasedonWSFTModelforCrawlingDeeWebpbyLIHo打gxua打B.E.XiantanUniversky2013(g)Athesissubmittedin

3、artialsatisfactio打ofthep民equirementsforthedegreeofMas化rofEngineeringinSoftware巨ni打eeri打ggin比eGraduateSchoolofHu打泣nU打iversitySuervisorpProfessorYANGGuanzhong民esearcherYANGZhixinMay,2016湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人

4、在导师的指导下独立进行研究所取得的研究成果。除了文中特别加标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研巧做出重要贡。献的个人和集体,均已在文中W明确方式标明本人完全意识到本声明的法律后果由本人承担。;作者签名:曰期年^月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可W将本学位论文的全部或部分内容编入有关数

5、据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密□,在年解密后适用本授权书。2、不保密""(请在上相应方框内打V)作者签名:日期:方/;年r月日i■导师签名:日期;年5月3日/了^I基于WSFT模型的深层网文本获取方法摘要随着Web2.0的兴起,目前互联网应用延伸出了两种存在方式:表层网和深层网。前者是指传统搜索引擎可W检索到的Web页面,是由超链接连通的静态页面组成的一;后者是指存在互联网中但无法通过超链接到达

6、的些资源的集合。一目前,深层网里包含的可访问信息容量远远高于般表层网,可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中,Ajax技术由于为Web应用提供了更流畅的交互而成为了其中的重要组成部分一。使用了Ajax技术的页面与般表层网页面的区别在于其是多种""状态的一且文档结构之间存在强关联混合体,即个页面对应多个文档结构,关系。Ajax页面的多状态W及状态之间强关联的特性可能会有助于Web页面数(ax据处理如重要内容挖掘),而当前研究还没

7、有针对Aj页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体,且大部分Web挖掘方法是针对文本来进行分析的,页面文档的内容信息与结构信息对Web挖掘工作都是非常重要的。一一由此提出种基于WSFT(带权状态融合树)模型的深层网文本获取方法:在Aax一页面多个状态的转换中,。个j个文本块出现频率越高,可能越重要本文主要针对Aax页面的文本信息进行分析处理,且很好的保留Web页面的内容信j息和结构信息。一首先一,构建个特定的数据结构文本特征树。这个数据结构即能有效地保

8、留原Web页面的文档内容信息和结构特征,同时也能作为状态转换的信息指纹,有效地判断状态改变。从而优化了深层网中Ajax页面信息采集方法。然后,将文本特征树引入到Aax页面的采集过程。具体实现中,通过事件j一一一代理技术,主动触发个Web页面的各种状态,并将每个页面树转换为个一文本持征树,从而获取到个页面的文本特征树集合W及相互转换条件来构造出

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。