基于wsft模型的深层网文本获取方法

ID：35059222

大小：5.54 MB

页数：66页

时间：2019-03-17

资源描述：

《基于wsft模型的深层网文本获取方法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、学校代号１０５３２学号Ｓ１３２４Ｗ１０７０－分类号ＴＰ３１１密级公开碱或Ａ拿ＨＵＮＡＮＵＮＩＶＥＲＳＩＴＹ工程硕±学位论文基于ＷＳＦＴ模型的深层网文本获取方法学位串请人姓名李虹宣ｌＴ程学院培养单位信息科学ａ导师姓名及职称杨巧中教巧杨志新硏究员学科专业软件工程研究方向数据巧掘论文提交日期２０１６年５月１３口学校代号：１０５３２学号：Ｓ１３２４Ｗ１０７０密级：公开湖南大学工程硕±学位论文基于ＷＳＦＴ模型的深层网

2、文本获取方法学位串请人姓名：李虹宣导师姓名及职疏：杨赏中教授杨志新研究员培养ｍ位：信息科学与工程学院专业名赖；软件工程论女捏交日期：２０１６年５月１３日论文答銳日期：２０１６年５月３１日答雜委员会主巧：杨舍民教授ＡｎＡｐｐｒｏａｃｈＢａｓｅｄｏｎＷＳＦＴＭｏｄｅｌｆｏｒＣｒａｗｌｉｎｇＤｅｅＷｅｂｐｂｙＬＩＨｏ打ｇｘｕａ打Ｂ．Ｅ．ＸｉａｎｔａｎＵｎｉｖｅｒｓｋｙ２０１３（ｇ）Ａｔｈｅｓｉｓｓｕｂｍｉｔｔｅｄｉｎ

3、ａｒｔｉａｌｓａｔｉｓｆａｃｔｉｏ打ｏｆｔｈｅｐ民ｅｑｕｉｒｅｍｅｎｔｓｆｏｒｔｈｅｄｅｇｒｅｅｏｆＭａｓ化ｒｏｆＥｎｇｉｎｅｅｒｉｎｇｉｎＳｏｆｔｗａｒｅ巨ｎｉ打ｅｅｒｉ打ｇｇｉｎ比ｅＧｒａｄｕａｔｅＳｃｈｏｏｌｏｆＨｕ打泣ｎＵ打ｉｖｅｒｓｉｔｙＳｕｅｒｖｉｓｏｒｐＰｒｏｆｅｓｓｏｒＹＡＮＧＧｕａｎｚｈｏｎｇ民ｅｓｅａｒｃｈｅｒＹＡＮＧＺｈｉｘｉｎＭａｙ，２０１６湖南大学学位论文原创性声明本人郑重声明：所呈交的论文是本人

4、在导师的指导下独立进行研究所取得的研究成果。除了文中特别加标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研巧做出重要贡。献的个人和集体，均已在文中Ｗ明确方式标明本人完全意识到本声明的法律后果由本人承担。；作者签名：曰期年＾月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部口或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖南大学可Ｗ将本学位论文的全部或部分内容编入有关数

5、据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于１、保密□，在年解密后适用本授权书。２、不保密＂＂（请在上相应方框内打Ｖ）作者签名：日期：方／；年ｒ月日ｉ■导师签名：日期；年５月３日／了＾Ｉ基于ＷＳＦＴ模型的深层网文本获取方法摘要随着Ｗｅｂ２．０的兴起，目前互联网应用延伸出了两种存在方式：表层网和深层网。前者是指传统搜索引擎可Ｗ检索到的Ｗｅｂ页面，是由超链接连通的静态页面组成的一；后者是指存在互联网中但无法通过超链接到达

6、的些资源的集合。一目前，深层网里包含的可访问信息容量远远高于般表层网，可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中，Ａｊａｘ技术由于为Ｗｅｂ应用提供了更流畅的交互而成为了其中的重要组成部分一。使用了Ａｊａｘ技术的页面与般表层网页面的区别在于其是多种＂＂状态的一且文档结构之间存在强关联混合体，即个页面对应多个文档结构，关系。Ａｊａｘ页面的多状态Ｗ及状态之间强关联的特性可能会有助于Ｗｅｂ页面数（ａｘ据处理如重要内容挖掘），而当前研究还没

7、有针对Ａｊ页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体，且大部分Ｗｅｂ挖掘方法是针对文本来进行分析的，页面文档的内容信息与结构信息对Ｗｅｂ挖掘工作都是非常重要的。一一由此提出种基于ＷＳＦＴ（带权状态融合树）模型的深层网文本获取方法：在Ａａｘ一页面多个状态的转换中，。个ｊ个文本块出现频率越高，可能越重要本文主要针对Ａａｘ页面的文本信息进行分析处理，且很好的保留Ｗｅｂ页面的内容信ｊ息和结构信息。一首先一，构建个特定的数据结构文本特征树。这个数据结构即能有效地保

8、留原Ｗｅｂ页面的文档内容信息和结构特征，同时也能作为状态转换的信息指纹，有效地判断状态改变。从而优化了深层网中Ａｊａｘ页面信息采集方法。然后，将文本特征树引入到Ａａｘ页面的采集过程。具体实现中，通过事件ｊ一一一代理技术，主动触发个Ｗｅｂ页面的各种状态，并将每个页面树转换为个一文本持征树，从而获取到个页面的文本特征树集合Ｗ及相互转换条件来构造出

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 66



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于wsft模型的深层网文本获取方法

基于wsft模型的深层网文本获取方法

相关文章

相关标签