基于Rhino的JavaScript动态页面解析研究与实现

基于Rhino的JavaScript动态页面解析研究与实现

ID:36648317

大小:466.88 KB

页数:6页

时间:2019-05-13

基于Rhino的JavaScript动态页面解析研究与实现_第1页
基于Rhino的JavaScript动态页面解析研究与实现_第2页
基于Rhino的JavaScript动态页面解析研究与实现_第3页
基于Rhino的JavaScript动态页面解析研究与实现_第4页
基于Rhino的JavaScript动态页面解析研究与实现_第5页
资源描述:

《基于Rhino的JavaScript动态页面解析研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据第18卷.第.2期20(J8年2月计算机技术与发展V01.18№,.2COMPUTERTECHN【)L(X;YANDDFvEl』)PM哐NTFeb.2008基于Rhino的JavaScript动态页面解析研究与实现.金晓鸥,钟宝燕,李翔(上海交通大学信息安全工程学院,上海200240)摘要:面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取。鉴于此,文中提出了基于Rhino实现Java.Script动态页面解析的整体方案。实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面

2、内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案。关键词:脚本解释引擎Itlli∞;J∽&S砷t动态页面;动态页面解析中图分类号:1甲393文献标识码:A文章编号:1673—629X(2008)02—0001—04ResearchandimplementationofInterpretingJavaScriptDynamicWebPageBasedonRhinoEngineJINXiao--ou,ZHONGBao-yan,LIXiang(InformationSecurityEngineeringSchoolofShanghaiJiaotongUniversity,shangha

3、i200240,Claim)Al鼬-act:DymmieWeb陴holdsrI班than50%ofthetotalWebpagesha∞删1t”订de;kw榭,theinforrmtioneolhetorofcm'rentnetworkpubicoptnhmmitork堰毋姗l啪notgettheirdornⅪtionofIntemetmeditmawhich唧dymn_licWebiⅪlgeasitsmainoonotentdistributionform.Thereby,thereisa8ehl,tleforinterpretingJavaScriptdymmicWebpageby嘣fl

4、gRhino嘶pttsentedinthispaper.Provedbytheexits,this∞h眦is锄effectiveonefor日【t瑚雌i飕theh州inknetworkaddresses“‘,ontentofayn甜licW西pa群andithas∞一chedthevmrkdam姒ofnetworkpublicopinionmonitoring.K鳄woods:Rhinoscript吣hae;JavaScriptd]m戚cWebpage;interpret由咖cWeb孵O引言中国互联网络信息中心(D州IC)2007年1月23日发布的<第19次中国互联网络发展状况统计报告)tl

5、】显示,截至2006年底我国网民人数达到了1.37亿,占全国人口总数的10.5%。在充分享受信息时代给予学习工作、休闲娱乐带来巨大便利的同时,还要充分认识到互联网对于社会舆论和大众文化潜在的影响与威胁。如何对互联网发布、传输和浏览的内容进行有效的监督、管理和引导是我国推进现代化建设,营造和谐社会的重要课题之一。目前,互联网舆情管控工作旨在通过采集、分析和表达互联网媒体发布内容。为网络监管部门提供舆情管控参考依据。舆情管控工作主要由信息采集、内容收穰日期:2007一05一03基金项目:国家自然科学基金项目(60502032。60402019);上海市科委项目(06Sll5020);教育部新世纪

6、优秀人才支持计划项目(NCEl’一06—0393)作者简介:金晓鸥(1983一),女。浙江永嘉人.硕士研究生.研究方向为互联网内容安全;李翔,剐教授,研究方向为网络内容安全。分析和结果呈现三大环节共同组成,其中信息采集环节为后续的分析、表达提供必要的数据原材料,其工作机理类似于传统的“网络机器人”,以某一个页面为起始页,递归获取网页主体内容,及其内嵌超链接所指向的网络文件数据,文中主要研究其中的JavaScript动态页面解析技术。-l论文工作对象与研究现状.1.1动态页面根据网页中是否含有浏览器执行脚本,将网页分为静态页面和动态页面。静态页面的主体内容及其内部包含的超链接网络地址分别以文本

7、信息和唯一资源标识符(u也)的方式直接嵌入页面源文件的HTML标记(Tag)中。可以使用传统的HTML标记识别的方法[2】,实现页面主体内容与其所含超链接网络地址的提取功能。然而,动态页面中除了包含少量静态URL外,还含有大量必须通过浏览器执行脚本才能得到的超链接网络地址和网页主体内容【31。举例如下:万方数据·2·计算机技术与发展第18卷例1,在浏览器中打开网页http://work.cat898.oomA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。