web教学资源和其自动采集技术探究

web教学资源和其自动采集技术探究

ID:5984584

大小:27.00 KB

页数:6页

时间:2017-12-30

web教学资源和其自动采集技术探究_第1页
web教学资源和其自动采集技术探究_第2页
web教学资源和其自动采集技术探究_第3页
web教学资源和其自动采集技术探究_第4页
web教学资源和其自动采集技术探究_第5页
资源描述:

《web教学资源和其自动采集技术探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Web教学资源和其自动采集技术探究  摘要:面对日益丰富的Web信息资源,利用技术方法对Internet上的教育资源进行高效采集,从而进一步充实教学资源库,为教学活动提供信息资源服务,对教育信息化建设起到促进作用。关键词:教学资源Web信息采集21世纪是一个信息化、教育现代化的世纪,各国都认识到把信息技术与现代教育结合起来的重要性,我国教育部也多次制订了促进教育信息化的重大战略决策。在此背景下,全国各类学校都纷纷建立了各种类别的门户网站和教学网站,一些公司企业也纷纷投入人力、物力进行数字化教学资源的开发与建设,Web教学资源也受到越来越多的关注。1、引言6自Internet进入公众的视

2、界以来,Web信息量呈现出了指数级爆炸性增长的趋势。据NEC研究院在《Nature》上发布,于1999年2月,Internet上公开提供Web服务的网站有达280多万个,Web网页大约有8亿个。21世纪后,各行各业已将Internet作为信息发布的主要渠道,Web网页增长的规模己超越了人们传统的利用能力,而且这种态势还在进一步加强。这就使得我们淹没在信息的海洋里,却很难找到我们想要的知识。所以使用高效的方法对Web上的教育资源进行自动采集,从而有效地充实各种教学资源库,更好地为教学活动提供信息资源服务,以对促进教育信息化建设起到巨大的促进作用,具有重要的学术意义和实践价值。2、Web教

3、学资源所谓教学资源,广义上讲是指用于教学活动的资源,可以理解为一切可用于教学的物质条件、自然条件、社会条件及媒体条件。从狭义上理解,教学资源也可定义为教学材料、教学环境及教学支持系统等部分,这种解释对教学资源及教学资源库的开发与建设更具操作指导意义。3、Web教学资源分布6Internet信息资源是由节点和超链接构成的有向图,从生态学角度分析发现,同类主题的网站通过超链接与内容引用彼此抱团,在网站之间通过网络生态链可以形成主题网站群。主题网站群由核心主题网站层和外围网站层构成,其中核心主题网站层的网站由于其规模和影响力主导了主题网站群的发展。Web教学资源作为一种主题资源是符合网络生态

4、分布规律的。在Internet上,影响力较大的Web教学资源网站构成了核心教学资源网站,这些网站的教学资源数量较多、质量较高、人气较旺,网站发展势头也就较好,而影响力较小的教学资源网站则通过链接关系或资源引用指向这些核心教学网站。因此,由这些核心教学资源网站为自动采集的起点,通过网络生态链接算法,实现对主题网站的地位及影响力的评价,对主题资源间的生态链接关系予以评测,由此决定Web教学资源的爬取范围及方向,就可以大大提高采集效率。4、主题资源自动采集Web教学资源的自动采集是一种主题信息资源自动采集,主题信息资源自动采集是利用主题爬行技术以自动化的方式从Web上采集与主题相关的信息资源

5、。主题信息资源采集是一个前后关联的系统任务,涉及了网络爬行技术、文本自动分类技术、文本抽取技术及知识工程技术等多个领域的技术。这里通过构建本体知识库,利用本体技术构建领域知识库,可对主题爬行路线进行预测判断,从而实现主题爬行导航,特别对于那种间隔性的主题漂移链接能够给出比较准确的判断。Web教学资源的自动化采集依赖于有效的主题信息资源采集技术与采集算法,知识推理引擎的推理与判断能力为实现主题信息资源有效采集提供了保证。算法设计以网页为粒度,将Web看作一个互通有向图,使网络爬虫像走“迷宫”一样智能地“蚕食”发现的主题信息资源。5、网络生态链算法6面向当前海量Web信息资源,Web教学资

6、源自动采集的核心算法是网络生态链算法。这种算法是把预测对象定位在网站上,对于整个网站的相关度判断可以通过迭代使用网络生态链算法予以确认,如果经多次计算后,目标网站的网络生态链生命值若降低到阈值以下,则放弃对该站点的采集,否则,确定为采集范围。网络生态链算法能够较好地预测主题信息资源的采集范围。6Web教学资源自动采集通常需要具有明确的主题范围,然后通过网络生态链算法,经周期性迭代计算就可以发现并逐步确定核心教学资源网站与外围网站。初始阶段,需要人工指定一些核心教学资源网站,把这些网站作为Web教学资源自动采集的入口站点,然后通过这些网站向外扩展以发现新的教学资源网。在教学资源采集过程中

7、,网络生态链算法一方面要判断哪些是具有采集价值需要继续深入挖掘的站点,哪些是采集价值不高需要及时中止并改变网络爬行的路线;另一方面,通过迭代计算发现哪些新的教学网站可作为核心网站,以便对原有的核心教学资源网站群进行更新补充。Web教学资源的采集范围涵盖了Web教学资源采集的重点区域(核心教学资源网站)和围绕核心教学网站群向外扩展的站点(外围教学资源网站),这个网站群是随着自动采集过程而动态变化的。在采集有效的教学资源网站及链接目标时还需要考虑优

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。