《数字信息资源处理》PPT课件.ppt

《数字信息资源处理》PPT课件.ppt

ID:52086864

大小:378.00 KB

页数:32页

时间:2020-03-31

《数字信息资源处理》PPT课件.ppt_第1页
《数字信息资源处理》PPT课件.ppt_第2页
《数字信息资源处理》PPT课件.ppt_第3页
《数字信息资源处理》PPT课件.ppt_第4页
《数字信息资源处理》PPT课件.ppt_第5页
资源描述:

《《数字信息资源处理》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第4章数字信息资源处理教学目标了解数字信息资源的有效处理是数字图书馆支撑技术之一掌握相关信息资源处理所用到的技术,如:信息资源描述技术元数据技术分词技术文本分类技术信息抽取技术及其具体技术教学要求第4章数字信息资源处理教学要求能力要求相关知识信息资源描述理解描述语言理解元数据并能熟练应用熟练应用RDF资源描述框架描述语言的演进元数据的概念、类型及其功能其他描述语言信息资源智能化处理理解分词概念、方法掌握经典分词算法优缺点理解文本挖掘概念、过程理解文本分类的定义、过程和效果评估、及其应用理解文档聚类、信息抽取与自动文摘

2、了解词典分词方法、理解分词方法、统计分词方法;了解组合方法了解歧义消除了解未登录词了解分词研究进展了解研究难点与重点信息资源存储了解DAS(直接连接存储)、NAS(网络连接存储)、FC-SAN(存储区域网络)、IPSAN-NAS、IPSAN-iSCSI、云存储信息压缩了解数据压缩的概念、算法、研究进展§4.1数字信息资源描述与组织描述语言及其发展Web实现了网页的连通,Web改变了人们学习与生活方式。HTML(超文本置标语言)技术拉近了Web与人们之间的距离,通过它很容易、方便地获得信息资源;HTML是SGML(St

3、andardGeneralizedMarkupLanguage,标准通用置标语言)的一个实例化的子集,可扩展性差,用户根本不能自定义有意义的置标供他人使用,这一切都成为Web技术进一步发展的障碍,在这种情况下XML顺应而生;1969年,IBM公司就开发了一种文档描述语言GML用来解决不同系统中文档格式不同的问题,GML是IBM许多文档系统的基础,包括Script和Bookmaster,1986年该语言演变成一个国际标准(ISO8879),并被称为SGML;SGML是很多大型组织,比如飞机、汽车公司和军队的文档标准,它

4、是语言无关的、结构化的、可扩展的语言,这些特点使它在很多公司受到欢迎,被用来创建、处理和发布大量的文本信息。在1989年,在CERN欧洲粒子物理研究中心的研究人员开发了基于SGML的超文本版本,被称为HTML;HTML继承了SGML的许多重要的特点,比如结构化、实现独立和可描述性,但是同时它也存在很多缺陷:比如它只能使用固定的有限的标记,而且它只侧重于对内容的显示。同时随着Web上数据的增多,这些HTML存在的缺点就变的不可被忽略。W3C提供了HTML的几个扩展用来解决这些问题,最后,它决定开发一个新的SGML的子集

5、,称为XML;XML的出现就是为了解决HTML所存在的这些弊病。它保留了很多SGML标准的优点,但是更加容易操作和在WWW环境下实现,在1998年,它就变成了W3C的标准。XML有如下几个优势:它允许各个组织、个人建立适合自己需要的置标集合,并且这些置标可以迅速地投入使用。这一特征使得XML可以在电子商务、政府文档、司法、出版、CAD/CAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案;XML的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数据、

6、结构以及显示方式。对于HTML来说,显示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式,如果因为需求不同而需要对同样的内容进行不同风格的显示时,要从头创建一个全新的文档,重复工作量很大。此外HTML缺乏对数据结构的描述,对于应用程序理解文档内容、抽取语义信息都有诸多不便。§4.1数字信息资源描述与组织元数据:元数据概念与作用:元数据(metadata)是关于数据的数据。哈佛大学数字图书馆项目对元数据的定义为:元数据是帮助查找、存取、使用和管理信息资源的信息。元数据在数字图书馆中的主要作用是对数字信息资源的组织

7、和整序,亦即为分布式数据发现和检索奠定基础。元数据功能:描述功能数字图书馆中的元数据描述功能有两个方面:描述数字化信息的基本特征,使得数字化图书馆系统能够通过元数据体系自动搜索到数字化信息。描述用户提问。整合功能所谓整合功能,指的是数字图书馆的元数据体系将各种不同格式的元数据,通过建立映射、翻译等方法整合成一种元数据格式的过程,即实现不同格式元数据之间的互操作性,也是一个异构数据库之间的整合过程。控制功能元数据体系的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。元数据体系可以通过标准元数据模型来规范

8、化描述数字信息。代理功能知道元数据本身也是替代记录,数字图书馆中的元数据体系同样具有代理功能。元数据的代理功能可以有效地节省网络资源,这是因为元数据是数字化信息资源的一种描述,记录了数字化信息资源的基本特征,可以基本反映信息的概貌,同时,元数据和数据相比,其数据量要小得多,可以作为完整信息的代理。§4.1数字信息资源描述与组织元数据类型描述型元

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。