信息组织学 第9章 信息组织技术

信息组织学 第9章 信息组织技术

ID:45938667

大小:390.00 KB

页数:63页

时间:2019-11-19

信息组织学 第9章 信息组织技术_第1页
信息组织学 第9章 信息组织技术_第2页
信息组织学 第9章 信息组织技术_第3页
信息组织学 第9章 信息组织技术_第4页
信息组织学 第9章 信息组织技术_第5页
资源描述:

《信息组织学 第9章 信息组织技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第九章信息组织技术组织技术包含的种类很多,本章主要介绍一般性的信息组织技术,如代码和编码技术、分词和标引技术、数据库技术、数据仓库技术,以及适合于数字资源组织的超文本技术和用于构建数字空间的虚拟现实技术。9.1代码与编码技术9.1.1代码1.代码的概念代码是符号的一种,它与语言文字、图形、数字符号一样,可以用来代表或描述特定的信息,它不是通常的符号,而是指那些为便于信息组织、传播、存贮检索和加工处理而设计的非常规的符号。9.1.1代码2.代码的功能(1)代码能够简明、精确地描述信息。(2)代码可以反映信息

2、的类别特征(3)代码有利于信息组织(4)代码可以服务于特殊的信息处理需求。9.1.1代码(续)3.代码的类型(1)按代码构成成分不同,代码可分为单纯代码和混合代码。(2)按照代码组织功能不同,可以将其划分成排序码和无序码。(3)按代码组合的方式不同,可分成层次码、特征组合码和镶嵌式组合码。9.1.1代码(续)3.代码的类型-镶嵌式组合码ISBN(国际标准书号)InternationalStandardBookNumber由十位数字组成。被三条短横线分为四段,组号—出版者号—书序号—校验号第一个号码段是地区

3、号,又叫组号(GroupIdentifier),大体上兼顾文种、国别和地区。把全世界自愿申请参加国际标准书号体系的国家和地区,划分成若干地区,各有固定的编码.9.1.1代码(续)3.代码的类型-镶嵌式组合码地区号:0、1代表英语,使用的国家有:澳大利亚、加拿大、爱尔兰、新西兰、波多黎各、南非、英国、美国、津巴布韦等;2代表法语,法国、卢森堡以及比利时、加拿大和瑞士的法语区使用该代码;3代表德语,德国、奥地利和瑞士德语区使用该代码;4是日本出版物的代码;5是俄罗斯出版物的代码;7是中国出版物使用的代码。9.1

4、.1代码(续)3.代码的类型-镶嵌式组合码第二段号码是出版社代码(PublisherIdentifier),由其隶属的国家或地区ISBN中心分配,允许取值范围为2~5位数字。出版社的规模越大,出书越多,其号码就越短。第三个段是书序号(TitleIdentifier)由出版社自己给出,而且每个出版社的书序号是定长的。最短的一位,最长的六位。出版社的规模越大,出书越多,序号越长。9.1.1代码(续)3.代码的类型-镶嵌式组合码第十位是电子计算机的校验码(CheckDigit)。固定一位,起止号为0~10,10由

5、X代替;11,用“0”表示检验位是用来检验前9位代码是否正确,计算方法是,用10,9,8,7,6,5,4,3,2分别乘以ISBN的前9位数字,所得乘积相加之和除以11,用11减去所得余数即为校验码。如《国际经济学》一书的ISBN号为:ISBN7—300—02904—3/F8929.1.2信息编码(续)(4)按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。《BIG5》是台湾计算机界实行的繁体汉字编码字符集。它包含了420个图形符号和13070个汉字(不包含简化汉字)9.1.2信息编码(续)

6、(4)按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码GB(国标编码)是中华人民共和国信息交换汉字编码标准(GB2312-80),在此标准中制定了每一个汉字及非汉字符号的编码。规定将汉字字符分为87个区,每个区有94个汉字(94位),因此共制定了87x94=8178个汉字、字符。每一个字符的编码由2个字节(Byte,一个字节有8位--Bit,可以有256种不同表示)构成(分别称为高字节和低字节),其值分别为其区位码值各加上32(既16进制的20H),如中国的“中”字位于54区48位,其国标

7、码就是5650H。9.1.2信息编码(续)(4)按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。当想在由西方人发明的计算机中使用汉字时,由于国标码的范围与计算机中使用的ASCII码(AmericanStandardCodeforInformationInterchange,美国信息交换标准码)重叠,于是规定将国标码的高低字节的最高位均置1(SettheMSB,相当于加上128--16进制的80H),来使之区分于ASCII码。这样,在计算机中使用的汉字编码实际上是真正的国标码的高位置1后的

8、变形码(以后称此码为GB码),前面的“中”字的GB码就是0D6D0H。9.1.2信息编码(续)(4)按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号,共包括21003个字符。GB18030是国家制定的一个强制性大字集标准,全称为GB18030-2000,凡在中国大陆销售的国内外中文电脑,都必须能够处理27533个汉字,否则将不准销售。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。