基于Web的信息检索系统研究毕业设计

基于Web的信息检索系统研究毕业设计

ID:23889367

大小:704.00 KB

页数:60页

时间:2018-11-11

上传者:chess95660
基于Web的信息检索系统研究毕业设计_第1页
基于Web的信息检索系统研究毕业设计_第2页
基于Web的信息检索系统研究毕业设计_第3页
基于Web的信息检索系统研究毕业设计_第4页
基于Web的信息检索系统研究毕业设计_第5页
资源描述:

《基于Web的信息检索系统研究毕业设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

本科毕业论文格式要求一、论文的结构与要求毕业设计(论文)包括以下内容(按顺序):本科论文包括封面、目录、标题、内容摘要、关键词、正文、注释、参考文献等部分。如果需要,可以在正文前加“引言”,在参考文献后加“后记”。论文一律要求打印,不得手写。1.目录目录应独立成页,包括论文中全部章、节和主要级次的标题和所在页码。2.论文标题论文标题应当简短、明确,有概括性。论文标题应能体现论文的核心内容、法学专业的特点。论文标题不得超过25个汉字,不得设置副标题,不得使用标点符号,可以分二行书写。论文标题用词必须规范,不得使用缩略语或外文缩写词(通用缩写除外,比如WTO等)。3.内容摘要内容摘要应扼要叙述论文的主要内容、特点,文字精练,是一篇具有独立性和完整性的短文,包括主要成果和结论性意见。摘要中不应使用公式、图表,不标注引用文献编号,并应避免将摘要撰写成目录式的内容介绍。内容摘要一般为200个汉字左右。4.关键词关键词是供检索用的主题词条,应采用能够覆盖论文主要内容的通用专业术语(参照相应的专业术语标准),一般列举3——5个,按照词条的外延层次从大到小排列,并应出现在内容摘要中。5.正文正文一般包括绪论(引论)、本论和结论等部分。正文字数本科不少于6000字,专科一般不少于5000字,正文必须从页首开始。*绪论(引论)全文的开始部分,不编写章节号。一般包括对写作目的、意义的说明,对所研究问题的认识并提出问题。*本论是全文的核心部分,应结构合理,层次清晰,重点突出,文字通顺简练。*结论是对主要成果的归纳,要突出创新点,以简练的文字对所做的主要工作进行评价。结论一般不超过500个汉字。正文一级及以下子标题格式如下:一、;(一);1.;(1);①。6.注释注释是对所创造的名词术语的解释或对引文出处的说明。注释采用脚注形式,用带圈数字表示序号,如注①、注②等,数量不少于10个,脚注少于10个的论文为不合格论文。7.参考文献参考文献是论文的不可缺少的组成部分,是作者在写作过程中使用过的文章、著作名录。参考文献应以近期发表或出版的与法学专业密切相关的学术著作和学术期刊文献为主,数量不少于6篇,参考文献少于6篇的论文成绩评定为不合格。产品说明、技术标准、未公开出版或发表的研究论文等不列为参考文献,有确需说明的可以在后记中予以说明。二、打印装订要求论文必须使用标准A4打印纸打印,一律左侧装订,并至少印制3份。页面上、下边距各2.5厘米,左右边距各2.2厘米,并按论文装订顺序要求如下:1.封面封面包括《广西广播电视大学关于毕业设计(论文)评审表》(封面、附录4)、《学生毕业设计(论文)评审表》(封2)、《广西广播电视大学关于毕业设计(论文)答辩申报表》(封3、附录5)。2.目录目录列至论文正文的三级及以上标题所在页码,内容打印要求与正文相同。目录页不设页码。3.内容摘要摘要标题按照正文一级子标题要求处理,摘要内容按照正文要求处理。4.关键词索引关键词与内容摘要同处一页,位于内容摘要之后,另起一行并以“关键词:”开头(采用黑体),后跟3~5个关键词(采用宋体),词间空1字,即两个字节,其他要求同正文。5.正文正文必须从内容提要页开始,并设置为第1页。页码在页末居中打印,其他要求同正文(如正文第5页格式为“―5―”)。论文标题为标准三号黑体字,居中,单倍行间距;论文一级子标题为标准四号黑体字,居中,20磅行间距;正文一律使用标准小四号宋体字,段落开头空两个字,行间距为固定值20磅;正文中的插图应与文字紧密配合,文图相符,内容正确,绘制规范。插图按章编号并置于插图的正下方,插图不命名,如第二章的第三个插图序号为“图2—3”,插图序号使用标准五号宋体字;正文中的插表不加左右边线。插表按章编号并置于插表的左上方,插表不命名,如第二章的第三个插表序号为“表2—3”,插表序号使用标准五号宋体字。6、参考文献按照GB7714—87《文后参考文献著录规则》规定的格式打印,内容打印要求与论文正文相同。参考文献从页首开始,格式如下:(1)著作图书文献序号作者《书名》,出版地:出版者,出版年份及版次(第一版省略)如:[4]劳凯声《教育法论》,南京:江苏教育出版社,2001(2)译著图书文献序号作者《书名》,出版地:出版者,出版年份及版次(第一版省略)(3)学术刊物文献序号作者《文章名》,《学术刊物名》,年卷(期)如:[5]周汉华《变法模式与中国立法法》,《中国社会科学》,2000(1)(4)学术会议文献序号作者《文章名》,编者名,会议名称,会议地址,年份,出版地,出版者,出版年(5)学位论文类参考文献序号作者《学位论文题目》,学校和学位论文级别,答辩年份(6)西文文献著录格式同中文,实词的首字母大写,其余小写。参考文献作者人数较多者只列前三名,中间用逗号分隔,多于三人的后面加“等”字(西文加“etc.”)。学术会议若出版论文集者,在会议名称后加“论文集”字样;未出版论文集者省去“出版者”、“出版年”项;会议地址与出版地相同的省略“出版地”,会议年份与出版年相同的省略“出版年”。三、毕业设计(论文)装袋要求毕业设计(论文)是专业教学的重要内容,必须规范管理,统一毕业设计(论文)材料装袋要求:1、论文稿本。经指导的提纲,一稿、二稿和装订好的正稿。2、过程记录表。包括指导教师指导记录表,学生毕业设计(论文)评审表(答辩过程记录表)等;3、相关材料。法专业要求的其他材料,如法学社会调查报告等。中国环境教育立法研究内容摘要摘要:目前,我国学术界对环境教育立法问题的研究还处于起步阶段,有关环境教育的法律规范也很不完善,影响和限制了我国环境教育的大力推行和良好普及,实质上是制约了我国解决环境问题的能力和可持续发展的进程。本文从环境问题的现状入手,阐释了环境教育立法的必要性和可行性,介绍了其他国家和地区的环境教育立法实践,在总结国内外先进经验的基础上,提出了对我国环境教育立法的构想。以期通过加强教育立法的途径,实现我国环境教育的普及,为改善解决我国环境问题的能力和可持续发展的进程创造条件。关键词:环境问题环境教育环境教育立法一、环境问题、环境教育与环境教育立法(一)环境问题马克思说:“人靠自然界生活,这就是说,自然界是为了不致死亡而必须不断与之交往。所谓人的肉体生活和精神生活同自然界相联系,也就等于说自然界同自身相联系,因为人是自然界的一部分。”生存与发展是人类社会最基本的主题。在人类与环境不断地相互影响和作用中,环境问题始终是伴随着人类的活动产生和发展的。不幸的是,在相当长的时期内,人类过分强调了作为自然主人的一面,夸大了人的主观能动性作用,忽视甚至忘却自然界的惩罚。环境问题并非始于今日,早在200年前的第一次工业革命时期就产生了环境问题。到了本世纪50年代,环境事件不断出现和加剧。到了70~80年代则出现了全球性的环境危机。目前全球人口正以每年9000万的速度增长,预计到21世纪中期,世界人口将达到100亿。人口无节制地增长,给地球的生态环境和有限的自然资源带来了沉重的压力。联合国列出了威胁人类生存的全球十大环境问题:全球气候变暖;臭氧层的损耗和破坏;酸雨蔓延;水资源危机;生物多样性减少;大气污染;有毒有害化学物质污染与危险废物越境转移;森林面积锐减;土地荒漠化;海洋污染。随着我国社会经济的迅速发展,环境保护与经济发展之间的矛盾日益凸显。20世纪最后几年有三件震撼国人的大事足以说明我国环境问题的严重性,已显示出环境破坏给人类带来的灾难性的报复。一是1997年创纪录(227天)的黄河断流;二是1998年的长江大水灾;三是2000年波及北京等地的频繁的沙尘暴。专家指出了目前困扰中国环境的十大问题。1、大气污染问题2004年我国二氧化硫排放量为1995万吨,居世界第一位。据专家测算,要满足全国天气的环境容量要求,二氧化硫排放量要在现有基础上至少削减40%。此外,2004年中国烟尘排放量为1165万吨,工业粉尘的排放量为1092万吨。大气污染是中国目前面临的第一大环境问题。2、水环境污染问题中国七大水系的污染程度依次是:辽河、海河、淮河、黄河、松花江、珠江、长江,其中,42%的水质超过3类标准(不能做饮用水源),全国有36%的城市河段为劣质5类水质,丧失使用功能。大型淡水湖泊(水库)和城市湖泊水质普遍较差,75%以上的湖泊富营养化加剧,主要由氮、磷污染引起。3、垃圾处理问题中国全国工业固体废物年产生量达8.2亿吨,综合利用率约为46%。全国城市生活垃圾年产生量为1.4亿吨,达到无害化处理要求的不到10%。塑料包装物和农膜导致的白色污染已蔓延全国各地。(二)环境教育与环境问题的关系1、环境教育的发展历程环境教育的起源,一直可以追溯到19世纪末20世纪初的自然研究(NaturalStudy)。当时在学校开展自然研究的基本目的是教育学生通过亲身观察和参与,了解和评价自然环境。到20世纪上叶,人们认识到保护生态和自然环境的重要性,保护运动(Conservationmovement)在社会中形成,学校教育在自然研究的基础上引入了自然保护的教育内容,这就是环境教育的萌芽。(1)国外环境教育的发展历程1972年在瑞典首都斯德哥尔摩召开的“世界人类环境会议”是环境教育发展的一个里程碑。为了响应斯德哥尔摩会议的第96条建议,联合国教科文组织和联合国环境规划署于1975年颁布了国际环境教育计划(IEEP),其目的是在环境教育领域内,促进经验和信息的交流、研究和实验、人员培训、课程和相应教材的开发及国际合作。1975年,在前南斯拉夫的贝尔格莱德召开的国际环境教育会议,通过了《贝尔格莱德宪章:环境教育的全球纲领》。该宪章根据环境教育的性质和目标,指出环境教育是“进一步认识和关心经济、社会、政治和生态在城乡地区的相互依赖性;为每一个人提供获得保护环境的知识和价值观、态度、责任感和技能;创造个人、群体和整个社会行为的新模式。”此后,《贝尔格莱德宪章》成为世界各国制定环境教育纲要与章程的重要依据之一。而环境教育的普及对环境相关法律的立法、执法都可起到相当大的辅助作用。大力开展环境教育,使环境意识特别是环境保护法律意识深入人心,使人们认识到环境问题不仅是社会问题,更是可以涉及到每个人切身利益和法律责任、社会责任的问题,认识到环境问题和法律责任的关系,更好地使环境保护法律成为预防环境问题发生的利剑,这样可以达到依法治理环境和人们自觉保护环境的目的。二、中国环境教育立法的必要性和可行性(一)中国环境教育立法的必要性当一种社会关系需要用立法来调整,说明这种社会关系的重要性。中国环境教育专门立法是否必要,则完全取决于以下前提:(1)环境教育的重要性;(2)环境教育立法对社会经济发展的重要作用。五、结论21世纪是环境世纪,公众的环境意识通过环境教育来建立。根据我国人口多,地区经济水平差异大,公民受教育程度不一的现状,要使公众的环境保护意识提高到一个比较高的水平,实现社会——经济——环境的协调发展,尽早达到国家的可持续发展目标,构建和谐社会,通过立法机关制定完善的、具有可操作性的《环境教育法》不失为一个有效的方法。希望对促进我国环境教育法律体系的建立提供一些有益的参考。识和关心经济、社会、政治和生态在城乡地区的相互依赖性;为每一个人提供获得保护环境的知识和价值观、态度、责任感和技能;创造个人、群体和整个社会行为的新模式。”此后,《贝尔格莱德宪章》成为世界各国制定环境教育纲要与章程的重要依据之一。而环境教育的普及对环境相关法律的立法、执法都可起到相当大的辅助作用。大力开展环境教育,使环境意识特别是环境保护法律意识深入人心,使人们认识到环境问题不仅是社会问题,更是可以涉及到每个人切身利益和法律责任、社会责任的问题,认识到环境问题和法律责任的关系,更好地使环境保护法律成为预防环境问题发生的利剑,这样可以达到依法治理环境和人们自觉保护环境的目的。二、中国环境教育立法的必要性和可行性(一)中国环境教育立法的必要性当一种社会关系需要用立法来调整,说明这种社会关系的重要性。中国环境教育专门立法是否必要,则完全取决于以下前提:(1)环境教育的重要性;(2)环境教育立法我国环境教育法律体系的建立提供一些有益的参考。本科毕业论文格式要求一、论文的结构与要求毕业设计(论文)包括以下内容(按顺序):本科论文包括封面、目录、标题、内容摘要、关键词、正文、注释、参考文献等部分。如果需要,可以在正文前加“引言”,在参考文献后加“后记”。论文一律要求打印,不得手写。1.目录目录应独立成页,包括论文中全部章、节和主要级次的标题和所在页码。2.论文标题论文标题应当简短、明确,有概括性。论文标题应能体现论文的核心内容、法学专业的特点。论文标题不得超过25个汉字,不得设置副标题,不得使用标点符号,可以分二行书写。论文标题用词必须规范,不得使用缩略语或外文缩写词(通用缩写除外,比如WTO等)。3.内容摘要内容摘要应扼要叙述论文的主要内容、特点,文字精练,是一篇具有独立性和完整性的短文,包括主要成果和结论性意见。摘要中不应使用公式、图表,不标注引用文献编号,并应避免将摘要撰写成目录式的内容介绍。内容摘要一般为200个汉字左右。4.关键词关键词是供检索用的主题词条,应采用能够覆盖论文主要内容的通用专业术语(参照相应的专业术语标准),一般列举3——24 5个,按照词条的外延层次从大到小排列,并应出现在内容摘要中。5.正文正文一般包括绪论(引论)、本论和结论等部分。正文字数本科不少于6000字,专科一般不少于5000字,正文必须从页首开始。*绪论(引论)全文的开始部分,不编写章节号。一般包括对写作目的、意义的说明,对所研究问题的认识并提出问题。*本论是全文的核心部分,应结构合理,层次清晰,重点突出,文字通顺简练。*结论是对主要成果的归纳,要突出创新点,以简练的文字对所做的主要工作进行评价。结论一般不超过500个汉字。正文一级及以下子标题格式如下:一、;(一);1.;(1);①。6.注释注释是对所创造的名词术语的解释或对引文出处的说明。注释采用脚注形式,用带圈数字表示序号,如注①、注②等,数量不少于10个,脚注少于10个的论文为不合格论文。7.参考文献参考文献是论文的不可缺少的组成部分,是作者在写作过程中使用过的文章、著作名录。参考文献应以近期发表或出版的与法学专业密切相关的学术著作和学术期刊文献为主,数量不少于6篇,参考文献少于6篇的论文成绩评定为不合格。产品说明、技术标准、未公开出版或发表的研究论文等不列为参考文献,有确需说明的可以在后记中予以说明。二、打印装订要求论文必须使用标准A4打印纸打印,一律左侧装订,并至少印制3份。页面上、下边距各2.5厘米,左右边距各2.2厘米,并按论文装订顺序要求如下:1.封面封面包括《广西广播电视大学关于毕业设计(论文)评审表》(封面、附录4)、《学生毕业设计(论文)评审表》(封2)、《广西广播电视大学关于毕业设计(论文)答辩申报表》(封3、附录5)。2.目录目录列至论文正文的三级及以上标题所在页码,内容打印要求与正文相同。目录页不设页码。3.内容摘要摘要标题按照正文一级子标题要求处理,摘要内容按照正文要求处理。4.关键词索引关键词与内容摘要同处一页,位于内容摘要之后,另起一行并以“关键词:”开头(采用黑体),后跟3~5个关键词(采用宋体),词间空1字,即两个字节,其他要求同正文。5.正文正文必须从内容提要页开始,并设置为第1页。页码在页末居中打印,其他要求同正文(如正文第5页格式为“―5―”)。论文标题为标准三号黑体字,居中,单倍行间距;论文一级子标题为标准四号黑体字,居中,20磅行间距;正文一律使用标准小四号宋体字,段落开头空两个字,行间距为固定值20磅;正文中的插图应与文字紧密配合,文图相符,内容正确,绘制规范。插图按章编号并置于插图的正下方,插图不命名,如第二章的第三个插图序号为“图2—3”,插图序号使用标准五号宋体字;正文中的插表不加左右边线。插表按章编号并置于插表的左上方,插表不命名,如第二章的第三个插表序号为“表2—3”,插表序号使用标准五号宋体字。6、参考文献按照GB7714—87《文后参考文献著录规则》规定的格式打印,内容打印要求与论文正文相同。参考文献从页首开始,格式如下:(1)著作图书文献序号作者《书名》,出版地:出版者,出版年份及版次(第一版省略)如:[4]劳凯声《教育法论》,南京:江苏教育出版社,2001(2)译著图书文献序号作者《书名》,出版地:出版者,出版年份及版次(第一版省略)(3)学术刊物文献序号作者《文章名》,《学术刊物名》,年卷(期)如:[5]周汉华《变法模式与中国立法法》,《中国社会科学》,2000(1)(4)学术会议文献序号作者《文章名》,编者名,会议名称,会议地址,年份,出版地,出版者,出版年(5)学位论文类参考文献序号作者《学位论文题目》,学校和学位论文级别,答辩年份(6)西文文献著录格式同中文,实词的首字母大写,其余小写。参考文献作者人数较多者只列前三名,中间用逗号分隔,多于三人的后面加“等”字(西文加“etc.”)。学术会议若出版论文集者,在会议名称后加“论文集”字样;未出版论文集者省去“出版者”、“出版年”项;会议地址与出版地相同的省略“出版地”,会议年份与出版年相同的省略“出版年”。三、毕业设计(论文)装袋要求毕业设计(论文)是专业教学的重要内容,必须规范管理,统一毕业设计(论文)材料装袋要求:1、论文稿本。经指导的提纲,一稿、二稿和装订好的正稿。2、过程记录表。包括指导教师指导记录表,学生毕业设计(论文)评审表(答辩过程记录表)等;3、相关材料。法专业要求的其他材料,如法学社会调查报告等。中国环境教育立法研究内容摘要摘要:目前,我国学术界对环境教育立法问题的研究还处于起步阶段,有关环境教育的法律规范也很不完善,影响和限制了我国环境教育的大力推行和良好普及,实质上是制约了我国解决环境问题的能力和可持续发展的进程。本文从环境问题的现状入手,阐释了环境教育立法的必要性和可行性,介绍了其他国家和地区的环境教育立法实践,在总结国内外先进经验的基础上,提出了对我国环境教育立法的构想。以期通过加强教育立法的途径,实现我国环境教育的普及,为改善解决我国环境问题的能力和可持续发展的进程创造条件。关键词:环境问题环境教育环境教育立法一、环境问题、环境教育与环境教育立法(一)环境问题马克思说:“人靠自然界生活,这就是说,自然界是为了不致死亡而必须不断与之交往。所谓人的肉体生活和精神生活同自然界相联系,也就等于说自然界同自身相联系,因为人是自然界的一部分。”生存与发展是人类社会最基本的主题。在人类与环境不断地相互影响和作用中,环境问题始终是伴随着人类的活动产生和发展的。不幸的是,在相当长的时期内,人类过分强调了作为自然主人的一面,夸大了人的主观能动性作用,忽视甚至忘却自然界的惩罚。环境问题并非始于今日,早在200年前的第一次工业革命时期就产生了环境问题。到了本世纪50年代,环境事件不断出现和加剧。到了70~80年代则出现了全球性的环境危机。目前全球人口正以每年9000万的速度增长,预计到21世纪中期,世界人口将达到100亿。人口无节制地增长,给地球的生态环境和有限的自然资源带来了沉重的压力。联合国列出了威胁人类生存的全球十大环境问题:全球气候变暖;臭氧层的损耗和破坏;酸雨蔓延;水资源危机;生物多样性减少;大气污染;有毒有害化学物质污染与危险废物越境转移;森林面积锐减;土地荒漠化;海洋污染。随着我国社会经济的迅速发展,环境保护与经济发展之间的矛盾日益凸显。20世纪最后几年有三件震撼国人的大事足以说明我国环境问题的严重性,已显示出环境破坏给人类带来的灾难性的报复。一是1997年创纪录(227天)的黄河断流;二是1998年的长江大水灾;三是2000年波及北京等地的频繁的沙尘暴。专家指出了目前困扰中国环境的十大问题。1、大气污染问题2004年我国二氧化硫排放量为1995万吨,居世界第一位。据专家测算,要满足全国天气的环境容量要求,二氧化硫排放量要在现有基础上至少削减40%。此外,2004年中国烟尘排放量为1165万吨,工业粉尘的排放量为1092万吨。大气污染是中国目前面临的第一大环境问题。2、水环境污染问题中国七大水系的污染程度依次是:辽河、海河、淮河、黄河、松花江、珠江、长江,其中,42%的水质超过3类标准(不能做饮用水源),全国有36%的城市河段为劣质5类水质,丧失使用功能。大型淡水湖泊(水库)和城市湖泊水质普遍较差,75%以上的湖泊富营养化加剧,主要由氮、磷污染引起。3、垃圾处理问题中国全国工业固体废物年产生量达8.2亿吨,综合利用率约为46%。全国城市生活垃圾年产生量为1.4亿吨,达到无害化处理要求的不到10%。塑料包装物和农膜导致的白色污染已蔓延全国各地。(二)环境教育与环境问题的关系1、环境教育的发展历程环境教育的起源,一直可以追溯到19世纪末20世纪初的自然研究(NaturalStudy)。当时在学校开展自然研究的基本目的是教育学生通过亲身观察和参与,了解和评价自然环境。到20世纪上叶,人们认识到保护生态和自然环境的重要性,保护运动(Conservationmovement)在社会中形成,学校教育在自然研究的基础上引入了自然保护的教育内容,这就是环境教育的萌芽。(1)国外环境教育的发展历程1972年在瑞典首都斯德哥尔摩召开的“世界人类环境会议”是环境教育发展的一个里程碑。为了响应斯德哥尔摩会议的第96条建议,联合国教科文组织和联合国环境规划署于1975年颁布了国际环境教育计划(IEEP),其目的是在环境教育领域内,促进经验和信息的交流、研究和实验、人员培训、课程和相应教材的开发及国际合作。1975年,在前南斯拉夫的贝尔格莱德召开的国际环境教育会议,通过了《贝尔格莱德宪章:环境教育的全球纲领》。该宪章根据环境教育的性质和目标,指出环境教育是“进一步认识和关心经济、社会、政治和生态在城乡地区的相互依赖性;为每一个人提供获得保护环境的知识和价值观、态度、责任感和技能;创造个人、群体和整个社会行为的新模式。”此后,《贝尔格莱德宪章》成为世界各国制定环境教育纲要与章程的重要依据之一。而环境教育的普及对环境相关法律的立法、执法都可起到相当大的辅助作用。大力开展环境教育,使环境意识特别是环境保护法律意识深入人心,使人们认识到环境问题不仅是社会问题,更是可以涉及到每个人切身利益和法律责任、社会责任的问题,认识到环境问题和法律责任的关系,更好地使环境保护法律成为预防环境问题发生的利剑,这样可以达到依法治理环境和人们自觉保护环境的目的。二、中国环境教育立法的必要性和可行性(一)中国环境教育立法的必要性当一种社会关系需要用立法来调整,说明这种社会关系的重要性。中国环境教育专门立法是否必要,则完全取决于以下前提:(1)环境教育的重要性;(2)环境教育立法对社会经济发展的重要作用。五、结论21世纪是环境世纪,公众的环境意识通过环境教育来建立。根据我国人口多,地区经济水平差异大,公民受教育程度不一的现状,要使公众的环境保护意识提高到一个比较高的水平,实现社会——经济——环境的协调发展,尽早达到国家的可持续发展目标,构建和谐社会,通过立法机关制定完善的、具有可操作性的《环境教育法》不失为一个有效的方法。希望对促进我国环境教育法律体系的建立提供一些有益的参考。识和关心经济、社会、政治和生态在城乡地区的相互依赖性;为每一个人提供获得保护环境的知识和价值观、态度、责任感和技能;创造个人、群体和整个社会行为的新模式。”此后,《贝尔格莱德宪章》成为世界各国制定环境教育纲要与章程的重要依据之一。而环境教育的普及对环境相关法律的立法、执法都可起到相当大的辅助作用。大力开展环境教育,使环境意识特别是环境保护法律意识深入人心,使人们认识到环境问题不仅是社会问题,更是可以涉及到每个人切身利益和法律责任、社会责任的问题,认识到环境问题和法律责任的关系,更好地使环境保护法律成为预防环境问题发生的利剑,这样可以达到依法治理环境和人们自觉保护环境的目的。二、中国环境教育立法的必要性和可行性(一)中国环境教育立法的必要性当一种社会关系需要用立法来调整,说明这种社会关系的重要性。中国环境教育专门立法是否必要,则完全取决于以下前提:(1)环境教育的重要性;(2)环境教育立法我国环境教育法律体系的建立提供一些有益的参考。计算机与通信学院本科生毕业设计说明书基于Web的信息检索系统研究BasedonWebinformationretrievalsystemisstudied24 24 毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作者签名:     日 期:     指导教师签名:     日  期:     使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名:     日 期:     24 基于Web的信息检索系统的研究摘要基于Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向Web的个性化语义信息检索技术。为了解决或减少检索算法中Hash地址的“碰撞”,把HASH的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。关键词:信息检索;原理;算法;软件框架AbstractBasedontheWebinformationretrievalsystem,anddiscussestheresearchofinformationretrieval,theprincipleoftheevaluationmethodsandresearchstatusanddevelopmentdirection,andstudiedthemainstreamofinformationretrievalalgorithmforinformationretrieval,thesimulationexperiment.Mainlyintroducesthetheoryofinformationretrievalalgorithm,andthetechnicalframework.OnfacingthesemanticWebpersonalizationinformationretrievaltechnology.InordertosolveorreducetheHashalgorithmofcollision","addresstheHashtablesandindexesofthoughtsinorderofretrieval,andcombiningthetwosearchHashtableisproposedbasedonthebinarysearch,throughthetheoreticalanalysisandexperimentalresultsshowthatthisalgorithmishighefficiency.KeyWords:Informationretrieval;Principleandevaluationmethods;BasedontheHASHtableofsearch;Softwareframework一、前言1990年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的AlanEmtage等人发明的Archie开的,虽然它只可以实现简单意义上的FTP文件检索。随着worldwideweb的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的EricSelberg等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。二、信息检索的研究目的和意义(一)研究目的随着计算机的普及和互联网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。(二)研究意义信息检索系统的研究具有以下几方面的意义:1、解决信息超载和信息饥饿的矛盾24 由于信息的急剧增长,使得人们在获取知识时变得越来越困难。尽管像Google、百度等搜索引擎技术能够给用户带来不少的帮助,但他们所返回的结果往往与用户期望的结果相差甚远。对于多数用户来说,在Web上寻找需要的信息就如同在大海中捞针一样困难。因此一方面呈现出来的是信息的超载,而另一方面呈现出来的是信息的饥饿,其原因是当前的检索着重与检索文档中存储的字词,检索系统返回太多的结果以至于用户无法逐个浏览,而其检索的准确率很低,不能满足用户需求。尤其不能对泛概念(不确定的概念)进行有效检索。2、信息检索需要不确定性推理当今自然语言处理遇到的最大困难就是概念具有模糊性、随机性和近似性,他们都会引起推理的不确定性和演化。概念作为外部事物在主观认知中的对应物成为思维活动的基本单元,他不是孤立的,是同外部背景有各种联系,是演变和流动的过程。最近几年中多种逻辑和不确定理论被提出,最典型的是基于模糊集合论的IRS虽然模糊集合论对不确定性和随机性处理有不同成都的进步,但均没有取得可喜的效果,源影视模糊集合论理论有许多不彻底性:首先,作为模糊集合论理论基石的隶属函数概念的实质以及具体的确定方法没有谁清楚;其次,隶属函数一旦通过认为假定“硬化”成精确数值表达后,就不再有丝毫的模糊性了。针对这个问题,在传统模糊集合理论和概率统计的基础上李德毅院士提出了云模型,云模型是自然语言的不确定性,尤其是模糊性和随机性的处理模型即定性与定量之间的转换模型。3、适应个性化信息检索的需求在张扬个性、倡导创造性的现代信息社会里,个性化服务更是备受人们的关注和青睐。个性化信息这个概念可以从两个两个角度分析:第一,个性化信息是值反映人类个体特性的一切信息,这些信息包括了这个个体的一些属性描述;第二,个性化信息是指由人类个体特性所决定的其对信息的需求的一种信息组合。以用户为中心的信息检索,主要是研究用户的行为,理解他们的主要需求,根据这些需求改进和完善检索系统的组织和操作,向用户主动、及时、准确的提供所需信息。另外,数据挖掘技术为信息检索提供理论基础。4、为检索评价提供新方法从大量数据集中检索出信息,需要有效的方法和工具,因此,检索评价的研究是十分必要的,新理论的发展对检索评价的研究提供了基础。检索性能评价可以使检索工具开发商使用最好的检索策略,为用户提供更好的检索工。5、基于语义的信息检索传统的信息检索方法分为两大类:一是基于关键词匹配地方法,这种方法首先让用户以关键词的形式提出检索请求,然后将用户提交的关键词与文档库中的文档进行匹配,最后将那些出现了用户所提交的关键词的文档作为检索结果返回给用户。第二类方法称为概念信息检索,它通过对文档中的信息进行语义层次上的处理来析取各种概念信息,并由此形成一个概念库,然后根据对用户的问题的理解来检索概念库中相关的信息以提供检索的结果。这种方法克服了基于关键词检索中不考虑语义信息的局限性,并且具有较好的自然语言接口。但是感念信息检索检索一个不足之处就是其概念库中不包含概念之间关系的描述因此无法处理有关感念关系的问题。因此,使用传统的搜索引擎,其检索效果远远不能令人满意。这主要表现在:第一是对用户的问题理解不够准确,导致返回结果中有很多噪声,用户不能直接找到自己所需的信息;第二是对信息内容的处理大多采用的是基于某种编码过程的预处理技术或某种全文分析技术,仅仅反映一个问题的侧面;第三是用户提出的问题与信息源的内容不可能完全一致,难以保证内容与用户问题相匹配正确率很低三、信息检索的原理与技术方法(一)、信息检索原理广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种检索工具(见图3.1)。24 信息存储过程信息标引主题概念分析信息选择收集信息资源信息检索系统检索(标引)语言检索结果主题概念分析检索提问信息需求信息用户信息检索过程图3.1信息检索的原理1.信息储存信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是,使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经有越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见的排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主要是依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此做出文献是否与提问相符的判断。这个标识比较的过程,也称为检索的匹配。2.信息检索信息检索的工作内容,主要是由检索人员接受用户的检索提问,对提问进行细致的主题分析,提炼出检索的主题概念,并编制出相应的检索策略。其工作步骤如下:(1)用户提问。在特定的条件下,用户会把头脑中信息需求转变为具体的检索行为。24 (2)提问的概念分析。分析检索提问,识别检索的真正主题内容,把检索主题分解为若干概念,并明确这些概念之间的关系。(3)词汇转换。把检索提问的主题概念转换为相应的提问标识(或称为检索词),并以这些标识来表达检索提问的主题内容。其依据同样有两个方面:一是对提问的主题概念分析,二是信息检索语言。(4)检索的实施。根据所得到的提问标识,在文献标识序列中,按照其排序的规则,迅速地进行查找,并对文献标识与提问标识进行匹配比较。如果文献标识与提问标识相同,那就表明包含有该标识的文献与用户提问相符合,该文献被作为命中文献而进行检索输出;如果文献标识与提问标识不相同,则表明文献与用户提问不相符合,该文献被作为不命中的文献而排除。综合上述信息储存和检索两个方面,信息检索的原理是:由标引人员以文献或文献描述体构成文献库,同时把文献压缩转换为文献标识,以此表达文献的特征和主题内容,并对这些文献库和文献标识,按一定的方式分别予以有序化组织,从而形成信息检索系统。这也就是信息储存的过程。检索时,把用户的检索提问压缩转换为提问标识(检索词),以此表达提问的特征和主题内容,并将提问标识与信息检索系统中的文献标识进行对比,进而依据匹配与否,做出文献是否符合检索提问的判断。这也就是信息检索的过程。因此,信息检索的原理就是提问标识与文献标识的对比。(二)信息检索的技术方法1.手工信息检索的技术方法(1)手工信息检索工具在手工信息检索工具中,目前主要使用的检索工具包括:(2)目录目录是图书或其他单独出版物规律化、系统化的记载,主要用于检索出版单位和藏书单位是否拥有信息检索者所需要的书刊。目录只涉及这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。目录是历史上最早出现的信息检索工具,种类繁多,其中较为重要的有:国家书目、出版社目录、书店目录、馆藏目录、联合目录、专题目录等。(3)索引索引是把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具。索引的种类也很多。按寻找文献内容特征的编制方法来分,有分类索引与主题索引;按取材来源,又分为图书索引、期刊索引、报纸索引及其他文献索引;按著录对象,可分为篇目索引、主题索引、条目索引、词语索引及辅助索引等。(4)文摘文摘是把文献资料的主要内容,如主要论点、论据、原理、重要数据、结论、适用范围等,由有一定水平和经验的编者将其准确、简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具。文摘的主要作用是供快速而准确的阅读和检索,对查全率和查准率要求比较高。因此,文摘的编纂远较目录、索引来得艰巨、复杂,但所含的信息量远高于目录和索引。文摘主要类型包括指示性文摘、报道性文摘、统计性文摘等。(5)年鉴24 年鉴是以描述和统计的方式逐年提供某年度某一领域信息的工具书。年鉴包含的内容很丰富,从一部商贸年鉴中可以得到专家对某一行业或市场的综述、分析、回顾和展望,了解新出台的政策法规,最新的统计数据和企业介绍、调研报告、经济团体和研究机构的名录、经贸知识、理论研究、重要或最新产品、大事记、经济形势分析和预测等,因而最适合于各类现行资料的查询。作为一种年度出版物,年鉴还能连续地反映事物的发展、停滞甚至倒退的趋势。年鉴种类很多,如中国经济年鉴、中国商业年鉴、中国广告年鉴、中国金融年鉴、中国物价年鉴、中国证券业年鉴等。(6)手册手册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的需要,以简明扼要的方式提供具体、实用的资料,供随时翻检查阅,故又称便览,也常冠以“概鉴”、“大全”、“要览”、“指南”、“必备”等名称。英文用Handbook和Manual表示,前者侧重反映“何物”(what)一类的信息,如数据、事实等,后者偏重“如何做”(how-to)之类的问题。手册种类也相当繁多,如市场预测实务全书、公司开办与经营手册等。(7)百科全书百科全书是荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书。如果说词典的功能仅仅说明某一概念,则百科全书是“接着定义往下说”的工具书,它可以回答诸如“何时”、“何地”、“如何”、“为何”等背景性知识,内容详尽完备,查阅、检索功能都很突出,条目多由标题、释文、图表和参考文献组成,有的内容专深,卷帐浩繁,是补充知识的常用工具。中国大百科全书,不列颠百科全书等都是非常实用的检索工具。2.手工信息检索工具的排检技术(1)字顺排检技术字顺排检技术是指将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。(2)分类排检技术分类排检技术是指将信息素材按学科或事物性质系统地加以排列。该技术有按一种方式单独编排的,也有与按时间、地区排列技术相互配合使用的。(3)主题排检技术主题排检技术是指以规范化的自然语言为标识符号,来标引信息内容的排检技术。主题排检技术的一般形式是以主题词来揭示信息素材记述的中心内容或对象,主题词本身按读音或笔画或字母顺序加以排序。这种排检技术把属于不同学科、不同知识体系中论述同一问题的信息素材集中标引出来,揭示信息素材内容比较深入、广泛。(4)时序排检技术时序排检技术是指按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。(5)地序排检技术地序排检技术是指按一定时期的行政区域来排列信息素材的技术。这种技术可以把同一地区的有关信息素材集中在一起,全面地反映某一地区、某一国家的历史和现状。3、计算机信息检索的技术方法(1)联机信息检索的技术原理联机检索起源于20世纪60年代的美国。目前,联机检索业已形成了覆盖全球的信息检索系统,如DIALOG、OCLC等。我国从20世纪80年代开始从事国际联机检索,经过20余年的发展也已建立起了自己的联机信息检索系统,如ISTIC、MEIRS等。联机信息检索系统是一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。在信息存储的过程中,由系统按一定的规律对信息进行加工处理,并赋予特征标识;在信息检索的过程中,由用户通过系统提供的检索指令,向系统提交含有需求特征的检索表达式。计算机信息检索系统接收到正确的指令后,自动地将相关信息集合的特征标识与用户提交的检索特征进行“匹配”。这种匹配完全是一种字符串的类比运算。匹配结束,系统自动给出存储信息的特征与检索提问的特征相符的记录篇数,即命中数量。用户通过显示命中记录的内容,判断检索是否成功,这就是联机信息检索技术的基本原理。(2)联机信息检索的服务方式24 联机信息检索的服务方式主要有以下几种:1)定题信息提供。这种服务是由检索系统工作人员将用户信息需求转换成一定的检索提问式,并将此提问式存入计算机中,信息检索系统定期从新的文献信息中为用户检索,并按用户指定的格式为用户加以编排和打印。利用SDI服务,用户可定期获得所需要的最新信息,及时掌握同类专题的动态和进展。2)专题回溯检索。这是用户对检索系统中积累多年文献资料的数据库进行检索,查找一定时间范围以内或特定时间以前的文献,通常采用联机检索方式进行。此种服务的结果一般要求切题,但又无大的遗漏,尽量做到省机时、省费用。通过专题回溯检索进行专题查询或情报调研时,可全面系统地了解有关文献的线索。3)联机订购原文。联机检索的结果通常是一些文摘或题录形式的二次文献形式。用户通过阅读这些二次文献了解大致的内容,然后根据这些文献线索查找全文或通过E-mail方式索取。4.光盘信息检索光盘是继纸张、缩微胶片、磁存储器之后的一种用激光束记录和再现信息的存储载体。用于检索和阅读的光盘通常为只读光盘(CD-ROM)。它是一种信息载体,而要对其中的信息进行检索和利用则需要计算机的配合。光盘产品自20世纪70年代出现以来,最初只用于娱乐,直到1985年人们才研制出第一种专用于信息服务的光盘。自此,以光盘为载体的数据库产品层出不穷,为信息产业的发展注入了新的生命力,特别是光盘与计算机的结合,使得信息检索模式发生了革命性的变化。(1)光盘信息检索技术光盘信息检索系统由微机、驱动器及连接设备、CD-ROM数据库(光盘)及其检索软件构成。使用CD-ROM光盘需要在计算机上装配CD-ROM驱动器,驱动器可安装在诸如IBMPC、XT、AT、Pentium以及绝大多数IBM兼容机上。驱动器是读取光盘数据的专用设备,在微机扩展槽上插入CD-ROM驱动器的接口卡就可将微机与驱动器连成一体。CD-ROM驱动器有内置式和外置式两种,前者装在微机机箱内。可节省台面空间,价格较便宜;后者可很方便地移动到不同的计算机上。选择驱动器时主要考虑以下性能:一是速度,一般为185-500ms之间;二是查找速度,一般在250-400ms之间;三是数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间;四是数据传送速度,有单速、双倍速乃至40倍速以上的驱动器。(2)光盘信息检索方法光盘检索系统的功能与指令与联机检索没有很大区别,但更方便。各个系统一般都有如下功能键:Help(帮助)、Index(索引)、History(查阅历史)、Display(显示)、Print(打印)、SelectDatabase(选择数据库)、FormatWindow(格式窗)、Quit(退出)等。当然,系统一般不显示当前没有使用的功能键,只列出正在使用的功能键。检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。在编制提问式时,可以用有关功能键弹出索引菜单,通过浏览各种索引获取数据库记录中的关键词、词组和系统提供的主题词表,以便选择拼法、可能的截断术语和查找范围。当系统将检中的记录用标题形式显示出来时,用户可以用方向键在屏幕上移动至所需题名,然后以全记录形式显示或打印它。系统保持着用户的一切提问和每一结果,因此,用户可以随时回顾其查找历史,重新使用或修改以前的任何提问。也可以在另一数据库中选择回顾历史并执行同样的检索策略,而不必重复键入或重新处理检索术语。24 屏幕帮助是光盘数据库最常用,也是重要的功能之一,对计算机检索不熟悉的用户在几乎每一个重要步骤都可以得到指导。帮助的菜单内容一般是针对正在检索中的某一个步骤,其内容有:了解系统功能、提问句法、检索策略、记录字段的描述、限制符、禁用词和标点、索引的使用、主题查找、从记录中抽词、截断和排列、如何显示记录、改变显示格式、打印记录、保留记录、结束查找、获得文献以及各种功能键的使用法。5.网络信息检索的技术方法(1)网络信息检索技术自20世纪90年代以来,Internet已成为世界上最大的信息资源宝库,网络信息的查找和检索,已远远超出了信息检索领域,基于Internet的信息检索系统成为网络信息检索阶段的代表。网络信息检索的特点是:信息检索范围宽,用户操作方便,但信息检索准确率不高。1)布尔检索即按照布尔逻辑,采用逻辑算符将检索提问转换为相应的逻辑表达式进行检索。一般情况下,逻辑加用“+”为运算符,表示概念的联合;逻辑乘以“*”为运算符,表示概念的限定;逻辑非以“-”为运算符,表示概念的排除。计算机根据表达式给出的关系进行检索匹配,予以输出。使用布尔检索,可以利用上述演算符,通过逻辑复杂的演算方式,对信息资源进行确切查找。这对具有海量信息的检索系统中信息资源的查找十分有效。例:以“北京*空气污染*(汽车+可吸入颗粒物)-冬季”表示对“北京除冬季外汽车和可吸入颗粒物造成的空气污染状况”这一主题的检索。2)截词检索即采用截断的方式,利用词的片段进行检索。通常用“*”符号来表示截断。截词检索又分为:①右截词,如infor*,可检索出所有以infor字符开头的语词的资源。②左截词,如*infor,可检索出所有结尾为infor字符的语词的资源。③中间截词,如inf*mation,可检索出所有以inf头,以mation结尾的语词的资源。④左右截词,如*format*,可检索出所有中部具有format语词的资源。截词检索是一种用字面相近度检索相关资料的检索方法,具有提高检全率的作用,在英文等西文检索中十分普遍。汉字检索时,一般只在对标引词精确匹配时才使用。此外不少系统还具有模糊检索、容错检索等功能,这实际上也是截词检索的一种应用。3)精确检索即通过规定各种检索方式,限定和缩小检索对象范围,提高检准率。①精确匹配检索,即只能检出与一语词完全一致的资源。通常采用以“”括起的短语检索。如以“信息存储与检索”表示检索与检索提问完全一致的信息资源。②在英文检索中区分大小写字母,一般使用小写字母的检索词可以同时检出大小写字母的语词;使用大写字母的检索词,只能与文本中采用大写字母的对应语词匹配。③相邻度检索。规定检索词与词的距离,用于限定检索的条件,例;以“信息检索near图形文献”表示检索对象只有在两词的距离不超过10个词或属于同一自然段时才符合检索要求。采用精确匹配,用户可以通过对检索条件加以限定,检索特征与用户要求最为接近的信息资源。4)限定范围检索可以通过规定检索范围,针对性地选择相应的对象检索。不少网络搜索引擎领域根据资源构成成分的特点,规定了多种限定可能,供用户选择。①规定进行检索的对象是网站还是包括网页。②规定进行检索匹配的对象是所有成分、还是文摘、题名还是网址(URL)。③限定检索的语言、地区、时间等的范围,以文本框的形式提供语言、地区、时间的选择列表或由用户选择。④规定检索的范畴对象,如通过建立频道或选择框的形式,提供图像、新闻、产品、商业、购物、教育、政府娱乐等类型信息资源的检索选择等。⑤结合类目体系进行检索,将检索限制在特定范畴下。24 5)相关检索即提供各种相关资料检索的手段,以提高查全率,改进检索效果。(2)网络信息检索模式网络信息检索模式有两层含义。广义理解为如何对网络上的海量多态信息进行组织,如何对这些信息建立索引,如何能动态地维护索引,即对索引及时更新;如何设计检索算法以对检索提问在查全、查准、响应时间、检索结果控制与显示方面表现良好;如何为用户设计一个简单易用的友好界面等方面。狭义的网络信息检索模式则只是以网络(如Internet)为媒介,利用网上已提供的一些信息检索工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索查询的一种方法与技术。广义的网络信息检索模式是从根本上解决有效利用网络信息资源的关键。没有结构合理的索引与高效的检索算法,就无法实现完美的信息查询;没有对索引的动态维护与及时的信息更新,就有可能检到信息垃圾,误导信息用户;没有友好的用户界面,用户就在选择与利用信息检索工具时,错过对该工具的选择,即使选择了它,也可能因易用性差而得不到良好的查询结果。对于面向最终用户的信息检索工具而言,友好的用户界面较信息服务中介的时代有着更为重要的意义。狭义的信息检索模式是在现实世界中有效利用网络资源的核心。Internet上目前就已有大量的信息查询工具为用户服务。它们不但是利用网上信息资源的重要工具,而且它们本身也是网络信息资源的一个重要组成部分,对这些工具的开发利用,也是开发利用网络信息资源的重要内容之一。更为重要的是在对这些工具的多次利用、比较、分析、研究的过程中,可以得出网络信息检索模式的广义内涵,可以为开发新型的网络信息检索工具提供重要的参考依据。四、信息检索的研究现状(一)、信息检索的发展历程据有关资料分析,大约在4000年前,人类为了获取与实用信息,就开始有目的的组织信息。后来在图书中出现了目录。随着查找信息需求的发展,又出现了一种从一些词和概念指向相关信息或文档的指针,即索引,索引也是现代信息检索系统的核心。随着计算机系统的发展,出现了利用计算机来建立大量索引的方法。信息检索(InformationRetrieval)是在1949年国际数学会议上由GalvinW.Mooers首次提出,在其发表的《把信息检索看作是时间性的通讯》论文中指出:“信息检索是一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”,并强调“信息接受者是最活跃的一方”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。我们可以用一句话概括信息检索的基本原理,即对信息集合与需求集合的匹配和选择。  在社会科学化的进程中,信息检索经历了手工检索、脱机批处理检索、联机检索、网络化联机检索的发展过程。  计算机技术的不断进步和信息量的成倍增加,使人们对信息检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不断地发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;二是信息资源的网络化和分布化,面向Internet24 中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。在信息检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术的研究最为活跃,并已取得了突破性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用信息提供更方便快捷的手段。网络信息环境的出现,使信息检索研究对象和范围不断扩大,研究队伍也突破了原有的以图书情报领域的专家学者为主的框架,众多的计算机界专家、信息技术专家也加入到研究开发信息检索系统的行列。可以说,网络使计算机信息检索技术进入一个崭新发展阶段,而网络信息检索又使网上信息资源的利用率提高,信息组织更为有序和高效。基于因特网的检索系统成为网络信息检索系统的代表。(二)、国外研究情况美国政府有专门的文本处理研究计划(如Tispster计划),内容包括了文档检索、文档摘要、信息提取等,以期提高政府部门的信息处理速度和质量。美国许多大学和公司研究机构都已经开展了有计划的、长期的。系统的信息检索研究与应用工作,并且有专门的机构组织各种评测活动对当前的研究进展进行评估。欧洲各国也进行了大量的有关信息检索的研究工作,如ESSIR。亚洲在信息检索方面也进行了大量的有关信息检索的研究工作,如IRAL(informationretrievalwithAsianLanguages)。从TREC2003和ESSIR上,可以了解到各个研究团体在信息检索方面的研究情况如表4-1所示。表4-1研究团体及其研究方向情况研究团体名称研究方向、使用的方法和系统特征LUC/Belgium检索评价向量检索模糊检索,统一的IR表面MicrosoftResearchLtd/Cambridge信息检索评价USG/Scotland信息检索中的逻辑性和不确定性研究IMIM/Italy模糊检索模型基于web的信息检索CCS/Umaryland隐马赫尔模型,包括查询处理,文档聚类,自动文摘Columbia开放域的主题查询扩展U.Maryland(USA)QE和句子聚类,自动文摘,相似矩阵CAS/NLPR扩展查询的词语相似树研究,用窗口进行相似度计算CLResearch相似成分分析,文本分词和处理,XML表示,文档标注MeijiUniv./Japan相似度计算,扩展概念的模糊集,基于if的方法NTU/台湾南洋理工信息检索系统,动态阈值Uiowa(USA)新命名实体和NP控制CAS/ICT文本分类,用VSM进行相似性计算,特征选择和权重计算,根据文档密度阈值的动态调整(三)、国内研究情况我国在信息获取领域起步较晚,在中文信息获取需求的驱动下,出现了一些中文搜索引擎网站。但是从国内搜索引擎的应用效果核对搜索引擎技术的掌握上与发达国家比较,还存在较大的差距,特别是在智能搜索引擎的开发,建设和应用水平方面差距更大。这种差距主要表现在两个方面:第一,搜索引擎的性能和搜索结果的质量与国外的搜索引擎相比存在很大的差距。这也是为什么国人在选择搜索引擎的时候普遍选择国外搜索引擎的原因。;第二,对搜索引擎与信息检索技术的掌握和应用上有待于提高和加强,应用人才继续培养,经验有待积累和总结。前者改善应依靠与国内网络的整体改善和先进信息检索技术的应用;而后者的改善则更多的依赖于人们对搜索引擎和信息检索技术的掌握。目前,我国中文信息检索的主要机构有:中国科学院计算研究所、清华大学,哈尔滨工业大学,香港大学,台湾大学等,北京大学研发的专业搜索引擎—24 天网搜索,已经建成了一个以索引搜索为基础应用,以个性化搜索、专业搜索以及地域信息资源搜索为高端应用的综合搜索平台;清华大学研发的PINS系统和Bookmark系统,它门自动搜集和记录用户的习惯和兴趣,跟踪用户的信息需求;南京大学研发的WebAccess系统,应用了机器学习。自然语言处理、超文本等技术;东南大学提出了Web搜索引擎框架和用户兴趣挖掘方法;中国搜索2005年3月3日发布了网络猪3.0,它是全球第一款集互联网搜索、硬盘搜索、内容服务、及时通讯、商务应用为一体的综合性信息服务平台,已经取得了令人瞩目的进展。但国内的智能信息检索系统大多只是支持简单的自然语言处理和概念检索,对机器学习、智能代理、知识挖掘等技术研究较少。因此,信息检索技术成为信息技术核心之一的今天,如何真正找到用户感兴趣的信息和如何评价检索性能等问题,成为信息检索的新热点。(四)、语义网信息检索现状在2000年的世界XML(eXtensibleMarkupLanguage)大会上,万维网创始人伯纳斯-李做了题为SemanticWeb的演讲,对语义Web的概念进行了解释,并提出了语义Web的体系结构。2001年5月,ScientificAmerican封面文章发表了伯纳斯-李德TheSemanticWeb一文,描绘了语义Web的美好前景,并对气其中的主要技术进行了简明的介绍。语义Web也被网格研究者们纳入信息服务网格的研究范围。鉴于语义Web研究的重要价值,国外的很多大学、研究机构、大公司都成立了专门的项目组来推动这项技术的发展,W3C(WorldWideWebConsortium)组织也成立了专门的工作组来推动语义Web技术的发展。2001年7月,在斯坦福大学召开了题为InfrastructureandapplicationsfortheSemanticWeb的学术会议。2002年7月9日、2003年10月20日、2004年11月7日、2005年11月6日分别在意大利,美国,日本和爱尔兰召开了internationalSemanticWebconference(ISWC)会议;国内这方面的研究刚刚起步,2002年我国的“863计划”将语义Web技术列为重点支持项目,主要研究团体有中国科学院计算机研究所、数学研究所、自动化研究所的若干实验室,哈尔滨工业大学计算机系以及浙江大学人工智能研究所。五、个性化检索基础理论及框架(一)、相关概念1.TREC中的几个术语(1)topic和query在TREC(textretrievalconference)中,topic描述的是用户的需求,一般用自然语言描述。这样可以把用户的需求表达的比较清楚。但是,对于计算机而言,他可能了解不了那么深,所以有一个topic到查询query的转换。自动转换常常是从topic中抽取几个NPphrase,但人的转换可能更恰当,比如提出复杂的布尔表达式。query是面向计算机的,query可以使关键词、布尔表达式、正例文本等等各种形式的东西,它的最终目的就是为了表达用户的真正需求,并且让计算机能够处理。topic和query的关系如下:topic=informaationneed,用自然语言描述,面向人。query用计算机能理解的语言描述,面向计算机,IR的理想目标就是topic=query。(2)adhoc/routing和filteringTREC最初只有两个任务:adhoc和routing。前者类似于图书馆的信息检索,即书籍库(数据库)相对稳定不变,不同用户的查询要求是千变万化的。这种查询就叫做adhoc,基于Web的搜索引擎也是属于这一类。后者的情况与前者相对,用户的查询要求相对稳定,在routing中用户的查询常常称为profile,也就是通常所说的兴趣,用户的兴趣在一定时间内是相对稳定的。但是数据库是不断变化的。应该说adhoc和routing代表了IR的两个不同的研究方向。ad24 hoc的主要研究任务包括对数据库的索引查询、查询的扩展等等;而后者的主要任务不是索引,而是对用户兴趣的建模,即入户对用户的兴趣建立数学模型。后者被称为routing是很有道理的,因为不断到来的数据流通过用户的兴趣被分发到不同的用户中去,类似于网络中的路由寻径过程。随着TREC的不断进行,TREC的任务有所变更,总的来说还是上面两类,不过名称有所变化,后者不再称为routing而是叫做filtering。2.聚类聚类(clustering)也称为自动分类,是知识发现和数据挖掘的一个重要工具。按照数据的相似性和差异性,将数据划分为若干个组(组内还可以再分组),同组的尽量相似,不同组的尽量相异。这种对数据进行自动组织的方法称为聚类,它有利于更好地理解大量数据。聚类在信息检索、情报学以及模式识别等领域中都引起了广泛兴趣,虽然在模式识别中文档聚类并非重点,但是模式识别中的许多方法和思想都可以用于文档聚类。3.自然语言处理自然语言处理(naturallanguageprocessing,NLP)也称为自然语言理解(naturallanguageunderstanding,NLU)或者计算语言学(computationallinguistics),是研究如何利用计算机来理解和生成自然语言的科学,也是新一代计算机的主要突破口之一。从计算机诞生的那一天起,人们就开始研究用计算机处理自然语言。通过几十年的研究,人们逐渐的形成了两种基本的处理方法,或者说基本思想和基本策略:理性主义和经验主义。自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。  一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无论在上述的各种层次:字(符)、词、词组、句子、段,……还是在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的,还有待长期的、系统的工作。以上说的是,一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。24   因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。  歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。  最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。  大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:  (1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。  (2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。  (1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。  虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看,由于采集、整理、表示和有效应用大量知识的困难,这些系统更依赖于统计学的方法和其他“简单”的方法或技巧。而这些统计学的方法和其他“简单”的方法似乎也快达到它们的极限了,因此,目前在自然语言处理界广泛争论的一个问题便是:要取得新的更大的进展,主要有待于理论上的突破呢,还是可由目前已有的方法的完善和优化实现?答案还不清楚。大致上,更多的语言学家倾向于前一种意见,而更多的工程师则倾向于后一种意见。回答或许在“中间”,即应将基于知识和推理的深层方法与基于统计等“浅层”方法结合起来。(二)、个性化信息检索系统框架及检索过程1.基于云模型的个性化信息检索的目的为了改善信息检索与提供信息的质量,克服现有信息检索工具的不足,将泛概念云知识库和动态用户兴趣有机结合起来提出了基于云模型的个性化信息检索系统其研发目的:(1)解决信息检索中不确定性推理的需要知识检索式信息检索技术发展的焦点和方向,其依赖于语言学工程的突破,绝不是一朝一夕的事情,IBM和微软亚洲研究院等机构在这方面投入了很大的力量。但是目前搜索引擎任然存在不少的局限性,主要有信息丢失、返回无用信息及信息无关等几个方面。经典逻辑促进了人工智能的早期发展,是公认的人工智能基础理论之一。当今人工智能发展遇到的重大难题是专家经验知识和常识推理,他们具有随机性、模糊性和近似性,都会引起推理不确定性和演化。刚性逻辑学已经无法满足这种时代的需要。时代的发展需要柔性逻辑学,21世纪的科学必须正面研究不确定性和演化,柔性逻辑学应运而生。事物的不确定性反映在数值特征上是连续可变性,反映在逻辑特性上是柔性。该研究的目的不是抛弃精确严谨的数学方法,而是深入刻画事物中客观存在的各种不确定性和演化过程。(2)解决信息超载与饥饿的矛盾随着因特网的迅速发展、Web信息的增加,用户要在信息海洋中查找信息,就像大海捞针一样,基于云模型的个性化检索系统以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。(3)探索个性化数字数字图书馆建设和信息服务的新模式网络信息资源是数字化图书馆的重要组成部分,为用户提供方便快捷的、主动地、个性化的、安全可靠的服务,系统对用户进行个性化服务,用户能定制自己所关注的资源信息,及时获取由图书馆系统根据用户关注点所自动推送的即时信息。提供异构资源检索平台,使用户真正享受跨库无缝检索。(4)探索检索评价的新方法24 信息检索的性能需要通过一定的方法来评价,每一种检索方法的优劣,也需要一种合适的度量方法来评价。因此,检索评价是信息检索领域十分艰难而有意义的任务,尽管许多学者在信息评价方面做了大量工作,并且很多方法被提出,尤其是沙顿在评价观点和相关性问题上都有详细的论述,对于检索有效性的度量问题,特别是单值度量和利用率度量也提出了精辟见解。但是任然没有出现一个通用的有效的评价方法。因此,我们试图在这方面做些尝试。2.个性化检索系统的框架个性化信息检索系统的框架如图5-1所示。其中,虚线和实线表示不同的反馈机制。信息检索系统由四大主要功能模块组成:文档表示模块、查询表示模块、文档和查询的匹配策略模块与知识库。所有IR检索效果的技术中最主要的是相关性反馈,它可能也是最成功的技术。选择文档文档内容表示文档索引库词法分析句法分析语序调整语义分析语言知识常识知识规则知识领域知识领域知识同义词词林HowNet信息需求query信息表示匹配召回的文档后处理用户兴趣库泛概念知识库Internet用户图5-1个性化信息检索的框架3.检索过程24 信息检索的过程:(1)首先由spiders智能软件进行选择要使用的文档,确定文档的模型(及文档所采用的数据结构),并自动标引,建立文档的索引,利用文档索引可以大大提高文档的检索速度。目前有多种建立文档的索引的方法,但是对于大规模的文档信息库来说,使用最多的是倒排索引。(2)查询主题在真正进行处理之前要进行预处理(如分词、个性化调整、反馈操作、泛概念搜索等)。(3)查询主题和文档的匹配。(4)召回的大量文档结合用户兴趣库进行后处理,并进行评价,最后将查询结果按照一定的次序排列后返回给用户。(5)用户可以检查那些搜索结果,然后对这些结果进行评价,这些评价信息将被用作反馈来影响用户的下一次查询。(三)、信息检索的关键技术1.文本检索预处理为了提高用户的查询精度,系统的运行效率以及空间利用率,都需要对文档进行先期处理,主要包括基本的文档处理和建立索引。基本的文档处理包括词法分析技术、词典的生成及相关的自然语言处理技术。词法分析是将字符串(文本)转换成词条的过程,主要包括以下几个任务:(1)查词典;(2)处理重叠词、离合词和前后缀;(3)未定义词识别;(4)切分排歧;(5)词性标注。词法分析是从词典中划分出词,而句法分析的作用是了解这些词之间的关系。所以,句法分析的输入是一个词串,输出是句子的句法结构。无用词汇的删除,主要是去除掉那些对于信息获取过程来说区分能力低的词汇。特征项选择是对给定的文本分类,获得样本的特征词集。一个有效的特征项集应该该具备以下两个性质:完全性和区分性。完全性:能体现目标内容,即该词条在该类文档中出现的频率比较高;区分性:根据特征项集合,能够将该类文档和其它文档区分开,即该词条在整个类别空间中的其他类别中出现的频率足够小。词典的主要作用:(1)提供索引、搜索的标准和泛概念的云数字特征。(2)提供检索的词的层次结构。文档聚类:它试图去发现数据自身的内部结构,将特征向量以“聚类”的形式分组。聚类能够在没有训练样本的情况下,自动产生分类模型。不仅可以节省人力,而且还能发现新的信息资源,便于对其进一步分析和利用。自动分类和聚类技术在IR中应用研究已有很长时间,最近几年这些技术更为流行。文本压缩是指用较少的位或字节来表示文本,目的是为了减少存储空间。索引技术是建立文档索引库的基本技术:倒排文档、后缀数组和签名文件。倒排文档是把记录中的可检字段(如篇名,作者、关键字)抽出,包括单元词和多元词,按照某种顺序重新加以组织后所得的新文档。既可以按不同类型的字段分别组织不同的倒排文档(如主题词倒排文档、作者倒排文档、关键词倒排文档等),也可以把不同字段组织成一个混合倒排文档,如基本索引倒排文档、辅助索引倒排等。倒排文档中的“倒排”两字的含义是相对于顺排档而言的。其实在计算机存储器中,倒排文档也是按顺排文档方式存取的,二者的区别是:顺排文档以完整记录为处理和检索单元,倒排文档则以记录中的字段为处理和检索单元。倒排档相当于检索工具的“辅助索引”部分。顺排文档是按记录的存取号的大小顺序存入全部记录,它相当于印刷型检索工具的正文部分。按记录顺序一个接一个的存放,一个存取号对应一条记录,存取号越大对应的记录就越新。由于它存储有记录的最完整信息,所以常把它称之为主文档。这种存储方式注定了对记录的存取只能按顺序进行;如果在顺序文档中检索,对每个检索提问都式必须按顺序从头到尾扫描,存储的记录越多,扫描的时间越长,这严重的影响着检索的速度。倒排文档在当前大多数信息获取系统中得到应用,它对于关键词的查询非常有效。在现实中,索引文件一般很大,其占据内存可能有数兆甚至1G。为了解决倒排索引存储开销太大的问题,人们提出了一些压缩方法:措贝尔等人将伊莱亚斯的压缩体制用于置入表。最后要提到的是,“glimpse”软件包中使用一个很粗的索引加上“agrep”包来实现近似搜索。24 后缀树:是将文本看成一个很长的字符串,文本中的每个位置都看成一个文本后缀(从该位置到文本结束所包含的字符串),每个文本后缀都由它在文本中的位置所唯一确定。这些位置并不需要全部都建立索引,这就需要索引点的选择问题。如果所有索引点都选择为每个单词的开始,这样该索引在在功能上就与倒排文件类似。那些不是索引点的元素将不被检索。因此,后缀树不仅可以对单词进行索引而其可以对文字进行索引。后缀树的特点就是能快速的对短语进行索引。签名文件方法,是将每个文档都通过Hash函数及重叠编码产生一个称为签名的位串。文档的签名结果存入一个单独的文件中。签名文件比原文件小得多,因此可以提供更加快速的搜索。当前引起了广泛地的关注。2.潜在语义标引潜在语义标引(latentsemanticindexing,LSI),又称隐性语义标引,是一种被证实比在沙顿的SMART使用的传统向量空间技术性能更好的IR向量空间技术。潜在语义标引法通过单值分解将词、文档和提问依语义相关程度组织在同一空间结构中,在这一空间中,分散在不同文档和提问中的同义词相近放置,具有不同的词但主题语义接近的文档和提问相邻组织。也是一种探查语义联系的方法,将同现词条映射到同一维空间上,而非同现词条被映射到不同的空间上。因此在文档和提问检索词不匹配的情况下,这种方法任可以给出合理的检索结果,这一点显然是基于关键词的检索系统所无法达到的。因为每个词在潜在语义空间中只有一个位置,因此这种标引法目前对多义词还难以应付。在简化的SVD描述中,文档集合中一个含义模糊的词将被放置于多个独特含义的矩心,这无疑会对检索产生负面影响。尽管这种方法还存在缺陷,但是许多学者对其进行试验后认为,潜在语义分析标引法是一种很有希望的方法。3.泛概念的云知识库泛概念的云知识库是模糊概念具有云特征的知识库,在信息检索时,模糊地边界和不清楚的样例是概念的普遍情况。怎样表示用自然语言表述的泛概念?基于云模型的理论,我们用自学习的方法建立一个云知识库。对泛概念进行划分,方法如下:对数量型属性的定义域,划分为多个由云模型表征的概念时,如何使划分得到的概念反映此属性中数据的实际分布?可通过云变换自动划分,云变换是指对于任意一个不规则的数据分布,根据某种原则进行数学变换,使之成为若干个云的叠加。由逆向云发生器算法求出的数字特征值,有时需要人工干预进行划分,或对某些泛概念给出经验值Ex、En、He。4.检索模型基于云模型的信息检索系统框架中,给出了四大主要功能模块:文档表示模块、查询表示模块、文档和查询的匹配策略模块与知识库。其中文档和查询的匹配策略,是指检索模型,为了建立一个检索模型,必须首先考虑文档的逻辑视图和用户的信息需求。给出这些表示后,就可以构造一个模块框架了,由此设计一个检索策略。5.检索评价检索评价是信息检索到的关键性技术之一,信息检索性能的评价,就是要解决为什么对检索性能评价,评价什么和怎么评价问题。评价的目的是为了准确的了解系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。检索评价包括技术评价和社会经济评价两个方面。技术评价主要是指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济评价是指系统如何经济有效的满足用户需要,使用户或系统本身获得一定的社会和经济效益。因此,技术评价又称为性能评价。社会经济评价又称为效益评价。而且要与费用成本联系起来,比较复杂。另外,用户相关性的传统判断方式是二值的,即用户将任一文档与其所提出的请求相比,只能是“相关”或“不相关”,二者必具其一。而对于特定的用户需求而言,一篇文档的相关性往往是多值的,可能“相当相关”、“比较相关”、“一般相关”、“基本相关”和“完全不相关”等等。6.用户个性化兴趣24 以前的信息检索系统只对查询请求和文档做相关性判断,而这种相关性对任意用户都是同一状态,没有对用户需求和文档的相关性进行具有普遍意义的估计。不能体现个性化。因此,个性化检索系统中应该建立用户的个人档案,依据个人档案,可将用户分类,在用户检索时,对于相同的检索条件输入,将用户感兴趣的内容提供给用户,并将其他内容剔除,返回给用户更加符合实际需求的结果集。例如对于相同的检索条件,系统返回给某领域专家的内容应该和返回给该领域的初学者的内容不同。7.查询相关性分析信息检索当中相似度的计算是一个重要的问题。本文研究的主要是文档和用户的相关性,也就是通过计算相似度来发现文档和用户查询在意义上的符合程度,如果用户查询和文档向量的相似度越高,则文档和用户查询在意义上的符合程度就越高,否则二者的符合程度就越低。8.后处理尽管采用了各种方法来提高检索结果的精度,但结果中仍然包括了很大比例的用户查询不相关的文档。用户必须逐个地浏览才可以找到相关的文档。特别是返回结果书怒巨大的时候,这个问题尤其突出。因此需要对检索结果进行后处理。一般而言,后处理有概率法、位置法、摘要法和数据挖掘法(分类和聚类法等)。概率法根据关键词在文档中出现的概率来判定文档的相关性,关键词出现的次数越多,该文档与查询的相关度越高。位置法根据关键词在文档中出现的位置来判定文档的相关性,关键词出现的位置越靠前,文档的相关度越高。摘要法是指信息检索系统自动地为每个文档生成一份摘要,让用户自己判定相关性。用数据挖掘技术对信息检索结果进行后处理,包括聚类算法、分类算法、熵理论、检索数据的消重算法等。该研究将分类技术用于信息检索中,将返回文档集聚类或分类成若干簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能小。用户只需考虑那些相关的簇,大大缩小所要浏览的结果数量。当一次聚类生成的簇不能满足需求时,可以对该簇中的文档再次聚类,直到满意为止。消重算法:我们要得到独立的信息量,必须对具有相同内容的网页进行消重,对于我们收集到的网页,存在两种形式的内容重复,第一种是在同一次收集的网页中,可能存在着相同内容的网页,它们的产生是由于同一篇报道在不同网站上的复制,对应不同的URL;另一种是在多次收集中产生,有些网页可能在多次收集中都没有变化,他就被收集了多次。9.相关反馈通常,用户很难提出准确的查询,初始查询比较模糊,也由于标引和检索策略往往出现误差,信息处理机往往不能为用户提供满意的信息,因而需从用户对输出结果的分析所得的信息进行反馈,以得到修正的查询、标引、和检索策略,提高查询精度。其中标引和检索策略是信息检索中的两个重要因素。六、一种高效的信息检索算法信息时代如何提高信息检索的效率一直是信息管理人员关注的问题。提高信息检索效率的有效途径是构建被检索信息与其存放地址之间的关系(HASH)。到目前为止,构造HASH函数的方法很多,常用的方法有:直接定址法、数字分析法、平方取中法、折叠法、除留余数法、随机数法等转换算法。但是不论哪种算法都会出现“碰撞”现象,因而就限制了上述方法的普遍使用。为了解决或减少“碰撞”,我们把HASH的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。  (一)、HASH函数的构造  桶排序法,先把被排数据所分布的区间[Dmin,Dmax](在这里Dmax,Dmin分别为被排数据的最大,最小值)划分成N个大小相等的子区间,称为“桶”,然后将N个数据根据其大小分配入相应的“桶”内(桶[1],桶[2],…,桶[N])。借签桶排序中将数据根据其大小分配入相应“桶”的思想,我们在检索时将已排好序的数据也根据其大小将其分配入相应的“桶”内,然后再在“桶”内进行二分检索。假设按升序排列的N个数据已存放在data数组的元素data[0]~data[N-1]中,构造一个HASH函数描述为:24   (式中Dmax=data[N-1],Dmin=data[0],N为数据个数)  (二)、基于HASH函数的二分检索算法HS算法HS使用二个数组,data数组的元素data[0]~data[N-1]中存放按升序排列的N个数据,address数组的元素address[1]~address[N]中用来存贮经HASH函数转换后得到相同地址的数据个数。算法HSHS1[清address数组]将address[1]~address[N]都置0HS2[Dmax中置最大值、Dmin中置最小值]Dmax←data[N-1],Dmin←data[0]HS3[i置初始值]i←0  HS4[求数据data[i]的HASH变换后的地址[ad]HS5[地址“碰撞”记数器address[ad]加1address[ad]←address[ad]+1HS6[修改i]i←i+1HS7[比较i与N-1]若i<=N-1,则转HS4,否则转HS8。HS8[address[0]置初值1address[0]←1 HS9[j置初始值]j←1HS10[求地址发生“碰撞”的数据在DATA数组中的首址]address[j]=address[j]+address[j-1]HS11[修改j]j←j+1HS12[比较j与N]若j<=N则转HS10,否则转HS13。HS13[输入一个被检索的数据X]HS14[对被检索数据X用HASH函数得地址ad]  HS15[确定“块”的下界low,上界high的值]low←address[ad-1],high←address[ad]-1HS16[在“块”内进行二分检索]在给定的下界与上界之间进行二分检索,若找到,则返“检索成功”信息,否则返加回“检索失败”信息。 HS17[本算法结束](三)、平均检索长度的分析在本检索算法中,首先将被检索数据X经HASH函数转换出一个地址,根据这个地址将被检索的数据直接定位到相应的“块”中,然后在“块”中进行二分检索。因此通过对所有“块”内二分检索法的平均检索长度的计算就可求出本算法的平均检索长度。二分检索法的平均检索长度为:  下面我们来求本算法的平均检索长度。假设在N个数据均匀分布的情况下,经过本检索算法中HASH函数转换,每一个地址出现的概率相同,都等于1/N,因此,有m个数据转换得到相同地址的概率为:  (m=1,2,…,N)24 由于:(1)所以本检索算法的平均检索长度为(2)由上式(1)和式(2)两个公式即可求得本算法的平均检索长度,其平均检索长度小于1.352(当N>100时)。(四)算法分析与实验结果  1.本算法的创新之处在于通过HASH函数可将被检索的数据X直接位置定位到相应的“块”(通过HASH函数转换后的地址相同的数据区间)中,再在“块”中进行二分检索。从而不再需要建立索引顺索表检索算法中的索引表,也就省去了索引顺索表检索算法中查找索引表确定所在“块”的平均检索长度。2.此方法突破了HASH表的平均检索长度是装填因子(=(表中填人的记录数)/(哈希表的长度)的函数,而不是N的函数的弱点。3.在理想情况下,即数据完全是均匀分布的情况下,本算法的平均检索长度可达理论极限值ASL=1。即使是在最坏的情况下,当N个数据经HASH函数转换后的地址均相同,所有数据均落在同一个“块”中,其平均检索长度ASL也只会下降到二分检索法时的平均检索长度。4.本算法对于均匀分布的数据是极为有效的,通过计算得出其平均检索长度小于1.352(N>100时),因此检索效率很高。5.本算法中的步骤HS1~HS12仅仅是为检索作的准备工作,相当于初始化的工作,只需在检索开始时做一次即可。6.实验结果。为了对本检索算法的检索效率进行验证,我们用VB6.0编写了本算法以及二分检索法的程序,将二种检索算法的平均检索长度进行实际测定,实验中所用的数据由VB6.0的随时函数产生,数据的范围为(0~10000),实验结果如下表所示:表6.1 VB6.0程序二种检索算法平均检索长度对比表 数据量基于HASH的平均检索长度二分检所发的平均检索长度1001.385.810001.3498.88720001.2969.78930001.26210.346750001.166210.9212100001.381.2411.553  我们在实验中测定平均检索长度时,通过程序对所有数据逐个检索,统计出检索完所有数据需进行比较的总次数再除以数据总数后得出。上表中当N=100时,本算法实际测定的值(1.38)与理论计算(1.352)略有误差,原因是我们用VB6.0中的随机函数产生的随机数在数据量较小时分布不一定很均匀。从表1中可以看到:当数据量稍大一些(N>100),本算法的平均检索长度的实测结果完全与理论分析一对致,并且远小于二分检索法的平均检索长度。本算法的平均检索长度随着数据量N的增加几乎不变。贴七、基于web的信息检索系统设计24 Web信息的迅速增长造成信息过载,用户查找信息需借助搜索引擎,而搜索引擎提供的服务却难以令人满意。一方面由于用户和系统的交互性差,用户清楚自己的信息需求特征却无法描述,另一方面由于搜索引擎自身特性,无法过滤与用户无关的文档。本章希望采用网络智能思想,通过多智能代理技术,结合用户的基本信息和动态信息建立用户模型和用户群模型,运用信息检索和数据挖掘技术,建立了一个个性化信息检索模型。结合智能体的思想,通过某种方式完成信息查找、过滤和调整。使得系统具有灵活性、智能性和扩充性。(一)、Agent技术Agent是一个实体,具有一定的知识,并能够针对特定目标有效地运用知识求解问题,具有自主性、交互性、适应性、进化性、可通信性、理性等特性。每个Agent会观察用户的动作,主动提供处理环境所需技术,根据用户反馈不断更新检索结果,为实现Web信息检索智能化提供了有力支持。多Agent是指具有不同目标的多个Agent对其目标、资源等进行合理的安排,以协调各自行为,最大程度地实现各自的目标,它由多个Agent组成,每个Agent又是一个自治计算实体,具有目标、知识、能力。多Agent适应个性化信息检索处理环境所需的灵活性的特点,可以在Web上建立能够完成相应功能的Agent,通过学习不断适应调整并通过交互相互通信合作,协助用户准确、有效地获取信息。智能代理技术,主要是指具有智能性,可支持高级、复杂自动处理代理软件技术,并能够按照设计者指示要求独立收集信息并在再次过程中自我学习,具有自动性,目标驱动性。连续性和能动性等特点,可以在较高的程度上去分辨识别、理解与应用其用户的需求及其特征。智能代理技术为Internet上自动的信息收集提供框架。基于此功能特性,通过对相关应用和系统的分析,提出了一个基于MAS的实现框架。个性化信息检索是指根据用户的兴趣和特点进行检索,返回与用户需求相关的检索结果。一般检索过程:首先用户输入查询请求,然后搜索引擎搜索文档,并将搜索结果返回给用户,最后用户查看相关文档或者修改查询请求。查看相关文档或者修改耷诲请求是用户对检索信息的反馈,能够反映用户信息需隶及其变化。通过反馈信息,实现用户个人Agent和用户群Agent的模型更新,完成个性化过滤和协作式推荐2部分功能,因此用户个人Agent和用户群Agent是系统的核心。图1表示该个性化信息检索模型框架结构。下面对用户个人Agent、用户群Agent、推荐Agent、过滤Agent功能模块在实现机制上进行分析说明。1.用户个人Agent用户模型的表示采用向量空间模型的方法,将用户模型表示成一个n维特征向量:向量的每一维由一个关键词及其权重组成。权重表示用户是否对某个概念感兴趣以及感兴趣的程度,文档模型表示成为一个n维特征向量:向量的每一维由一个关键字及其权重组成。ti表示文档中的关键字j,wji表示关键字j在文档i中的权重。这种方法有利于表达概念在不同用户模型中的重要程度,而且有利于后续阶段匹配任务。用户模型的更新采用动态信息增补技术,动态信息增补对反馈过滤的信息加入到用户模型后调整各向量的权重,与用户无关的特征向量随着权值的减小从模型中被删除。24 用户个人Agent用户监控Agent用户注释Agent通信Agent搜索Agent过滤Agent查询Agent推荐人Agent用户群Agent用户端服务器图7-1个性化信息检索模型框架结构24 2.用户群Agent用户群Agent的建立采用聚类技术。聚类是将具有相同特征的项目和用户分类,用于建立用户综合模型。该聚类为个体和类之间的聚类而不是个体之间的聚类。用户模型表示成1个n维特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式计算用户和类的相关度。用户聚类采用关键词匹配法,根据需要设定阀值ε,当用户和类之间相似度大于ε时,说明用户属于该类,兴趣相同。用户群Agent更新算法为用户群模型的更新为追踪推荐模型中符合要求的关联文档点击次数,随着点击次数的增加,推荐用户的个人Agent的权重增加。3.查询Agent查询Agent一方面负责用户Agent查询引导,另一方面接受用户群Agent的查询扩展。用户个人Agent查询引导,将用户特征模型的向量根据反馈信息提取用户查询结果的有关信息和无关信息,将其特征向量加入模型作为调节因子,其调节因子为布尔值,表示用户是否感兴趣,从而引导用户查询,修改查询中的关键词的权重。用户群Agent的查询扩展,用户个人Agent记录用户资源列表,在用户聚类基础上查询,查询资源聚类形成类资源,将类名表给用户反馈过滤得到相关类名表,查询Agent根据相关类名表,更新查询特征向量,进行扩展查询,查看点击兴趣Agent的资源列表。4.过滤Agent用户模型和过滤文本的匹配包括2方面:用户个人Agent过滤和用户群Agent过滤。用户个人Agent使用关键词匹配法,使用tf-idf计算权重值,然后用余弦公式计算内容相关度。根据需要设定阀值ε,当文档d和主题q之间相似度大于ε时,说明内容符合主题,是用户需要的文档。用户群Agent过滤采用基于用户一项目评价矩阵的表示法。用一个Rm×n矩阵来表示用户模型。其中m为系统用户数;n为项目数。矩阵中的每个元素rij表示了用户i对项目j的评价,一般是某个实数范围内的整数值。通常值越大,表示用户对相应项目的偏好程度越高。空元素值表示用户没有对相应的项目做出评价。采用这种表示方法的系统多是基于协同过滤的推荐系统。这种表示方法简单、直观,不需要任何学习技术就能够从收集的原始数据(显性的用户评价数据)中直接生成。5.推荐Agent推荐Agent主要负责推荐关联文档,并更新用户群Agent模型。查询一个n维特征向量{(t1,w1),(t2,w2),…,(tn,wn)},文档模型为一个n维特征向量:di={},推荐模型中个人模型为M={d1,d2,…,dm),则推荐模型中关键词在推荐群中单个用户的权值为: 根据权值推荐汇集集合排序,并将和用户有较高相关度的前N个文档呈现给用户。(二)、系统功能流程分析该系统的个性化信息搜索分为个性化过滤是通过建立用户个人Agent进行过滤,而协作式推荐通过建立用户群Agent进行推荐。个性化过滤过程个性化过滤流程如图7-2所示,首先通信Agent将反馈信息发送给用户监控Agent,用户监控Agent抽取反馈信息中的行为信息,然后结合用户注册Agent的基本信息和用户监控Agent的显性信息,用户个人Agent用向量空间模型法提取特征建立模型,最后过滤Agent用关键词匹配方法将个人特征向量和搜索文档进行匹配过滤得到个性化查询结果。搜索并返回结果修改查询查看相关文档更新用户特征向量过滤搜索结果引导查询提问查询图7-2用户个人Agent个性化过滤工作流程协作式推荐过程协作式推荐流程如图7-2所示,首先在用户聚类的基础上,查询特征向量发布到类中各个成员、各个成员查询资源列表;将查询资源汇集,然后聚类资源,形成类资源;将类名表发送给用户,反馈相关类名;最后在类资源中提取相关类资源,经过推荐过滤,形成查看资源。过程如图7-3所示: 个人特征向量群特征向量用户聚类查询特征向量查询资源汇集资源聚类、形成类资源过滤反馈,得到相关类名相关类资源推荐资源过滤查看资源更新特征向量、扩展查询图7-3用户群协作式推荐工作流程(三)、模型特点1.该模型采用多智能体技术,使得各个部分自主学习、相互协调;使得个性化信息检索中的数据收集,模型表示、模型的学习和模型的更新中功能能够由其中多个Agent更好地协调补充完成,使各个过程具有智能化特点。2.充分挖掘用户的信息需求,用户注册Agent主要负责显性信息的获得处理,记录用户的基本信息和用户资源列表、用户直接参与、简单直接。用户监控Agent主要负责隐性信息获得处理,记录用户的动态信息,在不影响用户活动的前提下动态实时获得最新信息。3.采用C/S框架结构,通信模块介于之间,负责信息交互,个人用户建模在客户端代理执行,可以保护用户的隐私,用户聚类与合作在服务器端代理实现,可以在充分保护个人隐私的前提下,实现信息资源共享,提高Web信息的覆盖率。4.建模技术的使用,一方面利用个人模型引导用户提问,过滤检索结果,使检索更符合个性化要求;另一方面充分利用群用户的信息,在合作的基础上,得到和用户请求相关的推荐结果,查询扩展,实现资源共享。该个性化信息检索模型提出多智能体的框架结构,运用用户建模和群建模技术,使两者相互结合,相互补充,既注重用户的个性,过滤无关内容,又发挥合作作用,共享相关内容,实现了信息检索的个性化、智能化。八、信息检索仿真实验(一)、文本处理与倒排文档的建立1.实验目的:通过用高级语言编程实现倒排文档组织,深刻理解倒排文档的结构和组成,掌握自动抽词标引、建立倒排文档的基本原理和实现方法。2.实验内容:(1)系统功能 建立文献信息条目的顺排文档;对标题字段、文摘或全文字段进行自动抽词标引;建立倒排文档组织。(2)处理方法与思想根据文献中词频、词性与词的区分能力之间的关系,具有好的区分能力的词应是中等词频有实际意义的词,根据这一思想去掉停用词,对文本进行词干化处理。然后根据一定的关键词赋权方法进行自动标引和抽词,生成K-D文件和倒排文档。(3)算法流程与数据结构①.从磁盘中读入一篇文献②.对文献文本进行预处理:词汇分析删除停用词词干处理选择标引词建立概念等级关系③对选出的标引词及其地址和记录号进行输出并存储在磁盘空间中,生成标引词表wordlist.txt文件④对检索入口词进行规范化处理,通过屏幕输入检索词进行检索,并验证倒排文档的生成(4)源程序以下采用c程序设计语言实现上述算法#include#include#include#include#defineMAX_LENGTH6#defineMAX_COUNT1000#defineSTOPLIST_COUNT20charxx[50][80];intmaxline=0;/*theTotalLineOfThed1.txt*/typedefstructnode{charword[20];charnum[10];introw;intcol;}WNODE;WNODEwordList[MAX_COUNT];char*stopList[]={"a","an","and","are","as","at","be","by","for","from","in","is","of","on","or","our","the","to","with","we"};intSearchWord(char*str){inti=0;for(;ilevel(Aj),则立即停止向后搜索,并进行以下操作:NFD(Ai)NFD(Aj)②逆向扫描遇见AFD(Ai)为空时,同样应向回搜索,依次判别各项level(Aj)值。当满足条件level(Ai)>level(Aj)或者搜索到提问逻辑式中最后一个检索项目词时,进行以下操作:AFD(Ai)AFD(Aj) 3、分析提问式Q=A+B*(C+D*(E+F))+G*HQ=01+02*(03+04*(05+06))+07*084、检索处理流程从顺排文档中依次读出一篇文献记录,然后与提问文档中所有的提问式进行匹配检索,如满足提问表达式所要求的条件,该文献记录就作为提问式的命中文献输出。系统需要对提问文档中各提问式分批进行处理,先从提问式文档中取N个提问式处理,当这N个提问式与所有数据库中文献记录匹配完毕后,再从提问式文档中取N个提问式重复以上处理过程,一直到提问式文档中数据处理完为止。(1)数据结构①检索词表结构检索词表是为了描述提问式中出现的提问检索词而设计的。因为在实际提问式处理过程中,提问检索词只是以其在检索词表中检索词号形式出现,而不是检索词本身。②展开表结构表8.1检索词表的结构地址AFDNFD层次值检索词号属性项号比较部位比较条件有效位检索词项地址是指该行所在展开表中地址匹配成功时转向地址AFD,给出一旦在检索词与文献记录中标引词匹配成功时,下步应该处理的提问检索词在提问表中的地址。匹配不成功时转向地址NFD,给出一旦检索词与标引词匹配失败以后应该转向展开表中的地址。层次值给出层次计数器在完成展开表填写时的当前处理值。③标引词标识表结构是为了描述文献记录中各标引词特征而设立的,它的设立为提问文档与文献记录的匹配奠定了基础。表8.2标引词标识表结构标引此标识号有效值项目词标引词标识号是系统赋予从文献记录中抽出标引词的类编码,实际上是属性项号。有效位是指标引词在匹配中的有效长度。项目词是指具体的标引词3.源程序以下采用c程序设计语言实现上述算法#includemain(){intb[20],a[20][4];inti,h,j,k,l,level;printf("inputquery: ");i=0;do{scanf("%c",&b[i]);i++;}while(b[i]!='.');h=i;for(i=0;i='A')&&(b[i]<='Z')){j++;a[j][4]=b[i];}if(b[i]=='+'){a[j][2]=a[j+1][0];a[j][3]=level;}if(b[j]=='*'){a[j][1]=a[j+1][0];a[j][3]=level;}if(b[i]=='(')level+=1;if(b[i]==')')level-=1;if(b[i]=='.'){a[j][1]='Y';a[j][2]='N';l=j;}}for(j=l;j>0;j--){if(a[j-1][3]>a[j][3]){if(a[j-1][1]!=0)a[j-1][2]=a[j][2];if(a[j-1][2]!=0)a[j-1][1]=a[j][1];}if(a[j-1][3]==a[j][3]){if(a[j-1][1]!=0)a[j-1][2]=a[j][2];if(a[j-1][2]!=0)a[j-1][1]=a[l][1];}if(a[j-1][3]='A'&&ch<='Z'||ch>='a'&&ch<='z'){/*asp[n]=ch;*//*生成检索词表,算项保存在数组asp[k]中*/exp[t]=ch;t++;/*n++;*/}elseif(ch=='(')/*生成算子栈,并判断优先级,符合条件的算子保存在数组stack[top]中,判断算子出栈,进入逆波兰输出区*/{top++;stack[top]=ch;}elseif(ch==')'){while(stack[top]!='('){exp[t]=stack[top];top--;t++;}top--;}elseif(ch=='+'||ch=='-'){while(top!=0&&stack[top]!='('){exp[t]=stack[top];top--;t++; }top++;stack[top]=ch;}elseif(ch=='*'){while(stack[top]=='*'){exp[t]=stack[top];top--;t++;}top++;stack[top]=ch;}ch=str[i];i++;}while(top!=0){exp[t]=stack[top];t++;top--;}exp[t]='#';for(j=1;j<=t;j++)printf("%c",exp[j]);printf(" ")}/*从文件中分行读入文献记录*//*fp=fopen("index.dat");j=0for(i=0;i<100;i++){while(fp!='#'){fscanf(fp,"%c",&index[i][j]);j++;ch=index[i][j];y=1;top=0;for(k=1;k<=t;k++) {if(ch>='A'&&ch<='Z'||ch>='a'&&ch<='z')cc=exp[k];top++;{if(strcmp(ch,cc)=0)/*算项集合与文献记录进行比较*//*yard[top][y]=i+1;y++;}else{switch(exp[k]){case'+':yard[top-1]=strcat(yard[top-1],yard[top]);break;case'-':yard[top-1]=str(yard[top],yard[top-1]);break;case'*':yard[top-1]=str(yard[top-1],yard[top]);break;top--;}}if(feof(fp))break;}fclose(fp);printf("TheRetrievalResultsare:");printf(" ");for(x=1;x

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭