信息的收集处理

信息的收集处理

ID:28869049

大小:102.00 KB

页数:7页

时间:2018-12-14

信息的收集处理_第1页
信息的收集处理_第2页
信息的收集处理_第3页
信息的收集处理_第4页
信息的收集处理_第5页
资源描述:

《信息的收集处理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用标准文案UMLUnifiedModelingLanguage(UML)又称统一建模语言或标准建模语言,是始于1997年一个OMG标准,它是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持,包括由需求分析到规格,到构造和配置。面向对象的分析与设计(OOA&D,OOAD)方法的发展在80年代末至90年代中出现了一个高潮,UML是这个高潮的产物。它不仅统一了Booch、Rumbaugh和Jacobson的表示方法,而且对其作了进一步的发展,并最终统一为大众所接受的标准建模语言

2、。文献检索VS搜索引擎文献检索(InformationRetrieval)是指根据学习和工作的需要获取文献的过程。宋代朱熹认为“文指典籍,献指熟知史实的贤人”[1],近代认为文献是指具有历史价值的文章和图书或与某一学科有关的重要图书资料[2],随着现代网络技术的发展,文献检索更多是通过计算机技术来完成。狭义的检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。广义的检索包括信息的

3、存储和检索两个过程(StorageandRetrieval)。信息存储是将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。[4]文献检索语言是一种人工语言,用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。因其使用的场合不同,检索语言也有不

4、同的叫法。例如在存储文献的过程中用来标引文献,叫标引语言;用来索引文献则叫索引语言;在检索文献过程中则为检索语言。检索语言按原理可分为3大类:分类语言它是将表达文献信息内容和检索课题的大量概念,按其所属的学科性质进行分类和排列,成为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至还表示概念与概念之间关系的检索语言。《中国图书馆图书分类法》是我国图书分类法的基础,中图法把一切知识门类按"五分法"分为马列、毛泽东思想;哲学;社会科学;自然科学;综合性图书这五大部类。在此

5、基础上建成由22个大类组成的体系系列。主题语言是指经过控制的,表达文献信息内容的语词。主题词需规范,主题词表是主题词语言的体现,词表中的词作为文献内容的标识和查找文献的依据关键词语言指从文献内容中抽出来的关键的词,这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化,也不需要关键词表作为标引和查找图书资料的工具。自然语言指文献中出现的任意词。搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

6、搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。第一步:爬行精彩文档实用标准文案搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全

7、一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。第三步:预处理搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。⒈提取文字⒉中文分词⒊去停止词⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中

8、也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。压缩利用算法将文件有损或无损地处理,以达到保留最多文件信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。