vegagispoi搜索引擎的设计与实现

vegagispoi搜索引擎的设计与实现

ID:33657961

大小:62.16 KB

页数:5页

时间:2019-02-28

vegagispoi搜索引擎的设计与实现_第1页
vegagispoi搜索引擎的设计与实现_第2页
vegagispoi搜索引擎的设计与实现_第3页
vegagispoi搜索引擎的设计与实现_第4页
vegagispoi搜索引擎的设计与实现_第5页
资源描述:

《vegagispoi搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、VegaGIS@POI搜索引擎的设计与实现潘明远,董刊生,方金云,章立生中国科学院计算技术研究所空间信息处理技术实验室,北京,100190E-mail:panmingyuan@ict.ac.cn摘要:随着现代互联网经济的迅猛发展,地图搜索(POI)成为空间信息服务业发展的核心技术。VegaGIS地图搜索引擎采用倒排索引对POI名称字段进行索引,TF-IDF法对搜索结果排序,应用嵌入式数据库BDB存储全部POI数据以及文本索引,同时应用缓存机制提高搜索效率。实验结果表明,该POI搜索引擎在准确性方面P@10值平均为43%,效率平均为28.1

2、毫秒/请求。该引擎已经应用于通图(www.Tongmap.cn)和E都市(www.e-city.net)地图门户系统中。关键词:POI搜索;索引;织女星地理信息系统;通图。1引言随着网络技术的飞速发展,网络上信息量急剧增长,并成为了人类有史以来数量最多、种类最全、规模最大的综合信息数据库,如何有效地从互联网上获取信息就成了一项艰巨的任务。搜索引擎最早起源于1990年加拿大吉尔大学开发的Archie软件,它惊奇搜索并分析FTP系统中存在的文件名信息,并对外提供服务。现代搜索引擎的思路来源于wanderer的蜘蛛程序,后来不少学者将蜘蛛程序引

3、进搜索引擎,1995年对DEC发布的AltaVista是第一个支持自然语言搜索的搜索引擎。1998年Google在PageRank、动态摘要、网页快照等集成搜索、多语言支持、用户界面等功能上的革新,彻底地改变了搜索引擎的定义。在国内,对搜索引擎的研究起源于“中国教育科研网”一期工程的子项目,1997年北京大学推出天网搜索,2000年百度公司推出了专注于中文的搜索的商业搜索引擎。POI(PointOfInterest)搜索也叫地图搜索,是互联网搜索的主要应用之一,POI搜索在技术上与网络搜索一脉相承,但是属于本地搜索,它支持用户搜索与地理位

4、置相关的兴趣点,如大学、餐厅等。谷歌、百度、mapbar等主要搜索厂商已经推出了POI搜索服务,针对国内市场来说,POI搜索具有广阔的市场前景和巨大的应用价值。POI搜索引擎是基于POI数据进行搜索的垂直搜索引擎,在逻辑功能上包括分词、索引、搜索、搜索结果排序、缓存以及数据的组织、存储。本文详细介绍了VegaGISPOI搜索引擎的关键技术和测试应用情况。2系统框架信息检索的过程可以描述为利用基础数据库建立索引、检索,最后对结果进行排序或过[1]滤,信息检索处理流程如图1。结合上述过程,本系统主要由分词、文本索引文本检索以及缓存等模块组成。

5、选用已有的分词工具实现分词功能;对现有的文本信息处理技术进行对比分析,从中选定满足POI搜索中的文本信息检索(如,文本索引、文本排序)需求的关键技术;应用嵌入式数据库BDB存储全部POI数据以及文本索引,同时应用缓存机制提高搜索效率。603图1信息检索流程图本POI搜索引擎流程如下:1、利用已有的POI数据集建立POI的BDB数据库。2、利用POI数据库,对每个POI的名称字段进行分词,建立倒排索引。3、系统启动时,将整个倒排索引读入内存。4、接受用户输入查询请求,首先查找缓存,如果命中,则直接返回查询结果;如果不命中,则对请求的文本进行

6、分词,对得到的分词结果分别查找倒排索引,然后对查询结果文本排序,将排序后的结果返回给用户。同时把排序得到的前50个结果存入缓存。3系统实现3.1分词分词,就是把一句话分成多个词。现代搜索引擎都是以词为单位建索引从而进行信息检索的。因此对于一个好的搜索引擎来说,分词是一个必不可少的核心模块。分词的质量直接决定搜索引擎的搜索精度,分词的速度也会影响搜索的速度。因此,一些大型Web搜索引擎都有自己的分词工具。这些分词工具采用的主流中文分词算法有:基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法。在使用分词工具的时候需要注意的一点

7、是[1]建立索引模块和搜索模块需要共用同一分词工具。中科院计算所的ICTCLAS分词工具是用C++开发,使用词库分词方式来实现分词,对词条进行词性标注,并支持用户自定义词典。本文中选用ICTCLAS3.0分词工具。3.2文本索引在Web检索系统中,文本索引用于对大量文本数据建立索引从而提高检索效率。常用的[2][3]文本索引方式有三种,分别是倒排索引、后缀数组和签名文件。倒排索引已经被大多数信息系统(如百度、Google)所广泛采用。它适合于人们的思维习惯同时对关键字的检索也非常有效。后缀数组在短语查询时具有较快的速度,缺点在于构造和维护

8、这样的索引库非常复[1,4]杂。签名文件在80年代很流行,其主要缺点在于误匹配,因此更多人转而使用倒排方式。604本文中采用倒排索引对POI名称字段进行文本索引。将POI的名称字段进行分词得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。