GIS中文查询系统的词典设计与分词研究.pdf

GIS中文查询系统的词典设计与分词研究.pdf

ID:52470001

大小:1.41 MB

页数:4页

时间:2020-03-27

GIS中文查询系统的词典设计与分词研究.pdf_第1页
GIS中文查询系统的词典设计与分词研究.pdf_第2页
GIS中文查询系统的词典设计与分词研究.pdf_第3页
GIS中文查询系统的词典设计与分词研究.pdf_第4页
资源描述:

《GIS中文查询系统的词典设计与分词研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第31卷第4期武汉大学学报信息科学版Vol.31No.42006年4月GeomaticsandInformationScienceofWuhanUniversityApr.2006文章编号:16718860(2006)04034804文献标志码:AGIS中文查询系统的词典设计与分词研究1,21徐爱萍边馥苓(1武汉大学空间信息与数字工程研究中心,武汉市珞喻路129号,430079)(2武汉大学计算机学院,武汉市珞喻路129号,430079)摘要:在分析系统应用领域的基础上设计了系统词典

2、,提出了基于扩展ER空间数据库环境的全匹配分词算法,分析了算法的复杂度,解决了切分歧义和未登录词的问题,并通过一个实验原型对设计进行了验证,为GIS中文查询语句的正确理解提供了有效的语义信息。关键词:GIS;中文查询;系统词典;分词;全匹配中图法分类号:P208国内外学者在数据库的自然语言查询中已经[1]进行了多年的研究和探索,取得了很大的进步,但基于中文语句的数据库查询离实际应用仍然有距离,其主要原因是汉语不同于西方语言,存在切[2][3]分歧义和未登录词问题。受限语言的基本思想是在系统应用领

3、域的基础上,对自然语言适当加以限制,以显著降低复杂性和减少机器处理的困图1扩展ER空间数据库实体关系模型难。因此,研究基于系统应用领域的中文数据库Fig.1RelationshipModelofExtendedER查询接口是可行的,因为数据库查询句相对简单,SpatialDatabaseEntity表达的语义和查询的内容比较明确,歧义大大减少,因此,对添加的限制是可以接受的,相关研究1.1通用词典可参见文献[46]。但现有文献中,对空间数据库属于领域无关词类的词存储于系统的通用词[7]进行中

4、文查询的研究成果还不多见。本文在分析库中,在系统移植时,这些词一般不需要修改。系统应用领域的基础上设计了系统词典,提出了其分类如下:①连词、介词、量词、助词、数词和限基于扩展ER空间数据库的全匹配分词算法。定词,在词典里没有形式描述;②查询动词放在查询语句的最前面;③疑问词是判断查询语句结1系统词典设计构的关键词;④关系词用于形成关系表达式,如等于/为、以上/大于、不小于、小于/以下、不大自然语言理解中,词典是中文分词、语法分于/不超过、不等于等,它们在词典中的语义描述析、语义理解的基础,基于

5、受限汉字的词典设计必分别为=、>、、<、、<>等;⑤逻辑词指须对应用领域进行分析和研究,本系统的应用领是/真、不/假/否、或/或者、异或、并/并且/和之域是基于扩展ER空间数据库实体关系模型(如类的词汇,它们在词典中的语义描述分别为图1所示)的一系列中文查询语句。TRUE,FALSE,NOT,OR,XOR,AND等;为便于实现通用、可靠的分词系统,把要提取⑥函数词对应着一个函数,如总数、平均数、计的词条分为三大类:通用词、空间对象专用词、空数、距离、面积、长度等,它们在词典中的语

6、义描间关系词,分别存放在相应的词典中。述分别为SUM,AVG,COUNT,Distance收稿日期:20060117。项目来源:武汉市青年科技晨光计划资助项目(200450060716)。第31卷第4期徐爱萍等:GIS中文查询系统的词典设计与分词研究349(Shape1,Shape2),Area(Shape),Length在定义时,要避免这种二义性,在词典中不要出现(Shape)等;⑦排序词主要用在排序短语中,如名称的词,而要用城市名称和河流名称,并从大到小、从高到低等,

7、这类词在词典里的形式且还要有城市的名称和河流的名称,其中,描述为ORDERBY。城市名称和城市的名称对应的词类和描述完1.2空间对象专用词典全相同。所谓空间对象词,是空间对象自然语义的标表4部分专用词典[7]识。在空间数据库中,同一层内的空间对象都Tab.4PartSpecialDictionary有一个FID作为标识符,在相应的属性字段中,WordWordtypeDescribe城市实体湖北及邻区中国底图一般有一个字段存放该空间对象的自然名称,则城市名称属性湖北及邻区中国

8、底图.Name该字段就可以作为空间对象的自然语义标识。湖北属性值湖北及邻区中国底图.Name=空间对象词分为两类,一类表示空间对象集湖北合,一类表示空间对象个体。如在空间数据库中,1.3空间关系词典有一个河流层,则该层所表示的空间对象的集合空间关系词典要根据几何对象之间的空间关为河流(名称、经度、纬度、长度,视具体情况而定),系而建立,本测试系统是在MapInfoMapXtreme平在该层中,有若干线空间对象,每一个线空间对象台下完成的。在MapInfoMa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。