基于中文地址类信息的分词处理

基于中文地址类信息的分词处理

ID:38116415

大小:268.54 KB

页数:4页

时间:2019-05-25

基于中文地址类信息的分词处理_第1页
基于中文地址类信息的分词处理_第2页
基于中文地址类信息的分词处理_第3页
基于中文地址类信息的分词处理_第4页
资源描述:

《基于中文地址类信息的分词处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2008年8月沈阳航空工业学院学报Aug.2008第25卷第4期JournalofShenyangInstituteofAeronauticalEngineeringVo.l25No.4文章编号:10071385(2008)04006304基于中文地址类信息的分词处理1,323刘哲夏秀峰周福才(1.沈阳师范大学计算中心,辽宁沈阳110034;2.沈阳航空工业学院计算机学院,辽宁沈阳110136;3.东北大学信息科学与工程学院,辽宁沈阳110004)摘要:数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略

2、,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。关键词:相似重复记录;中文地址;特征字符;分词中图分类号:TP311文献标识码:A数据仓库中脏数据处理的热点问题是识别与1.2已有的汉语分词方法消除相似重复记录,其目的是匹配、合并和清除那传统意义上的词法分析指从描述记录的字些冗余的、客观上映射同一实体但在语义表示上符串中获取单词串(词汇)供后续过程使用,所[1]存在差异的记录。由于地址类信息在数据仓以它又可以称为词汇分析。汉语自动分词是中文库中

3、出现的频率较高且对营销系统具有非常重要信息处理领域的一项关键技术,目前已经有很多的意义,因此,针对中文地址类重复信息提出了一种方法。可以归结为三种:基于词典的机械匹配种基于特征字符的分词策略,在建立了包含分词方法、基于统计的分词方法和基于统计及词典相[4]规则的元数据库基础上,描述了基于特征字符的结合的方法。分词算法。实验证明分词所用的时间随着数据集2基于特征字符的分词方法的增长变化不大。若将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。考虑到地址类信息的特殊性,首先创建基于省、市、区标准信息的特征字符分词方法元数据1分词概述库,在此基础上,将地址类信息按逻辑意义分为[5]

4、1.1分词的必要性省、市、区、街及其他五组信息。对地址字段进排序-合并方法是检测数据仓库中完全重复行处理的模型如图1所示。[2]记录的标准方法,同样计算某一字段的相似度应首先进行排序,将潜在的可能重复的内容调整到邻近位置;其次是通过算法计算字段的相似度。但由于地址信息字段中省、市、区信息常常出现某些缺失,为检测带来了一定困难,主要体现在(1)重复记录的位置分离较远;(2)增加了算法的复图1中文地址信息的分词模型杂度及执行时间。因此考虑将中文地址字符串通2.1分词元数据过自动分词划分为更小的语义单元,在此基础上元数据指描述数据的数据,分词元数据库用[3]再进行处理。来存储分词规则和分词过

5、程中所依据的省市区标准信息。收稿日期:20080113(1)分词规则的存储作者简介:刘哲(1977),女,辽宁沈阳人,硕士,讲师,主要研究方所谓特征字符是指能够对省、市、区级别进行向为数据清洗与信息安全;夏秀峰(1964),男,山东胶南人,博士,教授,主要研究方向为数据仓库理论与技术,E-mai:lxiaxi区分的汉字。根据地址信息中是否含有省、ufeng@syiae.edu.cn。市、区等特征字符可将其定义成不同的规64沈阳航空工业学院学报第25卷则,并为每个规则编制相应的分词程序,用于处理(2)分词过程

6、中若两次截取的字符相同,则不同的情况。规则的描述信息存储在元数据库表示省和市或市和区的名称相同(例如:吉林省中,结构如表1所示。吉林市),应为其分配在不同级别的字段中;表1分词规则表(3)分词模块对于不能识别的省市区信息规则名函数名说明(例如:客户填写的地址信息是其工作单位的名执行含有特征字符省或自治区或特别称),将其存入分词后的"街"字段中再进行后续Rule1Split1行政区的分词操作的字段匹配。执行含有特征字符市,但没有省、区的Rule2Split22.3分词算法描述分词操作分词规则中特征字符的缺失或部分缺失是分执行含有特征字符区,但没有省、市的Rule3Spli

7、t3分词操作词操作的一个难点。可以采取以下策略:若省、执行同时含有特征字符省、市和区的市、区相应级别出现特征字符则按特征字符所在Rule4Split4分词操作位置截取信息并校验,若未出现相应级别的特征!!!!!!字符,可以通过截取部分字符与元数据库中标准表中只列出了分词的主要规则,因为特征字信息进行模糊匹配,若匹配成功则返回元数据库符不仅包括省、市、区等汉字,还可能出中的标准信息,删除地址信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。