中药方剂数据挖掘中的数据预处理研究

中药方剂数据挖掘中的数据预处理研究

ID:22153914

大小:53.00 KB

页数:5页

时间:2018-10-27

中药方剂数据挖掘中的数据预处理研究_第1页
中药方剂数据挖掘中的数据预处理研究_第2页
中药方剂数据挖掘中的数据预处理研究_第3页
中药方剂数据挖掘中的数据预处理研究_第4页
中药方剂数据挖掘中的数据预处理研究_第5页
资源描述:

《中药方剂数据挖掘中的数据预处理研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中药方剂数据挖掘中的数据预处理研究:中药方剂的数据挖掘是在中国传统中药方剂中,应用数据挖掘方法,在中医理论指导下,探寻药物之间的相互联系和整体用药规律。对中药方剂的数据预处理研究,是将药物的四气五味、功效、归经、有无毒性等信息转化为数字信息,从而在进行中药方剂数据挖掘中更为精确,为中药方剂研究和临床实践研究提供理论参考。  关键词:数据挖掘;中药方剂;数据预处理  中文分类号:TP315:A:1009-3044(2011)17-4016-02  1绪言  中国悠久的中医药文化,是我国璀璨的文化瑰宝。随着现在社会的发展,人们越来越重视到中医药的强身保健

2、作用。中药方剂是中医药文化的重要组成部分,如何对数目庞大的手工汇总的中药方剂进行定量和分析,已经成为实现中药现代化的重要工作。中药方剂的数据挖掘研究,就要将我国丰富的中药资源和信息技术相结合,通过整理庞大的中药文献资料,为中药信息处理、转化及传播现代化做好准备工作。  中药方剂的数据挖掘研究,是将知识发现理论运用在中药的作用机制、中药方剂配伍规律、中药的药性功效关系等方面。在中药方剂的数据挖掘工作中,数据预处理是重要的数据准备与处理过程,工作量将占到50%以上。由于中药方剂多为手工记录和汇总,同时我国地域广大,中医药文化带有地域性差别,这也给中药方剂

3、的数据预处理工作带来了难度。  2中药方剂数据挖掘的发展  目前我国尚未建立比较完整的中药方剂数据挖掘系统,现有数据库只能提供检索、统计等一般性服务,其包涵的大量隐含知识并未得到充分的挖掘和利用。由于国外使用数据挖掘技术较早,西药的新药开发研究已经大量利用数据挖掘技术。  随着在世界范围内,中药的功效越来越受到人们的重视,中药产业的发展前景也更加广阔。因此,加快中药方剂的数据挖掘工作,不仅可以提高我国现有中药数据库的利用价值,缩短我国中药新药开发的周期,还可以避免中药信息资源的流失,真正提高我国中药产业在国际上的竞争力。  经过多年的努力,我国中医药

4、界已经有一批科研院所及大专院校建成了一定数量的中医药文献型和事实型数据库,初步满足了中医药界文献检索的需要。如国家中医药管理局建立的“中医药文献数据库”、“中医药报刊文献数据库”,北京中医药大学建立的“中药方剂数据库”,北京中医研究院建立的“中国中药数据库”,浙江大建立的中医药科技数据库群等。  但是目前建立的大多数中药方剂数据库,只能提供检索和统计的服务,而没有对隐含在数据中的大量隐藏信息进行有效的利用。如何进一步深入将数据挖掘技术应用在中药方剂的研制和中药配伍的过程中,将为我国的中医药理论研究提供新的思路和方法,为新药的研制带来更大的发展契机。 

5、 3中药方剂的数据预处理  对中药方剂数据挖掘进行预处理,目的是初步将中药方剂转化为便于处理的数据。中国几千年的中医药发展历史,积累了大量的文献资料,但是由于其中包含的大多为医药实践的原始记录和经验,没有经过系统的整理,规范化程度比较低,所以对方剂信息进行预处理是非常必要的。而且由于数据挖掘工作对数据的要求比较高,数据预处理在整个数据挖掘过程中占有超过一半的时间,这也给中药方剂的数据预处理带来了更大的难度和更多的工作量。  为解决以上问题,模糊集理论、数据规约技术等提高了很好的适合中医药数据挖掘的预处理方法。通过对中药方剂进行预处理以后,可以更好的发

6、现各种药物之间的关联和功效之间的影响关系,为中成药的新药研制提供理论支持。  数据预处理主要是对数据进行规格化操作。在正式进行数据挖掘之前,尤其是使用基于对象距离(distance一based)的挖掘算法时,如神经X络、k一最近邻分类(nearestneighborclassifier)等,必须进行数据规格化。也就是将中药数据信息转化为可操作信息并缩至特定的范围内。中药本身具有相当丰富的信息,包括药物的四气五味、功效、归经、有无毒性等方面。四性和五味不仅反映了药性特征,通过气味和合,又进一步决定方剂之性能,因此是重要的方剂信息。但中医对四性的认识是比

7、较模糊的,为了在对方剂中的药物进行数据挖掘分析更为精确,研究中对上述信息转换为数字化形式。  在中药方剂数据库中,对于方剂表、症状表由于历史的传承以及方剂多为手工记录的原因,存在着空白字段、重复数据、中药名称和症状描述不规范等现象,经过预处理流程的修正和过滤,可以建立符合数据挖掘的规范标准。  1)对噪声数据的处理  由于中药方剂的历史跨度很大,有的药物命名和症状的表述,在不同的朝代都是不一致的,而且多为人工记录,这样造成了噪声数据很多。如果对于这些噪声数据处理的不好,会直接影响到后期的数据挖掘效果。首先应该对数据库中的缺损数据、重复数据进行筛选和过

8、滤,同时对错误数据进行修改。  在中药方剂描述中,常出现一词多义、词义模糊、语义重叠等现象。如“眩晕”一词,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。