天津市空气污染物与肺癌发病率关系分析

天津市空气污染物与肺癌发病率关系分析

ID:78067696

大小:4.79 MB

页数:76页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
天津市空气污染物与肺癌发病率关系分析_第1页
天津市空气污染物与肺癌发病率关系分析_第2页
天津市空气污染物与肺癌发病率关系分析_第3页
天津市空气污染物与肺癌发病率关系分析_第4页
天津市空气污染物与肺癌发病率关系分析_第5页
天津市空气污染物与肺癌发病率关系分析_第6页
天津市空气污染物与肺癌发病率关系分析_第7页
天津市空气污染物与肺癌发病率关系分析_第8页
天津市空气污染物与肺癌发病率关系分析_第9页
天津市空气污染物与肺癌发病率关系分析_第10页
资源描述:

《天津市空气污染物与肺癌发病率关系分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

TIANJINUNIVERSITY中国第—所现代大学FOUNDEDIN1895^日制工程硕士学位论文领域:控制工程作者姓名:王净巍指导教师么觀:朗徐晓教授企业导师:天津大学研究生院2016年11月_ 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研宄工作和取得的研宂成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研宄成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料一同工作的同志对本研宂所做的任何贡献均己在论文中。与我作了明确的说明并表示了谢意。》1日学位论文作者签名:签字日期:>你4年//月学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天孝大学可以将学位论文的全部或部分内容编入有关数据库进行检。索,并采用影印、汇编以供查阅和借阅同意学校、缩印或扫描等复制手段保存向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)个參学位论文作者签名獅签名::三今狐^^/:f!//)>:月曰签宇日期:年月曰签字日期年 天津大学硕士学位论文天津市空气污染物与肺癌发病率关系分析RelationshipbetweenLungCancerIncidencesandAirPollutants工程领域:控制工程研究生:王净巍指导教师:岳士弘教授企业导师:徐晓教授天津大学电气与自动化工程学院二零一六年十一月 摘要肺癌是目前我国发病率和死亡率最高的恶性肿瘤疾病,并且发病率呈增长趋势,严重威胁我国居民的健康和生命。然而肺癌的发病诱因目前尚不完全明确,也很难在发病早期察觉,因此尽早明确肺癌的发病诱因,防患于未然,降低罹患肺癌的几率尤为重要。近年来空气污染加重,雾霾天气影响了我国的大部分地区,空气中的污染物直接进入人体呼吸道系统,对人体健康产生重大影响。空气污染物对肺癌等呼吸系统疾病的影响成为人们关注的焦点。本文获取天津市16个区的空气污染物含量以及肺癌的发病率数据,构建空气污染物含量和肺癌患者信息数据库管理系统,利用数据挖掘技术构建知识库,分析空气污染物含量与肺癌发病率的关系。本文的主要工作内容如下:1)从天津医科大学总医院获取天津市2014-2015年共4000例确诊为肺癌的患者信息,并记录天津市环境监测中心发布的天津市16个区2015年的空气污染物含量。利用Oracle数据库技术构建了空气污染物含量和肺癌患者信息的数据库系统,以MFC为平台编写了友好软件界面,并通过ADO技术实现后台数据库系统与软件界面间的连接,更加方便、快捷的进行数据的存储、查询与修改。2)整理上述原始数据并构建决策表,采用粗糙集分析方法进行规则挖掘,分析各污染物含量与总肺癌发病率、男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率以及其它肺癌类型发病率的关系。3)进一步考虑不同空气污染物之间的相互作用,基于模糊测度理论计算空气污染物的模糊测度值和Shapley交互作用指标,从而分析空气污染物含量与总肺癌发病率、男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率以及其它肺癌类型发病率的关系。关键词:粗糙集,模糊测度,肺癌,空气污染I ABSTRACTBoththeincidencesandmortalityoflungcancerishighestamongthemalignanttumors,andtheincidencestillincreasesyearbyyear.Lungcancerhasbecomeathreattoourhealthandlife.However,theetiologyoflungcancerisnotclearyet,anditisdifficulttodiagnoseearly.Soitisimportanttoidentifytheetiologyoflungcancerandtakeprecautionstoreducetheriskofsufferingfromlungcancer.Inrecentyears,airpollutionisseriousandhazeaffectsmostpartsofChina.Pollutantsintheatmosphereisamajorenvironmentalhazardtohumanhealth,especiallytothehumanrespiratorysystem.Thus,therelationshipsbetweenairpollutantsandrespiratorydiseasehavetobeenresearchedintensely.Inthispaper,thebasicstudieshaveseveralaspects:obtainingtheairpollutantdataandthemedicalinformationoflungcancerpatientsinTianjinandestablishingadatabasemanagementsystem;usingdataminingtechnologyandnon-additivemeasuretheorytoformtheknowledgebase;analyzingtherelationshipbetweenlungcancerincidencesandairpollutants.Themajorworkincludes:1)Fourthousand(4000)patientsacross16districtsinTianjinwerestudiedforlungcancerincidences.AllpatientswereintheGeneralHospitalattachedtoTianjinMedicalUniversity.AndtheairpollutantdatacomesfromthemonitoringstationsofGeographicInformationSystem(GIS)during2015.ThedatabasemanagementsystemofairpollutantdataandlungcancerpatientsdataissetupwithOracleandMFC.TheprogrampreparesafriendlyinterfacetoconnectwiththebackgrounddatabasesystemwithADOtechnology.Inordertoimprovetheefficiencyofdatastorage,retrievalandupdate.2)Roughsettheoryisusedtoextractrulesthatcanrevealtherelationshipbetweenairpollutantsandtotallungcancerincidences,maleincidence,femaleincidence,adenocarcinomaincidence,squamouscellcarcinomaincidenceandotherlungcancertypeincidence.Inthemeantime,decisiontablereductionwasusedandruleswithahighvalueofdecision-makingwereobtained.III 3)Non-additivemeasuretheoryisusedtoanalyzetheinteractionbetweendifferentpollutants.ThefuzzymeasuresandShapleyinteractionindexiscalculated,basedontheChoquetintegralmodel,todeeplyrevealtherelationshipbetweenairpollutantsandlungcancerincidences.Theresultscanprovidereferenceforairpollutioncontrolanddiseaseprevention.KEYWORDS:Roughset,Non-additivemeasuretheory,Lungcancer,AirpollutantsIV 目录第1章绪论.......................................................11.1课题背景....................................................11.2国内外研究现状..............................................21.3本文主要工作................................................3第2章天津市空气污染物含量及肺癌患者信息数据库系统................52.1数据来源....................................................52.1.1天津市空气污染物含量数据...............................52.1.2肺癌患者病例信息数据...................................72.1.3分析数据的生成.........................................82.2数据库系统..................................................92.2.1数据库系统开发平台....................................102.2.2数据库系统开发技术....................................112.3空气污染物含量与肺癌患者病例信息数据库系统设计.............132.3.1数据库系统设计概要....................................152.3.2数据库系统详细设计....................................172.3.3应用实例..............................................202.4本章小结...................................................22第3章基于粗糙集的关系分析......................................233.1数据挖掘技术概述...........................................233.2粗糙集概述.................................................243.2.1基本概念..............................................243.2.2决策表................................................263.2.3决策表约简............................................273.3基于粗糙集的关系分析模型...................................283.4本章小结...................................................37第4章基于模糊测度理论的关系分析................................394.1模糊测度理论概述...........................................394.1.1模糊测度定义..........................................394.1.2非线性积分类型及其关系................................40V 4.1.3交互作用指标..........................................414.1.4HLMS方法确定模糊测度.................................424.2基于模糊测度的关系分析模型.................................444.3本章小结...................................................52第5章总结与展望................................................53参考文献.........................................................55附录............................................................59发表论文和科研情况说明...........................................65致谢............................................................67VI 第1章绪论第1章绪论1.1课题背景当今社会人们对于生活品质的要求已不仅停留在物质追求层面,对整体居住环境的要求也越来越高,但随着经济的快速发展,我们所面临的环境问题也越来越多,尤其是空气污染问题已经严重影响了我们的生活和健康,特别是对我们的呼吸道系统有着严重的危害。近年来,空气污染与哮喘、肺癌等呼吸道系统疾病间的关系也逐渐成为人们关注的焦点。空气污染是由于自然或人为因素使得空气的组成成分、结构或状态发生改变,从而导致空气中的有害物质增加、空气质量下降甚至导致人类的居住环境和生态环境遭到破坏[1-3]。2011年,世界卫生组织(WHO)对全球1085个城市开展空气污染情况调查,调查结果显示,天津市排名倒数第72位[4]。2015年天津市空气污染物超标天数达145天,其中严重污染天数34天。在关注经济发展的同时,也应该深刻的认识到空气污染所带来的严重后果,应该更加关注空气污染对人体健康可能引起的负面影响。有相关研究表明,空气中的污染物会直接侵入人体的呼吸道系统,引起慢性支气管炎、过敏反应、哮喘病甚至是肺癌等呼吸系统疾病[5-7],空气质量的好坏直接影响着我们每一个城市居民的身体健康。2011年发布的全球肿瘤统计报告中显示,肺癌的发病率和死亡率居于恶性肿瘤之首。而在天津市肺癌的发病率和死亡率也是不容乐观的,10年间肺癌的手术病例上升了5倍,且发病人群逐渐呈现年轻化趋势,女性患肺癌的增长速度要高于男性。肺癌的高发人群除了长期吸烟者外,还包括长期接触石棉、铬等有害物质以及长期在厨房等排烟不畅的环境下工作的人[8]。可见,环境因素对肺癌的发病情况有着直接的影响。空气污染物的浓度直接反映了空气质量,不同时间、不同区域的空气污染物浓度也会存在较大的差异。空气污染物主要包括烟尘、总悬浮颗粒物、可吸入颗粒物(PM2.5)、细颗粒物(PM10)、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)、臭氧(O[9]3)等。PM10一般指空气动力学直径在10μm以下的固态和液态颗粒,一般情况下这些颗粒物很难因为重力的作用而沉积到地面,它们可以在空气中漂浮数天甚至是数年的时间[10]。PM2.5是指空气动力学直径在2.5μm以下的颗粒物,其直径小于人发丝直径的1/20。PM2.5主要来自于汽车所排放的尾1 第1章绪论气以及在发电、化工等工业过程中燃烧化石燃料所产生的废气、烟尘,不仅在空气中悬浮时间长,且易附着有毒有害物质,极易对人体产生不良影响[11,12]。空气中不同直径的颗粒物能够到达的人体组织位置也不同,对人体的影响程度也不同。有研究表明,直径小于10μm的颗粒物可以进入人的鼻腔;直径小于7μm的颗粒物可以进入人的咽喉;而直径小于2.5μm的颗粒物可以到达人的肺部,沉积于肺泡中,并随血液在体内进行循环从而引起心脏或肺部功能的紊乱异常[13]。无论是对空气污染的治理、对肺癌病因及治疗的研究,还是对二者之间的关联性的探究都是刻不容缓的。这是每个生存在这个空气环境中的人所关注的问题。探究空气污染物含量与肺癌发病率的关系,不仅可以为医学研究提供参考和依据,同样可以引起人们对节能减排等有助于改善空气质量和保护环境的举措的重视,在具有科学价值的同时也具有社会价值。1.2国内外研究现状国内关于空气污染物与肺癌的关系的研究有很大一部分是将整体的空气质量划分等级,而不区分具体的污染物。徐肇翊等[14-16]在沈阳市进行了为期10年的研究,将沈阳市划分为有烟街区和清洁区,研究结果显示长期生活在有烟街区的居民其患肺癌的风险会增加30%,居住时间越长患病风险越高。贺秀林等[17]研究了空气污染物对肺癌发病率和死亡率的影响的滞后效应,将青岛1981至1988年空气污染综合指数与1985至1992年的肺癌发病率和死亡率进行相关性分析,研究结果显示空气污染综合指数与肺癌发病率和死亡率均呈现显著相关性,相关系数均大于0.95。当然,国外也有很多关于空气污染物与肺癌等各类疾病的发病率或死亡率的相关性分析。1982年美国癌症学会就曾进行了一项长达16年、多达50万人的队列研究,研究结果显示PM3[18]2.5年均浓度每升高10g/m,肺癌死亡率将上升8%。2013年7月,《美国国家科学院院报》发表了《空气污染对预期寿命的长期影响:基于中国淮河取暖分界线的证据》一文引起了广泛关注,该项研究覆盖了90多个城市,并以淮河为界划分为淮河以北地区和淮河以南地区,统计了1981-2000年淮河以北和淮河以南地区的日均悬浮颗粒物浓度、居民各年龄段病死率、由心肺系统疾病导致的病死率以及预期寿命的数据,并进行分析。研究结果显示,淮河以北地区日均悬浮颗粒物浓度远高于淮河以南地区,而人均预期寿命则比淮河以南地区少5.5年,特别是由心肺系统疾病引起的全病因病死率在淮河以北地区和淮河以南地区有较大差异[19]。也有其他研究机构在挪威、瑞典、丹麦、荷兰、英国、奥地利、意大利、西班牙、希腊9个欧洲国家进行了超过12年的随访,2 第1章绪论发现长期暴露在氮氧化物、PM2.5、PM10中的人患肺癌的风险更大,而且PM2.5每增加5μg/m3,肺癌风险增加18%;PM310增加10μg/m,肺癌风险增加22%。国内外关于空气污染物与疾病或死亡率的关系的研究,多以统计学方法为主,需要极大量的数据支持,需要提供较多的先验信息,而且很少会考虑污染物之间的相互作用,而本文中采用完全基于数据的、不需要任何先验信息的粗糙集分析方法进行规则挖掘,并且利用模糊测度理论分析各空气污染物的重要性以及空气污染物之间的相互作用关系,进一步分析空气污染物含量与肺癌发病率的关系。1.3本文主要工作本文以天津市作为研究的背景区域,将分析过程建立在两个重要的数据基础之上:一是天津市16个区共27个空气污染物监测点的日均污染物含量数据,包括SO2、NO2、CO、O3、PM2.5和PM10;二是各监测点区域的肺癌发病率数据,包括总肺癌发病率、男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率和其他类型肺癌发病率。将上述数据构建数据库,并利用数据挖掘技术和模糊测度理论进行天津市空气污染物与肺癌发病率的关系分析。本文共有五章内容:第一章是绪论部分,介绍本课题的研究背景和研究现状。第二章是数据准备部分,介绍本文所采用的数据的来源、预处理方式,以及空气污染物含量和肺癌患者信息的数据库的构建,为后续的研究提供了数据支持。第三章是利用粗糙集分析方法建立分析模型,首先介绍数据挖掘技术的概况和采用粗糙集方法的原因及优势,然后具体讲解采用粗糙集理论进行规则挖掘的过程和方法,最后建立基于粗糙集的关系分析模型,并依据挖掘的规则进行关系分析。第四章是利用模糊测度理论建立分析模型,首先介绍模糊测度理论的基本概念,然后具体讲解模糊测度的确定方法以及Shapley交互作用指标的计算方法,最后建立基于模糊测度理论的关系分析模型,依据模糊测度值和Shapley交互作用指标值进行关系分析。第五章主要综合前面的分析结果,对天津市空气污染物含量和肺癌发病率的关系进行最后分析和总结,并安排下一步的研究方向。3 第1章绪论4 第2章天津市空气污染物含量及肺癌患者信息数据库系统第2章天津市空气污染物含量及肺癌患者信息数据库系统数据是本文进行分析的重要基础,数据的来源和预处理方式均会对分析结果产生影响。获取数据的来源要可靠,以保证作为分析基础的数据的质量和准确性;要依据具体分析时的要求对数据进行预处理,将原始数据整合为本文所需的数据形式。本文中空气污染物含量数据获取自天津市环境监测中心,肺癌发病率数据获取自天津医科大学总医院。同时,实现对数据的有效存储和管理,一方面提高在本课题研究中数据检索、更新和使用的效率,另一方面也为后续研究中数据的收集、存储和分析建立了基础。2.1数据来源2.1.1天津市空气污染物含量数据天津市环境监测中心是国家环境监测一级站,1994年就通过了国家级计量认证,具备水和废水、环境空气和废气、室内空气等多项监测能力,监测数据满足质量保证和可靠性要求。2012年12月31日,天津市环境监测中心在其网站上正式开始运行天津市环境空气质量GIS发布平台(http://air.tjemc.org.cn/),实时发布27个监测点的SO2、NO2、CO、O3、PM10和PM2.5共6项空气污染物的最近1小时浓度均值和最近24小时浓度均值,其中O3发布的是最近一小时浓度均值和最近8小时浓度均值。监测范围覆盖天津市全部16个区,涵盖了居住区域、商业交通居民混合区域、文化区域、工业区域和农村地区等几乎全部天津市居民生活及工作活动区域类型。除了实时发布SO2、NO2、CO、O3、PM10、PM2.5这6项指标的监测数据外,天津市环境监测中心的空气质量GIS平台也同时发布各监测点的环境空气质量指数(AirQualityIndex,简称AQI),分别以绿色、黄色、橙色、红色、紫色和深红色代表6个不同的空气污染等级,颜色越深代表污染等级更高,并且会显示当天的主要污染物。GIS平台如图2-1所示。5 第2章天津市空气污染物含量及肺癌患者信息数据库系统图2-1天津市空气质量GIS发布平台本课题组记录了从2015年1月4日开始至2016年1月4日期间,每天12点在天津市环境监测中心空气质量GIS平台所发布的SO2、NO2、CO、PM10和PM2.5的最近24小时的浓度均值、O3最近8小时的浓度均值以及当天的AQI值,并作为本文中空气污染物含量的初始数据来源。部分数据如表2-1所示。对表2-1中为“/”的空气数据,在后续计算各监测点的空气污染物含量数据时直接去除。表2-1空气污染物含量数据空气污染物含量(μg/m3)监测点日期SO2NO2COO3PM2.5PM10AQI2015-1-4123691.5739104772015-1-5116772.819961841252015-1-674521.986210884南京路2015-1-778661.6882129109……………………2016-1-428460.9254493242015-1-470651.8/35118842015-1-57571312901911212015-1-6/461.975912185勤俭道2015-1-789611.7777136102……………………2016-1-420390.83044/17………………………注:表中“/”为监测点设备维修或校准状态,暂无数据。6 第2章天津市空气污染物含量及肺癌患者信息数据库系统本文中为方便后续数据处理,将27个监测点分别用数字1至27进行编号,对应方式如表2-2所示。表2-2监测点对应编号规则编号监测点编号监测点编号监测点河西一经路大直沽八号路北纬二路11019(滨海新区)(河东区)(静海县)汉北路前进道广安道21120(滨海新区)(河西区)(静海县)第四大街南京路团泊洼31221(滨海新区)(和平区)(静海县)塘沽营口道南口路泉州南路41322(滨海新区)(河北区)(武清区)永明路淮河道雍阳西道51423(滨海新区)(北辰区)(武清区)航天路勤俭道宝白公路61524(东丽区)(红桥区)(宝坻区)津沽路复康路建设路71625(津南区)(南开区)(宝坻区)跃进路海泰发展二路东环路81726(东丽区)(西青区)(蓟县)香山道新华道滨水东路91827(河东区)(西青区)(宁河县)2.1.2肺癌患者病例信息数据肺癌患者病例信息来源于天津医科大学总医院,获取2014年到2015年在天津医科大学总医院确诊为肺癌的患者的基本信息共4000例。本文研究针对天津市的各区域空气污染物含量与肺癌发病率的关系,因此获得的病例数据中居住地地址是统计各区域肺癌发病率的关键信息,因此需对获得的患者病例信息进行数据的筛选和整理。首先要通过患者病例信息中的居住地信息,去除常住地在天津地区以外的患者信息,以及居住地址不明确不能准确判断病人居住地所在区域的患者信息,最后剩下1303例有效数据,病例数据中包括了病人的姓名、年龄、7 第2章天津市空气污染物含量及肺癌患者信息数据库系统性别、长期居住地、肺癌类型等特征数据,以及病人的生活习惯和患病史。表2-3显示了全部患者病例信息的数据统计情况。表2-3肺癌患者病例信息统计表性别肺癌类型男女腺癌鳞癌大细胞癌小细胞癌其它80949441823724142482年龄分布<40岁40-60岁61-80岁>80岁2444275781依据病例中这些患者的长期居住地信息,利用最新的天津市地图,找到距离每个病人居住地最近的污染物监测站,则该病人长期生活环境的空气污染物平均水平和平均含量就被对应到最近监测站的空气污染物数据,这种识别患者长期生活环境的空气污染物水平的方法以下称为最近邻原则,本文据此分析不同污染物与肺癌发病率等各类特征的关联性,这是本课题研究的一个基本出发点。2.1.3分析数据的生成为了研究空气污染物与肺癌发病率的关系,探究哪些空气污染物可能会对肺癌发病率产生重大影响,将每个监测点内记录的污染物含量数据按不同污染物求和并进行算术平均,作为各监测点的空气污染物含量数据。根据长期居住地位置并依据上述最近邻原则,任何一个患者的生活环境的空气污染物含量就是距离该患者最近的监测站的平均水平,如表2-4所示。在表2-4中,空气污染物SO2、NO2、CO、O3、PM2.5、PM10、AQI的值是观测时间段的平均值。结果,1303个患者按照监测点位置被分为27组,每一行代表着一个监测点空气污染物与肺癌发病率的对应关系,共计27个样本;另一方面,区域患病率是各监测点范围内总的患病人数与各监测点范围内的总人数的比值,以‰计,各个监测点覆盖的人口数据来自天津市2010年第六次全国人口普查的主要数据公报,考虑到人口逐年递增,最终人口扩大到2010年的1.05倍。在表格2-4中进一步区分了不同的癌症种类和不同性别的肺癌发病率,据此形成分析数据从而为进一步分析并得出结论提供依据。表2-4肺癌发病率与空气污染物含量关联表监测空气污染物含量(μg/m3)肺癌发病率(‰)点8 第2章天津市空气污染物含量及肺癌患者信息数据库系统表2-4肺癌发病率与空气污染物含量关联表(续)SO2NO2COO3PM2.5PM10AQI总男性女性腺癌鳞癌其它131.241.31.3630.868.8118.7101.31.210.790.420.160.210.84225.239.82.4531.568.4112.898.30.630.370.260.210.050.37329.049.11.3028.874.7120.8105.20.790.520.260.370.110.32433.647.71.8329.865.0117.495.62.101.570.530.580.261.26531.041.01.3231.072.9124.4104.71.891.100.790.580.161.16633.143.61.5530.969.9121.999.53.822.860.961.270.322.23733.845.71.4330.769.6122.2100.51.510.481.030.290.290.92837.846.21.4626.070.2125.5100.25.423.661.750.640.963.82940.451.12.0635.279.2124.4106.24.753.211.540.560.563.631036.141.21.4427.871.4122.2102.35.803.632.161.540.563.701134.347.41.4729.176.6124.5110.02.231.520.720.500.311.431240.045.51.4934.274.5124.9107.719.5511.947.614.842.0812.631338.646.01.5126.877.0131.4112.02.871.791.080.440.651.791433.241.91.7327.878.2135.7111.21.650.930.720.290.321.041540.141.61.4926.470.6125.2104.75.723.212.521.511.053.161629.641.71.3331.176.4123.0107.42.661.710.950.870.301.491731.748.71.5530.078.9132.7108.01.991.440.550.330.221.441832.342.11.7828.771.7126.9106.11.661.210.440.2201.441936.047.72.3130.677.3138.8108.21.240.370.870.120.370.742037.244.71.5027.680.4117.8111.71.201.20000.300.902128.743.11.5432.689.7145.8130.40.500.250.250.1200.372237.144.41.9832.570.3123.4100.30.860.460.400.340.110.402332.744.61.7534.273.0124.2103.40.860.570.290.290.110.462425.540.41.9025.873.9113.6107.10.410.080.320.080.080.242535.042.92.2524.768.4124.7102.41.541.050.490.570.160.812625.239.92.2229.966.5117.898.90.340.210.130.130.110.112731.636.51.7025.466.6121.7100.28.674.783.892.091.205.382.2数据库系统本课题共记录天津市2015年全年的空气污染物含量数据,共计365天,每个监测点每天都要记录SO2、NO2、CO、O3、PM2.5、PM10以及AQI共7个数据值,共有27个监测点,这些数据都存放在Excel表格中,数据量大,要实现对某个监测点或某一时间的空气污染物数据的查询或修改非常不方便;另外包含有患者姓名、居住地、癌症类型等的患者信息也同样保存在Excel表格中,信息比较杂乱,不便查找;而且患者的病例数据在不断的增加中,肺癌患者大多存在多次重复入院治疗的情况,当添加新的患者病例数据时需要查找和判断是否已经存在该患者信息,避免重复添加,将病例信息保存在Excel表格中每次进行查找和添加时工作量非常大,效率极低。由于本文需对患者信息与空气污染物含量做关9 第2章天津市空气污染物含量及肺癌患者信息数据库系统联,而空气污染物含量数据和患者病例信息数据单独保存时也很难在两者之前进行关联性的查找,使得查找、添加等操作效率低下,浪费了很多有效的工作时间。因此,本文构建了统一的数据库来保存空气污染物含量和肺癌患者病例信息,并编写了友好软件界面通过ADO技术与数据库系统进行连接,一方面提高了数据检索、更新和使用的效率,另一方面也为课题组后续的数据收集、存储和分析建立了基础。2.2.1数据库系统开发平台本文采用VisualC++2010作为数据库系统的开发环境,VisualC++2010是MicrosoftVisualStudio2010(简称VS2010)开发组件中功能十分强大并且应用广泛的可视化应用程序开发工具,程序设计语言具有面向对象的特点,使得Windows的开发更加的高效。VisualC++的数据库开发技术几乎可以访问所有的数据库系统,例如Oracle、Access、DB2、SQLServer等。当然除了VisualC++外还有一些其他的数据库开发工具,例如PowerBuilder、C、Delphi等等,本文之所以选用VisualC++作为数据库系统的开发环境,是因为VisualC++相较于其他的开发环境来说具有以下的优势[20,21]:1)开发简单VisualC++提供了MFC类库以及应用程序向导(AppWizard)、创建类向导(ClassWizard)等开发向导工具。使用者可以通过AppWizard快速创建应用程序框架,通过ClassWizard实现类、变量和函数等的快速添加,令应用程序的开发更具有简便性。2)数据库访问速度快VisualC++提供了多个基于COM接口的数据库访问技术,包括OLEDB和ADO。这种技术直接对数据库的驱动程序进行访问,提高了访问的速度。3)灵活性和可扩展性VisualC++中提供了丰富的类库和控件,包括组合控件、编辑控件等等,使用者可以按照所开发的应用程序的需求和特点来灵活的设计自己的应用程序的界面。并且通过OLE技术和ActiveX技术,开发人员可以利用VisualC++提供的各类控件、组件以及第三方开发者的组件实现应用程序的模块化,提高了应用程序的可扩展性。本文中VisualC++仅是用于可视化界面的程序开发,数据的存储还是要通过后台的数据库管理系统(DBMS)实现。Oracle数据库是应用最为广泛的关系型数据库管理系统之一,具有性能稳定,功能强大,管理方便等优点,并且能实现大量数据的存储。Oracle数据库包含表、索引、视图、过程、函数等对象,用户10 第2章天津市空气污染物含量及肺癌患者信息数据库系统只有同一个确定的数据库连接,才能使用和管理该数据库中的数据[22,23]。其中表是数据库中存放数据的对象,包含一组固定的描述表中实体的属性的列,每个列均由列名和若干的属性构成,表结构样例图2-2所示。本文中数据的增加、删除和修改等操作均是在编写的友好软件界面中实现,Oracle数据库系统主要是起到存储数据的作用,因此主要应用的就是表对象。列名Patient_IDAreaDiagnose1300复康路右肺上叶低分化腺癌数据行1301南口路左上叶腺癌1302勤俭道鳞癌,中分化列图2-2表结构样例2.2.2数据库系统开发技术要在前文所说的软件界面和数据库管理系统间建立联系,使得通过操作软件界面实现对存储数据的管理就需要通过VisualC++中的所提供的数据库开发技术,主要包括ODBCAPI、MFCODBC、DAO、OLEDB和ADO五种[24,25]:1)ODBC(OpenDataBaseConnectivity)APIODBC为应用程序访问数据库提供了一套统一的接口API,对于任何的关系型数据库,只要该数据库能够提供ODBC驱动程序,应用程序均可以采用ODBCAPI数据库开发技术对数据库进行访问,对所有数据库的处理方式都是一致的。但ODBC仅限于关系型数据库,并且作为一种底层访问技术,需要专门配置数据源,代码编写量大。2)MFCODBC(MicrosoftFoundationClassesODBC)由于直接利用ODBCAPI进行程序编写时,具有代码量大、编写难度大、不易于维护等缺点,VisualC++中对ODBCAPI进行了封装,即类库MFCODBC,可以通过MFC便捷的实现ODBC应用程序的创建。3)DAO(DataAccessObject)DAO是微软提供的多用于访问MicrosoftJet数据库的访问技术,具有丰富的操作数据库的手段。一般比较适用于单系统应用程序。4)OLEDB(ObjectLinkandEmbeddingDataBase)11 第2章天津市空气污染物含量及肺癌患者信息数据库系统不同于上述传统的数据库开发技术,OLEDB是基于COM接口,它既可以访问关系型数据库也可以访问非关系型数据库,并且都采用统一的接口。OLEDB技术还具有占用内存少、访问速度快等优点,但它同时是一种底层的访问技术,所需的代码量大、维护困难。5)ADO(ActiveXDataObject)ADO技术作为数据库访问的高层接口,对OLEDB的接口进行了封装,继承了OLEDB技术的优点的同时,通过定义的ADO对象使得应用程序的开发更加的简便也更加易于维护。表2-5对上述的五种数据库开发技术的特点进行了对比。表2-5数据库开发技术优势对比ODBCMFCDAOOLEDBADOAPIODBC易用性差好好较差很好运行性能较高较高较高高高可扩展性差一般一般好好能统一访问数据除能统一访问关能以统一对Jet数据通用标准,库(包括关系型系型和非关系型突出特点的方式处库具有良好应用广泛数据库和非关系数据库外,还具理数据库的访问性能型数据库)有多种编程接口技术层次底层高层高层底层高层由表2-5以及前文的介绍,ADO数据库开发技术相较于其它技术具有较明显的优势,因此文本中的数据库开发技术就采用ADO技术。编写软件界面的应用程序经由ADO技术,再经由ADO的底层技术OLEDB就可以实现对关系型数据库、图形信息、非结构化数据等存储在不同数据源中的数据的管理操作,如图2-3所示。ADO技术对OLEDB的包装是非常成功的,其对象模型简明扼要,功能强大。关系数据库地理信息文本图形信息应用程序ADOOLEDB目录数据电子邮件主机数据非结构化数据图2-3ADO技术原理的示意图12 第2章天津市空气污染物含量及肺癌患者信息数据库系统ADO对象模型主要包括:连接对象(ConnectionObject)、命令对象(CommandObject)、记录集对象(RecordSetObject)、字段对象(FieldObject)、记录对象(RecordObject)、错误对象(ErrorObject)、参数对象(ParameterObject)、属性对象(PropertyObject)和流对象(StreamObject)[26]。本文进行空气污染物含量和肺癌患者病例信息数据库系统的设计时主要用到了连接对象、命令对象以及记录集对象这3个主要的对象模型。连接对象代表一个和数据源的连接,以后的数据库操作都以此连接为基础;命令对象用来处理数据库的一些操作,并可以返回带有记录集的结果;记录集对象用来访问记录集,方便地实现记录的添加、修改和删除操作。VC++中利用ADO技术对数据库进行访问和操作的基本流程如图2-4所示。引入ADO动态连接库初始化OLE/COM库环境创建Connection对象连接数据库Command对象Recordset对象取得执行SQL命令结果记录集关闭连接释放对象图2-4ADO技术访问和操作数据库的基本流程2.3空气污染物含量与肺癌患者病例信息数据库系统设计空气污染物含量数据的记录包括27个监测点每天的SO2、NO2、CO、O3、PM2.5、PM10和AQI的值;肺癌患者病例信息数据的记录包括患者的姓名、性别、年龄、居住地地址、居住地所在监测点、病理类型、CT片等。设计数据库系统时依据数据的特点、使用要求等,首先进行需求分析。1)功能需求13 第2章天津市空气污染物含量及肺癌患者信息数据库系统(1)空气污染物含量数据的添加与查询。空气污染物含量数据需要每天记录,因此需要按日期、按污染物类型对各个监测点的污染物含量数据进行添加;同时各监测点污染物的含量数据是本文后续研究的重要数据基础,因此需要能够对各监测点的污染物含量数据进行快速查询。(2)肺癌患者病例信息(患者编号、姓名、年龄、性别、病情诊断、居住地、居住地所在监测点区域、备注、有无CT片等)的添加和查询。本课题组所获得的肺癌患者的病例信息在持续的增加中,因此应该具备继续添加各项数据的功能。为方便数据的处理,按照患者姓名、病理类型和居住地所在监测点区域作为查询条件进行病人信息的查询,并且依据本课题组的后续研究需要患者的肺部CT图片将成为重要资料,因此在查询条件中再加入有无CT片查询项。(3)空气污染物含量数据和肺癌患者病例信息数据是以患者的居住地以及居住地所在监测点区域为联系纽带的,为方便查询患者居住地所在区域的空气情况,在肺癌患者病例信息系统中添加空气污染物含量的查询项。综合上述功能描述,可将空气污染物含量和患者病例信息管理系统分为2大部分:空气污染物含量数据管理模块、肺癌患者病例信息管理模块,其中肺癌患者病例信息管理模块中可细分为基本病例信息管理和监测点区域信息查询两个子模块。每个模块下又有各自的功能,图2-5为此数据管理系统的功能模块示意图。数据管理系统空气污染物数肺癌患者病例据管理信息管理添加添加修改修改查询查询查询基本信息查询居住地对应空气污染物含量图2-5系统功能模块图2)选取开发环境:14 第2章天津市空气污染物含量及肺癌患者信息数据库系统(1)运行平台:Windows7操作系统;(2)友好软件界面开发平台:MicrosoftVisualC++2010;(3)后台数据库管理系统:Oracle数据库。2.3.1数据库系统设计概要1)基于MFC类库的软件界面设计在VC++中建立MFCAppWizard的基于对话框(Dialogbased)的应用程序界面,作为数据库管理系统的软件操作界面。其中包括“登录界面”、“管理模块选择主界面”、“患者病例信息添加界面”、“患者病例信息查询界面”、“空气污染物含量数据添加界面”和“监测点空气质量查询界面”等。“登录界面”在程序运行时自动弹出,其它界面均通过点击“管理模块选择主界面”或其它界面中的相应控件来操作。2)基于Oracle数据库的数据库表设计数据库数据源名称为定义为PatientData,再结合数据库用户名称和数据库用户密码共同组成ADO数据库连接的三个重要参数。通过创建表对象来存储空气污染物含量数据和患者基本信息数据,具体包含的表如图2-6所示,各表结构见表2-6和表2-7。图2-6数据库中的表15 第2章天津市空气污染物含量及肺癌患者信息数据库系统表2-6患者病例信息表的结构字段名称数据类型可否为空约束条件说明Patient_IDNUMBER(5,0)NOTNULL主键患者编号NameCHAR(10CHAR)NOTNULL无姓名BirthDATENULL无出生日期SexCHAR(2CHAR)NULL无性别AgeCHAR(5BYTE)NULL无年龄AreaVARCHAR2(50)NOTNULL无居住地所在监测点区域AddressVARCHAR2(200)NOTNULL无居住地地址TypeCHAR(20CHAR)NULL无肺癌类型DiagnoseVARCHAR2(500)NULL无病情诊断CTCHAR(2CHAR)NULL无有无CT片NoteVARCHAR2(500)NULL无备注注:本表即为图2-6中PatientTable表2-7空气污染物含量数据表的结构字段名称数据类型可否为空约束条件说明DateAirDATENOTNULL无记录时的日期河西一经路NUMBERNULL无监测点名称汉北路NUMBERNULL无监测点名称第四大街NUMBERNULL无监测点名称塘沽营口道NUMBERNULL无监测点名称永明路NUMBERNULL无监测点名称航天路NUMBERNULL无监测点名称津沽路NUMBERNULL无监测点名称跃进路NUMBERNULL无监测点名称香山道NUMBERNULL无监测点名称大直沽八号路NUMBERNULL无监测点名称前进道NUMBERNULL无监测点名称南京路NUMBERNULL无监测点名称南口路NUMBERNULL无监测点名称淮河道NUMBERNULL无监测点名称勤俭道NUMBERNULL无监测点名称复康路NUMBERNULL无监测点名称海泰发展二路NUMBERNULL无监测点名称新华道NUMBERNULL无监测点名称北纬二路NUMBERNULL无监测点名称广安道NUMBERNULL无监测点名称16 第2章天津市空气污染物含量及肺癌患者信息数据库系统表2-7空气污染物含量数据表的结构(续)团泊洼NUMBERNULL无监测点名称泉州南路NUMBERNULL无监测点名称雍阳西道NUMBERNULL无监测点名称宝白公路NUMBERNULL无监测点名称建设路NUMBERNULL无监测点名称东环路NUMBERNULL无监测点名称滨水东路NUMBERNULL无监测点名称注:图2-6中AIRAQI、AIRSO2、AIRNO2、AIRCO、AIRO3、AIRPM25和AIRPM10均采用此表结构2.3.2数据库系统详细设计1)数据库的连接在CSeekDlg类中实现数据库的连接,ADO数据库的连接需要数据库数据源名称、数据库用户名称和数据库用户名密码3个重要的参数,以上参数在配置文件中获取,配置文件采用如下形式:[General]数据库数据源=PatientData数据库用户=vivi数据库密码=******将文件保存为CaseData.ini文件,并把CaseData.ini文件存放在CaseData.exe运行程序的目录下。数据库的连接通过在CSeekDlg类中定义私有成员函数ConnectDB()实现,在CSeekDlg.h文件中定义连接对象、记录集对象和命令对象的对应指针,并在ConnectDB函数中将这三个对象实例化,然后通过连接对象的Open()方法实现数据库连接。详细程序参阅附录。2)数据添加模块在“管理模块选择主界面”可选择“添加病人病例信息”对话框和“添加空气污染物数据”对话框,如图2-7所示。患者基本病例信息的添加对话框对应CAddDlg类,由OnBnAddPatient()函数实现添加功能,空气污染物含量数据的添加对话框对应CAirDlg类,由AddAir()实现添加功能。详细程序参阅附录。17 第2章天津市空气污染物含量及肺癌患者信息数据库系统(a)添加病人病例信息界面(b)添加空气污染物数据界面图2-7数据添加模块界面3)数据查询模块(1)为了查询每位患者的基本病例信息而设置了“查找病人病例信息”对话框,如图2-8(a)所示。为方便查询,可利用图2-8(a)中“选择查询条件”按钮实现数据查询条件的选择,本系统提供5种查询条件,分别为:所有记录、患者姓名、病理类型、居住地所属区以及有无CT片,查询条件选择界面如图2-8(b)18 第2章天津市空气污染物含量及肺癌患者信息数据库系统所示。图2-8(b)所示“病例信息查询条件”对话框对应CSeek1Dlg类,用OnBnClickedOk()函数创建查询患者基本信息的SQL语句,详细程序参阅附录。(a)查找病人病例信息界面(b)查询条件选择界面19 第2章天津市空气污染物含量及肺癌患者信息数据库系统(c)空气污染物数据查询界面图2-8数据查询模块界面(2)为患者居住地所在区域添加显示该区域对应监测点的空气污染物含量数据的模块,即对应图2-8(a)中的“显示污染物情况”按钮,详细程序参阅附录。2.3.3应用实例为直观显示本系统的功能,下面利用具体的实例进行操作展示。例如,在后续研究中需要用到所有居住地属于复康路监测点的肺癌患者的信息,可进行如下的操作:1)登录系统:为保证患者的隐私,本系统的所有操作需在正确登录后才可执行。图2-9登录界面2)进入查找病人病例信息界面,选择按患者居住地所属区查询,输入查询内容即复康路。20 第2章天津市空气污染物含量及肺癌患者信息数据库系统图2-10查询条件选择界面3)图2-11下方列表框中即为所有属于复康路监测点的患者信息,单击任一患者记录即可在上方编辑框中显示出姓名、病情诊断、病理类型等具体信息。图2-11患者信息查询界面4)显示污染物情况:点击图2-11界面中的“显示污染物情况”按钮,即可弹出图2-12所示对话框,在左上方选择不同的日期即可查询该监测点不同时间的具体污染物的含量数据。21 第2章天津市空气污染物含量及肺癌患者信息数据库系统图2-12空气污染物查询及显示界面空气污染物含量与肺癌患者病例信息数据库管理系统可以方便地进行各监测点空气污染物含量数据和肺癌患者基本病例信息的添加和查询,在数据库系统中进行统一的管理,增加数据的共享性;将居住地所在区、CT片等作为查询条件,可以快速的获取拥有某一共同特性的患者信息数据,使得后续的研究更具便捷性,对实际应用很有价值。2.4本章小结本章主要介绍了数据的获取途径和对数据的存储和管理方式。首先,本文中空气污染物含量数据获取自天津市环境监测中心的环境空气质量GIS发布平台,记录了该平台上共27个监测点的2015年1月至2016年1月的SO2、NO2、CO、O3、PM10、PM2.5和AQI的数据;本文中肺癌发病率数据来自于天津医科大学总医院,获取在2014年至2015年间在天津医科大学总医院确诊的肺癌患者的居住地信息,并对应到相应的空气污染物监测点位置,结合区域总人口数计算各监测点的肺癌发病率。其次,本章详细说明了空气污染物含量和肺癌患者病例信息数据库系统的设计、友好软件界面的设计、以及通过ADO技术将软件界面与数据库系统进行连接的详细实现方法;通过构建统一的数据库管理系统,一方面提高了数据检索、更新和使用的效率,另一方面也为课题组后续的数据收集、存储和分析建立了基础。22 第3章基于粗糙集的关系分析第3章基于粗糙集的关系分析3.1数据挖掘技术概述世界著名未来学家JohnNaisbitt曾说过:“我们正在被信息淹没,但饥渴于知识”,这是早在1982年就提出的,而在互联网的迅速发展下,这个信息爆炸的时代充分的印证了JohnNaisbitt的观点。有研究显示互联网每天的信息总量相当于近2亿个DVD的容量,每个人每天要接受的信息量相当于174份报纸的内容,我们衣食住行的方方面面都在源源不断的产生大量的信息。在人类产生数据的能力快速增长的同时,人类获取和存储数据的能力和技术也在飞速的发展,数据库技术被广泛应用,各行各业都纷纷建立自己的数据库,积累了大量的数据资源。各类交易的计算机化、广泛使用的商业产品条码、互联网金融等等这些都使得我们对于数据的收集更加的高效便捷。但是面对着如此庞大的信息量时,如何从中发现有利于企业营销推广、产品研发等工作的有效信息、提升数据价值,也逐渐成为了这个时代关注的焦点之一,这就是数据库中的知识发现(KnowledgeDiscoveryinDatabases,简称KDD)。知识发现的过程如图3-1,KDD中发挥重要作用的关键步骤就是数据挖掘。图3-1知识发现的步骤数据挖掘[27-29]就是从存储在数据库、数据仓库等大型数据存储系统中的大量的信息和数据中发掘出隐含的规律或模式的过程,并且通过数据挖掘所实现的这23 第3章基于粗糙集的关系分析个过程具有自动、高效、便捷的特点。数据挖掘是在1980年代末被提出的,整合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个学科的理论和技术,开辟了数据库系统和数据应用方面的一个新的研究方向。通过专门的数据挖掘算法可以从大量的数据中抽取相关的模式,进行关联分析、聚类、分类、预测、偏差检测等。例如,分类(classification)是采用有监督的模式,利用确定类别的数据作为训练集从而确定可以区分不同类别数据的函数或模型,再将数据映射到预先规定的类别中去;聚类(clustering)采用无监督的模式,依据数据本身的特点,使得聚类后同类别数据尽可能相似,不同类别数据尽可能相异。其它模型的具体内容可阅读相关文献[30-34]。数据挖掘技术常用的方法有关联分析方法、信息论方法、粗糙集方法、神经网络、遗传算法等。其中粗糙集理论的核心思想是将不确定的或不精确的知识用已有的知识库中的知识来近似的刻画,其优势在于:1)粗糙集分析方法尤其适用于处理具有不确定性、不完整性、有噪声的数据集;并且同其它的处理不确定性问题的方法有一定的互补性,使得对问题的处理更易于操作,鲁棒性也更好;2)在数学上有清晰的含义,可以提供有效算法来找到隐藏在数据中的模式;3)仅需要用于知识发现的数据集,基于数据进行分析,对所获得的结果直接进行解释,不需要提供其他先验信息。因此结合本文的数据特点,选择粗糙集分析方法来进行天津市空气污染物含量与肺癌发病率的关系分析。3.2粗糙集概述粗糙集理论[35-39]在1982年由波兰数学家Z.Pawlak首次提出,是智能数据分析和数据挖掘的一种新的方法。粗糙集理论假设全域上的任何一个对象我们都可以用某些属性信息来描述和关联,若表征对象的属性是相同的,则认为在该属性集合上对象具有不可分辨关系,而这种关系正是粗糙集理论的数学基础。粗糙集很好的弥补了经典逻辑的局限性,被广泛的应用在医学、金融、环境、市场分析等多个领域。3.2.1基本概念1)不可分辨关系24 第3章基于粗糙集的关系分析R是论域U上的关系,子集X、Y⊆U,X和Y由属性R是不可分辨的,表示子集X和子集Y都属于R的一个范畴,称R为不可分辨关系(indiscernibilityrelation),即在论域U上的一种等价关系。x和y在U上是不可分辨的,是指有属性𝑃⊆𝑈,对𝑥,𝑦∈𝑈,对任意的属性𝑎∈𝑃,有𝑓(𝑥,𝑎)=𝑓(𝑦,𝑎),称为P上的不可分辨关系,记为𝐼𝑛𝑑(𝑃)。例如对表3-1所示某积木集合进行分类可获得如下的等价类:(1)颜色:{x1,x3,x7}红,{x2,x4}蓝,{x5,x6,x8}黄;(2)形状:{x1,x5}圆形,{x2,x6}方形,{x3,x4,x7,x8}三角形;(3)体积:{x2,x7,x8}大,{x1,x3,x4,x5,x6}小;各子集构成了U中按某属性进行分类的知识。表3-1示例集合积木颜色形状体积x1红圆形小x2蓝方形大x3红三角形小x4蓝三角形小x5黄圆形小x6黄方形小x7红三角形大x8黄三角形大2)上近似集和下近似集给定知识库𝐾=(𝑈,𝑅)中,𝑋⊆𝑈是个体全域上的子集,等价关系𝑅∈𝐼𝑛𝑑(𝐾),根据R将集合X分为不同的子集,示意图如图3-2所示。(1)下近似集R_(X)为X⊆U上确定属于X的所有元素的集合,即所有包含于X的Yi的并集,定义如下:𝑅_(𝑋)=∪{𝑌𝑖∈𝑈|𝐼𝑛𝑑(𝑅):𝑌𝑖⊆𝑋}(3-1)(2)上近似集𝑅−(𝑋)是X⊆U上所有可能属于X的元素的集合,即为所有与X的交集不为空的Yi的并集,定义如下:𝑅−(X)=∪{𝑌∈𝑈|𝐼𝑛𝑑(𝑅):𝑌∩𝑋≠∅}(3-2)𝑖𝑖(3)边界区域25 第3章基于粗糙集的关系分析𝐵𝑛𝑅(𝑋)是指既不能确定在X区域内部,也不能确定在X区域外部的那些元素的集合,定义如下:𝐵𝑛𝑅(𝑋)=𝑅−(𝑋)−𝑅−(𝑋)(3-3)若边界区域为空,即𝐵𝑛𝑅(𝑋)=∅,则称集合X为精细集;若𝐵𝑛𝑅(𝑋)≠∅,则称集合X为粗糙集。边界区域反映了集合的不确定性。(4)近似精度由于边界区域的存在,使得有些元素可能属于全域U的某个子集,但又不能肯定其属于该子集。边界区域的大小反映了该子集关于U等价关系R的近似精度,定义如下:𝑑𝑅(𝑋)=𝐶𝑎𝑟𝑑(𝑅−(𝑋)/𝐶𝑎𝑟𝑑(𝑅−(𝑋))(3-4)其中,Card表示集合的元素的个数,且𝑋≠∅。图3-2粗糙集基本概念示意图3.2.2决策表粗糙集方法进行数据分析的基础是信息系统,即为一个数据集。该信息系统可用数据表来描述,每一列代表一个属性,每一行代表一个感兴趣对象,表中的值即为属性值。假设信息系统可表示为S=(U,A),其中U为非空的有限集论域,A为非空的有限属性集。对任意属性𝑎∈𝐴,将其值的集合Va称为a的域。对每个属性子集𝐵⊆𝐴,定义不可分辨关系𝐼𝑛𝑑(𝐵)={(𝑥,𝑦)∈𝑈2},对于每一个𝑏∈𝐵,𝑏(𝑥)=𝑏(𝑦),显然𝐼𝑛𝑑(𝐵)是一个等价关系,且𝑏∈𝐵,𝐼𝑛𝑑(𝐵)=∩𝐼𝑛𝑑(𝑏)。若将26 第3章基于粗糙集的关系分析信息系统的属性划分为两个不相交的属性类,分别称为条件属性和决策属性,那么该知识表达系统则被称为决策表,并可表示为S=(U,C,D),其中𝐶∪𝐷=𝑅是属性的集合,𝐶为条件属性的集合,𝐷为决策属性的集合。3.2.3决策表约简决策表约简[40,41]就是对知识进行过滤、精炼的过程,在保持决策表的条件属性和决策属性间的对应关系的前提下对决策表进行简化,即删除决策表中冗余的条件属性,使得约简后的决策表能够用尽可能少的条件属性实现与原决策表相同的决策功能。决策表约简的流程图如图3-3所示。开始K=1删除第K个属性Y剩余N=N+1属性再进Ind(A-{a})=Ind(A)?行计算,A=A-{a}N回复被删除第K个属性K=K+1记录结果YK≤N?N结束图3-3决策表约简流程图通常,决策表约简可以分为决策表一致性检查、属性约简和属性值约简3个阶段。1)决策表一致性检查决策表一致性检查是要保证决策表分类知识的一致性。粗糙集方法是完全基于数据进行分析,并不会判断数据是否准确,这样在决策表中有时就会存在某两个或是多个表项的条件属性值相同但决策属性值不同的情况,条件属性是对象特性的描述,决策属性是对象类别的描述。若存在不一致表项,即同一个对象被划27 第3章基于粗糙集的关系分析分到不同的类别中,这时表项之间是相互矛盾的、不合理的,因此在进行后续过程之前要首先去掉不一致表项,保证决策表的一致性。2)属性约简属性约简是对决策表中的列进行约简,即删除在决策中非必要的属性。其中涉及的基本概念包括:(1)必要属性和不必要属性设𝐵为属性集,对某一属性𝑏∈𝐵,若有𝐼𝑛𝑑(𝐵)=𝐼𝑛𝑑(𝐵−{𝑏}),则称b在𝐵中是不必要的,否则称b在𝐵中是必要的。(2)约简设𝐵⊂𝐴,若同时满足𝐼𝑛𝑑(𝐵)=𝐼𝑛𝑑(𝐴)和∀𝑏∈𝐵(𝐼𝑛𝑑(𝐵)≠𝐼𝑛𝑑(𝐵−{𝑏})),则称𝐵是属性集𝐴的一个约简。(3)约简核属性𝐴的约简核可定义为𝐶𝑜𝑟𝑒(𝐴)=∩𝑅𝑒𝑑(𝐴)。其中𝑅𝑒𝑑(𝐴)为𝐴的所有约简的集合,即𝐴的约简核可由𝐴的所有约简集合的交集构成。3)属性值约简属性值约简是对决策表中的行进行约简。首先删除决策表中的重复行,然后确定每行中条件属性的核值,再依据核值对每行进行约简。3.3基于粗糙集的关系分析模型利用粗糙集进行规则挖掘的基本思路如图3-4所示。构建决策表数据离散化决策表约简生成规则规则评估图3-4粗糙集方法本文将2.1.3节中提到的27个监测点的空气污染物数据分别与各监测点对应的总肺癌发病率、男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率以及其它类型肺癌发病率数据组合,进行规则挖掘。分析步骤如下:1)构建决策表决策表中的列显示的是样本的属性值,包括条件属性和决策属性,行表示的是进行规则挖掘的研究样本。27个监测点对应于27组样本数据,空气中SO2、NO2、CO、O3、PM2.5、PM10的含量均值作为条件属性,由于AQI反映的是上述六种污染物含量的综合水平,因此本文中条件属性不包括AQI。分别以总肺癌发病率、男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率和其它类型28 第3章基于粗糙集的关系分析肺癌发病率作为决策属性构建决策表。表3-2是以总肺癌发病率作为决策属性的决策表。表3-2决策表(总肺癌发病率)SO2NO2COO3PM2.5PM10总发病监测点(μg/m3)333(μg/m3)(μg/m3)(μg/m)(μg/m)(μg/m)率‰131.2441.301.3630.7868.81118.701.21225.2239.792.4531.5068.40112.760.63329.0449.071.3028.7674.73120.840.79433.6347.671.8329.7864.97117.442.10530.9641.031.3231.0172.85124.421.89633.1243.611.5530.8669.92121.883.82733.7645.671.4330.6669.62122.241.51837.8246.201.4625.9870.23125.455.42940.4251.102.0635.1579.16124.404.751036.0741.151.4427.7971.37122.165.801134.2947.391.4729.0876.63124.522.231239.9845.541.4934.2474.51124.8819.551338.6046.021.5126.8176.99131.402.871433.1741.851.7327.8478.24135.741.651540.1241.621.4926.4370.64125.155.721629.6441.691.3331.0776.35123.012.661731.6848.701.5529.9978.91132.671.991832.2942.131.7828.6571.74126.911.661935.9947.682.3130.5677.27138.801.242037.1844.681.5027.5780.38117.781.202128.7443.111.5432.5889.66145.800.502237.1144.381.9832.4670.28123.390.862332.7044.591.7534.1872.98124.240.862425.5440.381.9025.8373.93113.600.412535.0142.872.2524.7368.43124.701.542625.1939.952.2229.8966.48117.830.342731.5636.481.7025.4466.61121.738.672)数据离散化从图3-4可以看出,数据离散化是粗糙集分析中必不可少的步骤,一般在数据准备阶段完成。在运用粗糙集进行知识发现的过程中,原始数据通常不适合直接用于知识约简,需要进行数据的预处理。对于条件属性值或决策属性值为连续值的情况,决策表必须进行数据离散化处理后才可进行进一步分析;对于条件属性值和离散属性值为离散值的情况,有时也会为了得到更高层次的离散值而对离散数据进行进一步的合并或抽象。数据离散化过程通常分三步进行:第一步,生29 第3章基于粗糙集的关系分析成可行的候选断点的集合;第二步,在候选断点集合中进一步选取一个结果断点的子集;第三步,按照结果断点子集,采用一定的方式将连续的属性数据映射成离散的属性。离散化过程的第一步和第二步反映的是离散方法,不同的离散方法所适用的数据的特点不同,离散效果也不同;第三步一般是利用区间编号作为离散化后的结果。常用的数据离散化方法有等距离散化、等频离散化、自适应离散化方法、基于信息熵的离散化方法等。一般以数据一致性、知识依赖度和冲突率作为评价离散化方法优劣的标准。下面介绍几种常用离散化方法:(1)等距离散化方法等距离散化只考虑划分的区间距离,而不考虑各区间的样本属性的个数。假设样本某一属性值的最大值为a,最小值为b,要将该属性值划分为𝐾个区间,则各断点之间的间隔为(𝑎−𝑏)/𝐾,依据数据本身分布情况的不同,某些属性可能在各区间分布较均匀,而有些属性值可能在各区间分布差异较大。等距离散化方法相对来说比较适合处理数据量不是很大并且包含多种类型数据的数据集。(2)等频离散化方法等频离散化方法是要保证各区间的样本个数一致,而不考虑区间距离的方法。假设共有𝑛个样本,同样要将属性值划分为𝐾个区间,采用等频离散化方法就要保证每个区间都有𝑛𝐾个样本。(3)基于信息熵的离散化方法熵反映的是对信息的量化度量,变量的不确定性越大,它的熵也就越大。一个系统的信息熵与此系统的有序性呈现反比关系,越是有序的系统,其信息熵越低,越是无序的系统,其信息熵越高。基于信息熵进行数据离散的过程:将连续属性值在其取值范围内划分为若干个小区间,并用离散的非重复值代表各个区间;合并两个相邻区间使得合并前后信息熵差值最小,若同时存在多组满足条件的相邻区间,则任选其中一组即可;重复执行上述相邻区间合并的过程,直至满足预先设定的条件,并储存区间的划分点[42]。本文中采用的离散化方法是依据本文中空气污染物含量数据和各监测点区域肺癌发病率数据的特点自己定义的划分方式,将空气污染物含量划分为低、中、高三个区间,将各项肺癌发病率划分为小、较小、较大和大这四个区间,如表3-3所示。表3-3数据离散规则空气污离散划分等级肺癌发病离散划分等级染物率低中高小较小较大大SO2<3030-35>35总发病率<0.80.8-1.61.6-3>3NO2<4040-45>45男性<0.50.5-1.11.1-2.5>2.530 第3章基于粗糙集的关系分析表3-3数据离散规则(续)CO<1.51.5-2>2女性<0.30.3-0.60.6-1.0>1.0O3<2525-30>30腺癌<0.20.2-0.40.4-0.6>0.6PM2.5<7070-80>80鳞癌<0.20.2-0.30.3-0.8>0.8PM10<120120-130>130其它类型<0.40.4-1.01.0-2>2依据表3-3给出的离散规则,可以对表3-2进行数据离散化处理,并且为简便起见,将表3-3中的低、中、高在以后的描述中分别以区间编号1、2、3代替。则可得到离散后的决策表,见表3-4。表3-4离散后的决策表条件属性(空气污染物)决策属性(发病率)SO2NO2COO3PM2.5PM10总男性女性腺癌鳞癌其它221311较小较小较小小较小较小113311小小小较小小小131222小较小小较小小小232211较大较大较小较大较小较大221322较大较大较大较大小较大222312大大较大大较大大231312较小小大较小较小较小331222大大大大大大333322大大大较大较大大321222大大大大较大大231222较大较大较大较大较大较大331322大大大大大大332223较大较大大较大较大较大222223较大较小较大较小较大较大321222大大大大大大121322较大较大较大大较小较大232223较大较大较小较小较小较大222222较大较大较小较小小较大333323较小小较大小较大较小322231较小较大小小较小较小122333小小小小小小322322较小小较小较小小较小31 第3章基于粗糙集的关系分析表3-4离散后的决策表(续)222322较小较小小较小小较小122221小小较小小小小323112较小较小较小较大小较小113211小小小小小小212212大大大大大大3)决策表约简决策表约简是粗糙集分析方法中的重要内容,未经约简的决策表中含有较多的冗余信息,需要通过约简来精简条件属性,去除冗余信息,用最少的条件属性反映决策表中的信息[43]。下面以SO2含量、NO2含量、PM10含量作为条件属性,以监测点区域总肺癌发病率作为决策属性,在数据集中选取出6组有代表性的数据来更加直观的说明决策表约简的实现过程。表3-5显示的是一个决策表的示例其中U={u1,u2,u3,u4,u5,u6},A={SO2,NO2,PM10,总肺癌发病率},V={1,2,3},条件属性C={SO2,NO2,PM10},决策属性D={总肺癌发病率}。表3-5决策表示例A条件属性决策属性USO2NO2PM10总肺癌发病率u1322较大u2221大u3321大u4223大u5213大u6221较大(1)检查决策表一致性在表3-5中,u2和u6的条件属性SO2、NO2、PM10的值均为2,2,1,条件属性值相同,但决策属性值不同,u2的决策属性值为“大”而u6的决策属性值为“较大”,两个对象间相互矛盾。具有此类表现的表项即为不一致表项,应该只保留其中之一,删除与之不一致的表项。这里将u6删除,得到表3-6。表3-6一致性检查后的决策表A条件属性决策属性USO2NO2PM10总肺癌发病率u1322较大u2221大u3321大32 第3章基于粗糙集的关系分析表3-6一致性检查后的决策表(续)u4223大u5213大(2)属性约简决策表进行属性约简的一种常见方法就是构造分辨矩阵,从分辨矩阵中导出分辨函数再进行化简。以表3-6为例,用求该表的分辨矩阵的方法进行约简,分辨矩阵定义如下:对信息系统𝐼𝑆=(𝑈,𝐶,𝐷,𝑉,𝑓),令𝑈={𝑢1,𝑢2,…,𝑢𝑛},其中𝑛为𝑈中元素的个数,则𝐼𝑆关于属性集的分辨矩阵𝑀𝐴(𝐼𝑆)是一个𝑛×𝑛的矩阵,矩阵元素𝑚𝑖𝑗定义为:𝑚𝑖𝑗={𝑎∈𝐴|𝑓𝑎(𝑢𝑖)≠𝑓𝑏(𝑢𝑗)}(3-5)表3-7分辨矩阵Uu1u2u3u4u5u1{SO2,PM10}{PM10}{SO2,PM10}{SO2,NO2,PM10}u2{SO2}{PM10}{NO2,PM10}u3{SO2,PM10}{SO2,NO2,PM10}u4{NO2}u5表3-7为依据表3-6所构造的分辨矩阵。由表3-7可得到条件属性集的约简为{SO2,NO2,PM10},{SO2,PM10},{NO2,PM10},{PM10}和{SO2}。以{SO2,PM10}为例来进行决策表约简,约简结果如表3-8所示。表3-8属性约简后决策表USO2PM10总肺癌发病率u132较大u221大u331大u423大u523大(3)属性值约简表3-8中,u4和u5是重复行,冗余信息,删除u5后可得到表3-9所示的决策表。表3-9去除重复行后的决策表USO2PM10总肺癌发病率u132较大u221大u331大u423大33 第3章基于粗糙集的关系分析进行属性值约简的目的是确定条件属性的核值,采用逐行逐个去除条件属性的方法。若去除对象u1的SO2的属性值,由属性PM10的值可唯一确定u1的决策属性值,因此SO2属性值为非核值;若去除对象u1的PM10的属性值,由SO2的属性值为3无法唯一确定u1的决策属性值,那么PM10属性值即为核值。同理再逐行去除u2,u3,u4的各属性值来确定其核值。通过这一过程可以进一步消除决策表中的非必要信息,精简出能够反映决策能力的核心属性值。表3-10为进行属性值约简后的核值表。表3-10核值表USO2PM10总肺癌发病率u1-2较大u221大u3-1大u423大基于表3-10可以得到用于决策的规则:IFPM10=2THEN总肺癌发病率=较大IFSO2=2且PM10=1THEN总肺癌发病率=大IFPM10=1THEN总肺癌发病率=大IFSO2=2且PM10=3THEN总肺癌发病率=大同理,对包含全部27个样本的决策表也可以采用上述过程和方法原理得到相应的决策规则。但是直接采用上述分辨矩阵的方法处理较多数据时并不适用。本文中采用经典的约简算法Johnson算法。Johnson约简[44]的基本思想是:一个属性在分辨矩阵中出现的频率反映了该属性的分辨能力,出现频率越高的属性其具有的可分辨能力也越强,每次将当前频率最大的属性加入约简集中;并且分辨矩阵中元素项的长短反映了元素项的重要性,越短的元素项越重要。假设B表示约简,𝑆表示分辨函数中的每一个集合,𝑤(𝑆)表示𝑆的权重。Johnson约简的基本步骤如表格3-11所示。表3-11Johnson约简算法算法步骤1)设B为空集;2)设a表示∑𝑤(𝑠)最大化的属性值,其中∑𝑤(𝑠)为S中所有包含a的集合s的权重和。如果b同为∑𝑤(𝑠)最大化的属性值,则从a、b中任意选取一个;3)将a加到B中;4)移除S中所有包含a的集合s;5)如果S为空集,则返回B;否则转到步骤2),重复上述操作;34 第3章基于粗糙集的关系分析表3-11Johnson约简算法(续)6)进行近似约简的计算,当有足够的子集从S中被删除,即可返回B,而不一定必须令S为空。将表3-4中的总肺癌发病率作为决策属性构建决策表,采用Johnson算法进行约简后得到的约简核如表3-12所示。表3-12约简核{CO,PM10}{SO2,CO}{SO2,NO2}{NO2,CO}{SO2,CO,PM2.5}{NO2,CO,PM2.5}{PM2.5,PM10}{CO,PM2.5}{O3,PM10}{O3}{CO,O3,PM2.5}{SO2,NO2,O3}{SO2,PM10}{SO2,NO2,CO}{SO2,PM2.5}4)生成规则依据约简后的结果可以形成最后挖掘出的规则,在挖掘出的规则中剔除样本支持度小于3的规则,最后形成表3-13。表3-13规则挖掘有效结果条件结论(总发病率)样本支持度NO2(3)ANDCO(2)→较大3SO2(3)ANDCO(1)→大4SO2(2)ANDNO2(3)ANDO3(2)→较大3O3(2)ANDPM10(3)→较大3SO2(1)ANDPM10(1)→小3与上述以总肺癌发病率为决策准则进行规则挖掘的过程相似,将决策准则分别替换为男性发病率、女性发病率、腺癌发病率、鳞癌发病率以及其它类型肺癌发病率(具体数据参看表2-4)进行规则挖掘,结果如表3-14和表3-15所示。表3-14男性肺癌发病率和女性肺癌发病率的规则挖掘有效结果结论(发病率)样本支条件持度男性女性NO2(3)ANDCO(2)→较大3SO2(3)ANDCO(1)→大大4SO2(2)ANDNO2(3)ANDO3(2)→较大335 第3章基于粗糙集的关系分析表3-14男性肺癌发病率和女性肺癌发病率的规则挖掘有效结果(续)SO2(1)ANDPM10(1)→小3NO2(3)ANDO3(3)→大3SO2(3)ANDNO2(3)→大4表3-15腺癌、鳞癌、其它类型癌发病率规则挖掘有效结果结论(发病率)样本支条件持度腺癌鳞癌其它类型NO2(2)ANDPM10(1)→小3SO2(3)ANDCO(1)→大大4SO2(2)ANDCO(2)ANDPM2.5(2)→较小4CO(2)ANDPM2.5(2)ANDPM10(2)→小3SO2(1)ANDPM10(1)→小小3NO2(3)ANDCO(2)→较大3SO2(2)ANDNO2(3)ANDO3(2)→较大3O3(2)ANDPM10(3)→较大35)结果分析(1)空气污染物含量与总肺癌发病率的关系由表3-13可提取下面的规则:当CO含量中等且NO2含量高时,总肺癌发病率较大;当CO含量低且SO2含量高时,总肺癌发病率很大;当SO2含量低且PM10含量也低时,总肺癌发病率很小。由上述第二条规则与第一条规则的对比可以发现,虽然CO含量降低了,但是由于另一项污染物由NO2变为了SO2,总肺癌发病率并未随CO含量的降低而减小,反而上升了;再结合第三条规则,SO2含量降低后,总肺癌发病率也变为很小。因此可以认为SO2在空气中的含量是与总肺癌发病率相关的。此结论与目前国内外很多相关研究的结论相符合。(2)空气污染物含量与不同性别人群的肺癌发病率的关系由表3-14规则显示:当SO2含量高且CO含量低时,男性发病率与女性发病率均很大;并且当SO2含量低且PM10含量低时,男性发病率很小。这与总肺癌发病率的规则相符,肺癌发病率与SO2含量具有相关性,且会随SO2含量的升高而增加,随SO2含量的降低而减小。36 第3章基于粗糙集的关系分析当NO2含量高且O3含量高时,或者当SO2含量高且NO2含量高时,女性发病率均很大;当NO2含量高且CO含量中等时,或者当NO2含量高、SO2含量中等且O3含量中等时,男性肺癌发病率均为较大。综合这几条规则均具有NO2含量高且肺癌发病率大的特点,因此也可以推断NO2含量与肺癌的发病率相关;而且在同等NO2含量等级下,女性肺癌发病率要高于男性肺癌发病率,因此认为女性对于对NO2的敏感程度要高于男性。(3)空气污染物含量与不同类型的肺癌的发病率的关系由表3-15提取规则可以分析发现SO2仍然是引起各类型肺癌的一个主要因素。但是不同空气污染物含量与肺癌的发病类型未见明显的相关性,各项空气污染物含量的差异对肺癌的患病类型是否具有影响还有待进一步分析。3.4本章小结本章主要介绍了数据挖掘技术以及粗糙集分析方法的相关理论知识,然后详细介绍了基于粗糙集的关系分析模型的构建,包括决策表构建、数据离散化、决策表约简的过程,通过决策表约简获取了属性核值,精简决策表获取更具决策价值的规则。通过对粗糙集提取的规则进行分析可知,SO2与肺癌具有正相关关系,随SO2含量的增加,肺癌的发病率增大;NO2也是引起肺癌的空气污染物之一,并且女性对NO2比男性更为敏感。37 第3章基于粗糙集的关系分析38 第4章基于模糊测度理论的关系分析第4章基于模糊测度理论的关系分析4.1模糊测度理论概述模糊测度理论是对经典测度理论的扩展,能够反映对象之间的关联性。经典测度理论中对事物的度量单位如面积、长度、质量等都满足可加性,如我们所熟悉的“权重”或“加权平均”等概念都是以经典测度理论为基础的,权重满足可加性,并且加权平均的过程中认为目标对象的特征属性之间不存在交互性。但在实际应用中,有很多时候可加性是不适用的,比如某一项任务交给甲、乙两个人完成,很多时候甲和乙协作完成此项目的效率未必一定等于甲、乙各自单独完成时的效率的和。因此,能够反映特征属性间的交互作用的模糊测度和非线性积分是非常有价值的。模糊测度(或非可加测度)将经典测度中需满足可加性的约束条件转变为需满足基于集合包含关系的单调性约束条件,使得对事物的度量更具灵活性[45,46]。模糊测度理论已被成功应用于人工智能、图像处理、多准则决策分析等诸多领域之中,可以反映各因素之间的相互促进、相互制约、相互矛盾等作用关系,评估各条件因素在不同组合情况下的重要程度,形成最终的决策方案[47]。而这一过程中最为重要的就是要通过集函数(即Choquet积分等非线性积分)来融合各条件因素上的评价值,形成综合性的决策方案,关于集函数会在下面章节具体介绍。4.1.1模糊测度定义设𝑋={𝑥1,𝑥2,…,𝑥𝑛}为包含有𝑛个元素的非空有限集合,𝑃(𝑋)为𝑋的幂集,当满足下述条件,则称𝑋上的集函数𝜇:𝑃(𝑋)→[0,1]为模糊测度:1)𝜇(𝑋)=1,𝜇(∅)=02)若𝑆,𝑇⊂𝑋,𝑆⊆𝑇,则𝜇(𝑆)≤𝜇(𝑇)在实际应用中,对任意子集S的模糊测度𝜇(𝑆)可以认为是S子集的权重。对任意两个不相交的子集𝑆,𝑇⊂𝑋,非空有限集X上的模糊测度具有如下几种情况[48]:1)可加的:𝜇(𝑆∪𝑇)=𝜇(𝑆)+𝜇(𝑇);2)次可加的:𝜇(𝑆∪𝑇)≤𝜇(𝑆)+𝜇(𝑇);3)超可加的:𝜇(𝑆∪𝑇)≥𝜇(𝑆)+𝜇(𝑇);39 第4章基于模糊测度理论的关系分析4)模糊可加的:𝜇(𝑆∪𝑇)=𝜇(𝑆)∨𝜇(𝑇)。模糊测度集函数的一个重要变化形式就是其Möbius表示形式[49,50],可用如下定义表示。Möbius表示在研究Choquet积分的性质、计算非线性积分以及确定模糊测度等方面均有重要应用。定义4.1非空有限集X上的任意集函数𝜗:𝑃(𝑋)→𝑅的Möbius表示记为m,则𝑚(𝑆)=∑(−1)|𝑆|−|𝑇|𝜗(𝑇),∀𝑆⊂𝑋(4-1)𝑇⊂𝑆其逆变换可定义为ϑ(S)=∑𝑚(𝑇),∀𝑆⊂𝑋(4-2)𝑇⊂𝑆定理4.1集函数𝑚:𝑃(𝑋)→𝑅是集合X上的某一模糊测度的Möbius表示当且仅当:1)𝑚(∅)=0,∑𝑆⊂𝑋𝑚(𝑆)=12)∑𝑥𝑖∈𝑇⊂𝑆𝑚(𝑇)≥0,∀𝑆⊂𝑋,∀𝑥𝑖∈𝑆4.1.2非线性积分类型及其关系非线性积分即基于模糊测度的各积分形式的统称,通常包含:Choquet积分[51]、类Choquet积分[52]、Sugeno积分[53,54]、(N)模糊积分[55]、Pan-integral积分等[56,57]。从结构形式上看,各类非线性积分所涉及的数学运算是有所区别的。例如,在离散情况下,Sugeno积分涉及“取大”和“取小”两种运算;Choquet积分涉及“加”和“乘”两种运算;Pan-integral积分涉及“泛加”和“泛乘”两种运算。其中以Choquet积分、Sugeno积分和(N)模糊积分的应用最为广泛[58,59]。1)Sugeno积分设𝜇:𝑃(𝑋)→[0,1]为非空有限集𝑋={𝑥1,𝑥2,…,𝑥𝑛}上的模糊测度,函数𝑓:𝑋→[0,1]关于模糊测度𝜇的离散Sugeno积分定义为𝑛(𝑆)∫𝑓𝑑𝜇=⋁[𝑓(𝑥(𝑖))∧𝜇(𝑋(𝑖))](4-3)𝑖=140 第4章基于模糊测度理论的关系分析其中,∧为取小运算,为取大运算,𝑋(.)为X上的一个置换形式,使得𝑓(𝑥(1))≤𝑓(𝑥(2))≤⋯≤𝑓(𝑥(𝑛−1))≤𝑓(𝑥(𝑛)),𝑋(𝑖)={𝑥(𝑖),𝑥(𝑖+1),…,𝑥(𝑛)},𝑋(𝑛+1)=∅。2)Choquet积分设𝜇:𝑃(𝑋)→[0,1]为非空有限集𝑋={𝑥1,𝑥2,…,𝑥𝑛}上的模糊测度,函数𝑓:𝑋→𝑅关于模糊测度𝜇的离散Choquet积分定义为𝑛(C)∫𝑓𝑑𝜇=∑[𝑓(𝑥(𝑖))−𝑓(𝑥(𝑖−1))]𝜇(𝑋(𝑖))(4-4)𝑖=1其中𝑋(.)为X的一个置换形式,使得𝑓(𝑥(1))≤𝑓(𝑥(2))≤⋯≤𝑓(𝑥(𝑛−1))≤𝑓(𝑥(𝑛)),𝑓(𝑥(0))=0,𝑋(𝑖)={𝑥(𝑖),𝑥(𝑖+1),…,𝑥(𝑛)},𝑋(𝑛+1)=∅。离散的Choquet积分还可以用4.1.1节中介绍的Möbius表示形式来计算:(C)∫𝑓𝑑𝜇=∑𝑚(𝑆)⋀𝑓(𝑥𝑖)(4-5)𝑆⊂𝑋𝑥𝑖∈𝑆其中,m为模糊测度𝜇的Möbius表示形式。利用Möbius表示形式计算Choquet积分时需要遍历全部的子集,但与式(4-4)比较可知,Möbius表示形式下Choquet积分的计算不用将函数值排序。3)(N)模糊积分设𝜇:𝑃(𝑋)→[0,1]为非空有限集𝑋={𝑥1,𝑥2,…,𝑥𝑛}上的模糊测度,函数𝑓:𝑋→𝑅关于模糊测度𝜇的离散(N)模糊积分定义为𝑛(N)∫𝑓𝑑𝜇=⋁[𝑓(𝑥(𝑖))𝜇(𝑋(𝑖))](4-6)𝑖=1其中𝑋(.)为X的一个置换形式,使得𝑓(𝑥(1))≤𝑓(𝑥(2))≤⋯≤𝑓(𝑥(𝑛−1))≤𝑓(𝑥(𝑛)),𝑋(𝑖)={𝑥(𝑖),𝑥(𝑖+1),…,𝑥(𝑛)}。非线性积分作为基于模糊测度的集函数,可以更具柔性的显示各准则间的交互作用,显示其相对重要性。尤其是Choquet积分和Sugeno积分的集成性质和公理化性质突出。4.1.3交互作用指标在实际应用中,描述目标对象的属性之间往往不具有相互独立性,某些属性之间存在冗余关系,而有些属性之间又可以形成互补的关系。模糊测度理论相较于经典可加测度的特点之一就是可以体现属性间的相互作用、不独立性。模糊测41 第4章基于模糊测度理论的关系分析度理论中子集的测度反映的是相应子集的重要性,而交互作用指标就是对元素间的交互作用的量化描述。模糊测度理论中具有多个交互作用指标,包括:Shapley交互作用指标、Banzhaf交互作用指标、交互作用量指标等,本文中应用Shapley交互作用指标。Shapley交互作用指标[60,61]是Grabisch等在Shapley值的[62]基础上进行拓展所提出的,定义如下:设𝑋={𝑥1,𝑥2,…,𝑥𝑛},𝜇:𝑃(𝑋)→[0,1]为X上的模糊测度,则𝜇的Shapley交互作用指标为(|𝑋|−|𝑇|−|𝑆|)!|𝑇|!𝐼(𝑆)=∑∑(−1)|𝑆|−|𝐿|𝜇(𝐿∪𝑇),∀𝑆⊂𝑋𝑆ℎ(|𝑋|−|𝑆|+1)!(4-7)𝑇⊂𝑋𝑆𝐿⊂𝑆其中𝑋𝑆即为在集合X中去掉子集S后的集合。当式(4-7)中𝑆={𝑥𝑖}时,即为𝑥𝑖的Shapley值:(|𝑋|−|𝑇|−1)!|𝑇|!𝐼𝑆ℎ({𝑥𝑖})=∑(|𝑋|)![𝜇(𝑇∪{𝑥𝑖})−𝜇(𝑇)](4-8)𝑇⊂𝑋{𝑥𝑖}其中𝜇(𝑇∪{𝑥𝑖})−𝜇(𝑇)可以理解为在T子集中增加𝑥𝑖元素后,对T子集的权重的影响。对Shapley交互作用指标的理解,我们可以用如下的假设进行直观解释。假设非空有限集𝑋={𝑥𝑖,𝑥𝑗},当𝑆={𝑥𝑖,𝑥𝑗}时,𝑥𝑖,𝑥𝑗间的Shapley交互作用指标:𝐼𝑆ℎ({𝑥𝑖,𝑥𝑗})=𝜇({𝑥𝑖,𝑥𝑗})−𝜇({𝑥𝑖})−𝜇({𝑥𝑗})(4-9)显然,若𝐼𝑆ℎ({𝑥𝑖,𝑥𝑗})>0,即μ({𝑥𝑖,𝑥𝑗})>𝜇({𝑥𝑖})+𝜇({𝑥𝑗})时,𝑥𝑖与𝑥𝑗之间是正交互作用;若𝐼𝑆ℎ({𝑥𝑖,𝑥𝑗})=0,即μ({𝑥𝑖,𝑥𝑗})=𝜇({𝑥𝑖})+𝜇({𝑥𝑗})时,𝑥𝑖与𝑥𝑗间相互独立,互不影响;若𝐼𝑆ℎ({𝑥𝑖,𝑥𝑗})<0,即μ({𝑥𝑖,𝑥𝑗})<𝜇({𝑥𝑖})+𝜇({𝑥𝑗})时,𝑥𝑖与𝑥𝑗之间是负交互作用。因此,可以看出通过Shapley交互作用指标,可以将作为条件的元素间的相互作用以量化的形式体现出来,更加的直观准确。由于Shapley交互作用指标同时满足线性公理、哑元公理、对称性公理和递归公理,适宜用来描述条件因素总体的重要性和其间的交互作用,而得到了广泛的应用[63]。4.1.4HLMS方法确定模糊测度基于最小二乘法的思想确定模糊测度是模糊测度确定方法中的代表性方法之一,设最小二乘法中的目标函数为J,则42 第4章基于模糊测度理论的关系分析𝐽=𝑚𝑖𝑛(∑[𝐶𝑚(𝑎)−𝑦(𝑎)]2)(4-10)𝑎∈𝐿其中y(a)为预期评价值,Cm(a)为Choquet积分值。通过优化使得目标函数J最小,找到最优解。HLMS方法是基于最小二乘法思想确定模糊测度的经典方法之一。HLMS方法由Grabisch等[64,65]学者提出,以模糊测度的格表示结构为基础,并通过用启发式算法去确定次优解,从而降低计算量。模糊测度的格表示结构指将非空有限集𝑋={𝑥,𝑥,…,𝑥}的2n个子集的模12𝑛糊测度,以格的形式依据其包含与被包含的关系来进行排列,如图4-1所示。μøμ1μ2μ3μ4μ12μ13μ14μ23μ24μ34μ123μ124μ134μ234μ1234图4-1模糊测度的格表示结构图4-1中𝜇12=𝜇({𝑥1,𝑥2}),其它结点以此类推。由图4-1可知,模糊测度的格表示结构具有以下特点:1)对于包含n个元素的集合X,其格表示结构包含n+1层,初始结点为𝜇∅,终结点为𝜇𝑋;2)由𝜇∅到𝜇𝑋的路径即为格表示结构的路径,同一条路径上的结点和结点间的连线均是唯一的、不可重复的,如图4-1中红色路径所示;3)对第k层的任意结点来说,其上层邻接点为第k-1层中与其连接的结点,其下层邻接点为第k+1层中与其连接的结点。HLMS方法的实现步骤见表4-1:表4-1HLMS实现步骤算法步骤1)初始化模糊测度,令𝜇({𝑥𝑖})=1𝑛,即模糊测度格表示中的同一层结点的值均相同,且*下层与其相邻上层结点的值相差都为1𝑛,模糊测度处于均衡状态;43 第4章基于模糊测度理论的关系分析表4-1HLMS实现步骤(续)2)计算训练方案数据(𝑎,𝑦(𝑎))∈𝐿的误差值,即𝑒=𝐶𝜇(𝑎)−𝑦(𝑎);3)假设训练方案a设计的路径上的结点为𝜇(0),𝜇(1),…,𝜇(𝑛),计算训练方案a涉及的结点新值𝜇𝑛𝑒𝑤(𝑖)=𝜇𝑜𝑙𝑑(𝑖)−𝛼𝑒(𝑎(𝑛−𝑖)−𝑎(𝑛−𝑖−1)),其中α∈[0,1]为一常数,𝑎(𝑖)为𝑎1,𝑎2,…,𝑎𝑛中第𝑖个最小量;4)修正各结点单调性关系,即令每层结点的值大于等于上层邻接结点的值,且小于等于下层邻接结点的值;若e>0,修正顺序为𝜇(1),…,𝜇(𝑛−1);若e<0,修正顺序为𝜇(𝑛−1),…,𝜇(1);若不满足单调性,则将满足单调性的结点赋予其前刚修正的结点的值,即令两结点值相等;5)重复执行步骤2)到4),经过多次迭代后,对值未发生任何变化的结点进行检查和修正;5a.验证其上层邻接点和下层邻接点的单调性关系,若不满足单调性,则对其下层结点赋予其上层结点的值,对格表示中所有未发生变化的结点自上而下进行遍历和修正;5b.自上而下对自初始化没有任何更改的结点进行赋值,记现需要赋值的结点为𝜇∗,𝜇∗的下层邻接点的测度值的平均值为𝑚,上层邻接点的测度值的平均值为𝑚̅,𝜇∗与下层各邻接点的差的绝对值的最小值为𝑑𝑚𝑖𝑛,𝜇∗与上层各邻接点的差的绝对值的最小值为𝑑̅𝑚𝑖𝑛,赋值过程为:𝑛𝑒𝑤𝑜𝑙𝑑(𝑚+𝑚−2𝜇∗𝑜𝑙𝑑)𝑚𝑚𝑖𝑛若2𝜇∗<𝑚+𝑚,则𝜇∗=𝜇∗+𝛽,𝛽∈[0,1];2(𝑚+𝑚)𝑛𝑒𝑤𝑜𝑙𝑑(𝑚+𝑚−2𝜇∗𝑜𝑙𝑑)𝑑𝑚𝑖𝑛若2𝜇∗≥𝑚+𝑚,则𝜇∗=𝜇∗+𝛽,𝛽∈[0,1];2(𝑚+𝑚)注:本文中应用的非线性积分为Choquet积分,因而均衡状态采用步骤1)中所述方式进行初始化,当采用其它非线性积分形式时可采用其他初始化方法。4.2基于模糊测度的关系分析模型本文中以空气污染物含量作为决策准则,以各项肺癌发病率作为决策结果,基于HLMS方法确定决策准则的模糊测度值,并计算Shapley交互作用指标,从而反映各项空气污染物组合的子集的重要性以及他们之间的交互作用。以总肺癌发病率作为决策结果为例进行分析,表2-4显示了空气污染物含量以及各项肺癌发病率数据。由4.1节中对模糊测度理论的介绍可知,Choquet积分的求取是在对各项决策准则的值进行排序的基础上进行的,从表2-4中可以看出,各项空气污染物的取值范围是有较大差异的,例如SO2的含量一般情况会高于20,极少数情况下低于此值,PM10的含量一般都超过60,极少数情况下低于此值,而CO的含量基本在1到2之间,非常少的情况下会超过3。因此,直接利用空气污染物的含量进行排序显然是不合理的,因而本文中首先对空气污染物含量和各项肺癌发病率进行归一化:44 第4章基于模糊测度理论的关系分析𝑝(𝑖)𝑔(𝑖)=27(4-11)∑𝑝(𝑖)/27𝑖=1其中g(i)为归一化后的值,p(i)为实际值。进行归一化后的决策表如表4-2所示。利用HLMS方法确定的模糊测度值以及计算得到的Shapley交互作用指标值如表4-3所示。表4-2归一化后的决策表监条件属性(空气污染物)决策属性(发病率)测点SO2NO2COO3PM2.5PM10总男性女性腺癌鳞癌其他10.940.940.811.040.940.950.400.420.370.220.520.4420.760.911.451.060.930.910.210.190.230.300.130.1930.871.120.770.971.020.970.260.280.230.520.260.1641.011.091.081.010.890.940.690.840.460.820.650.6550.930.930.781.050.991.000.620.580.690.820.390.6060.990.990.911.040.950.981.261.520.831.820.791.1671.011.040.851.040.950.980.500.250.900.420.730.4881.131.050.860.880.961.011.791.941.530.912.381.9891.211.161.221.191.081.001.571.701.340.801.391.88101.080.940.850.940.970.981.911.931.892.191.391.92111.031.080.870.981.041.000.740.810.630.710.770.74121.201.040.881.161.021.006.456.336.656.915.176.55131.161.050.890.911.051.060.950.950.950.621.610.93140.990.951.020.941.071.090.540.490.630.410.790.54151.200.950.880.890.961.001.891.702.202.152.621.64160.890.950.781.051.040.990.880.910.831.250.750.77170.951.110.911.011.081.070.660.760.480.470.550.74180.970.961.050.970.981.020.550.640.390.3100.74191.081.091.371.031.051.110.410.200.760.180.920.38201.121.020.890.931.100.950.390.63000.740.46210.860.980.911.101.221.170.160.130.220.1800.19221.111.011.171.100.960.990.280.240.350.490.290.21230.981.021.031.150.991.000.280.300.250.410.290.24240.770.921.120.871.010.910.130.040.280.120.200.13251.050.981.330.840.931.000.510.560.420.810.400.42260.760.911.311.010.910.950.110.110.110.180.260.05270.950.831.010.860.910.982.862.543.392.982.982.79表4-3总肺癌发病率--模糊测度及Shapley交互作用指标集合𝜇a)𝐼𝑆ℎb)集合𝜇a)𝐼𝑆ℎb){SO2}0.000-{NO2,CO,PM2.5}0.452-0.012{NO2}0.083-{NO2,CO,PM10}0.4820.069{CO}0.000-{NO2,O3,PM2.5}0.4950.060{O3}0.000-{NO2,O3,PM10}0.4860.07645 第4章基于模糊测度理论的关系分析表4-3总肺癌发病率--模糊测度及Shapley交互作用指标(续){PM2.5}0.000-{NO2,PM2.5,PM10}0.026-0.090{PM10}0.000-{CO,O3,PM2.5}0.4690.035{SO2,NO2}0.4390.015{CO,O3,PM10}0.4300.096{SO2,CO}0.153-0.079{CO,PM2.5,PM10}0.000-0.063{SO2,O3}0.6160.111{O3,PM2.5,PM10}0.273-0.085{SO2,PM2.5}0.0830.080{SO2,NO2,CO,O3}0.6230.206{SO2,PM10}0.6160.125{SO2,NO2,CO,PM2.5}0.576-0.266{NO2,CO}0.000-0.018{SO2,NO2,CO,PM10}0.623-0.100{NO2,O3}0.0750.006{SO2,NO2,O3,PM2.5}1.0000.288{NO2,PM2.5}0.0000.053{SO2,NO2,O3,PM10}0.6230.314{NO2,PM10}0.013-0.056{SO2,NO2,PM2.5,PM10}0.6750.070{CO,O3}0.0000.005{SO2,CO,O3,PM2.5}0.825-0.665{CO,PM2.5}0.0000.070{SO2,CO,O3,PM10}0.6280.150{CO,PM10}0.0000.023{SO2,CO,PM2.5,PM10}0.6750.013{O3,PM2.5}0.2700.230{SO2,O3,PM2.5,PM10}0.6850.226{O3,PM10}0.229-0.027{NO2,CO,O3,PM2.5}0.667-0.343{PM2.5,PM10}0.000-0.065{NO2,CO,O3,PM10}0.626-0.351{SO2,NO2,CO}0.477-0.205{NO2,CO,PM2.5,PM10}0.482-0.160{SO2,NO2,O3}0.623-0.044{NO2,O3,PM2.5,PM10}0.495-0.096{SO2,NO2,PM2.5}0.4390.038{CO,O3,PM2.5,PM10}0.5680.137{SO2,NO2,PM10}0.623-0.243{SO2,NO2,CO,O3,PM2.5}1.0000.158{SO2,CO,O3}0.6160.036{SO2,NO2,CO,O3,PM10}0.6320.247{SO2,CO,PM2.5}0.366-0.111{SO2,NO2,CO,PM2.5,PM10}0.6750.155{SO2,CO,PM10}0.623-0.102{SO2,NO2,O3,PM2.5,PM10}1.000-0.256{SO2,O3,PM2.5}0.6500.032{SO2,CO,O3,PM2.5,PM10}1.0000.022{SO2,O3,PM10}0.619-0.415{NO2,CO,O3,PM2.5,PM10}0.6660.170{SO2,PM2.5,PM10}0.6750.228{SO2,NO2,CO,O3,PM2.5,PM10}1.000-0.863{NO2,CO,O3}0.248-0.167注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标模糊测度反应了各空气污染物子集的重要程度,表4-3中分别观察各阶子集中模糊测度值最大和次大的集合可以发现,均包括同一元素SO2,可见SO2在对总肺癌发病率的影响中具有重要作用。将决策结果改为男性肺癌发病率、女性肺癌发病率、腺癌发病率、鳞癌发病率和其他肺癌类型发病率,同样采用HLMS方法确定各空气污染物集合的模糊测度𝜇和Shapley交互作用指标ISh,如表4-4到表4-8所示。46 第4章基于模糊测度理论的关系分析模糊测度反应了各空气污染物子集的重要程度,由表4-3到表4-8可以进行如下分析:1)集合{SO2,O3}和集合{SO2,PM10}的模糊测度值均明显大于其它两阶子集的模糊测度值,并且ISh值均为正即具有正交互作用;集合{O3,PM10}的模糊测度值均较小且ISh值为负,即O3和PM10之间具有负交互作用;集合{SO2,O3,PM10}的模糊测度值较大,但ISh值均为负。可以认为SO2在对肺癌发病率的影响中具有重要作用并且当与PM10或O3共同作用时对肺癌的影响更大。并且这一结论在对各项肺癌发病率数据的分析中均适用。2)模糊测度值为1,即具有极高权重的子集包括:{SO2,NO2,O3,PM2.5}、{SO2,NO2,CO,O3,PM2.5}、{SO2,CO,O3,PM2.5,PM10}、{SO2,NO2,O3,PM2.5,PM10},前三个子集的ISh均为正,第四个子集的ISh为负;再分析由上述子集所包含元素构成的集合,{SO2,O3,PM2.5}的模糊测度值较高,{O3,PM2.5}的ISh为正数且明显大于其它子集的Shapley交互作用指标,{NO2,PM10}的ISh值为负。可以认为,当空气中同时含有SO2、O3和PM2.5时,对肺癌发病率的影响较大,若再结合其它污染物,影响将进一步增强,尤其是O3和PM2.5之间存在明显的正交互作用,相互促进增强;同时,NO2和PM10之间存在负交互作用,这一关系也体现在当NO2和PM10同时与其它污染物构成的集合中。3)将表4-6即腺癌对应的模糊测度和Shapley交互作用指标值与其它表对比可以发现,集合{O3,PM2.5}在表4-6中的模糊测度值要更大,并且表4-6中各阶子集中最大模糊测度值所对应的子集中均包含O3和PM2.5。由此可知,O3和PM2.5的共同作用会更倾向于引发腺癌。表4-4男性肺癌发病率--模糊测度和Shapley交互作用指标集合𝜇a)𝐼b)集合𝜇a)𝐼b)𝑆ℎ𝑆ℎ{SO2}0.155-{NO2,CO,PM2.5}0.438-0.023{NO2}0.000-{NO2,CO,PM10}0.4730.044{CO}0.000-{NO2,O3,PM2.5}0.4950.077{O3}0.000-{NO2,O3,PM10}0.4840.088{PM2.5}0.000-{NO2,PM2.5,PM10}0.045-0.094{PM10}0.000-{CO,O3,PM2.5}0.4640.033{SO2,NO2}0.4590.001{CO,O3,PM10}0.4190.087{SO2,CO}0.192-0.090{CO,PM2.5,PM10}0.000-0.051{SO2,O3}0.6310.098{O3,PM2.5,PM10}0.291-0.087{SO2,PM2.5}0.1550.067{SO2,NO2,CO,O3}0.6340.167{SO2,PM10}0.6310.103{SO2,NO2,CO,PM2.5}0.580-0.24847 第4章基于模糊测度理论的关系分析表4-4男性肺癌发病率--模糊测度和Shapley交互作用指标(续){NO2,CO}0.037-0.006{SO2,NO2,CO,PM10}0.634-0.082{NO2,O3}0.000-0.008{SO2,NO2,O3,PM2.5}1.0000.259{NO2,PM2.5}0.0000.055{SO2,NO2,O3,PM10}0.6340.245{NO2,PM10}0.023-0.042{SO2,NO2,PM2.5,PM10}0.6750.089{CO,O3}0.0000.010{SO2,CO,O3,PM2.5}0.8300.013{CO,PM2.5}0.0000.064{SO2,CO,O3,PM10}0.6350.112{CO,PM10}0.0000.022{SO2,CO,PM2.5,PM10}0.6750.003{O3,PM2.5}0.2910.244{SO2,O3,PM2.5,PM10}0.6880.268{O3,PM10}0.212-0.018{NO2,CO,O3,PM2.5}0.666-0.323{PM2.5,PM10}0.000-0.065{NO2,CO,O3,PM10}0.620-0.333{SO2,NO2,CO}0.486-0.209{NO2,CO,PM2.5,PM10}0.473-0.140{SO2,NO2,O3}0.634-0.003{NO2,O3,PM2.5,PM10}0.495-0.140{SO2,NO2,PM2.5}0.4590.039{CO,O3,PM2.5,PM10}0.5650.135{SO2,NO2,PM10}0.634-0.231{SO2,NO2,CO,O3,PM2.5}1.0000.121{SO2,CO,O3}0.6310.043{SO2,NO2,CO,O3,PM10}0.6350.264{SO2,CO,PM2.5}0.3870.039{SO2,NO2,CO,PM2.5,PM10}0.6750.101{SO2,CO,PM10}0.634-0.080{SO2,NO2,O3,PM2.5,PM10}1.000-0.156{SO2,O3,PM2.5}0.6590.011{SO2,CO,O3,PM2.5,PM10}1.0000.017{SO2,O3,PM10}0.632-0.394{NO2,CO,O3,PM2.5,PM10}0.6660.181{SO2,PM2.5,PM10}0.6750.230{SO2,NO2,CO,O3,PM2.5,PM10}1.000-0.852{NO2,CO,O3}0.214-0.162注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标表4-5女性肺癌发病率--模糊测度和Shapley交互作用指标集合𝜇a)𝐼b)集合𝜇a)𝐼b)𝑆ℎ𝑆ℎ{SO2}0.000-{NO2,CO,PM2.5}0.462-0.007{NO2}0.000-{NO2,CO,PM10}0.4920.090{CO}0.000-{NO2,O3,PM2.5}0.4960.020{O3}0.000-{NO2,O3,PM10}0.4850.043{PM2.5}0.000-{NO2,PM2.5,PM10}0.014-0.074{PM10}0.000-{CO,O3,PM2.5}0.4710.055{SO2,NO2}0.4050.018{CO,O3,PM10}0.4300.118{SO2,CO}0.058-0.072{CO,PM2.5,PM10}0.000-0.101{SO2,O3}0.5760.121{O3,PM2.5,PM10}0.234-0.076{SO2,PM2.5}0.0000.108{SO2,NO2,CO,O3}0.5800.286{SO2,PM10}0.5760.160{SO2,NO2,CO,PM2.5}0.568-0.29548 第4章基于模糊测度理论的关系分析表4-5女性肺癌发病率--模糊测度和Shapley交互作用指标(续){NO2,CO}0.000-0.027{SO2,NO2,CO,PM10}0.612-0.138{NO2,O3}0.2900.046{SO2,NO2,O3,PM2.5}1.0000.361{NO2,PM2.5}0.0000.044{SO2,NO2,O3,PM10}0.5800.438{NO2,PM10}0.007-0.081{SO2,NO2,PM2.5,PM10}0.6750.021{CO,O3}0.000-0.004{SO2,CO,O3,PM2.5}0.815-0.063{CO,PM2.5}0.0000.070{SO2,CO,O3,PM10}0.6220.142{CO,PM10}0.0000.033{SO2,CO,PM2.5,PM10}0.6750.019{O3,PM2.5}0.2340.210{SO2,O3,PM2.5,PM10}0.6850.146{O3,PM10}0.228-0.048{NO2,CO,O3,PM2.5}0.666-0.307{PM2.5,PM10}0.000-0.063{NO2,CO,O3,PM10}0.625-0.294{SO2,NO2,CO}0.459-0.175{NO2,CO,PM2.5,PM10}0.492-0.183{SO2,NO2,O3}0.580-0.130{NO2,O3,PM2.5,PM10}0.495-0.035{SO2,NO2,PM2.5}0.4050.052{CO,O3,PM2.5,PM10}0.5680.114{SO2,NO2,PM10}0.580-0.250{SO2,NO2,CO,O3,PM2.5}1.0000.128{SO2,CO,O3}0.5760.051{SO2,NO2,CO,O3,PM10}0.6320.193{SO2,CO,PM2.5}0.3150.002{SO2,NO2,CO,PM2.5,PM10}0.6750.258{SO2,CO,PM10}0.612-0.107{SO2,NO2,O3,PM2.5,PM10}1.000-0.436{SO2,O3,PM2.5}0.6300.073{SO2,CO,O3,PM2.5,PM10}1.0000.122{SO2,O3,PM10}0.578-0.420{NO2,CO,O3,PM2.5,PM10}0.6660.072{SO2,PM2.5,PM10}0.6750.200{SO2,NO2,CO,O3,PM2.5,PM10}1.000-0.722{NO2,CO,O3}0.290-0.223注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标表4-6腺癌发病率--模糊测度和Shapley交互作用指标集合𝜇a)𝐼b)集合𝜇a)𝐼b)𝑆ℎ𝑆ℎ{SO2}0.000-{NO2,CO,PM2.5}0.0000.008{NO2}0.000-{NO2,CO,PM10}0.000-0.025{CO}0.000-{NO2,O3,PM2.5}0.4770.034{O3}0.000-{NO2,O3,PM10}0.1060.063{PM2.5}0.000-{NO2,PM2.5,PM10}0.000-0.054{PM10}0.000-{CO,O3,PM2.5}0.4770.019{SO2,NO2}0.000-0.005{CO,O3,PM10}0.0000.137{SO2,CO}0.000-0.009{CO,PM2.5,PM10}0.000-0.025{SO2,O3}0.4730.105{O3,PM2.5,PM10}0.4770.173{SO2,PM2.5}0.000-0.039{SO2,NO2,CO,O3}0.473-0.201{SO2,PM10}0.4800.292{SO2,NO2,CO,PM2.5}0.390-0.10449 第4章基于模糊测度理论的关系分析表4-6腺癌发病率--模糊测度和Shapley交互作用指标(续){NO2,CO}0.0000.027{SO2,NO2,CO,PM10}0.480-0.068{NO2,O3}0.0000.010{SO2,NO2,O3,PM2.5}0.7400.081{NO2,PM2.5}0.0000.009{SO2,NO2,O3,PM10}0.4800.030{NO2,PM10}0.000-0.041{SO2,NO2,PM2.5,PM10}0.4960.039{CO,O3}0.000-0.015{SO2,CO,O3,PM2.5}0.652-0.158{CO,PM2.5}0.0000.034{SO2,CO,O3,PM10}0.4800.180{CO,PM10}0.000-0.037{SO2,CO,PM2.5,PM10}0.496-0.112{O3,PM2.5}0.4770.437{SO2,O3,PM2.5,PM10}1.0000.416{O3,PM10}0.000-0.034{NO2,CO,O3,PM2.5}0.6560.075{PM2.5,PM10}0.0000.080{NO2,CO,O3,PM10}0.1060.126{SO2,NO2,CO}0.2830.042{NO2,CO,PM2.5,PM10}0.0000.029{SO2,NO2,O3}0.473-0.073{NO2,O3,PM2.5,PM10}0.477-0.156{SO2,NO2,PM2.5}0.0000.012{CO,O3,PM2.5,PM10}0.5670.083{SO2,NO2,PM10}0.480-0.072{SO2,NO2,CO,O3,PM2.5}0.740-0.133{SO2,CO,O3}0.473-0.132{SO2,NO2,CO,O3,PM10}0.4800.327{SO2,CO,PM2.5}0.196-0.002{SO2,NO2,CO,PM2.5,PM10}0.4960.133{SO2,CO,PM10}0.480-0.087{SO2,NO2,O3,PM2.5,PM10}1.000-0.025{SO2,O3,PM2.5}0.565-0.20{SO2,CO,O3,PM2.5,PM10}1.0000.062{SO2,O3,PM10}0.480-0.220{NO2,CO,O3,PM2.5,PM10}0.656-0.046{SO2,PM2.5,PM10}0.4960.159{SO2,NO2,CO,O3,PM2.5,PM10}1.0000.088{NO2,CO,O3}0.000-0.025注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标表4-7鳞癌发病率--模糊测度和Shapley交互作用指标集合𝜇a)𝐼b)集合𝜇a)𝐼b)𝑆ℎ𝑆ℎ{SO2}0.209-{NO2,CO,PM2.5}0.450-0.020{NO2}0.000-{NO2,CO,PM10}0.4950.076{CO}0.000-{NO2,O3,PM2.5}0.4950.068{O3}0.000-{NO2,O3,PM10}0.4870.013{PM2.5}0.000-{NO2,PM2.5,PM10}0.011-0.097{PM10}0.000-{CO,O3,PM2.5}0.4610.071{SO2,NO2}0.447-0.028{CO,O3,PM10}0.4350.088{SO2,CO}0.209-0.097{CO,PM2.5,PM10}0.000-0.086{SO2,O3}0.5910.053{O3,PM2.5,PM10}0.219-0.091{SO2,PM2.5}0.2090.109{SO2,NO2,CO,O3}0.5930.288{SO2,PM10}0.5910.089{SO2,NO2,CO,PM2.5}0.604-0.26450 第4章基于模糊测度理论的关系分析表4-7鳞癌发病率--模糊测度和Shapley交互作用指标(续){NO2,CO}0.000-0.029{SO2,NO2,CO,PM10}0.605-0.199{NO2,O3}0.1820.045{SO2,NO2,O3,PM2.5}1.0000.250{NO2,PM2.5}0.0000.062{SO2,NO2,O3,PM10}0.5930.273{NO2,PM10}0.006-0.051{SO2,NO2,PM2.5,PM10}0.7380.086{CO,O3}0.0000.008{SO2,CO,O3,PM2.5}0.817-0.085{CO,PM2.5}0.0000.079{SO2,CO,O3,PM10}0.6160.110{CO,PM10}0.0000.038{SO2,CO,PM2.5,PM10}0.7380.075{O3,PM2.5}0.1410.177{SO2,O3,PM2.5,PM10}0.6760.129{O3,PM10}0.219-0.022{NO2,CO,O3,PM2.5}0.666-0.334{PM2.5,PM10}0.000-0.054{NO2,CO,O3,PM10}0.621-0.246{SO2,NO2,CO}0.470-0.157{NO2,CO,PM2.5,PM10}0.495-0.186{SO2,NO2,O3}0.593-0.040{NO2,O3,PM2.5,PM10}0.495-0.098{SO2,NO2,PM2.5}0.4470.037{CO,O3,PM2.5,PM10}0.5630.077{SO2,NO2,PM10}0.593-0.181{SO2,NO2,CO,O3,PM2.5}1.0000.162{SO2,CO,O3}0.5910.063{SO2,NO2,CO,O3,PM10}0.6270.286{SO2,CO,PM2.5}0.4110.001{SO2,NO2,CO,PM2.5,PM10}0.7380.113{SO2,CO,PM10}0.605-0.078{SO2,NO2,O3,PM2.5,PM10}1.000-0.282{SO2,O3,PM2.5}0.6330.049{SO2,CO,O3,PM2.5,PM10}1.0000.110{SO2,O3,PM10}0.592-0.363{NO2,CO,O3,PM2.5,PM10}0.6660.191{SO2,PM2.5,PM10}0.6760.240{SO2,NO2,CO,O3,PM2.5,PM10}1.000-0.702{NO2,CO,O3}0.211-0.223注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标表4-8其它类型肺癌发病率--模糊测度和Shapley交互作用指标集合𝜇a)𝐼b)集合𝜇a)𝐼b)𝑆ℎ𝑆ℎ{SO2}0.111-{NO2,CO,PM2.5}0.452-0.018{NO2}0.000-{NO2,CO,PM10}0.4820.033{CO}0.000-{NO2,O3,PM2.5}0.4950.083{O3}0.000-{NO2,O3,PM10}0.4870.064{PM2.5}0.000-{NO2,PM2.5,PM10}0.067-0.094{PM10}0.000-{CO,O3,PM2.5}0.4690.071{SO2,NO2}0.4650.010{CO,O3,PM10}0.4250.049{SO2,CO}0.268-0.076{CO,PM2.5,PM10}0.132-0.061{SO2,O3}0.6340.123{O3,PM2.5,PM10}0.234-0.071{SO2,PM2.5}0.1110.071{SO2,NO2,CO,O3}0.6390.20{SO2,PM10}0.6210.094{SO2,NO2,CO,PM2.5}0.573-0.21151 第4章基于模糊测度理论的关系分析表4-8其它类型肺癌发病率--模糊测度和Shapley交互作用指标(续){NO2,CO}0.000-0.044{SO2,NO2,CO,PM10}0.6390.006{NO2,O3}0.0660.023{SO2,NO2,O3,PM2.5}1.0000.241{NO2,PM2.5}0.0000.063{SO2,NO2,O3,PM10}0.6390.224{NO2,PM10}0.034-0.053{SO2,NO2,PM2.5,PM10}0.6710.068{CO,O3}0.000-0.003{SO2,CO,O3,PM2.5}0.830-0.022{CO,PM2.5}0.0000.073{SO2,CO,O3,PM10}0.6400.222{CO,PM10}0.1320.0488{SO2,CO,PM2.5,PM10}0.6720.043{O3,PM2.5}0.1870.214{SO2,O3,PM2.5,PM10}0.6850.227{O3,PM10}0.234-0.028{NO2,CO,O3,PM2.5}0.666-0.385{PM2.5,PM10}0.000-0.062{NO2,CO,O3,PM10}0.623-0.297{SO2,NO2,CO}0.474-0.195{NO2,CO,PM2.5,PM10}0.482-0.169{SO2,NO2,O3}0.6394-0.078{NO2,O3,PM2.5,PM10}0.495-0.099{SO2,NO2,PM2.5}0.4650.028{CO,O3,PM2.5,PM10}0.5670.124{SO2,NO2,PM10}0.639-0.207{SO2,NO2,CO,O3,PM2.5}1.0000.179{SO2,CO,O3}0.6340.015{SO2,NO2,CO,O3,PM10}0.641-0.029{SO2,CO,PM2.5}0.4210.006{SO2,NO2,CO,PM2.5,PM10}0.6710.122{SO2,CO,PM10}0.639-0.154{SO2,NO2,O3,PM2.5,PM10}1.000-0.173{SO2,O3,PM2.5}0.6600.058{SO2,CO,O3,PM2.5,PM10}1.0000.016{SO2,O3,PM10}0.637-0.374{NO2,CO,O3,PM2.5,PM10}0.6660.220{SO2,PM2.5,PM10}0.6710.225{SO2,NO2,CO,O3,PM2.5,PM10}1.000-0.873{NO2,CO,O3}0.233-0.135注:a)𝜇为模糊测度;b)𝐼𝑆ℎ为Shapley交互作用指标4.3本章小结本章首先介绍了模糊测度理论的基本概念,包括模糊测度、Choquet积分、Shapley交互作用指标以及模糊测度的确定方法。然后详细讲解了基于模糊测度理论的分析模型的构建,模糊测度值可以定量反映各空气污染物子集的重要性,Shapley交互作用指标可以定量反映各空气污染物之间的交互作用。基于模糊测度理论的分析结果显示,SO2依然是引起肺癌的重要空气污染物因素,并且同O3或PM10共同作用时,效果更为明显;O3和PM2.5共同作用下更倾向于引发腺癌。52 第5章总结与展望第5章总结与展望本课题从空气污染物含量与肺癌发病率的关系出发,以天津市过去一年的空气污染物含量和肺癌的发病率数据作为依托,首先以Oracle和MFC为平台,建立了空气污染物含量和肺癌患者信息数据库,并编写友好界面通过ADO技术与数据库进行连接,实现了数据的有效存储和管理,增加了后续研究的便捷性和高效性;然后分别采用基于粗糙集方法和基于模糊测度理论的分析模型,研究空气污染物含量对患肺癌可能产生的影响,主要研究了以下的关联性:1)不同空气污染物的含量与总肺癌发病率的关系。根据天津市空气质量观测站公布的数据,在过去的三年间,天津市各区的空气污染物年度平均含量虽然有变化但变化幅度在5%左右,因此在本研究过程近似认为是不变的。无论是基于粗糙集的关系分析模型还是基于模糊测度理论的关系分析模型均显示,在SO2、NO2、CO、O3、PM2.5、PM10这六项主要监测的空气污染物中,与患肺癌关系最为显著的空气污染物就是SO2,当空气中SO2含量高时,肺癌的发病率也偏大;并且NO2、PM10、PM2.5等污染物进一步增加了对肺癌发病率的影响。2)不同空气污染物的含量与不同性别患者的关系。由于男性和女性作为不同的群体有相当不同的体质特征和对污染物的耐受性;因此本课题将所有的样本进一步分为两大组,分析由于性别的不同引起的差别。由基于粗糙集的关系分析模型显示女性对于空气污染物的敏感性,尤其是对NO2的敏感性要高于男性。3)不同空气污染物的含量与患肺癌的类型的关系。本文中主要将肺癌的患病类型划分为三大类,分别是腺癌、鳞癌以及其它类型肺癌。由基于模糊测度理论的关系分析模型显示,O3和PM2.5之间具有正交互作用,并且作用结果更倾向于引起腺癌,但是由于肺癌的患病类型的划分是一个相对复杂的问题,因此本文初步认为肺癌的患病类型可能与空气污染物有关,但这是一个相对较难的初步探索。本课题利用天津市地域广阔,空气污染物观测站充分且具有代表性的特点,获得每个患者长期生活环境中污染水平及不同患者之间的差异,将粗糙集理论运用到肺癌发病率的分析中,完全使用“数据说话”,并且运用模糊测度理论进一步分析SO2、NO2、CO、O3、PM2.5、PM10这六项空气污染物的重要程度及其之间的相互作用关系。同时本课题研究不局限于空气污染物水平与总体的肺癌发病情况的关系,而是将研究方向进一步扩展到空气污染物含量与肺癌患者的其它特53 第5章总结与展望征间的关系,如患者性别、肺癌类型等。本文的研究思路和研究方法具有普遍性和一般性,能够运用到全国主要城市的统计分析中。同时所揭示的关系具有客观性和可解释性,反映了天津市肺癌发病的主要特征和诱发因素,为治理天津市污染物的污染源,改善天津市居民的生活环境提供了重要依据。但本文也有其局限性,如样本量还需进一步提高,样本所覆盖的患者年龄、肺癌类型还不够充分等。未来的研究也将从以下几个方面进行:1)获取更加充足的数据样本,可以进一步根据地域差别,研究主要空气污染物每上升一个单位所引起的发病率的上升情况等更加确切和量化的结果;2)根据天津市空气污染物水平的变化可知,天津市尽管空气质量主要居于二级(优良)和三级(轻度污染),但较之与其它城市仍属于空气污染情况较重的,并且空气质量呈现季节性规律,其中春季和冬季的污染情况较严重,而夏季污染情况最轻,未来的研究会进一步加强对空气污染物含量的季节性变化的研究;3)本文由于数据局限性未进行空气污染物与肺癌的滞后效应,后续将会获取天津市5至10年之前的空气污染物数据,再结合肺癌发病率研究空气污染物与肺癌患病的滞后效应。54 参考文献参考文献[1]AggarwalP,JainS.Impactofairpollutantsfromsurfacetransportsourcesonhumanhealth:Amodelingandepidemiologicalapproach[J].Environmentinternational,2015,83:146~157.[2]BaiJ,MengZ.Effectofsulfurdioxideonexpressionofproto-oncogenesandtumorsuppressorgenesfromrats[J].Environmentaltoxicology,2010,25(3):272~283.[3]DockeryDW,PopeCA.Acuterespiratoryeffectsofparticulateairpollution[J].Annualreviewofpublichealth,1994,15(1):107~132.[4]钟南山.灰霾空气对人体的影响及对策[J].群言,2013(9):29~32.[5]GoldbergMS,BurnettRT,BailarJC,etal.TheassociationbetweendailymortalityandambientairparticlepollutioninMontreal,Quebec:1.nonaccidentalmortality[J].EnvironmentalResearch,2001,86(1):12~25.[6]KatsouyanniK.Ambientairpollutionandhealth[J].BritishMedicalBulletin,2003,68(1):143~156.[7]DominiciF,PengRD,BellML,etal.Fineparticulateairpollutionandhospitaladmissionforcardiovascularandrespiratorydiseases[J].Jama,2006,295(10):1127~1134.[8]MarinoE,CarusoM,CampagnaD,etal.Impactofairqualityonlunghealth:mythorreality?[J].Therapeuticadvancesinchronicdisease,2015,6(5):286~298.[9]黄欣欣,蔡琳.大气污染与肺癌关系研究进展[J].中国公共卫生,2006,22(12):1443-1445.[10]LadenF,NeasLM,DockeryDW,etal.AssociationoffineparticulatematterfromdifferentsourceswithdailymortalityinsixUScities[J].Environmentalhealthperspectives,2000,108(10):941.[11]ZhangF,WangZ,ChengH,etal.SeasonalvariationsandchemicalcharacteristicsofPM2.5inWuhan,centralChina[J].ScienceoftheTotalEnvironment,2015,518:97~105.[12]王庚辰,王普才.中国PM2.5污染现状及其对人体健康的危害[J].科技导报,2014,32(026):72~78.[13]PopeIIICA,DockeryDW.Healtheffectsoffineparticulateairpollution:linesthatconnect[J].Journaloftheair&wastemanagementassociation,2006,56(6):709~742.55 参考文献[14]徐肇翊.中国北方城市肺癌与生活方式及环境污染的关系[J].肿瘤,1996,16(4):506~508.[15]徐肇翊,冯毅平,宇广华.空气污染对辽宁省城市居民健康的影响[J].环境与健康杂志,1991,8(4):190~193.[16]徐肇翊,刘允清,俞大乾,等.沈阳市大气污染对死亡率的影响[J].中国公共卫生学报,1996,1(4):61~64.[17]贺秀林,张慈心,苗志敏,等.青岛市区大气污染与肺癌发病率和死亡率的相关关系研究[J].医学综述,1995,1(6):279~281.[18]PopeIIICA,BurnettRT,ThunMJ,etal.Lungcancer,cardiopulmonarymortality,andlong-termexposuretofineparticulateairpollution[J].Jama,2002,287(9):1132~1141.[19]ChenY,EbensteinA,GreenstoneM,etal.EvidenceontheimpactofsustainedexposuretoairpollutiononlifeexpectancyfromChina’sHuaiRiverpolicy[J].ProceedingsoftheNationalAcademyofSciences,2013,110(32):936~941.[20]宛延闿.C++语言和面向对象程序设计[M].第二版,1998.[21]王瑞,于速.VisualC++数据库系统开发完全手册[M].人民邮电出版社,2006.[22]郑阿奇.Oracle实用教程[M].2003.[23]王瑛,李祥胜.Oracle数据库基础教程[M].2008.[24]徐武,周启涛,葛卉娟.VisualC++与Oracle数据库编程案例[M].2004.[25]KruglinskiDJ.InsideVisualC++[M].Microsoftpress,1997.[26]杨秀英,齐滨,邢建厂.基于VisualC++的ORACLE数据库访问技术[J].莱钢科技,2005(2):35~37.[27]FayyadU,Piatetsky-ShapiroG,SmythP.Fromdataminingtoknowledgediscoveryindatabases[J].AImagazine,1996,17(3):37.[28]朱明.数据挖掘[M].中国科学技术大学出版社,2008.[29]HanJ,PeiJ,KamberM.Datamining:conceptsandtechniques[M].Elsevier,2011.[30]BerryMJ,LinoffG.Dataminingtechniques:formarketing,sales,andcustomersupport[M].JohnWiley&Sons,Inc.,1997.[31]Roughsetsinknowledgediscovery2:applications,casestudiesandsoftwaresystems[M].Physica,2013.[32]许中卫,李龙澍.基于粗糙集理论的数据挖掘算法研究[J].微机发展,2001,11(1):6~9.[33]JiangP,LiuXS.Bigdataminingyieldsnovelinsightsoncancer[J].Nat.Genet,2015,47(2):103~104.[34]王光宏,蔣平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246~252.56 参考文献[35]PawlakZ.Roughsetsandintelligentdataanalysis[J].Informationsciences,2002,147(1):1~12.[36]PawlakZ.Roughsetsanddataanalysis[C].SoftComputinginIntelligentSystemsandInformationProcessing,Proceedingsofthe1996Asian.IEEEPress,1996:1~6.[37]PawlakZ.Roughsettheoryanditsapplicationstodataanalysis[J].Cybernetics&Systems,1998,29(7):661~688.[38]PawlakZ.Roughsetapproachtoknowledge-baseddecisionsupport[J].Europeanjournalofoperationalresearch,1997,99(1):48~57.[39]PawlakZ.Roughsets:Theoreticalaspectsofreasoningaboutdata[M].SpringerScience&BusinessMedia,2012.[40]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].2001.[41]瞿彬彬,卢炎生.基于粗糙集的属性约简算法研究[J].华中科技大学学报:自然科学版,2005,33(8):30~33.[42]谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570~1574.[43]杨传健,葛浩,汪志圣.基于粗糙集的属性约简方法研究综述[J].计算机应用研究,2012,29(1).[44]王建培.强对流天气综合预报方法研究[D].天津大学,2012.[45]武建章,张强.非可加测度论与多准则决策[M].科学出版社,2014.[46]AngilellaS,GrecoaS,MatarazzoB.Non-additiverobustordinalregression:amultiplecriteriadecisionmodelbasedontheChoquetintegral[J].EuropeanJournalofOperationalResearch,2010,201(1):277~288.[47]章玲,周德群.基于Choquet积分的层次多属性决策方法研究[J].南京航空航天大学学报,2007,39(6):824~828.[48]王熙照.模糊测度和模糊积分及在分类技术中的应用[M].科学出版社,2008.[49]RotaGC.OnthefoundationsofcombinatorialtheoryI.TheoryofMöbiusfunctions[J].Probabilitytheoryandrelatedfields,1964,2(4):340~368.[50]GrabischM.K-orderadditivediscretefuzzymeasuresandtheirrepresentation[J].Fuzzysetsandsystems,1997,92(2):167~189.[51]ChoquetG.Theoryofcapacities[C].Annalesdel'institutFourier.InstitutFourier,1954,5:131~295.[52]MesiarR.Choquet-likeintegrals[J].JournalofMathematicalAnalysisandApplications,1995,194(2):477~488.[53]WuJ,ChenF,NieC,etal.Intuitionisticfuzzy-valuedChoquetintegralanditsapplicationinmulticriteriadecisionmaking[J].InformationSciences,2013,222:509~527.[54]SugenoM.Theoryoffuzzyintegralsanditsapplications[J].TheoryofFuzzy57 参考文献IntegralsandItsApplications,1975.[55]FujimotoK,KojadinovicI,MarichalJL.Axiomaticcharacterizationsofprobabilisticandcardinal-probabilisticinteractionindices[J].GamesandEconomicBehavior,2006,55(1):72~99.[56]WangZ,KlirGJ.FuzzyMeasureTheory[M].NewYork:PlenumPublishingCorporation,1992.[57]杨庆季.Fuzzy测度空间上的泛积分[J].河北大学学报:自然科学版,1984,2:102~106.[58]MarichalJL.AnaxiomaticapproachofthediscreteChoquetintegralasatooltoaggregateinteractingcriteria[J].IEEEtransactionsonfuzzysystems,2000,8(6):800~807.[59]GrabischM.Alternativerepresentationsofdiscretefuzzymeasuresfordecisionmaking[J].InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems,1997,5(5):587~607.[60]吕镇邦,周波.基于Shapley熵和Choquet积分的层次化风险评估[J].北京邮电大学学报,2009,32(6):83~87.[61]GrabischM.Fuzzyintegralinmulticriteriadecisionmaking[J].FuzzysetsandSystems,1995,69(3):279~298.[62]ShapleyLS.Avalueforn-persongames[C].ContributionstotheTheoryofGames,vol.2,Number28inAnnalsofMathematicsStudies,Princeton:PrincetonUniversityPress,1953:307~317.[63]GrabischM,RoubensM.Anaxiomaticapproachtotheconceptofinteractionamongplayersincooperativegames[J].InternationalJournalofGameTheory,1999,28(4):547~565.[64]GrabischM.Anewalgorithmforidentifyingfuzzymeasuresanditsapplicationtopatternrecognition[C].Proceedingsofinternational4thIEEEConferenceofFuzzySystems,Washington:IEEEPress,1995:145~150.[65]IshiiK,SugenoM.Amodelofhumanevaluationprocessusingfuzzymeasure[J].InternationalJournalofMan-MachineStudies,1985,22(1):19~38.58 附录附录1)连接数据库程序:voidCSeeKDlg::ConnectDB(){//初始化Connection指针m_pConnection.CreateInstance(_uuidof(Connection));//初始化RecordSet指针m_pRecordset.CreateInstance(_uuidof(Recordset));//初始化Command指针m_pCommand.CreateInstance("ADODB.Command");charszPath[255];//获取应用程序完全路径::GetModuleFileName(NULL,szPath,255);CStringstrFileName=szPath;//获取所在的目录名称strFileName.Delete(strFileName.ReverseFind('\')+1,strFileName.GetLength()-strFileName.ReverseFind('\')-1);//构造配置文件的完全路径strFileName+="CaseData.ini";TCHARsz[101];memset(sz,0,sizeof(TCHAR)*101);//获取配置文件中数据库数据源的值,GetPrivateProfileString(_T("General"),_T("数据库数据源"),_T("PatientData"),sz,100,strFileName);CStringstrSource(sz);GetPrivateProfileString(_T("General"),_T("数据库用户"),_T("vivi"),sz,100,strFileName);CStringstrUser(sz);GetPrivateProfileString(_T("General"),_T("数据库密码"),_T("Vivi26306306"),sz,100,strFileName);59 附录CStringstrPwd(sz);try{CStringstrConnect;strConnect.Format("Provider=OraOLEDB.Oracle.1;""DataSource=%s;PersistSecurityInfo=True",strSource);//连接数据库m_pConnection->Open((_bstr_t)strConnect,"vivi","Vivi26306306",-1);}catch(_com_errore)//异常处理{CStringstrMsg;strMsg.Format(_T("错误描述:%s 错误信息%s"),(LPCTSTR)e.Description(),(LPCTSTR)e.ErrorMessage());AfxMessageBox(strMsg);}}2)患者病例信息添加程序:voidCAddDlg::OnBnAddPatient(){if(!UpdateData())return;if(m_strPatientName.IsEmpty()){AfxMessageBox("病人姓名不能为空");return;}if(m_strArea.IsEmpty()){AfxMessageBox("病人所属监测点区域不能为空");return;}if(m_strAddress.IsEmpty()){60 附录AfxMessageBox("病人居住地信息不能为空");return;}//获取日期字符串,格式为YYYY-MM-DDCStringstrBirth;strBirth=m_birthtime.Format("%Y-%m-%d");try{m_pRecordset->Open("Selectseq_patient_id.NEXTVALfromdual",(IDispatch*)m_pConnection,adOpenDynamic,adLockOptimistic,adCmdText);intnIndex=m_listPatAdd.GetItemCount();intid=1;if(!m_pRecordset->adoEOF){_variant_tTheValue;//从序列中获取新的客户IDTheValue=m_pRecordset->Fields->GetItem((short)0)->Value;if(TheValue.vt!=VT_NULL)id=TheValue.iVal+nIndex;}m_pRecordset->Close();CStringstrsql="select*frompatienttable";BSTRbstrSQL=strsql.AllocSysString();m_pRecordset->Open(bstrSQL,(IDispatch*)m_pConnection,adOpenDynamic,adLockOptimistic,adCmdText);m_pRecordset->AddNew();m_pRecordset->Fields->GetItem("patient_id")->Value=id;m_pRecordset->PutCollect("name",(_bstr_t)m_strPatientName);m_pRecordset->Fields->GetItem("birth")->Value=(_bstr_t)strBirth;m_pRecordset->Fields->GetItem("sex")->Value=(_bstr_t)m_strSex;m_pRecordset->Fields->GetItem("age")->Value=(_bstr_t)m_strAge;m_pRecordset->Fields->GetItem("area")->Value=(_bstr_t)m_strArea;m_pRecordset->Fields->GetItem("address")->Value=(_bstr_t)m_strAddress;m_pRecordset->Fields->GetItem("type")->Value=(_bstr_t)m_strtype;61 附录m_pRecordset->Fields->GetItem("diagnose")->Value=(_bstr_t)m_strdiagnose;m_pRecordset->Fields->GetItem("CT")->Value=(_bstr_t)m_strCT;m_pRecordset->Fields->GetItem("note")->Value=(_bstr_t)m_strNote;m_pRecordset->Update();m_pRecordset->Close();InsertPatientInfoItem(id,m_strPatientName,strBirth,m_strSex,m_strAge,m_strArea,m_strAddress,m_strtype,m_strdiagnose,m_strCT,m_strNote);}catch(_com_errore)//异常处理{CStringstrMsg;strMsg.Format(_T("错误描述:%s 错误信息%s"),(LPCTSTR)e.Description(),(LPCTSTR)e.ErrorMessage());AfxMessageBox(strMsg);}}3)患者病例信息查询条件选择程序:voidCSeek1Dlg::OnBnClickedOk(){//-----------------------------查询病人信息的SQL语句-----------------------------//if(!UpdateData())return;//构造通配符“%”,用SQL的like语句进行模糊查询CStringtemp="%";switch(m_nSeek1Choice){//查询所有记录case0:m_strSQL="Select*frompatienttable";break;//按姓名进行查询case1:m_strSQL.Format("Select*frompatienttablewherenamelike62 附录'%s%s%s'",temp,strName,temp);break;//按患癌症类型进行查询case2:m_strSQL.Format("Select*frompatienttablewheretypelike'%s%s%s'",temp,strType,temp);break;//按居住地所在区域进行查询case3:m_strSQL.Format("Select*frompatienttablewherearealike'%s%s%s'",temp,strArea,temp);break;//按有无CT片进行查询case4:m_strSQL.Format("Select*frompatienttablewherect='%s'",strCT);break;default:m_strSQL="Select*frompatienttable";}CDialogEx::OnOK();}4)患者居住地对应监测点空气污染物含量查看程序:voidCAirShowDlg::OnBnClickedOk(){if(!UpdateData())return;CStringstrDateAir;strDateAir=m_dateAirShow.Format("%Y-%m-%d");m_strSQL1.Format("selectdateair,%s,idfromAIRSO2wheredateair='%s'",m_editAirShowArea,strDateAir);m_strSQL2.Format("selectdateair,%s,idfromAIRNO2wheredateair='%s'",m_editAirShowArea,strDateAir);m_strSQL3.Format("selectdateair,%s,idfromAIRCOwheredateair='%s'",m_editAirShowArea,strDateAir);63 附录m_strSQL4.Format("selectdateair,%s,idfromAIRO3wheredateair='%s'",m_editAirShowArea,strDateAir);m_strSQL5.Format("selectdateair,%s,idfromAIRPM25wheredateair='%s'",m_editAirShowArea,strDateAir);m_strSQL6.Format("selectdateair,%s,idfromAIRPM10wheredateair='%s'",m_editAirShowArea,strDateAir);m_strSQL7.Format("selectdateair,%s,idfromAIRSO2wheredateair='%s'",m_editAirShowArea,strDateAir);RefreshAirShowCtrlData(m_strSQL1,m_listAirShowSO2);RefreshAirShowCtrlData(m_strSQL2,m_listAirShowNO2);RefreshAirShowCtrlData(m_strSQL3,m_listAirShowCO);RefreshAirShowCtrlData(m_strSQL4,m_listAirShowO3);RefreshAirShowCtrlData(m_strSQL5,m_listAirShowPM25);RefreshAirShowCtrlData(m_strSQL6,m_listAirShowPM10);RefreshAirShowCtrlData(m_strSQL7,m_listAirShowAQI);}64 发表论文和科研情况说明发表论文和科研情况说明发表的论文:1.王净巍,岳士弘.“人体肺癌组织电导率与CT图像灰度相关性”,《中国医学物理学杂志》,2016年5月。参与的科研项目:1.“电学层析聚类成像研究”,国家自然科学基金项目,项目编号:61174014。2.“肺癌诊断与监护的层析成像新技术”,国家自然科学基金项目,项目编号:615753251。65 发表论文和科研情况说明66 致谢致谢两年半的硕士研究生的学习即将结束,硕士研究生期间无论是科研工作上还是生活上都得到了很多的关心、帮助和支持。在此论文完成之际,想要对帮助、关心和教导我的人表示衷心的感谢。感谢我的导师岳士弘教授。这两年半的时间里,我非常庆幸自己能够成为岳士弘教授的学生。岳士弘教授严谨的治学态度,饱满的工作热情,正直的生活态度都深深的影响和教育着我。岳士弘教授在科研和学习方面对我悉心教导,在我迷茫的时候给我指明研究的方向,在我遇到问题的时候给我答疑解惑,本课题能够完成岳士弘教授提供了太多的帮助。不仅如此,在生活中岳老师也对我们十分的关心照顾,向我们传授知识的同时,也分享自己的经验和阅历,让我们在待人处事、树立目标、明确自己的前进方向上都受益匪浅。在此,真心地感谢岳士弘教授对我的关心和教导。感谢天津医科大学总医院陈军主任、李欣医生,本文的完成离不开他们的帮助;感谢王建培师姐在应用数据挖掘方法上给予的指导和帮助;感谢黄晓光师兄、孙犇渊师兄、郝振华师兄、王亚茹师姐对本文研究工作的帮助和意见;感谢于晓同学、杨家辉同学、王传雷同学在数据收集和整理过程中对我的帮助。感谢我的父母,这么多年在生活上对我无微不至,在学业上对我大力支持,没有他们的付出,我也没有机会跟随优秀的老师学习、没有机会同优秀的同学一同成长,非常感谢我的父母和家人。感谢天津大学,感谢自动化学院,感谢多年来教授我们专业知识、给予我们关心和帮助的各位老师。67 Ill*204203183*1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭