基于机器学习方法的核素识别技术研究

基于机器学习方法的核素识别技术研究

ID:33557063

大小:1.84 MB

页数:59页

时间:2019-02-27

上传者:U-56225
基于机器学习方法的核素识别技术研究_第1页
基于机器学习方法的核素识别技术研究_第2页
基于机器学习方法的核素识别技术研究_第3页
基于机器学习方法的核素识别技术研究_第4页
基于机器学习方法的核素识别技术研究_第5页
资源描述:

《基于机器学习方法的核素识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

西南科技大学研究生学位论文基于机器学习方法的核素识别技术研究年级2011姓名谢先博申请学位级别硕士专业计算机应用技术指导教师张晖教授 ClassifiedIndex:TP391U.D.C:004.8SouthwestUniversityofScienceandTechnologyMasterDegreeThesisNuclideidentificationtechnologybasedonmachinelearningmethodGrade:2011Candidate:XieXianBoAcademicDegreeAppliedfor:MasterSpecialty:ComputerAppliedTechnologySupervisor:ZhangHuiSeptember.7,2014 独创性声明本人声明所呈交的论文是我个人在导师指导下(或我个人……)进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:关于论文使用和授权的说明本人完全了解西南科技大学有关保留、使用学位论文的规定,即:学校有权保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期: 西南科技大学硕士研究生学位论文第2页摘要放射性物质目前广泛应用核电、工业探伤、医学检测等领域,其在提供大量便利的同时,一旦发生放射性泄漏事故对人体伤害非常巨大。2011年日本地震所引发的福岛核辐射危机后,社会对放射性物质的危害有了更深刻的认识,对其的使用安全给予了更广泛地关注,核安全监测被上升到前有未有的高度。随着计算机软硬件技术的不断发展,相关技术也不断应用于核素探测中,目前的核素探测装置能谱仪也在不断的小型化、便携化。与此同时对其核素探测的准确性和快速性提出了更高的要求,为此本文通过支持向量机方法及在核素识别传统方法的深入研究,找到一种适合便携式能谱仪的快速核素识别方法。本文中的核素识别方法在传统方法的基础之上,做了两个方面的改进:一方面,根据核素识别的需要,优化能谱解谱方法,尽量保证其简单易行,以实现快速核素识别的目标。能谱解谱方法借鉴了传统的方法并在传统方法上针对其优缺点并结合实际需求做了部分改进。为了解决能谱中的涨落问题,在能谱分析中首先采用五点平滑法及B样条平滑法进行数据平滑。其后为了解决能谱漂移等问题,使用已知能量的核素对能谱进行能量刻度。能量刻度完成之后得到以能量和计数为坐标轴的能谱进行寻峰计算,在寻峰计算中在现有方法的基础上提出联合寻峰方法来确定全能峰中的特征峰峰位。另一方面,在能谱解谱的基础之上,对特征峰峰位进行筛选,形成训练样本构建核素库,并引入支持向量机决策树分类方法使用全能峰特征峰峰值数据进行训练,训练完成后构建分类决策树。决策树构建后即可实现对核素的分类识别。关键词:核素识别支持向量机决策树能谱数据分析 西南科技大学硕士研究生学位论文第3页AbstractRadioactivematerialiswidelyusedinnuclearpower,industrialinspection,medicalinspection,andotherfields.Atthesametime,aradioactiveleakaccidenthasenormousharmtothehumanbody.2011earthquakeinJapancausedthefukushimanuclearcrisis,thesocietyofthedangersofradioactivesubstanceshaveamoreprofoundunderstanding,theuseofitssecuritygivenmoreattention.Thenuclearsafetymonitoringwasrisingtounprecedentedheight.Withthecontinuousdevelopmentofcomputerhardwareandsoftwaretechnology,relatedtechnologyhasbeenappliedtodetectionofnuclides,thenuclidedetectiondevicespectrometerhasbeenminiaturizedandportable.Atthesametimeitsaccuracyandrapidityofthenuclidedetectionisputforwardhigherrequest,thereforethisarticlethroughtothecurrentrelativelypopularsupportvectormachine(SVM)methodandthenuclideidentificationin-depthstudyofthetraditionalmethods,tofindasuitablemethodforfastnuclideidentificationmethodofportablespectrometer.Nuclideidentificationmethodinthispaperisbasedontraditionalmethods,whichmakeimprovementsintwoaspects:Firstly,accordingtotheneedsofnuclideidentification,optimizeenergysolutionspectrummethod,keepitsimple,toachievethegoalofrapidspeciesidentification.Spectralspectrumsolutionmethodinthewaythatdrawlessonsfromthetraditionalmethodanditsadvantagesanddisadvantagesofcombinedwiththeactualdemandtodosomeimprovement.Inordertosolvetheproblemoffluctuationofenergyspectrum,energyspectrumanalysisoffirstfivesmoothingmethodandBsplinesmoothingmethodisusedtosmooththedata.Laterinordertosolvetheproblemofenergyspectrumdrift,usetheenergyofknownnuclidesofspectralenergyscale.Energycalibrationiscompletedbytheenergyandtheaxisforpeakspectrumcalculation,searchingthepeakintheexistingmethodinthecalculationofjointisproposedonthebasisofsearchmethodtodeterminethecharacteristicsofuniversalpeak.Ontheotherhand,onthebasisofspectralenergysolution,searchascreeningofcharacteristics,formationoftrainingsamplebuildnuclidelibrary,andintroducesdecisiontreeclassificationmethodusingsupportvectormachine(SVM)universalcharacteristicpeakvaluedatafortraining,trainingafterthecompletionoftheconstructionofclassificationdecisiontree.Afterthedecisiontreetobuildontheclassificationofthenucliderecognitioncanberealized.Keywords:Nuclideidentification;supportvectormachine(SVM);Decisiontreegammaenergyspectrum;Dataanalysis 西南科技大学硕士研究生学位论文第4页目录1绪论................................................................................................................................61.1研究背景..............................................................................................................61.2基本概念..............................................................................................................71.3国内外研究现状..................................................................................................71.3.1国内研究现状...........................................................................................71.3.2国外研究现状...........................................................................................81.4项目依托..............................................................................................................91.5主要完成的工作..................................................................................................91.6论文结构............................................................................................................102.γ能谱数据获取..........................................................................................................112.1硬件结构............................................................................................................112.2硬件数据采集流程............................................................................................112.3数据接收流程....................................................................................................122.4本章小结............................................................................................................133.γ能谱解谱..................................................................................................................153.1γ能谱解谱方法简介.........................................................................................153.2数据平滑............................................................................................................163.2.1五点三次平滑法.....................................................................................173.2.2B样条平滑法..........................................................................................173.2.3对比实验及评价.....................................................................................183.3能量刻度............................................................................................................203.3.1基本原理.................................................................................................203.3.2实验.........................................................................................................213.3.3实验结果评价.........................................................................................223.4寻峰计算............................................................................................................233.4.1寻峰计算方法简介.................................................................................233.4.2导数寻峰法.............................................................................................253.4.3协方差寻峰法.........................................................................................25 西南科技大学硕士研究生学位论文第5页3.4.4联合寻峰方法.........................................................................................273.4.5对比实验及评价.....................................................................................273.5γ能谱解谱算法描述..........................................................................................283.6本章小结............................................................................................................304.核素识别......................................................................................................................314.1核素识别方法简介............................................................................................314.2分类方法介绍....................................................................................................314.2.1SVM简介................................................................................................314.2.2决策树简介.............................................................................................324.3SVM决策树基本原理.....................................................................................334.4实验准备过程....................................................................................................344.4.1特征提取.................................................................................................344.4.2核素库建立.............................................................................................354.4.3SVM决策树分类器构建算法................................................................364.5核素识别实验....................................................................................................374.5.1训练及测试精确度实验.........................................................................384.5.2比对试验.................................................................................................394.6本章小结............................................................................................................405.实验原型系统..............................................................................................................425.1系统框架............................................................................................................425.2系统软件流程....................................................................................................435.3系统开发条件....................................................................................................465.4原型系统界面...............................................................................................476.总结和展望..................................................................................................................527.致谢..............................................................................................................................538.参考文献......................................................................................................................54 西南科技大学硕士研究生学位论文第6页1绪论1.1研究背景放射性物质目前广泛应用于核电、工业探伤、医学检测等领域,其在提供大量便利的同时,一旦发生放射性泄漏事故对人体伤害非常巨大。2011年日本地震所引发的福岛核辐射危机后,社会对放射性物质的危害有了更深刻的认识,对其的使用安全给予了更广泛的关注,核安全监测上升到前有未有的高度。从IAEA(国际原子能机构)发布的2011年核安全报告[1]中可以看出,核材料以及其它放射性物质在使用、储存和运输多个环节中的安全管理依然薄弱。目前全球有151749件核材料,每年全球放射性物质使用、运输已经达到两千万次左右,各个核材料持有大国尚没有建立一个全球范围的信息存储中心来进行监管。我国核设施[2]主要分为民用与国防用两大类,我国至今约有放射性同位素与辐射技术应用的各类放射源7~8万,其中核素废源约有2.5万枚左右。这其中国防类核设施和民用大型核设施的核材料得到了较好的管理。但是工业上应用较广的工业核素管理上还还存在很多的问题,近几年中已经有的五起核材料遗失报道见诸媒体。能谱测量作为一种重要的核物理监测方法,是核安全监测的主要手段之一。能谱仪作为核辐射测量中最常用的数据采集、分析仪器,其通过对射线能量的测量可识别发射射线源的核素种类,对辐射强度测量能够获得射线的核素含量或活度,及辐射总量。随着计算机软硬件技术的不断发展,相关技术也不断应用到核素探测中。目前的核素探测装置能谱仪也在不断的小型化、便携化。与此同时也对其核素探测的准确性和快速性提出了更高的要求。由于核素识别的敏感性及国外专利技术保护等原因,国内很少能够获得最新的能谱分析的算法,同时国内也缺乏成熟的能谱解谱软件,因此对核素识别这一领域具有较好的研究价值。 西南科技大学硕士研究生学位论文第7页1.2基本概念(1)全能峰:入射射线的能量全部损失在探测器灵敏体积内时,探测器输出脉冲形成的谱峰。射线与探测器介质发生光电效应产生的光电子的能量为:EEBei其中E为被测射线能量;B为探测介质原子核外第i壳层电子的结合能。i最终能谱中脉冲幅度相应于射线的能量E。(2)数字化多道脉冲分析器:多道脉冲幅度分析技术是核辐射能谱测量中最常用的方法。其基本原理是:粒子入射到探测器的灵敏体积内产生电流脉冲信号,经过收集、成形电路处理后输出幅度与能量成线性关系的电压脉冲信号,再对脉冲幅度按能量进行分类得到输入粒子的能谱信息。(3)分支比:分支比是指母体核通过不同途径(分支)衰变成某个子体,此不同途径几率的比例关系。(4)能谱解谱:能谱解谱分析主要分为定性分析和定量分析两类。其中,能谱定性分析主要完成核素种类的确定;定量分析主要根据γ能谱计算核素活度、核素含量等相关统计量信息。1.3国内外研究现状1.3.1国内研究现状国内的能谱解谱方法[3]的研究从上世纪50年代开始,由于受制于当时的计算机发展水平,无法进行复杂的数学运算,只能采用简单的峰面积法来进行解谱。但是目前广泛使用的NaI(Tl)探测器存在能量分辨率低的缺点,在测量复杂的混合核素时,容易出现重叠峰问题(即能谱混叠严重),针对这一问题,简单的峰面积法无能为力。随着计算机的迅速发展和普及,为更为精确的定性和定量解 西南科技大学硕士研究生学位论文第8页析计算提供了基础,更多更好的方法(如逆矩阵法等)逐步被提出。随着高能量分辨率的Ge(Li)探测器的出现,在简单峰面积法的基础上形成了更为复杂的拟合函数峰面积法。为了克服最小二乘逆矩阵法没有充分利用能谱数据的弱点又提出了逐道最小二乘法和复合道区最小二乘法,这两种方法对于解析能量近似的混合核素有着很好的效果[5]。但是以上的方法在提高精确度的同时,也对操作人员提出了更高的要求。如逐道最小二乘法需要手动设置能窗,这需要专业知识和经验累积,非专业人士在使用时因为能窗设置的不正确反而会产生更大的误差甚至得出错误的结果。另一方面,逆矩阵法、最小二乘逆矩阵法等方法在进行核素定性(核素识别)都需要被测样品中每种核素的标准能谱,并且需要保证标准能谱和被测样品必须在同样的条件下进行测量,即在测量时能谱仪的能量分辨率、能量刻度等参数必须保持不变,同时环境辐射不能产生较为明显的影响。因此这些方法的环境适应性较低,使用上存在很大的限制。[9]随着神经网络的逐步发展,形成了全谱信息输入法。该方法是把能谱的每道计数均作为神经网络的一个输入神经元,它的优势在于不需要标准谱,也对能谱仪的相关参数的要求较低。但是如果混合核素较多,或者能量区域较宽,其计算量较大,对计算机计算要求较高,不适合便携式能谱仪的使用。1.3.2国外研究现状[6-8]国外的能谱解谱最新方法主要集中于全谱信息输入法的研究。国外能谱分析算法的研究成果主要体现在多种商用的能谱解谱软件[4]。大部分的国外NaI(Tl)能谱仪(如Ortec)自身都配备相应的采集/解谱分析软件,但功能各有差异,常用的解谱软件有GammaVision、Genie2000、Hyperlab,UniSampo等。这些软件都具备能谱数据采集、寻峰、峰面积计算等基本功能。从目前常用的软件进行分析来看,上述的软件通常对单能峰的分解上能够得到较为准确的结果,但是针对NaI(Tl)探测器所获得的能谱中较为常见的严重的 西南科技大学硕士研究生学位论文第9页重叠峰现象或核素活度低、核素组成复杂的样品分析时存在较大的问题。从部分软件的最终核素识别结果上看,对已知的核素样品分析中容易遗漏部分低能核素22(如Na),对部分自然放射性样品核素存在检出并不存在的核素的情况。在定量分析中,计算结果与实际值存在偏差。从以上情况我们可以看出目前的能谱分析软件采用的解谱算法比较简单,适应性差,并不具备精确求解具有多种核素组成复杂样品的能力。1.4项目依托本人受中国核物理研究院核物理与化学研究所项目(编号:13zh0018和14zh0047)资助。项目主要完成编制一套适用于无线便携式能谱仪的能谱解谱软件。1.5主要完成的工作本课题从核安全的实际需求出发,研究了NaI(Tl)探测器能谱测量、能谱的物理形成原理、比较常用解谱算法分析,本课题的主要研究内容包括:(1)根据便携式能谱仪的需要,在全谱信息输入法和最小二乘逆矩阵法等方法的基础之上找到快速实现能谱解谱的方法。①针对NaI(Tl)能谱的计数涨落问题,采用几点平滑法及B样条平滑法对能谱数据进行处理,并比较其优劣,最终几点平滑法及B样条平滑法进行数据平滑。②针对能谱漂移问题,采用最小二乘法进行能量刻度。③在研究多种寻峰方法的基础上采用联合寻峰方法实现快速峰位确定并与商业化的谱分析软件进行比对研究,证明方案的优劣。(2)使用支持向量机方法进行能谱定性分析。 西南科技大学硕士研究生学位论文第10页①从能谱解谱后的特征峰集合入手,筛选有效特征峰,构建训练样本(核素库),确定SVM分类特征。②使用支持向量机决策树算法,构建训练集,并验证其训练集的训练质量。最终实现对其他能谱的核素识别。1.6论文结构本文分为七个章节,各个章节的主要内容如下:第一章为绪论,结合目前核安全监控的现状,介绍了本课题的研究背景。分别阐述了基于能谱仪核素识别技术的国内外研究现状。第二章介绍了从能谱仪中通过USB或者无线的方式获取能谱数据,同时简述了本课题在硬件上的优化方案以保证数据的准确性。第三章介绍了能谱解谱的基本方法,同时介绍了本课题中根据实际需要在数据平滑、能量刻度、寻峰计算方面对现有解谱方法所做的改进,并且针对每个方面做了相应的实验或对比实验以验证其有效性。第四章介绍了支持向量机方法的基本原理及主要特点,同时结合核素识别的具体需求选择了构建SVM决策树的方法。其后结合能谱解谱后的特征峰数据,构建训练样本,使用SVM决策树算法构建分类树。最后通过与C-SVM和传统的核素识别方法进行了对比实验以验证该方法的准确性。第五章介绍了系统原型的搭建。主要突出了系统的整体框架,以及系统整体流程。对进行进一步的核素识别系统提出了解决方法和理论指导。最后,在第六和第七章分别对本文的工作进行了总结,并进一步展望了下一步的工作内容,同时对论文及实验等工作作出支持和贡献的相关人员进行了感谢。 西南科技大学硕士研究生学位论文第11页2.γ能谱数据获取2.1硬件结构实验过程中使用了自制的能谱仪,其采用了Na(TI)闪烁探测器,虽然Na(TI)探测器存在能量分辨率较差的问题,此问题容易造成对于全能峰相近的核素能谱叠加不易区分,也就是重叠峰问题。但是该种探测器具有探测效率高、价格低廉、工艺成熟、使用方便、易于维护的优点,目前广泛应用于核素探测领域,而其能量分辨率差的弱点可以在后期的能谱解谱寻峰计算中进行处理。控制芯片采用基于ARM7的LPC2148微控制芯片,使用嵌入式无线模块LTE180进行无线数据传输。硬件部分结构图如图2-1所示,在NaI(Tl)闪烁探测器获取核辐射脉冲信号后,经过脉冲甄别、峰形保持后进行A/D转换,最终将脉冲统计数据写入到片内RAM中。随后根据软件指令通过WIFI模块发送统计数据。WIFI模块控控充充电电电电路路开开关关电电路路制制LPC2148电电路路锂锂电电池池组组电电源源变变换换AA//DD转转换换高高压压模模块块脉脉峰峰形形保保持持冲冲甄甄别别NNaaII闪闪烁烁探探测测器器跟跟随随电电路路脉脉冲冲放放大大电电路路图2-1硬件部分结构(Thestructureofhardware)2.2硬件数据采集流程能谱仪数据采集电路[10]如图2-2所示 西南科技大学硕士研究生学位论文第12页核素脉冲信号峰峰形形保保持持AA//DD转转换换脉脉冲冲甄甄别别控控制制电电路路AARRMM微微控控制制器器图2-2能谱仪数据采集电路(Spectrometerdataacquisitioncircuit)其采集流程为:(1)首先对NaI闪烁探测器得到的核脉冲信号进行放大和滤波,完成后分别输入到脉冲甄别电路和峰值保持电路,并将峰值通过的信息提供给控制电路;(2)当控制电路收到时序信号后,其将立即向峰形保持电路发送启动指令,峰形保持电路将保持并展宽脉冲信号,屏蔽输入信号,同时启动A/D转换,对输入脉冲进行编码,实现模数转换。转换后的数字量即对应存储器上的对应道址。因为16位的ADC相当于65536道,为了避免道宽非线性误差,采用并道技术和滑尺技术[11],将其压缩到1024道,然后再根据存储器的道址码对应的存储器单元计数加1,即完成一个脉冲的计数;(3)A/D转换结束后,将向ARM微控制器申请中断,脉冲计数的结果通过中断服务程序存储在ARM片内的RAM中。在得到软件端发送的获取数据命令后通过无线网络将数据通过网络数据包发送。2.3数据接收流程本设备软硬件部分通过TCP/IP协议连接,系统将能谱仪做为服务端,软件部分(本系统采用平板电脑做为接收端)作为客户端访问。客户端获取数据流程如下: 西南科技大学硕士研究生学位论文第13页连连接接能能谱谱仪仪F连连接接成成功功T发发送送SSTTAARRTT命命令令定定时时获获取取数数据据接接收收结结束束清清空空片片内内数数据据图2-3数据获取流程(Dataacquisitionprocess)为了保证数据传输的稳定性,防止出现数据掉包等问题,系统在如下方面做了改进:(1)对硬件部分高压模块及相关模块增加电磁屏蔽罩,防止电磁泄漏,干扰Wifi模块正常工作。(2)由于核素探测需要一定探测时间,则核素能谱的获取对实时性要求不高,故而将核素脉冲计数数据保存在ARM的片内RAM中,当接收到获取数据命令时,才通过无线网络进行发送。这样一方面可以根据网络情况实时在客户端调整获取数据的频率。另一方面即使有一次网络数据包出现错误,对后面的核素识别影响并不大。2.4本章小结 西南科技大学硕士研究生学位论文第14页本章首先介绍了数据采集部分的硬件结构,接着重点就能谱的数据采集过程、方法及流程做了重点描述,同时介绍了数据采集过程中需要注意的问题。其后介绍了系统原型采集能谱数据的流程及准确性保证方面所做的工作。 西南科技大学硕士研究生学位论文第15页3.γ能谱解谱能谱解谱分析主要分为定性分析和定量分析。对能谱定性分析主要完成核素种类的确定,定量分析主要根据γ能谱计算核素活度、核素含量等相关统计量信息。本课题主要关注能谱的定性分析以实现核素识别。3.1γ能谱解谱方法简介(1)全能峰面积法峰面积法[3]并不是简单地求出全能峰的面积,而是把全能峰各个道上的计数进行叠加,如果计数较小还需要将计数放大若干倍之后进行相加。这种方法是能谱解谱中最为简单的方法。在这种方法的基础之上又发展出了总峰面积法,Covor峰面积法、Vaassen峰面积法、Sterlinski面积法Vaassen-Sterlinski面积法等。在庞巨丰的《能谱数据分析》中,对这几种方法进行比较和分析,结论是对于一般的核素分析采用Vaassen-Sterlinski面积法在解谱中具有较好的效果。此种方法虽然计算较为简单,但是不适用于混合核素或重叠峰较多的能谱。(2)逐次差引法能谱解谱逐次差引法的基本原理是先对混合探测源中各种核素的能谱的全能峰按照能量从大到小的顺序进行排列,然后按照其高低顺序逐渐从能谱中剥离的方法。在多种核素混合的情况下,其先找出最高峰值,然后确定其核素类别,然后利用各道响应系数求出此核素在每一道址上的贡献,然后从各道中减去该类核素的计数值,并依次类推。这种方法要求全能峰中尽量不要出现能量叠加(即重叠峰)的情况,而在实际测量过程中,此种情况出现的可能性较小,这也造成了此种方法的适用范围较小,同时如果在之前的剥离过程中出现误差,这种误差会累积。(3)逆矩阵法(解线性方程组法) 西南科技大学硕士研究生学位论文第16页逆矩阵法[20]的主要原理是:根据各种核素的响应矩阵的不同,分别有两种方式进行处理。第一种是直接从混合源中确定其核素的活度;另一种方式为,先找到能谱中每种核素的特征峰的计数,然后与之前已经做好的标准谱全能峰进行比较,从而得到各核素的活度。在此方法的基础上有发展出了最小二乘逆矩阵法。此方法在进行核素定性(核素识别)都需要被测样品中每种核素的标准能谱,并且需要保证标准能谱和被测样品必须在同样的条件下进行测量,即在测量时能谱仪的能量分辨率、能量刻度等参数必须保持不变,同时环境辐射不能产生较为明显的影响。这让这些方法的环境适应性较低,使用上存在很大的限制。(4)全谱信息解谱法全谱信息[9][26]解谱法基本原理:把能谱的每道计数作为神经网络的一个输入神经元,直接使用计数值和之前训练好的能谱数据进行比对分类,从而实现核素识别。由于全谱信息法充分利用了能谱的所有数据,不需要进行寻峰计算、能量刻度,大大降低了对操作人员的要求。从实际应用效果上看全谱信息解谱法简化了解谱的流程,但是它和前面的逆矩阵法类似,测量时需要实测的能谱测量条件和神经网络训练的条件相同,否则无法正确识别核素。另一方面如果混合核素较多,或者能量区域较宽,其计算量较大,对计算机计算要求较高,不适合便携式能谱仪的使用。本课题将能谱解谱分为数据平滑、能量刻度、寻峰计算三个环节。本方法从解谱环节上相对前三种解谱方法减少了峰形刻度、标准谱绘制、能窗选定等多个环节。同时结合全谱信息解谱法的基本原理,重点关注分类特征的选取问题,但是由于没有将全谱信息放入到最后的定性分析中,故而大幅度降低了计算量。3.2数据平滑由于核素的放射性衰变是随机的,故而在使用γ能谱仪进行测量时,单位时间内的获取的计数为在一个平均值上下浮动。经过大量的测量统计结果表明,其服从泊松分布规律,这就是核素衰变过程中固有的统计涨落。与此同时在测量过 西南科技大学硕士研究生学位论文第17页程中还存在能谱数据采集电路中的噪声影响以及射线散射影响。以上这些因素都可能形成带有统计涨落的能谱。这样的能谱一方面可能掩盖能谱中的弱峰,即将两个相邻较近的峰位进行了合并;另一方面可能出现假峰,即不是峰位的道数形成了峰位,从而对最终的定量定性分析产生分析误差,甚至漏掉可探测的核素或者识别出并不存在的核素。基于此,必须首先对能谱原始数据进行平滑处理。为保证后续数据处理的准确性,数据平滑后其谱线应保留平滑前谱线的特征:1)全能峰的峰位与峰面积应尽可能地保持稳定;2)尽可能减小重叠峰出现的概率。平滑处理方法主要有傅里叶变换、卷积操作、几点平滑法、指数平滑法、马尔可夫平滑法、小波变换、数字滤波器,重心法等。本文采用五点三次平滑法和B样条平滑法进行平滑对比实验。3.2.1五点三次平滑法五点三次平滑法基于最小二乘法原理针对离散数据进行数据平滑。其原理是利用n次多项式与2m1个数据点逐道分段进行平滑拟合。从能谱中取2m1道数据,对应的道为(m,m1,1,0,m1,m),对应的计数值为(y,y,y,y,yy,y)用公式3-1来拟合这些数据。mm1101m1mn~knyibnkibn0bn1ibnni(其中n2m1)(公式3-1)k0几点平滑的通用公式为:m1yiAjyij(公式3-2)Kbjm对于五点三次平滑法可利用以下公式计算~1y3y12y17y12y3y(公式3-3)ii2i1ii1i2353.2.2B样条平滑法 西南科技大学硕士研究生学位论文第18页B样条定义:对于给定空间的n1个点P,P,P,Pnk1,节点的矢量012nTt,t,,t是由如果矢量中各节点满足tti,1,0,nk1,则称参01nkii1数曲线为B样条曲线nPt)(PFt0t1(公式3-4)i,nikk,nk0nk1jjnFt1Ctnkj(公式3-5)k,nn1n!j0其中P为能谱原始数据,Ft为B样条的基函数,公式(3-4)为定义在i,nk,nT上的k阶B样条曲线。P,P,PP为Pt的控制多边形。令节点总数为m,012n控制顶点数n1和曲线的阶数的关系式为:mnk1。根据B样条的数学原理性质我们可知B样条具有可微性、保凸性、局部不变性等特点,适合本课题所研究的能谱数据的平滑。3.2.3对比实验及评价为了找到最佳的数据平滑方案,我们采用几点平滑法和zkq20151125B样条平滑法进行对比实验。实验的测试数据为能谱中较为复杂的重叠峰峰区,并求出原始谱数据Px与平滑数据Hx的均方差及矢量差,其计算公式如下。n2AHxPx(公式3-6)iii0BAA(公式3-7)kk1 西南科技大学硕士研究生学位论文第19页图3-1数据平滑(Datasmoothing)在Matlab中绘制出平滑数据图(如图3-1所示)根据上图的原始谱数据求出的均方差和矢量差数据得到表3-1zkq20151125表3-1均方差和矢量差数据(Meansquareandvectordata)n均方差2AHxPxBAAikk1大小i0阶数71013141617k阶BA1097416.4963393.9675389.1972382.0394380.3281样条B412-3.87214.7703-0.28211.7113失真从上表的数据我们可以看出k的值越大,均方差越小,但是过大之后容易出现平滑过度的情况。从实际的效果上来看,k阶B样条的平滑效果和几点平滑法多次迭代后偏差较小,但是几点平滑法依赖于经验而k阶B样条平滑可以通过均方差和矢量差的值来求出最佳的平滑方案,所以本课题采用了经典的五点三次平滑法,如果发现此种平滑后效果不佳再采用k阶B样条平滑来进行数据处理。 西南科技大学硕士研究生学位论文第20页3.3能量刻度3.3.1基本原理由于温度、能谱仪误差、环境辐射等因素的影响,从数字化多道脉冲分析器中获取到的原始图谱存在峰位漂移的情况。所谓峰位漂移即指能谱全能峰中特征峰所对应的道址和实际的道址存在偏差,此种偏差会严重影响最后核素的定137性判定即核素识别。如图3-2所示,图示的白线位置为核素Cs的特征峰峰位,其能量为661.66,即其x轴应该在661.66位置,而现在为1976,此即峰位漂移。zkq20151125图3-2峰位漂移(Peakpositiondrift)能量刻度的基本方法是通过测量已知能量放射性核素的能谱图,然后做出能量和特征峰峰位(道址)的对应关系曲线。此刻度曲线一般情况下是一条直线,特殊情况下为二次曲线。其线性方程式为:2ExpGGxpGxp(公式3-8)123其中x为峰位,G、G、G为能量刻度参数,能量刻度的主要工作就是求p123出这三个参数的值。确定了这三个参数的值后就可以使用此公式计算其他能谱的能量,形成能谱的能量和计数之间的谱图,从而找出未知能谱的峰位所对应的能量。 西南科技大学硕士研究生学位论文第21页能量刻度采用了最小二乘法求出拟合多项式,最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。要准确完成能量刻度需要注意射线源选择、峰位定准、确保谱仪的稳定性这三个方面。这就要求选择的刻度放射源的能量必须是事前精确已知的,另一方面,在确定峰位时需要手工将峰位定在峰上的最高计数的道址上,或选在峰半宽度的中间位置。最后需要注意的是在某种条件(包含谱仪的组成原件、使用参数和环境参数)下完成的能量刻度只能在当前条件下使用,当相关条件发生变化时,需要根据能谱的具体情况进行重新校验。3.3.2实验能量刻度一般情况下至少需要三个全能峰峰位点来进行。实验中选择了zkq2015112513760Cs和Co两种工业核素,其全能峰特征峰所对应的能量值如表(3-2)所示表3-2核素及其能量值(Nuclideandenergyvalue)核素名称能量值(keV)137Cs661.6660Co1173.2360Co1332.49通过能量刻度求得线性方程式后,重新绘制计数和能量谱图如图3-3所137示,从图示可以看出,核素Cs其特征峰峰位点准确地回到了能量661.66能量位置。 西南科技大学硕士研究生学位论文第22页图3-3能量刻度后的能谱图(Theenergyspectrumoftheenergyscaleafterdrawing)3.3.3实验结果评价为了评价能量刻度的准确性,我们通过如下两种方式来验证。(1)绘制拟合点和拟合曲线的曲线zkq20151125(2)求出拟合值和原值的比值结果根据这两种方式,我们可以得到两张曲线图(图3-4为拟合点和拟合曲线图,图3-5为拟合值和原值的比值结果图),如拟合点均在拟合曲线周围,则证明拟合效果较好,同时拟合值和原值的比值应该成一条直线。从两张图的结果来看拟合取得了很好的效果。 西南科技大学硕士研究生学位论文第23页图3-4拟合点及曲线(Pointandcurvefitting)zkq20151125图3-5拟合结果和原始值比值(Fittingresultsandoriginalvalueratio)3.4寻峰计算3.4.1寻峰计算方法简介在能谱的定性分析中,全能峰特征峰峰位的确定是非常重要的一个环节,根据寻峰计算得到特征峰峰位所对应的能量能够识别出核素的种类。寻峰计算中单能峰峰位(也叫独立峰)的寻找较为容易,难点是准确区分重叠峰、消除假峰 西南科技大学硕士研究生学位论文第24页影响。如图3-6所示的谱图在0-400能量位置出现了较多的峰位,且峰位涨落并不明显,从而形成了重叠峰和假峰。图3-6重叠峰示意图(Overlappingpeaksdiagram)造成这一现象的主要原因是:一方面是环境本底和NaI(TI)闪烁探测器能量分辨率差的影响,当测量时间过短时,容易出现此种问题。另一方面多种核素的混合也容易造成重叠峰问题。图示的谱图测量时间为1分钟,当测量时间增加到20分钟以上时,由于计数值的增加,通过谱图能够很容易区分。为了解决此问题,要么增加测量时间,要么按照传统的核素定性分析法加入本底扣除这一过程,这无疑会增加计算量。手持式能谱仪需要在较短时间内检测出核素种类,同时要求降低计算量。目前对能谱的解谱方法研究多集中于对重叠峰的处理上。目前计算机自动寻峰从方法上主要分为两个类[20]:(1)已知库驱动寻峰法:即在已知能谱仪的峰形刻度参数、能量刻度参数等情况下,对核素库中已知的核素进行寻峰。峰位确定的主要原理是通过判断拟合后的高斯峰中心是否对应核素库中某个核素的能量值。从其原理中可以看出,此种方法在对已知核素的寻峰过程中效果较好,但是随着核素库的不断扩大,寻 西南科技大学硕士研究生学位论文第25页峰的比对时间大大增加,如果考虑核素衰变等相关因素的影响,此种方法的效率将大大降低,故而在实际测量过程中,此种方法主要用于重叠峰的分析。(2)峰驱动寻峰法:此种方法主要针对对未知核素的峰位确定。其主要原理是尽可能确定更多的峰位,然后根据峰形刻度参数、能量刻度参数等信息根据确定的峰位来来判断未知核素。其又可以将此种方法细分为:简单比较寻峰法,高斯乘积函数找峰法,道数寻峰法,导数法、对称零面积法,协方差法。本课题主要研究了峰驱动寻峰法中的导数法和协方差法,并在此基础上提出了联合寻峰的方法。3.4.2导数寻峰法一阶导数寻峰:若能谱数据fi在i道的一阶微商为0,即00fi0,fi0,当i渐增通过i时,fi由正变负,则fi为极大值,当i0000渐增通过i时,fi由负变正,则fi为极小值。00二阶导数寻峰:若fi,且fi0,当fi0时,fi为极大值,0000fi0时,fi为极小值。从实验的结果上来看一二阶导数法在对单峰、强00峰的效果较好,但是对在重叠峰上有不足。3.4.3协方差寻峰法协方差寻峰法:是将能谱数据用以下的数学公式来表示:yhCBmjm(公式3-9)ijiii其中i为能量刻度后的能量值,B为本底常数,h为峰高,C为峰形函数,iiim为能谱交换窗口,m一般设定为半高宽的1.2倍。其中h和B参数具体值的得到使用了如下公式ii 西南科技大学硕士研究生学位论文第26页m2RgiyijhiCjBimin(公式3-10)jm其中g是加权因子,i为待定的全能峰峰值点能量,此公式将第i道的能谱i数据与相邻的2m1道使用最小二乘原理进行加权拟合,调整参数h和B最终使ii得R的值为最小。通过简单推导后可以求出峰高为:mmmmgjgjCjyijgjCjgjyijjmjmjmjm(公式3-11)hi2mmmm2gjgjgjCjgjCjjmjmjmjmh的标准差为i12mgjjmh(公式3-12)i2mmmggC2gCjjjjjjmjmjm最后我们可以得到峰的判定公式mmmmgjgjCjyijgjCjgjyijhijmjmjmjmK(公式3-13)ih2immmm2gjgjgjCjgjCjjmjmjmjm检测第i能量处是否为能谱的全能峰峰值点时,需要计算第i能量处附近的K的值,如果第i道是峰值点,则K会在第i能量处出现局部最大值,且超过了ii我们预设的寻峰阈值,我们认为i道存在一个有意义的峰。 西南科技大学硕士研究生学位论文第27页当进行重叠峰识别时,可以以第i能量处作为分界点,将一个全能峰分为左右两个部分,使用公式计算Kmj0和K0jm,然后综合这两个liri数据来判定是否存在多个峰,根据实际情况调整i值和j的范围,从而分出各个分峰的峰位。协方差寻峰方法对单能峰和重叠峰识别率较高,但是计算公式较为复杂寻峰速度相对于导数法而言较慢,故而在本课题中结合两种方法的优势和劣势,将两者结合用于实际的寻峰计算。3.4.4联合寻峰方法在充分考虑到各种多种寻峰法的优缺点及本课题的具体需要,采用导数寻峰法和协方差寻峰法来进行联合寻峰,以达到寻峰速度快,寻峰精度高的要求。(1)完成所有全能峰峰位的寻找。此过程先利用一阶导数法进行全能峰峰区边界的确定,利用二阶导数法进行寻峰,确定能谱中的所有全能峰的峰位。(2)完成对找到峰位的分类。对步骤一中寻找到的所有能谱峰进行解析以确定其为单能峰、重叠峰。对单能峰的判定可以先计算其半高度,再结合该峰位与前后峰位的能量差,如果半高度与能量差比值大于阈值,则认为其实单能峰,否则为重叠峰,在确定重叠峰之后,记录其峰位点,以便进行二次寻峰。(3)完成对重叠峰的二次寻峰。最后利用协方差法对重叠峰范围内进行二次寻峰分析,以准确分辨出重叠峰(连续峰)的真实峰位。3.4.5对比实验及评价15222241实验选取Eu、Na、Am标准源组成混合源样品,使用联合寻峰方法和商业软件GAMMAVISION的寻峰计算结果为例进行比较说明较高精度。实验过程中将混合样品放在离探测器30厘米处测量,测量活时间有意地选择较短的20s,实验的评价标准主要以是否检出某个峰位为依据,如检出则为Y,未检出则为N,从而得到如表3-3所示的检测结果。 西南科技大学硕士研究生学位论文第28页表3-3对比实验结果(Contrastexperimentresults)能量/keV所属核素本程序判断GV程序判断26.34241AmYN59.54241AmYY121.78152EuYY244.6922NaYN344.27152EuYY778.90152EuYY964.01152EuYY1085.78152EuYN1089.70152EuNN1112.02152EuYY1274.5322NaYY从上表我们可以看出,联合寻峰方法基本能够识别出混合核素的特征峰位,尤其在对1085-1089keV这样重叠峰位置以及弱峰位置26.34keV相对于GAMMAVISION有更好的识别效果。因为误差等方面的问题,对1089.70keV这个分支比较低的峰位未能检出,在后续的工作中还需要有待改进。3.5γ能谱解谱算法描述综合前面数据平滑、能量刻度及寻峰计算的相关算法,将本课题的能谱解谱算法描述如下: 西南科技大学硕士研究生学位论文第29页其中算法中相关的定义为:Px:能谱原始数据。(其中x表示能谱中的道址)Hx:能谱平滑后数据。(其中x表示能谱中的道址)EiHx:刻度后的能谱数据(其中i表示能量)W:有效峰值点集合。W1:单能峰峰值点集合。W2:重叠峰峰值点集合。W:分解重叠峰峰位后的峰值点集合。3INPUT:EkWOUTPUT:PxHx1.对能谱进行数据平滑得到HxEi2.对平滑后的数据进行能量刻度得到EiW3.对进行导数寻峰得到峰值点集合WWWW4.将集合进行分类得到1和2,其中1为单能峰峰值W点,2为重叠峰峰值点。5.对W2使用协方差寻峰,分解重叠峰后得到W36.将W1和W3合并为W,此时W即为特征峰峰值点。 西南科技大学硕士研究生学位论文第30页3.6本章小结本章首先介绍了能谱解谱的几种常用方法,同时对这几种方法的优缺点做了分析。根据这些方法的优缺点确定了本课题的能谱解谱方法,即从数据平滑、能量刻度和寻峰三个方面对能谱数据进行分析。其后,数据平滑过程将几点平滑法和B样条平滑法进行比对实验。从实验结果上看两种方法各有优势,但是从计算量上来看优先选择几点平滑法,在平滑效果不佳的情况下再选取B样条平滑法。能量刻度过程主要介绍了能量刻度的意义及其基本原理,其后采用最小二乘法对平滑后的曲线进行能量刻度。在寻峰计算中,综合分析了多种寻峰方法,根据其优缺点,最后确定了导数法与协方差法相结合的联合寻峰方法,从实验效果上看取得了很好的寻峰效果。 西南科技大学硕士研究生学位论文第31页4.核素识别4.1核素识别方法简介核素识别的基本方法是在自动寻峰完成后,可得到全能峰能量峰值集合Ww,w,,w,将此序列与核素库中的核素峰位值进行比较,如果相等则认为12n可能存在某种核素。但是由于前期的能量刻度、环境辐射等问题的影响,两者直接相等出现的可能性较小,另一方面一个核素并不只拥有一个核素峰位,在某个能窗范围内可能存在多个核素的峰位较接近的情况,我们将之称为“相干核素”,这种情况同样会影响核素判断。因此直接采用数据比对的方法,核素识别【5】的准确性较差,基于此,文献【5】提出了核素置信度算法。其公式为20.16$Efiexp(公式4-1)ETOL其中ETOL为能窗设定值,$E是特征峰位与核素库中的核素能量的差值。其后利用公式(4-2)计算总的置信度fnfff(公式4-2)12n此算法精确度较高,广泛应用于目前的能谱仪。但是当测量峰位和核素库峰位增加过多时计算量较大,其效率将大大降低。为了在测量峰位和核素库峰位数据量大时能够迅速实现核素识别,本文考虑引入支持向量机(SVM)分类方法来进行核素识别。4.2分类方法介绍4.2.1SVM简介支持向量机[28]最早由Vapnik等人提出,是一种基于结构风险最小化原理的统计学习方法。支持向量机的主要思想是利用核函数将输入向量映射到一个高维特征空间,并在该空间内构造一个最优分类超平面来逼近分类函数。最优分类超平面的构造最终归结为在原空间上求解一个凸二次规划问题。 西南科技大学硕士研究生学位论文第32页该二次规划问题的求解可以使用如下的对偶规划(公式4-3):lll1maxWaaiaiajyiyjKxi,xji12i1j1Ts.t.ya0,0aC,i1,2,li(公式4-3)T其中Kx,x为核函数,aa,a,,a,a为式中不等式约束对应的拉格ij12l朗日乘子,若a0,则称相应的样本x为支持向量。对于未知属类的向量x,可以采用线性判决函数(公式4-4)进行分类。lfxsgnwxbsgnaiyixixbi1(公式4-4)而对于非线性分类的情况,因为不能直接构成最优分类超平面。因此需要借助非线性函数x把训练数据映射到一个高维特征空间,再构建最优分类超平面。由于非线性空间只考虑映射空间的点积运算,故而可以将核函数:Kx,xxx代入公式4-4中,即得到非线性判决函数(公式4-5)iilfxsgnaiyiKxi,xbi1(公式4-5)支持向量机决定了分类超平面,而非支持向量并不影响分类。因此SVM具备了其他机器学习技术所不具备的优势,即实现了对样本数据的压缩表示,降维计算。4.2.2决策树简介【23-26】决策树因其形状像树且能用于决策而得名,目前主要应用于分类计算。从形式上来看,一个决策树类似于数据结构中的多叉树,由一系列节点和分支组成,每个节点代表着分类过程中可能存在的分类,不同分类形成不同分支。为了利用决策树对数据进行分类,可以利用某一属性值从根节点开始分类搜索直至叶节点,其叶节点即为最终的分类。目前较为通行的决策树构建方法有 西南科技大学硕士研究生学位论文第33页CHAID、ID3、CART、C4.5等。虽然以上算法因为侧重点的不同各有不同,但在决策树的构建方法是基本一致的。构建决策树的算法通过训练样本的属性来决定它们的分类。决策树是由上至下形成的。在树的每个节点都有一个属性做为分类的依据,先构成一个大的分类,然后再在大的分类中划分出新的分类集,在多次执行上述过程后,即可以形成叶结点,即最终分类,从而完成决策树的构建。在构建决策树过程中,分类的属性是依据信息论标准来选择的,即寻找最大的信息增益和最小熵。核素识别的问题实质上是一个多分类问题,可以采用SVM多分类方法来实现。SVM多分类方法的实现基本思路是通过将多分类问题分解为SVM可直接求解的两类问题,通过适当改变原始的最优化问题后,SVM就可以计算出所有多类分类决策函数。SVM的多分类方法主要有:一对其余法、DAG方法、决策树方法等。本文采用决策树法来实现SVM的多分类[18]。4.3SVM决策树基本原理11,,22||33,,44L1L211||2233||441234图4-1完全二叉树决策树示意图(Completebinarytreedecisiontreediagram)在构建决策树过程中,其构建主要依据样本间的距离。对于线性可分情况,各分类样本间的距离越大就越容易实现分类,同样的,距离越小越容易产生分类的误差。但是训练样本在原始空间中大多数情况都是线性不可分的,这也就意味在原始空间中计算各个样本间的距离不能反映样本间的可分性。因此需要变换函 西南科技大学硕士研究生学位论文第34页数将样本数据转换到特征空间,在此空间内各类样本间的是线性可分的。由于这种转换是非线性的,故而我们使用等效距离来反映其可分性。据此,我们在分类过程中需要计算其等效距离。本文中SVM决策树采用完全二叉树的结构,图4-1中所示椭圆型为SVM分类器节点,数字表示类别号,如果存在C个分类,则采用此结构分类后需要构logC建2个分类器,其相对偏二叉树结构的所使用的分类器更少。在进行多累样本分类时,首先将样本根据等效距离的大小,分为L1和L2两个聚合类,若待分类的样本属于L1,则再在L1中确定其分类。但是在聚合类划分时,由于存在局部类簇LCC(LocalClassCluster)问题,即某几个类别的样本距离较近,它们的集合与其他类别的集合距离较远的情况,所以构建的二叉树并不能达到如图4-1所示的理想状态的情况,形成一颗不平衡二叉树。4.4实验准备过程4.4.1特征提取经过能谱解谱后可以得到全能峰能量峰值点集合Ww,w,,w。对于12n两种或两种以上混合核素样本,其通过寻峰计算后获得的特征峰峰值点数量n值大于20,而这其中存在部分峰值点对最终的核素识别没有任何意义,我们将之称为无效峰位,反之即为有效峰位。继续保留和使用这些峰值点不仅增大了计算量同时也降低了核素识别的准确率。为了提高核素识别的效率必须将其剔除,仅将有效峰位集合用于SVM的训练和测试,这样一个过程对于SVM来说就是分类特征的提取。根据能谱解谱的相关原理可知,核素在探测过程中,计数值是一直在增长的,如果探测时间较长(一般大于5分钟),有效峰位能量的计数值将远远高于其他峰位点(如图4-2,该图为3种混合核素探测10分钟之后的能谱图)。这也说明有效峰位点的计数增长率远高于其他峰位能量。利用这一原理,我们可以使用公式4-6来进行有效峰位的筛选。 西南科技大学硕士研究生学位论文第35页mN1i,j1hi2m5(公式4-6)tmj1Ni,j公式4-6中,i表示寻峰计算后得到的峰值点,N表示该峰值点当前计数i,j值,N表示该峰值点上次记录的计数值,t为两次计数值记录之间的时间差,i,j1Ni,j1为设定的判断阈值。对进行m次累加并求出其平均值,即可得到该峰值Ni,j的平均增长率h,当h小于设定的阈值时,我们认为该峰位为有效峰位,否则为ii无效峰位。通过以上的公式我们可以得到能谱有效峰位。图4-2能谱计数涨跌(Energyspectrumcountriseandfall)4.4.2核素库建立在核素识别过程中,核素库的建立是非常重要的工作,它是分类判断的重要依据。核素库在数据库中的基本表结构如表4-1所示。特征峰的选取主要根据核素特征光子能量及分支比来确定,但是每种核素的特征光子能量的数量不定,对于单个核素而言并不能根据光子能量找到7个特征峰。针对这一问题,采用了如下方式来解决,一方面按照分之比大小,将光子能量做为特征峰,对于不足的部分,使用实测能谱的辅助峰位来进行补充。对于混合核素我们一般选取多种核素的光子能量根据分之比大小依次作为特征峰位和辅助峰位。 西南科技大学硕士研究生学位论文第36页表4-1核素库示例(Nuclidelibrarysample)核素名特征峰1特征峰2特征峰3特征峰4特征峰5特征峰6特征峰7152Eu121.1817344.281408964.08778.90103.18069.6760Co1173.2281332.49141.18398.411101.23722.91180.19154Eu123.0711274.44723.3051004.73873.19284.305364.49137Cs661.66513.971175.63247.9333.8181.07739.522Na5111274.53545.41820692122.060136.47137Cs661.66121.18344.281408.00964.08778.901175.63152Eu22Na60121.18344.285111274.53723.3051004.728873.19Co154Eu4.4.3SVM决策树分类器构建算法本文在SVMDT算法的基础之上,根据核素识别的特点,对决策树的构建算法做了改进优化,其构建算法如下:(1)将核素库中的能量峰位按照固定的能窗分为C类,存在n个训练样本,k单个训练样本用x来表示,下标i表示第i类,上标k表示第i类第k个训练样i本,按公式4-7计算每类距离中心的位置。1kcixi(公式4-7)nxXi(2)计算各类中心之间的距离 西南科技大学硕士研究生学位论文第37页dcc(公式4-8)ijij(3)确定两类分类方案。设SS代表结点类划分中的正负例类集合,ijNN为正负例类的集合的类别数目,分别计算S到S各类的平均类中心距离SiSjijD,以及S、S内部各类两两之间的平均类中心距离DDSiSjijSiSj1DSiSjdij(公式4-9)NSi*NSjiSi,jSj2DSjdij(公式4-10)NSi*(NSi1)iSi,jSj2DSjdij(公式4-11)NSj*(NSj1)iSi,jSj(4)利用公式4-12结果取得最大值,确定各节点的最优划分方案。DDsiSjDD*h(公式4-12)SiSjNNSiSj其中h为一个经验修正值,这里设定为0.128,据此建立完整决策树,分别对各个结点SVM分类器进行训练,最终得到完整的SVM分类器。4.5核素识别实验为了验证算法的有效性,我们将核素库中7种核素及其混合核素共420组数据作为数据集使用SVMDT进行实验测试。实验利用SteveGunn提供的SVM优化动态库在Matlab环境下测试。实验从两个方面对算法进行验证(1)训练及测试精确度实验:实验采用10-fold交叉验证策略,采用不同的核函数包括径向函数RBF核函数、多项式poly核函数和样条spline核函数进行测 西南科技大学硕士研究生学位论文第38页试,从而得到SVMDT的精度、SV数目、运行时间。同时与传统的SVM多分类器(C—SVM)进行结果比对。(2)识别率对比实验:与商业软件GAMMAVISION进行对比实验,对比算法与商业软件之间对核素的识别率。4.5.1训练及测试精确度实验实验采用了420组训练数据,77组测试数据,使用10-fold交叉验证策略,采用不同的核函数包括径向函数RBF核函数(其中C100,1.0)、多项式poly核函数(d3)和样条spline核函数进行测试,从而得到SVMDT的精度、SV数目、运行时间(所有的精度、SV数目、运行时间均为平均值)。同时与C—SVM多分类方法比对结果如表4-2和表4-3所示。表4-2训练精度、测试精度比对(Trainingaccuracyandtestaccuracycontrast)算法训练精度测试精度SV数目rbfpolysplinerbfpolysplinerbfpolysplineC-SVM10010093.696.593.196.58824117SVMDT10010093.695.993.696.44862210表4-3训练时间和测试时间比对(Trainingtimeandtesttimecontrast)算法训练时间(Sec)测试时间(Sec)rbfpolysplinerbfpolysplineC-SVM23.2220.9721.427.947.767.84SVMDT9.098.368.923.543.433.46 西南科技大学硕士研究生学位论文第39页实验结果分析:(1)综合两张表来看,SVMDT训练过程中所使用的支持向量的个数要远远优于传统的C-SVM,尤其是在核函数为径向基和多项式的情况下,前者支持向量的个数在后者的一半左右。因此在训练时间与测试时间上,SVMDT也优于C-SVM。(2)从核函数选取角度上看,rbf的实用性与稳定性要优于后两者,基于核函数rbf的分类器在训练过程中使用的SV的个数要远远多于其他两种核函数分类器,但是三者的训练时间与测试时间差距不大。故而在实际应用中选用了rbf核函数。4.5.2比对试验实验通过基于SVMDT核素识别算法与商用GAMMAVISION软件对单个核素、两种混合核素、两种以上混合核素这三种情况,在相同环境下进行核素识别准确率比对。在对比实验中,对混合核素识别只有识别出混合源中所有核素才认为其识别成功,否则认为其识别失败。测试结果如下所示。(1)核素探测时间为10秒,探测器距离测试样品30厘米,对单个核素进行50次核素识别的结果为:表4-4单个核素识别结果对比(singlenuclideidentificationresultcontrast)15260137241识别方法EuCoCsAmSVMDT100%98%100%100%GV100%94%100%100%注:GAMMAVISION简写为GV 西南科技大学硕士研究生学位论文第40页(2)核素探测时间为10秒,探测器距离测试样品30厘米,对混合核素进行50次核素识别的结果为表4-5混合核素识别结果对比(mixednuclideidentificationresultcontrast)152226015213760识别方法Eu和NaCo和EuCs和CoSVMDT96%98%98%GV92%94%92%表4-6混合核素识别结果对比152226015424113760241识别方法EuNaCoEuAmCsCoAm131133131133IBaIBaSVMDT96%90%84%GV92%78%72%从以上结果分析看出SVMDT核素识别方法在单核素识别上与GAMMAVISION比较优势不明60显,尤其是在Co等弱源的判定上还存在问题有待改进。但其在混合核素较多的情况下,相对于GAMMAVISION优势明显。根据SVM方法的特点,当后期训练数据增加时,识别的准确率还有提升的空间。4.6本章小结本章通过对核素识别传统方法的研究的基础之上,根据其优缺点及实际使用环境的需求确定了使用SVMDT的方法来实现核素识别。其后本章在寻峰计算得到的峰位点的基础之上,使用增长率公式进行特征提取,最终形成了核素库,即 西南科技大学硕士研究生学位论文第41页数据样本。在分析SVMDT原理的基础之上,结合核素识别的实际形成了SVM决策树的构建算法。通过三种实验得出的相关数据表明,基于SVMDT的核素识别方法达到了快速识别、准确率高的目标。 西南科技大学硕士研究生学位论文第42页5.实验原型系统5.1系统框架原型系统构建实现了通过USB或无线方式来连接数字化脉冲分析器,从而获取能谱数据,并通过数据处理模块处理完成后进行图形化显示。最后通过核素识别模块结合核素库实现核素识别。其整体结构图如图5-1所示,各功能模块图如图5-2所示。核素识别软件USB通信数字化脉冲分析器数据处理模块通信模块无线通信核素识别模块核素库Na(TI)探头图5-1原型系统整体结构图(prototypesystemstructure)USB通信模块通信模块无线通信模块核素识别模块系统功能图形显示模块模块图数据处理模块参数管理模块核素管理模块图5-2系统功能模块图(Systemfunctionmodulechart) 西南科技大学硕士研究生学位论文第43页原型系统将主要功能分为了通信、数据处理、图形显示、参数管理、核素管理等功能模块,各个功能模块描述如下:(1)通信模块:原型系统可以连接Ortec、BPI及自制数字化多道脉冲分析器。其可以通过USB和无线网络两种方式进行数据采集。USB通信模块:通过USB接口实现与数字化多道脉冲分析器通信;无线通信模块:通过无线局域网实现与数字化多道脉冲分析器通信(2)数据处理模块:实现对数字化多道脉冲分析器测量的数据的读取、分析、计算功能;(3)图形显示模块:对数字化多道脉冲分析器测量的数据进行图形化显示;(4)核素识别模块:根据数字化多道脉冲分析器测量的数据结合核素库数据在SVM分类器中实现核素识别;(5)参数管理模块:设置放大倍数,阈值,最大道址等相关数字化多道脉冲分析器参数;(6)核素数据管理模块:实现对核素数据输入、修改、删除等管理功能。5.2系统软件流程(1)核素探测的总体流程 西南科技大学硕士研究生学位论文第44页启动探测探测结束软件初始化探测进行中OnBnClickedBtnSt探测时间终止OnBnClickedBtnStopMeOnInitDialog()OnTimerartMeasureasureInitMeasureTime()1.本函数根据板卡的类GetEneryValue()获取计初始化测试状态和时型选择不同函数执行根据板卡类型不同数值间1)IniOrtec()该函数根据板卡类型不同使用不同的命令关闭设备Language():初始化Ortec设备分别调用设定当前的语言2)IniBPI()OrtecGetValue()InitDial();初始化eMopo多道获取Ortec设备数据初始化绘制图形3)IniUSBDevice()BPIGetValue()初始化自制板卡获取eMopho设备数据2.完成数据清理USBDecGetValue()ClearAllDataArr获取自制板卡数据全流程通用函数UpdateWorkState()显示当前工作状态分为:等待工作;正在探测;探测结束等状态UpdateMeasureTime()显示当前探测时间图5-3核素探测流程(Nuclidedetectionprocess)图5-3反映了整个原型系统的基本操作流程,同时也标注了各个环节中使用到的功能函数名称。(2)能谱数据处理流程获取数字化多道数据后的数据处理,关键点在实现数据库存储和快速写入大量数据。数字化多道脉冲分析器提供的数据采集方式为直方图模式(Histogram):最经常使用的数据存储模块是直方图的模块并据此生成的能量谱曲线。获取能谱数据显示能谱曲线内存暂存分析计算存入数据库数据解包图5-4数据处理流程(Thedataprocessingflow)原型系统在直方图模式的基础之上增加了实时模式、定时模式、刻度模式。 西南科技大学硕士研究生学位论文第45页①实时模式:即在200毫秒到1秒内采集一次数据并实时反馈到相应的数据显示模块中。②定时模式:在较长的时间内(20-120秒)按1秒1次获取数据并实时反馈到相应的数据显示模块中。③刻度模式:为了在初次测试中取得基准数据,将采集的时间设定到5分钟左右。以上集中模式的采集时间都能够在系统设置中进行具体的设置。(3)核素识别流程读剂量计算参数读取测量数据计算单位时间内总剂量能量刻度参数计算道对应的能量寻峰计算特征提取SVMDT分类器核素库数据计算道对应的半宽度输出结果图5-5核素识别流程(Nuclideidentificationprocess)图5-5显示了原型系统中对核素的识别流程,整个流程反映能谱解谱和核素识别各个环节的对应关系。(4)软件与硬件通信流程图 西南科技大学硕士研究生学位论文第46页图5-6USB通信流程图(usbcommuicationprocess)图5-7无线通信流程图(wlancommuicationprocess)5.3系统开发条件根据系统的分析需求和实际情况在数据量不是很大的情况下采用表5-1的开发条件即可: 西南科技大学硕士研究生学位论文第47页表5-1系统开发环境(Systemdevelopmentenvironment)开发工具VisualStudio2010开发语言C++开发框架QT4.85、SVM优化动态库数据库SQLLite本课题为了配合便携式能谱仪的使用采用了目前较为通行的轻量级SQLLite数据库,后期可根据需要将数据库转为MySQL等中型数据库。5.4原型系统界面图5-8原型系统主界面(Prototypesysteminterface)原型系统主界面如上图5-8所示,其主要功能如下:(1)测量时间设定:点击“测量时间”下拉框可以选择核素识别的时间。(2)核素测量:点击按扭“开始测量”,开始读取核素测量。至测量时间完成后,自动进行核素的识别并在核素列表显示。 西南科技大学硕士研究生学位论文第48页(3)工作状态显示:测量过程中实时显示当前工作状态、已经测量的时间、核素能量曲线、核素能量数据及指针指示位置。(4)能量(道址)范围选择:通过“起始能量(道址)”与“终止能量(道址)”可以设置当前显示的核素能量(道址)范围。(5)能谱曲线局部区域放大:在核素能量曲线显示区,通过点击鼠标左键并拖动鼠标光标向右下角方向移动,选择放大需要放大的核素区域,通过点击鼠标左键并拖动鼠标光标向左上角方向移动,恢复图像显示。(6)能谱曲线拖动:在核素能量曲线显示区,通过点击鼠标右键并拖动鼠标光标,可以移动核素能量曲线。(7)能谱曲线放大:点击“图形放大”按扭,弹出“图像放大显示界面”(如图5-9),其具体功能参见图形放大界面。图5-9能谱曲线放大界面(Spectralcurveinterface)原型系统设置界面可以设置“增益微调”、“堆积时间”、“时间基准线”、“触发ADC”、“数据传输方式”、“放大”、“语言”、“阈值”等多 西南科技大学硕士研究生学位论文第49页个系统设置选项。通过该界面可以进入其它设置或操作界面,包括核素库维护、刻度设置、历史日志界面,具体界面如图5-10所示。图5-10系统设置界面(SystemSettingsinterface)图5-11核素库管理界面(Nuclidelibrarymanagementinterface) 西南科技大学硕士研究生学位论文第50页核素库管理界面如图5-11所示,其主要功能如下:(1)在“核素”参数模块与“射线”参数模块输入相应参数值,点击“添加按扭”,可以添加新的核素数据。(2)鼠标点击“核素列表”选中某核素数据,“核素”参数模块与“射线”参数模块显示相应核素的信息。(3)鼠标点击选择某核素数据后,修改“核素”参数模块与“射线”参数模块的相应参数信息后,点击“修改”按扭确认修改。(4)鼠标点击选择某核素数据后,点击“删除按扭”删除选择的核素数据。(5)鼠标点击选择某核素数据后,点击“重置按扭”,核素相关信息全部置零。图5-12历史记录界面(Thehistoricalrecordinterface)历史记录界面如图5-12所示,其主要功能如下:(1)点击“起始时间”与“截止时间”,然后点击“查找按扭”,显示时间范围内的核素数据。(2)鼠标双击核素历史数据,在界面显示相应时间的核素能量曲线。 西南科技大学硕士研究生学位论文第51页(3)核素曲线鼠标操作方式与主界面核素曲线操作方式一致(可以通过鼠标拖动放大核素曲线、拖动核素曲线位置等)。(4)点击“返回按扭”,返回系统设置界面。 西南科技大学硕士研究生学位论文第52页6.总结和展望本文首先简述了如何从能谱仪的基本硬件结构及数据采集方法,并着重介绍了如何快速准确地从能谱仪中获取计数数据。其次,对从数字化脉冲多道设备中获取的能谱进行能谱分析,为核素识别做数据预处理。能谱解谱方法借鉴了传统的方法并在传统方法上针对其优缺点并结合实际需求做了部分改进。为了解决能谱中的涨落问题,在能谱分析中首先采用五点平滑法及B样条平滑法进行数据平滑。其后为了解决能谱漂移等问题,使用已知的能量的核素对能谱进行能量刻度。能量刻度完成之后得到以能量和计数为x、y轴的能谱进行寻峰计算,在寻峰计算中在现有方法的基础上提出联合寻峰方法来确定全能峰中的特征峰峰位。再次,在能谱解谱的基础之上,对特征峰峰位进行筛选,形成训练样本构建核素库,并引入支持向量机决策树分类方法使用全能峰特征峰峰值数据进行训练,训练完成后构建分类决策树。决策树构建后即可实现对核素的分类识别。最后,本文对构建核素识别系统的构建提出了解决办法和具体的实施方案,并实施构建出了核素识别系统的原型。根据前面的研究成果以及以后的核素识别的发展现状,在以后的研究中从以下几个方面进行深入的研究:(1)建立能谱的定量分析功能,从活度等方面对能谱数据进行分析,更好地实现核材料监控。(2)目前基于SVMDT的核素识别算法最高识别7种核素,这主要受制于样本数据量及核素库的维度,后期考虑其算法,实现更多种类核素的识别。(3)目前核素识别算法需要在核素库中添加相关混合核素的样本数据才能实现分类,后期考虑更为灵活的方法实现只需要单个核素的能量,在实际探测中自动组合进行核素识别。 西南科技大学硕士研究生学位论文第53页7.致谢在我研究生生涯即将结束之际,谨在此对研究生期间给予我教育、关怀、帮助、支持和鼓励和老师、领导、同学、家人和朋友们致以最真挚的谢意。首先,要对我们认真负责的导师张晖教授表示最衷心的感谢!感谢您根据我个人的经历和兴趣结合实验室的研究重点明确了我的研究方向,为我研究生期间以及以后的研究指明了方向。并且在平时的学习、研究、工作和生活上对我寄予无微不至的关心和照顾,并时时刻刻叮嘱我们在繁重的学习、研究、工作之余一定要锻炼好自己的身体。在学术上您始终站在学术研究的前沿引领着我们前行,还甚至让我借鉴了您在日本读博期间所呆实验室研究出来的最新成果,让我与这些国际一流水平的研究人员进行交流,使我获益匪浅。您认真踏实的学习精神、严谨扎实的学术风格、勤奋细致的工作态度、亲切和善的为人风格都深深地影响了我,让我在以后的工作和学习中能够以您为榜样,在人生前行的道路上进一步完善和提升自己。其次感谢中国核物理工程院核物理与化学研究所的同志。正是你们提供了大量的核素识别方面大量的硬件支持,提供了大量可测试核素的支持才让我能够将此课题进行下去。同时在研究的过程中也对我的研究方法,实验过程提出了非常多宝贵的意见和建议。你们的支持在我的课题完成过程中起到了非常重要的作用。再次,感谢实验室团队中的杨春明老师、李波老师以及赵旭剑博士,你们经常对我的研究和学习给予关心,也给我提了很多宝贵的意见和建议,这是对我研究的莫大支持。你们的学术思想和学术精神对我研究生期间的学习起到了很重要的作用。最后,我还要感谢学校的其他老师和领导对我的关怀和教育、生活中同学和朋友的支持和鼓励以及父母这么多年来对我含辛茹苦的抚养和培育。正是在你们所做的一切都激励着我在以后的道路上不断成长,不断完善自我。 西南科技大学硕士研究生学位论文第54页8.参考文献[1].NuclearSecurityReport2011,MeasurestoProtectAgainstNuclearTerrorism.IAEA,BoardofGovernorsGeneralConference.[2].张华.国际原子能机构安全标准现状[J].辐射防护通讯,2006,26(1):32-39[3].庞巨丰.能谱数据分析.西安:陕西科学技术出版,1990:416-716[4].张新军,王,军,王世联,樊元庆.几种能谱分析软件的比对评估[J].核电子学与探测技术,2007,27(5):825-829[5].陈亮.便携式谱仪中的核素识别算法[J].清华大学学报,2009,49(5):635-638[6].MorhacM.Analgorighmfordeterminationofpeakregionsandbaselineeliminationinspectroscpocdata[J].NuclInstrandMethinPhysResearchA,2009,600(2):478-487.[7].FumitakeTakahashi,ShigeoAbe.Decisiontreebasedmulticlasssupportvectormachines[C]ProceedingofICONIP’02.Singapore:IEEEPress,2002:1419-1422.[8].RogerA.GreenAdnanulHaq.B-splineenhancedtime-spectrumanalysis[J],SignalProcessing,2005,85:681-692[9].肖无云,毛用泽,艾宪芸,等.手持式γ谱仪用核辐射探测器综述[J].核电子学与探测技术,2008,28(5):974-977,1023.[10].基于PDA和蓝牙的数字化能谱仪的研制[D].成都理工大学硕士论文:成都理工大学,2010[11].周国家.基于C8051F060的多道脉冲幅度分析器的设计[J].核电子学与探测技术,2011,31(1):1399-1403.[12].樊卫花,王卫萍,侯胜利.低本底多道能谱仪解谱应用软件的开发及应用[J].岩矿测试,2006,25(1):31-34[13].霍勇刚.一种基于模式识别的放射性核素快速识别方法研究[J].核电子学与探测技术,2014,34(1):51-53[14].王一鸣,魏义祥.基于模糊逻辑的能谱核素识别[J].清华大学学报:自然科学版,2012,52(12):1736-1740.[15].於国兵.NaI(Tl)能谱谱线分析技术的研究.中国辐射卫生[J],2009,18(4):476-478[16].伍怀龙,刘素萍,刘晓亚,杨晓波.能谱解谱技术研究[J].核技术,2005,28(6):430-434[17].李跃忠.基于MSP430F4618混合编程的伽玛能谱采集方法研究[J].核电子学与探测技术,2012,32(1):87-90.[18].朱远平.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):413-416. 西南科技大学硕士研究生学位论文第55页[19].薛欣.基于多个混合核函数的SVM决策树算法设计[J].计算机工程与应用,2007,43(8):142-144[20].刘永刚.能谱谱数据分解方法研究[D].中国地质大学(北京)博士论文:中国地质大学,2011[21].SUYKENSJAK,VANDEWALEJ.Leastsquaressupportvectormachineclassifiers[J].NeuralProcess-ingLetters,1999,9(3):293-300.[22].ROOBAERTD.DirectSVM:Afastandsimplesupportvectormachineperception[A].ProceedingsofIEEESignalProcessingSocietyWorkshop[C].Sydney,Australia:IEEE,2000.356-365.[23].John,Durkin.决策树技术及其当前研究方向[J].控制工程,2015,12(1):16-18[24].MingersJ.Anempiricalcomparisonofselectionmeasuresfordecisiontreeinduction[J].MachineLearning,1989,3(3):319-342.[25].LIJunwu,YUZhifu.AMethodofFusionRecognitionBasedontheCharacteristicofTargetandIncompleteData[C].2012IEEE11thInternationalConferenceonSignalProcessing(ICSP2012),2012:1813-1816.[26].JosefUhe.GregRoach.JamesTickner,etal.Peakfittingandidentificationsoftwarelibraryforhighresolutiongamma-rayspectra[J].NuclearInstrumentsandMethodsinPhysicsResearch,2010,619:457-459[27].ALikar,TVidmar.Apeak-searchmethodbasedonspectrumconvolution.JournalPhysics[D]:ApplliedPhyscs,2003,36:1903-1909[28].张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.[29].翟永杰,毛继佩,于丽敏,等.分级聚类支持向量机在汽轮机故障诊断中的应用[J].华北电力大学学报,2003,309(6):25-29.[30].乔增伟,孙卫祥.一种基于支持向量机决策树多类分类器[J].计算机应用与软件,2009,26(11):227-230[31].基于遗传神经网络的γ能谱分析研究[D].中国计量学院硕士论文:中国计量学院,2013[32].王思广,冒亚军,唐培家,李泽.多道γ能谱的精细分析[J].核技术,2006,29(7):495-498[33].贾景光,屈国普.基于NaI(TI)γ谱仪的自动能谱分析的研究[J].核电子与探测技术,2011,31(2):251-254[34].齐荣,毛永,陈熙萌.快速NaI全身计数器γ谱全能峰形函数的探讨[J].核技术,2008,31(5):330-334[35].赖万昌,葛良全,吴永鹏,林延畅,肖刚毅.新型便携式微机多道γ能谱仪的研制[J].核电子学与探测技术,2004,24(1):37-40 西南科技大学硕士研究生学位论文第56页[36].一种基于LaBr(Ce)探测器的手持式核素识别仪的研究[D].成都理工大学硕士论文:成都理工大学,2011[37].基于模拟退火算法的环境放射性γ能谱分析技术[D].辽宁师范大学硕士论文:辽宁师范大学,2011[38].孙宗宝,孙名松.基于核主成分提取和支持向量机的入侵检测[J].信息技术,2007,7:29-31 西南科技大学硕士研究生学位论文第57页9.攻读学位期间发表的与学位论文内容相关的学术论文及研究成果[1]谢先博,张晖.无线便携式能谱仪的设计与实现.计算机测量与控制,2014年10月见刊.[2]谢先博,张晖.基于支持向量机的快速核素识别方法研究.电脑知识与技术.2014年1月

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭