《基于hadoop的健康物联网数据挖掘算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
万方数据分类号UDC密级学位论文基于Hadoop的健康物联网数据挖掘算法研究与实现作者姓名:杨维指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:易秀双副教授东北大学计算中心硕士学科类别:工学计算机应用技术2013年6月论文答辩日期:2013年6月23日2013年7月答懒螂:黄卫祖黄卫祖、刘天华东北大学2013年6月 万方数据ThesisinComputerApplicationTechnologyResearchandImplementationoftheDataMiningAlgorithmsoftheInternetofThingsinHealthcareBasedonHadoopByYangWeiSupervisor:AssociateProfessorYiXiushuangNortheasternUniversityJune2013 万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢二正思0学位论文作者签名:扬多证日期:乙口f;.6.西学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口f两年∥学位论文作者签名:枸兰1主一导师签名:签字日期:加f;.乡、才签字日期:.I. 万方数据东北大学硕士学位论文摘要基于Hadoop的健康物联网数据挖掘算法研究与实现摘要医疗卫生体系的发展水平直接关系到人民群众的身心健康和中国梦的实现,是全社会关注的热点。在如今医疗改革的关键时期,应紧密结合物联网和云计算技术,切实加强医疗健康领域的信息化水平。健康物联网旨在通过先进的感知技术实现医疗信息的准确、实时感知,通过便捷全方位的通信技术实现医疗健康领域的互联互通,通过高效的数据处理技术实现医疗健康信息的全面、科学分析和预测。健康物联网数据处理总体流程是通过接收健康物联网智能采集终端的海量异构数据,对数据进行分布式存储,过滤进而对其进行分布式数据挖掘,让医学专家更有效的对病情进行分析。基于Hadoop平台对健康物联网数据进行处理挖掘时,本文首先对Hadoop源码进行研究,设计实现了分布式数据清洗算法以过滤冗余数据;接着重点研究设计了若干分布式数据挖掘算法,并对这些分布式算法进行了正确性验证。通过对这些算法的设计实现,可以为上层的健康服务应用提供良好的预测模型。对生理数据进行分布式数据挖掘时,首先分析了分布式聚类算法,又结合了蚁群的核心思想设计实现了基于Hadoop的分布式DKBAC(DistributedKmeansBasedonAntClustering)聚类算法。本文对病理信息数据进行聚类,通过实验将DKBAC算法与相关分布式聚类算法在准确率、平均查全率及时间效率等性能指标上做了比较和分析。为满足健康物联网各种预测分析的需要,需研究实现更多数据挖掘算法和模型,本文主要研究了基于Hadoop的分布式随机森林分类算法与分布式关联规则算法,并对算法进行具体的分布式设计,将其在Hadoop下进行部署实现并与相关算法进行了性能指标的比较和分析。通过研究实现这些主要的分布式数据挖掘算法,本文总结出分布式数据挖掘算法的一般设计原则及适用范围,为后续实现更多健康物联网分布式数据挖掘算法指明了方向。关键词:健康物联网;Hadoop;分布式数据挖掘;DKBAC;随机森林.II. 万方数据ResearchandImplementationoftheDataMiningAlgoritllmsoftheInternetofThingsinHealthcareBasedonHadoopAbstractThedevelopmentlevelofmedicalandhealthsystemisdirectlyrelatedtopeople’ShealthandtherealizationoftheChinesedream,isalsoahottopicofthewholesociety.Inthekeyperiodofthehealmcarereform,combiningwiththetechnologyoftheInternetofthingsandcloudcomputing,thesocietyshouldstrengthenthelevelofinformatizationinthefieldofhealthcare.TheInternetofthingsinhealthcareshouldrealizeaccurateandreal。timeperceptionofmedicalinformationthroughthetechnologyofadvancedsensing,achieveinterconnectivitVinthefieldofhealthcarethroughtheconvenientcomprehensivecoⅡⅡnullicationtechnology,andCananalysisandforecasthealthdatathroughthetechnologyofefficientdataprocessing.ThedataprocessingflowoftheIntemetofthingsinhealthcareismainlyreceivinghealthdatawhichintelligentdataacquisitionterminalsends,storinghealthinformation,filteringdataandminingdatainadistributedformtomakemedicalexpertsanalyzetheconditionmoreefficient.ToanalyzeandminedataoftheIntemetofthingsinhealthcareinHadoop,thepaperresearchesandanalyzesthesourcecodeofHadoop,designsalgorithmsofdistributeddata6lteringtofilterredundantdata,researchesseveraldataminingalgorithms,andverifiestheresuItsright.Thesealgorithmsandmodelsprovideniceforecastingfunctionsforhealthyservice.Whenminingthehealthdata,firstthepaperderivestheideaofantcolony,designsandrealizesDKBACclusteringalgorithmindistributedformonHadoop.ThroughexperimentDKBACcompareswiththerelevantclusteringalgorithmsontheaccuracy,theaveragerecallrateandtimeforthehumanphysiologicaldata.TomeetthedemandofanalysisintheIntemetofthingsinhealthcare,itneedstostudyandachievemorealgorithmsandmodels.ThepaperI.esearchesanddesignsrandomforestandFP.GrowthinadistributedformonHadoop,whichcomparewithrelevantalgorithmsinperformanceforphysiologicaldata·Afterresearchingthesedistributedalgorithmsofdatamining,thepapersummarizesthegeneral 万方数据东北大学硕士学位论文A1咖tprinciplesandtheapplicablescopeofdesigningdistributedalgorithms,pointsoutthedirectionforresearchingmoredistributedalgorithmsintheIntemetofthingsinhealthcare.Keywords:TheInternetofthingsinhealthcare;Hadoop;Distributeddatamining;DKBAC;Randomforest.IV. 万方数据东北大学硕士学位论文目录目录独创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯I摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IIAbsl:I’act⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.III第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1研究背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一11.2国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一31.3本文主要研究内容及贡献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..71.4论文组织结构及课题来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一8第2章健康物联网及相关技术概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.92.1健康物联网及其体系结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一92.2健康物联网中间件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..:⋯⋯⋯⋯⋯⋯.102.3健康物联网感知层技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯112.4Hadoop及相关子模块概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.4.1分布式文件系统HDFS⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.122.4.2分布式编程模型MapReduce⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯132.4.3分布式数据仓库Hive⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142.4.4Sqoop技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..162.5数据挖掘算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯162.6本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯16第3章健康物联网数据处理总体流程和设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯173.1健康物联网数据处理的总体流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯173.2异构数据加载转换设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯183.3分布式数据清洗算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.3.1数据清洗的MR模型流程分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯213.3.2基于MR的数据清洗算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22.V. 万方数据东北大学硕士学位论文目录3.3.3基于Hive的数据清洗设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.4分布式数据挖掘算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯253.4.1健康物联网数据挖掘的必要性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.263.4.2数据挖掘模块算法设计与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.283.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30第4章基于Hadoop的DI①AC聚类算法设计与实现⋯⋯⋯⋯⋯⋯.314.1蚁群算法机制原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.2基于蚁群的KBAC聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..324.3DKBAC聚类算法的正确性验证⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..334.4基于MapReduce的DKBAC算法的具体实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..344.4.1DKBAC算法中MapReduce任务的模型结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.354.4.2统计蚁群信息素阶段的设计与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.354.4.3蚁群信息素聚类的设计与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.384.4.4统计更新聚类中心阶段的设计与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.394.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.40第5章基于Hadoop的数据挖掘算法设计与研究⋯⋯⋯⋯⋯⋯⋯⋯.415.1分布式随机森林算法设计与研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯415.1.1随机森林算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.415.1.2基于Hadoop的分布式随机森林算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..435.1.3分布式随机森林算法的评价分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.455.2基于Hadoop的分布式关联规则算法设计与研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.465.2.1FP.Growth算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.465.2.2基于Hadoop的分布式FP.Growth算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..475.2.3分布式关联规则算法的评价分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.485.3相关分布式数据挖掘算法及设计原则⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.3.1基于Hadoop的其他分布式数据挖掘算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..495.3.2基于Hadoop的数据挖掘算法设计原则⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..505.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯50第6章实验部署及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.VI. 万方数据东北大学硕士学位论文目录6.1Hadoop实验平台搭建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯516.1.1软硬件环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.516.1.2Hadoop数据处理平台搭建及部署⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯516.2数据清洗算法测试结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯546.2.1异常过滤清洗效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.546.2.2时间过滤清洗效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.546.2.3相似度过滤清洗效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.556.3分布式数据挖掘算法的性能指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯556.4DKBAC数据聚类结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..556.4.1分布式聚类结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.556.4.2分布式聚类算法的复杂度分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.576.5并行随机森林分类及关联规则结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯586.5.1基于Hadoop的随机森林算法测试分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..586.5.2基于Hadoop的FP.Growth算法测试分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..596.6本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯60第7章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯617.1工作总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯617.2工作展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..63致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一67.VII. 万方数据东北大学硕士学位论文第1章绪论1.1研究背景和意义物联网(Intemetofthings)是由美国Auto—ID实验室在1999年首先提出的概念,即是物物相连的互联网,被视为当今互联网的应用扩展,创新是物联网发展的核心,以用户服务质量为核心是物联网技术发展的灵魂。国际电信联盟(ITu)也成立了专门研究物联网的技术委员会(10TGSI)。并在2005开始发布了((ITU互联网报告:物联网》,工作任务是制定物联网的技术标准,促进物联网在全世界的发展。物联网是信息社会的全球基础设施,能够基于现有的和演变的互操作信息和通信技术将物理和虚拟的物体相互连接起来以提供高级的业务。物联网利用标识、数据采集、处理和通信能力,充分使用物体为各种应用提供服务,同时能够确保必要的隐私。目标是实现各种物体,包括实体及虚拟的物体,通过各种网络互相联系,交互,交流。总体上物联网有三个方面的特征:互联网特征,即这些物体之间的连接是基于现有的互联网的,感知和互通信的特征,这些物体之间可以互相感知及通信,智能化的特征,物联网物体之间的信息传递具有自主性,能够相互自动反馈信息。健康是人类追求的永恒话题,医疗健康问题涉及到亿万群众的根本利益。在物联网与云计算的快速发展时期,为了实现中国梦,应该将这两项前沿技术切实结合到健康领域,形成健康物联网,实现对人们的健康维护。健康物联网是由健康智能采集终端接收人体生理信息数据,通过互联网及其他网络传送到医疗健康云计算数据平台进行智能计算分析,各个社会成员,包括医护人员、患者、服务管理人员等共同参与的社会科技相互融合的智能平台。物联网的体系结构可以划分为三层:即感知层、网络层和应用层。感知层处在物联网体系的底层,主要由各种有线或无线传感器设备、RFID以及传感器网关构成,例如C02浓度传感器、室内温度传感器、RFID二维数据标签、体域网传感器、GPS等智能感知终端。感知层的接入功能对物联网的实现起着基础性的作用,它是物联网识别物体、收集信息的来源,主要功能就是识别相应物体及数据信息,对物体进行全面感知,即对其继续识别或是数据采集。网络层主要由局域网、互联网、有线和无线通信网、网络管理系统和云计算平台等组成,能够利用这些现在多种的有线及无线通讯网络将信息进行可信任的传输,通过泛在的网络技术可以为用户即时的提供服务,也可以利用多种网络技术的协同,智能的为用户选择接入网络模式。应用层是物联网的目标所在,只有实现物联网的应用与具体的行业需求相结合,这样才真正让物联网服务于我们。物联网的行 万方数据东北大学硕士学位论文第1章绪论业特性主要体现在其应用领域内,在物联网的产业结构发展上,每个环节的企业和组织一般都会从自己的角度去诠释发展自身行业的物联网。目前在绿色农业、工业监控、公共安全、城市管理、远程医疗、智能家居、智能交通和环境监测等各个行业均有物联网应用的尝试,许多行业都已经积累了不少前沿的案例。在物联网与云计算的快速发展趋势下,随着社会对身体健康问题的日益重视,形成了面向智慧医疗和健康物联网的应用研究,基于物联网的社会医疗健康服务网络主要面向社区和农村基层医疗单位,利用个人生理信息智能感知和采集设备,通过物联网应用中间件平台及接入网关,实现目标人群与后台医疗信息化服务及医疗服务资源的对接,真正实现物与物,物与人以及人与人的全面信息交换和服务网络。其中中间件数据处理平台是针对物联网应用特点而设计的开发平台和基础框架。它的主要作用是隔离底层传感网络与上层应用,屏蔽底层不同感知及识别设备在通信协议、数据格式等方面的差异,为上层应用开发提供统一的数据处理、网络监控、应用开发以及服务调度接口,从而简化传感器网络的部署和相关应用开发。物联网中存在着不同厂商的各种型号的传感器和RFID设备,而这些传感器协议不同、结构性能各异,其采集的数据结构也不尽相同。大型物联网的系统中一般都会有许多RFID标签,多种读写器设备,甚至来采用协议不同,自不同设备厂商。物联系统中的微型计算处理设备更是五花)kf-/,它们的数据结构也没有遵守一致结构。物联网系统模块间传送的数据格式也包括很多数据格式,或文本数据,或者图片形式、视频格式等多媒体类型的数据,有静态数据,也可能是流数据类型。数据的多态性、感知设备的异构性导致了数据的异构性【¨,物联网的应用模式和架构互不相同,没有可批量应用的系统方法,这是数据多态性和异构性的根本原因。显然,物联网中的结构越大,使用的智能采集终端结构类型就越多样化,协议和数据的异构性问题会越严重,大量的异构性特征极大增加了数据分析处理及系统研发的工作量和难度。物联网往往是由若干个无线识别的物体彼此连接和结合形成的动态网络。在医疗卫生监测等实时监控领域,如无线传感网就需记录多个节点的各种信息,数据量也是大的惊人,每天可达甚至能带到TB级别以上。目前流行的数据库管理模式和系统很难处理多源海量异构的数据、在储存及处理分析的过程中面临着很大的问题。信息爆炸,海量数据处理的出现,迫使传统数据库要在技术上进行革新,面向应用层面,海量数据处理已成为现在信息科学发现及研究的基础;面向技术层面,海量数据处理将会是传统数据库技术的一次变革,是物联网和云计算发展的必然趋势。在医疗健康领域,数据同样呈现为以下特点:数据源分散且海量数据;高度异构化;半结构无结构化。针对各个智能终端在数据采集过程的预处理还不够,针对海量异构数据,随着物联网应用,越来越多行业相关的海量数据产生。因而迫切需要引入新的计算技术对数据进行过滤清洗,数据分析挖掘处理。传统数据库对海量.2. 万方数据东北大学硕士学位论文第1章绪论数据的实时访问分析、恢复及备份、有效的数据挖掘等方面的需求还有很多的不足之处。针对海量数据存储也面临能耗及空间等制约因素。因此需要研究物联网具体应用中海量数据的存储机制,研究分布式文件系统及集群技术,研究快速检索技术,研究数据备份和数据归档的机制,研制大规模并行分布式的数据存储系统和数据处理系统。物联网,是一个汇聚了数据收集、数据交换、数据处理、具体业务应用的集成化平台,其应用的关键问题也是集成问题【lj,只有通过有效的技术集成将上述技术整合在一起,形成完整的数据采集、数据交换、数据处理、数据应用平台,才能实现物联网的真正应用。结合日益增长的数据量,在数据处理方面需要结合云计算的相关技术,在数据处理平台形成医疗健康云,健康云是基于个人健康记录,由卫生和健康服务部门在后端的云计算平台对收到的可用数据进行数据检索、数据分析、数据挖掘等工作。在云计算平台的支撑下,大量的健康监测数据不需要人工去计算和分析,通过在云数据处理平台研究开发面向大数据的分布式智能算法,可以快速转换成实用方便当健康指导信息,并可以按照需要发送给个人健康智能终端,适时提醒用户需要注意什么问题;还可以了解个人每天都运动量是否为合适状态,以便引导人们更健康的运动和健身。1.2国内外研究现状IBM对物联网方面的研究很早就开始了探索,并在2008年年底提出了智慧地球的概念,并且也形成了一个较为系统的理论,希望将新一代的IT技术应用到各行各业当中。智慧地球也被称为智能地球,就是把智能传感设备嵌入和装置到电网、铁路、桥梁、医疗、交通、食品等各项工程当中,并且被普遍连接,形成物物相互连接的网络,然后将这种网络与现有的互联网整合起来,实现社会与自然物理系统的整合。针对智慧地球的重要组成部分的智慧医疗,IBM提出了5个热点领域,分别为整合交付网络/整合交付系统IDN/IDS(IntegratedDeliveryNetwork/System)、医院资源规划管理ERP(EnterpriseResourcePlanning)、个人健康记录PHR(PersonalHealthRecord)/eHR/eMR、医院信息系统HIS及信息数字化医院,并针对健康保健、慢性病管理和社区医疗提出了“智慧的电子健康档案及基于循证医学的个人健康管理"方案。采用传感器、融合通信和移动数据库技术,提供便捷、即时、持续的医疗服务。IBM医疗信息交换平台HIE采用了IBMd的中间件产品和医疗卫生行业IHE规范,实现了对医疗卫生结构之间文档共享的管理。循证医学研究与应用可使人们智慧的应用医学健康知识,对患者提供有个性化的服务,BlueStore的分析结果可作为屏蔽药物不良反应的临床证据;BlueStore是IBM开发的基于云计算的数据分析平台,有对药物不良反应报告的高效分析能力,可以发现药物与不良反应的关联性。在美国,物联网已经有了充足的发展,在公共设施、传感设备技术,各行业发展程一3. 万方数据东北大学硕士学位论文第1章绪论度上,美国都走在当今世界的前沿,并且具备完善的通讯网络,创造了一个良好发展的物联网的机会。尤其在健康物联网方面,早在2004年,美国健康和国民服务部就设立了卫生信息技术协调官的职位,启动了全民电子健康档案项目,逐步建立了全国的健康信息网络。奥巴马上台后,推行了一系列医疗新政,宣布先期投资200亿美元来用于发展电子健康档案信息技术系统。欧盟也早已经体察到云计算和物联网基础平台在物联网结构中的核心重要性,是世界范围内第一个系统提出物联网发展和管理计划的机构。从2005年开始资助了Hydra项目,这是一个研发物联网基础平台和网络化嵌入式系统软件的组织,已经取得了不少成果。《欧盟物联网行动计划》在2009年也在欧盟开始执行,保证了物联网在欧洲发展的低位,并且规划了自己的发展战略,目标是在物联网智能设施上处于世界领先。随着物联网迅速发展及欧美各国相应的制定出符合其本身的物联网发展的国家战略,2009年,温家宝总理在无锡考察时对物联网的发展提出了三点要求,一是把传感系统和3G中的TD.SCDMA技术结合起来,二是在国家重大科技专项中,加快推进传感网的发展,三是加快速度建立适合中国的传感信息中心,或者叫感知中国中心【21。从这开始,我国开始把物联网作为我国未来重要的发展战略。目前在中国也有很多传感器、传感网、RFID研究中心及开发基地,许多研究人士都希望尽快建立相应的行业标准。由于中间件的数据处理在物联网整个系统架构中所处的重要地位,很多国家、企业以及一些组织都已经投入到了中间件的设计开发中,mM、Oracle、微软等软件巨头都是引领潮流的物联网中间件生产商,SAP等大型应用软件公司的产品也都着手于中间件产品,国内的许多软硬件厂商也开始着手进行了物联网中间件数据处理产品的研究和开发【2】。作为互联网的全新范例,对于物联网的研究还处于初级阶段。目前,一些物联网数据清洗和数据挖掘方面的研究,主要包括以下几个方面:在数据转换与过滤清洗问题,由于医疗健康数据很多是高维数据,在非结构的数据处理过程中,可参考XML数据清洗技术及降维处理方向进行研究。由于XML文档可以用树结构来描述,因此树相似度描述方法可以用来描述XML文档数据之间的相似性。树编辑距离是一种著名的衡量树之间相似度的方法,用于表示从一棵树变换到另外一棵树需要增加、删除或者修改标签的最少结点数量,Demaine等人提出了在O(n3)时间内计算出树编辑距离的方法【3】。Milano等人提出基于覆盖的XML对象距离的算法【4】,两颗XML树S和T之间的覆盖定义为可以建立的映射的最大结点数目,S中的S可以映射到T中的一个结点t,当且仅当它们从根到叶子的路径相同。XMLDup系统【5】贝IJ使用了贝叶斯的方式描述了XML数据的相似性,这个模型中的贝叶斯结构也可以表示成树结构,以两个XML数据叶子上值之间相似度作为贝叶斯结构当中叶子上的先验概率,..4.. 万方数据东北大学硕士学位论文第1章绪论对于两条数据来说,它们的相似性可表示称为一个概率,这个概率由这两个元素的子节点相似性对应的条件概率计算得到,故两个XML数据之间的相似性定义为其根结点的相似性即可。文献[6】就讨论了用贝叶斯网络描述XML文档相似性过程中的优化策略,其策略是将XML文档向量化,使用训练学习的方法确定文档的新结构。在数据分析工具的方面,如RieraLedesma针对数据数清洗时局部错误数据提出的分枝切割算法和启发式求解算法f_7】等;在ETL工具方面,Lee等人也根据数据挖掘过程的学习环境提出的诊断、预测与合成模型【8】等。在RFID数据流方面,HectorGonzalez等人提出一个存储RFID数据的独特模型【9J,能在保护对象转变同时提供重要的压缩和路径依赖总量,提出了RFID立方体保持了三个表:信息表,能储存产品的路径依赖信息,停留表,保存了数据所在位置信息,地图表,存储用于结构分析的路径信息。HectorGonzalez等人提出一种用来压缩概率工作流机制,能够捕捉运动和特殊的RFID流动异荆10】。ElioMasciari等人研究了RFID数据流的孤立点挖掘算法⋯J。ChenZhuxi等人提出了RFID应用的频繁闭合回路挖掘算法1121。JaeGilLee等人提出了对于运动目标的轨迹聚集提出了一个划分聚集的框架【l引。在对传感器数据的数据挖掘方面,JoydeepGhosh提出了一个一般的概率框架,在计算及记忆的约束条件下的监督性学习【l引。BetsyGeorge等人提出时空传感器模型(STSG)去模拟和挖掘传感器数据【l51,STSG模型能够发现不同类型的模式:位置异常模式,在每个时段集中定位和节点的未来热点。ParisaRashidi等人研究开放了一种对于传感器数据类型挖掘的新奇的自适应挖掘框架,以适应数据的变化【l引。在物联网网格数据挖掘模型中,P.Brezany等人提出一种叫做GridMiner的基础设施,它支持分散式的在线分析处理和数据挖掘fl71。A.Congiusta等人讨论了设计方面和服从WSRF网格服务的实施选择问题【l引。VladoStankovski等人提出的数据挖掘网格模型【191,并且利用Hadoop实现的调度算法,实现了MapReduce网格数据挖掘系统。在健康物联网的大量异构的数据中发现可利用的信息数据对实现智慧医疗上层应用起着基础性的作用,但是在健康物联网中,针对大量数据特征的数据处理和挖掘的方法肯定要区别于传统的数据挖掘方法。健康物联网海量数据的挖掘方法应面向具体医疗应用,采用改进的方法对各式各样的数据进行过滤清洗聚类、分类、频繁模式等方面的处理,为医护人员提供有效的健康数据信息。从全球范围来看,现代医学正在进入4P时代,非常重视社会的参与性。4P医学模式即预防性(Preventive)、预测性(Predictive)、个体化(Personalized)和参与性(Participatory),4P医学模式会更加强调人们的参与性,重视日常生活行为对疾病发生发展的重要性,强化对人们生活行为的干预以达到预防疾病、控制发展早期治疗的目标。由此带来的数字医疗和健康预防要向基层社区和家庭方向发展,越来越多的健康信息智能采集终端融合在我们身边,更加有利于重视发展健康一5. 万方数据东北大学硕士学位论文第1章绪论数据在传输、处理、挖掘和展现等相对较薄弱的领域研究。通过上面对健康物联网及数据处理目前发展状况的介绍,从中能看到针对健康物联网海量数据分析处理的研究获得了不少成绩。但是现有的健康物联网数据分析处理的研究主要还是面向某一具体方向的,例如针对RFID数据流的处理或面向无线传感器网络的数据处理,都还很少全面考虑物联网数据的复杂多源、异构和分布式等特点。而且现有的数据处理技术主要都是用于针对特定的数据格式的数据,不是对所有信息集合都有效,同时对目前的健康物联网海量数据处理技术的算法复杂度和效率分析也相对较少。由于对健康物联网海量异构的信息处理的研究还不具有一般的系统性,连贯性,这是下一步特别需要研究探讨的问题。要求信息化在继承已有成果、深化应用的基础上,进一步全面提升,再上水平。尤其对医疗健康物联网海量信息数据处理、数据搜索等提出很高的要求,为了应对智慧健康物联网对海量数据处理的迫切需求,本文通过对Hadoop的HDFS和MapReduce两个核心关键技术深入分析研究的基础上,提出了在虚拟化资源管理平台上搭建基于Hadoop的动态可伸缩的海量数据处理原型平台,并给出其技术架构、实施方案以及实例分析,最后对海量数据处理平台的优势进行分析。与传统基于物理机部署的Hadoop分布式并行计算系统相比,通过虚拟化平台创建Hadoop虚拟服务器模板,不仅可以快速完成Hadoop分布式并行计算系统的部署,而且可以有效利用计算资源。当前许多研究把MapReduce计算模型应用到数据挖掘中。比如,K.Cardona等人实现了基于MapReduce的网格数据挖掘系统,并用基于MapReduce的调度算法验证了该系统的高存储性和高运行速度特性【201。Joos.HendrikBose等人实现了几个基于在线MapReduce的并行的增量式数据挖掘算法,包括NaiveBayes、PCA,并验证了所提出方法可以大大加快大数据集交互分析并提高数据流挖掘的可伸缩性【2¨。Cheng-TaoChu等人使用MapReduce编程模型实现多个算法,包括LocallyWeightedLinearRegression,LogisticRegression,NaiveBayes,SVM,ICA,PCA,GaussianDiscriminantAnalysis,EM和Backpropagation,并在多核处理机上实现了一个简单的MapReduce系统【22】。Das等人使用MapReduce实现了MinHash聚类算法和ExpectationMaximization算法,并将它运用于推荐中,为客户提供经常关注的类似消息【231。TingLiu等人使用一个MapReduce集群上使用ANN算法(ApproximateNearestNeighboralgorithm)实现了图像聚类【24J,并在算法中使用了溢出树作为其数据结构。在健康物联网的分布式数据处理平台中,主要是基于云计算进行海量医疗信息的数据存储,实现数据的分布式存储和并行访问,通过业务协同等技术整合现有的医疗系统和平台,提供统一的远程数字医疗服务平台,建立智能化的数据仓库,利用数据挖掘智能分析技术,建立相关远程医疗和数字医疗的智能决策分析模型,通过研究分析现有医.6. 万方数据东北大学硕士学位论文第1章绪论学模型,综合智能算法、概率论与数理统计、聚类、分类、神经网络、机器学习等数据挖掘算法,对医疗健康数据进行进行分布式数据挖掘工作,发现共同特征,识别关键点,为上层应用对疾病的预测、分析与诊断治疗提供有效的参考。1.3本文主要研究内容及贡献面向医疗健康服务的通用健康物联网,本文主要设计研究的是健康物联网数据处理流程的中的若干主要的分布式数据挖掘算法,数据处理挖掘过程算法主要是基于Hadoop数据处理平台搭建的,实现主要功能是接收智能采集终端的生理信息数据,统一数据格式,过滤海量数据,快速挖掘产生有用信息,为上层医疗专家科学预测提供可信任的模型。数据处理过程主要包括对数据加载转换预处理,基于Hadoop数据清洗,重点研究分布式数据挖掘算法,包括分布式DKBAC聚类算法,分布式随机森林及分布式关联规则等主要数据挖掘算法。本文的研究内容主要包括以下几个方面:1.物联网数据处理的分析。从物联网的角度分析数据处理和挖掘的重要性,对已有的数据处理和数据挖掘方法进行分析。了解常用的数据处理和数据挖掘技术,并且介绍目前对于海量数据处理方法和实践。2.研究健康物联网和分布式数据处理、挖掘中算法实现的关键技术,特别是对进行数据处理的运行平台Hadoop进行详细研究,主要有Hadoop中HDFS模块,MapReduce模块,HBase模块及MapReduce编程模型在Hadoop平台中的实现。3.研究数据清洗模块算法设计及与Hadoop平台的结合问题,为分布式数据挖掘提供数据保证。这就是数据交换平台的数据处理,主要是针对大量的智能采集终端产生的大量重复,异常等冗余数据进行过滤处理。结合Hadoop的MapReduce及Hadoop的Hive模块研究海量数据的高效可行分布式数据清洗算法并进行过滤流程的设计。4.对过滤清洗后的人体生理信息数据进行基于Hadoop的分布式数据挖掘处理,首先主要结合了蚁群算法的特点,设计研究了基于Hadoop的DKBAC分布式聚类算法。该聚类算法主要是根据生理信息对病情聚类,主要分为三个阶段,每个阶段都是需要仔细设计分布式任务。5.为了对人体生理信息进行有知识的分类和对病情因素关联分析,研究了基于Hadoop的随机森林并行分类算法,基于Hadoop的FP.Growth并行关联规则算法。为了对以后医护应用快速开发模型算法,总结了基于Hadoop数据处理平台的编写数据挖掘算法的重点关心问题,提出了分布式数据挖掘算法的一般设计原则及适用范围。6.部署Hadoop及Hive等实验环境,基于此环境对所研究设计的各种分布式数据清洗算法、分布式数据挖掘算法进行了具体实现,并对本文介绍的分布式算法的性能指标进行比较测试分析和复杂度分析。.7. 万方数据东北大学硕士学位论文第1章绪论本文的主要贡献是对健康物联网的数据处理挖掘方面,在基于Hadoop的数据处理平台下对数据清洗、挖掘算法进行了总体设计,设计了异构数据加载预处理的方法,设计实现了分布式各类数据清洗算法,重点研究各种分布式数据挖掘算法,其中研究设计实现了基于Hadoop的分布式DKBAC聚类算法,并与分布式Kmeans与模糊K均值聚类算法进行性能指标的比较分析。针对分布式数据挖掘算法的不成熟性,具体设计研究了随机森林算法的分布式流程,分布式FP.Growth关联规则算法,设计MR流程,这里充分考虑了数据的完备性,在提升时间效率时,使其准确性和传统串行单机算法的结果保持一致,并通过这些分布式数据挖掘算法的研究,得出了设计实现分布式数据挖掘算法的一般性原则和适用范围,为以后实现更多分布式挖掘算法指明了方向。最后通过实验部署分布式环境,对其各种算法进行实现,对性能指标的进行测试分析比较。1.4论文组织结构及课题来源本文共分为七章,具体内容安排如下:第1章,绪论。首先介绍物联网中问件数据处理算法的开发背景,研究目的。分析国内外的研究现状,根据本课题,介绍课题研究内容,给出论文结构安排及课题来源。第2章,健康物联网相关技术概述。讨论研究健康物联网的体系结构,中间件,并对采用的Hadoop各模块原理进行介绍分析。第3章,健康物联网数据处理总体流程和设计。研究并设计了基于Hadoop的健康物联网数据处理流程所处的环境及平台,研究设计数据预处理加载,数据清洗算法,分析设计健康物联网的主要分布式数据挖掘算法。第4章,基于Hadoop的DKBAC聚类算法设计与实现。从普通数据挖掘扩展到基于Hadoop的分布式数据挖掘,并应用到健康物联网的数据处理平台,便于对智能采集终端采集的数据进行分布式数据挖掘,提高效率,并设计结合蚁群算法,提出了一种基于Hadoop的DKBAC聚类算法,并设计与分析实现。第5章,基于Hadoop的数据挖掘算法设计与研究。基于Hadoop设计研究了分布式随机森林分类算法和分布式FP.Growth关联规则等主要分布式数据挖掘算法,并对分布式数据挖掘算法的设计原则和适用范围做了分析研究。第6章,实验部署与结果分析。对实验环境进行部署系,对上述若干分布式数据挖掘算法进行分析测试评价,并对这些分布式算法根据性能指标进行分析评价。第7章,总结与展望。总结全文的内容和创新内容,并提出下一步研究目标。本文得到国家自然科学基金资助项目(61070162,61225012),部委高新技术项目(MOE—INTEL-2012—06,211-2010-jd-05,CNGl2012—08),国家重大专项课题项目(2011578)的资助。.R. 万方数据东北大学硕士学位论文第2章健康物联网及相关技术概述2.1健康物联网及其体系结构中国生物医学工程学会及中国电子学会健康物联专委会秘书长宋瑜研究员表示【251,健康物联网的核心指导思想始终是以人的健康为中心来解决人的健康问题,要把提高或恢复人与自然和谐相处的自身能力放在首位,而不是仅仅针对疾病本身,互联网解决了人与人之间的交流,物联网则是解决人与物甚至物与物之间的交流,极大地扩展了互联网的应用领域。健康物联网具备互连性、协作性、预防性、普及性、安全性以及创新性的特征。互联性指无论患者身在哪里,管理医生都可以通过物联网,查看患者的健康档案和病历,并与其他专家进行会诊,为患者提供最好的治疗和护理服务。协作性指通过专有的医疗网络,记录、整合和共享医疗信息和资源,实现不同医疗部门之间的信息交换和协同工作,为患者提供一体化服务。预防性指健康物联网能够根据对患者历史身体体征的挖掘预测,及时发现重大疾病即将发生的征兆,进而进行快速、有效的响应。普及性指能够突破大医院与普通医院的观念限制,提供全民性的高质量医疗服务。安全性是指在没有授权的情况下,确保个人医护信息的安全。创新性指健康物联网能够革新传统的医疗模式,激发更多健康领域的创新发展。加快研究实现具备这些特征健康物联网,实现健康国人的中国梦。基于物联网的社会医疗健康服务网络面向社区和农村基层医疗单位,利用个人生理信息智能感知和采集设备,通过物联网应用中间件平台及接入网关,实现目标人群与后台医疗信息化服务及医疗服务资源的对接,真正实现物与物,物与人以及人与人的全面信息交换和服务网络。健康服务的内容应该包含:个性化的健康检查、个人身体健康信息档案、针对慢性病健康跟进、健康信息维护方案、家庭健康远程监护、健康咨询和全程绿色就医等一系列人性化的服务。目标人群可以在任何地点,任何时间可以查看到所有采集、就诊、住院、体检信息;以智能算法为导向,用户可以实现对本人的健康状况及时掌握;同时,通过将采用物联网技术的医疗设备引入会员家庭,将专业医疗服务家庭化,让会员在家即可以向专业医生咨询,询问自己关注的医疗信息。故健康物联网应具有由智能采集终端组成的感知层,由Hadoop数据处理平台组成的数据层,以互联网技术为基础的网络层,实现各种功能预测的应用层,完成物联网的感知、传输、存储、数据处理、预测应用的一系列过程。基于Hadoop的健康服务物联网应用体系如下图2.1所示。一9. 万方数据东北大学硕士学位论文第2章健康物联网及相关技术概述网络运营服务平台嘲健康物联网。应用层、、-、i/、tj一互联网,移动网\i·⋯⋯一。...,‘≈.∥一÷t社区医疗图2.1健康物联网应用体系框架Fig.2.1Theapplicationsystemframeworkontheinternetofthingsinhealthcare信息感知和采集层主要由小型化多功能生理指标采集设备和装置和物联网应用中间件平台及网关组成,负责完成目标人群生理指标及健康参数的感知、采集、传递以及网络接入。支撑数据层,即基于Hadoop的数据处理平台,在健康物联网起着基础性的作用,基于医疗信息化基础设施及M2M等物联网应用支撑平台,通过数据中心、专家系统以及门户网站的建设,为医疗健康服务及扩展应用提供运行保障。在此层次上,重点解决医疗健康信息的融合及处理以及不同系统问的数据共享及分发技术,为上层医护应用提供科学预测提供数据和模型的支撑。健康服务应用层利用信息采集层的信息及支撑管理层平台的服务,实现对医疗资源的整合,并依据目标人群的实际情况和服务需求,提供个性化的医疗健康服务及应用。2.2健康物联网中间件中间件并不是健康物联网中的独有的概念,但是针对物联网应用特点,需要大量设计中间件部分的开发平台和基础框架。它的主要作用是隔离底层传感网络与上层应用,屏蔽底层不同智能感知设备在通信协议、数据格式等方面的差异,为上层应用开发提供统一的数据处理、网络监控、应用开发以及服务调度接口,从而简化健康物联网的部署和相关应用开发。健康物联网中间件是实现下层智能采集终端和上层医护服务系统之间的数据传送、过滤清洗、根据相应规范转换数据的中间部分,位处于健康物联网的服务应用层、感知层与网络层的ARM设备当中。本文探究的中间件为服务应用端数据处理一10一曩、帮隰一蚤 万方数据东北大学硕士学位论文第2章健康物联网及相关技术概述平台的中间件,也称为健康物联网业务基础中问件。物联网中间件扮演底层数据采集节点和应用程序之间的中介角色,中问件可以收集底层硬件节点采集的数据,并且对数据进行处理,将实体对象格式转化为信息环境下的虚拟对象;同时,上层医护服务端可以使用中间件平台所提供一系列通用的应用服务接口(API),即能连接,控制底层硬件节点。这样一来,即使存储信息的数据中心或上层支撑应用服务对软件程序进行更新,或者底层智能采集终端设备的数量改变等情况发生时,服务应用端不需要修改也能够处理,有效的把复杂的多对多连接问题简化处理,同时增强了服务应用的可复用性。本文研究的健康物联网数据处理平台可以看做是实现的一种中间件技术作为应用开发。2.3健康物联网感知层技术健康物联网感知层相关技术主要有RFID技术、无线传感网技术、低能耗通信技术、多业务用户体验质量控制技术、体域网技术、定位技术、安全技术及核心芯片研制技术等。在基础传感设备上,当前许多的芯片制造商,分别从他们各自擅长的领域积极参与到健康物联网和智慧医疗领域,促进了人体生理信息数据的采集技术成长很快。例如德州仪器MSP430系列芯片将传感信号采集和片上处理分析功能整合在一起;飞思卡尔也将在无线传感器方向的优势进一步加强和整合,加快推出了统一的集成传感器应用开发平台,比如开发的智能运动感知平台及高度平台等传感产品。感知层IEEE,ISO,ZigBee三大组织也积极参与到健康医疗的相关医疗标准的制定当中。健康物联网的信息传送和互联网类似,传输网络分为有线和无线两大类技术,结合现有的通信技术,分为四类基础网络。短距离有线通讯网,包括局域网、USB接口等;短距离无线通讯网,包括如蓝牙、RFID、Zigbee传感设备、传感网、无线局域网Wifi、WMN等方式;远距离无线通讯网,包括GPRS、3G、4G等蜂窝网技术以及真正的长距离GPS卫星移动通信网;远距离有线通讯网,包括Intemet,广播电视网和电信网络等基础网络。上面提到的低功耗的蓝牙与Zigbee传感器技术是两种短距离通信标准,相对于现有其他通信标准,具有良好的可易用性、电源功耗较低、传输速率较快和稳定性较好,更适宜部署。体域网,即无线躯体传感网【2刚,是附着在人体身上的一种网络,由一套小巧可移动、具有通信功能的传感器和一个身体主站(或称BAN协调器)组成,每~传感器既可佩戴在身上,也可植入体内。协调器是网络的管理器,也是BAN和外部网络(如3G、WiMAX、Wi.Fi等1之间的网关,使数据能够得以安全地传送和交换。用于连续长期的对人体生理信息(体温、血糖、血压、呼吸频率、心率等)进行无线监测,通过对数据的采集、融.11. 万方数据东北大学硕士学位论文第2章健康物联网及相关技术概述合和分析处理,实现对人体健康情况的实时监测和跟踪治疗。无线体域网相当于把人体看成通讯网络的一部分,在身体器官上部署各种智能采集终端,接收这种可穿戴,可移动的数据,这些将会随着健康物联网的普及,将融入人们的日常生活。体域网中传感器节点如图2.2。幽2.2体域网中传感器节点位置图Fig.2.2Thepositionofthesensoronbodyareanetwork2.4Hadoop及相关子模块概述现代社会的信息增长速度飞快,这些信息中又包含着大量有用数据。我们需要对这些数据进行分析处理,以获得更多有价值的信息。我们这时选用Hadoop系统存储管理和分析这些数据。Hadoop最早起源于Nutch,2008年1月,Hadoop成为Apache的顶级项目,迎来了它的快速发展期。Hadoop使用者完全不需要深入理解分布式系统内部的底层的具体实现细节,也不需要拥有深厚的分布式开发技术的情况下,同样的可以实现一个开源的分布式系统框架,完成自己的分布式程序开发的需求。该框架是参考Google云计算三驾马车MapReduce,GFS,Bigtable[27】的相关内容编码实现的。2.4.1分布式文件系统HDFSHDFS‘281(HadoopDistributedFileSystem):是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上,它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(LargeDataSet)的应用处理带来了很多便利。.12. 万方数据东北大学硕士学位论文堑兰主堡垒塑壁堕型!茎垫查垫垄——————————————————————————__——————————-————————————————————————————————————————————一一Hadoop整合了许多文件系统,它定义了一个综合性的文件系统抽象,它提供了文件系统实现的各样接口,HDFS也是该文件系统抽象的一个实例。提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSystem,该抽象类就是一个分布式文件系统的接口,从而可以进行具体的实现。HDFS是一个主从(Mater/Slave)体系结构【461,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode是为了得到文件的元数据,而真正的文件输入输出操作是直接与DataNode进行交互的。2.4.2分布式编程模型MapReduceMapReduce采用的是分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分解与结果的汇总,在MapReduce领域许多学者结合各自领域做出了不少研究,ChristopherYang等人在分布式系统下实现了MapReduce的容错恢复机制【29】,AbouzeidAzza等人结合MapReduce技术和DBMS建立并行数据库模型,分析数据【30】,并在实际应用给出了案例[3l】。FriedmanE等人集合在MapReduce和SQL实现UDF(UserDefinedFunction)模型做了具体研列321。StonebrakerMichael等人在MapReduce和并行数据库之间做出了比较分析【3引。文献[34],[35]也在并行处理方面肯定了MapReduce的框架的数据处理能力。在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个Map和Reduce过程,Map主要负责把任务分解成为若干个任务,reduce负责把分解后多个任务处理的结果汇总规约起来【331。重点说明的是,使用用MapReduce框架来执行任务时,程序算法涉及的数据文件必须可以分解成若干小的数据分片,并且这些小数据分片都可能够在集群的各个节点分布式的并行运行。在Hadoop数据分析处理平台中,执行的每个MR任务都会被相应的初始化为一个Job,每个Job任务又可以分为两种阶段:Map阶段和Reduce阶段。这两个阶段分别用两个函数表示,也就是相应的map函数和reduce函数。map函数接收一个
此文档下载收益归作者所有