欢迎来到天天文库
浏览记录
ID:36739481
大小:468.73 KB
页数:6页
时间:2019-05-14
《基于多维语义的互联网药品信息提取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机系统应用http://www.c-S一-a.org.cn2011年第2O卷第11期基于多维语义的互联网药品信息提取方法=①顾轶灵(复旦大学软件学院,上海201203)摘要:提出了基于多维语义的互联网药品信息提取方法,构建语义词典通过从多个维度对互联网药品知识进行描述,克服了不同来源网页之间的异构性并找出了其隐藏的共性。同时,采用了基于结构语义熵的方法对目标网页信息聚集区域进行定位,从中提取感兴趣的药品信息。最后再通过语义词典对提取的信息进行验证并自动生成XPath提取规则进行补充。该方法能够自动有效地从互联网的多个信息来源获取药品信息,实验证明其具有较高的准
2、确性与召回率,可以为政府相关部门加强互联网药品市场监管提供足够的信息依据。关键词:Web信息提取;多维语义词典;互联网药品信息;结构语义熵;XPathMultidimensiona1.Semantics-BasedWebMedicineInformationExtractionGUYi—Ling(SoftwareSchool,FudanUniversity,Shanghai201203,China)Abstract:Amultidimensional-semanticsbasedWebinformationextractionmethodisproposedint
3、hisarticletoextractmedicineinformationontheWeb.ThemethodovercomestheheterogeneityofWebpagesfromdiferentsourcesandfindsthecommoncharacteristicsamongthembybuildingupasemanticdictionaryanddescribestheknowledgeofmedicineinformationovertheWeb.Atthesametime,itutilizesastructural-semantic·en
4、tropy-basedapproachtodetectdata-richsectionsonWebpages,thenextractinformationofinterestfromthemandfinallyVandsupplementtheextractedinformationbygeneratingextractionrulesusingXPath.Themethodisabletoobtaininformationfromheterogeneoussourcesbothautomaticallyandefectively.Experimentsshown
5、thatithashighprecisionandrecall,thuscanprovidesuficientinformationforthegovemmenttoenhancesupervisionofmedicinemarketontheWeb.Keywords:Webinformationextraction;multidimensionalsemanticdictionary;Webmedicineinformation;Structural-semanticentropy;XPath1引言息量庞大,传统的人工监测手段无法跟上互联网药品随着近年来电子商务
6、产业的迅速发展,互联网药信息的快速增长,准确自动的智能监测手段就成为了品市场也在日益增长。然而,随之而来的隐患也在不非常迫切的需求。如何由机器自动获取网页并且识别断加剧:由于许多未经国家药监局批准的网站擅自在出其中可能包含的药品信息无疑是自动监测之中最首线销售药品,更有甚者利用互联网的隐蔽性进行假药要的一个问题,而事实上这正是一个Web信息提取的的销售,就连具备互联网药品信息发布或交易资质的典型问题。网站发布的信息也常常不够准确规范,导致整个互联w_eb信息提取技术目前已经受到广泛关注,它的网药品信息市场鱼龙混杂,普通消费者很难辨别药品目标是将Web页中的非结构化
7、或半结构化的数据信息信息的真伪,用药安全受到严重的危害。转换为结构化的信息重新存储,便于进行查询和利用。对于这样严峻的现状,政府相关部门急需加强对但在实际应用中这种技术尚很不成熟,手工构建基于互联网药品市场的监管力度,但是由于互联网上的信网页标签表达式的正则模板是最常用的提取手段。但①收稿时间:2011-03,10;收到修改稿时间:2011-04.1850研究开发ResearchandDevelopment2011年第2O卷第11期http://www.c—S—a.org.cn计算机系统应用是这种方法有很大的局限性,无法自动适应各个目标多个可能的包装器产中进行选择
8、,或是为提
此文档下载收益归作者所有