基于多维语义的互联网违规信息识别技术优化研究.pdf

基于多维语义的互联网违规信息识别技术优化研究.pdf

ID:51951467

大小:16.54 MB

页数:50页

时间:2020-03-20

基于多维语义的互联网违规信息识别技术优化研究.pdf_第1页
基于多维语义的互联网违规信息识别技术优化研究.pdf_第2页
基于多维语义的互联网违规信息识别技术优化研究.pdf_第3页
基于多维语义的互联网违规信息识别技术优化研究.pdf_第4页
基于多维语义的互联网违规信息识别技术优化研究.pdf_第5页
资源描述:

《基于多维语义的互联网违规信息识别技术优化研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、坫J多纟inr;义的互RM违规倍息识别技术优化研究H录目录II^1Abstract2第一章绪论41.1研究背景与意义41.2研究目的与内容51.3本文结构6第二章关键技术研宄现状综述72.1互联网违规信息识别研宄现状72.2关键技术分析72.2.1元搜索技术822.2网络爬虫技术82.2.3文本分类技术82.2.4图片处理技术92.3前期工作与局限9第三章互联网违规信息识别技术原理113.1违规信息识别软件设计113.1.1系统架构113.1.2软件结构123.2违规信息识别目标

2、与技术参数133.3违规信息识別关键技术133.3.1决策树训练133.3.2建立违规图片索引143.3.3网页抓取143.3.4违规信息识别15第四章关键技术研究与优化204.1目标网站发现和网页抓取技术204.1.1基于元搜索思想的目标网站发现技术204.1.2基于组合搜索的目标网站发现技术21多维语义的互联吶违规倍息识别技术优化研究H斌4.1.3网页抓取技术224.2文本违规信息识别技术224.2.1基于多维语义的互联网产品信息抽取与违规识别技术224.2.2基于文本分类的互联网违规

3、信息识别技术254.3图片违规信息识别技术284.3.1基于OCR的互联网违规信息识别技术284.3.2基于图片特征的互联网违规信息识别技术284.4多维语义分析29?4.4.1通用语义304.4.2结构语义304.4.3领域语义324.4.4应用语义33第五章实验与评价345.1实验目的345.2评价方法与指标345.3用例设计355.3.1基于多维语义的产品信息抽取实验用例355.3.2基于文本分类的违规信息识别实验用例355.3.3基于OCR的违规图片识别实验用例365.3.4基

4、于图片特征的违规图片识别实验用例365.4实验数据375.4.1基于多维语义的产品信息抽取实验数据375.4.2基于文本分类的违规信息识别实验数据385.4.3基于OCR的违规图片识别实验数据385.4.4基于图片特征的违规图片识别实验数据385.5实验结果与分析395.5.1基于多维语义的产品信息抽取实验结果与分析395.5.2基于文本分类的违规信息识别实验结果与分析395.5.3基于OCR的违规图片识别实验结果与分析405.5.4基于图片特征的违规图片识别实验结果与分析42II战于多维诘义的

5、互联M违规倌息识别技术优化研究H录第六章总结446.1446.2展望44第七章参考文献45&?47III基于多维语义的互联违规信息识别技术优化研宄摘迆摘要互联网市场具有非接触、隐蔽性强、无经营场所、宣传成本低、主体难以追踪等特点,给不法分子在互联网上宣传、销售假冒伪劣产品和违禁产品带来可乘之机,给合法经营的商家和消费者带来巨大损失。为此,国家药监局、商务部以及多个国家电子商务示范城市正在组织实施“电子商务可信交易公共服务与监管平台”,目的是建立互联网交易市场的主体与客体基础信息数据库,追踪互联网交易市场中

6、的违规信息,打击互联网交易市场中的违规行为。本文所研究的互联网违规信息识别技术是该项目的关键技术之一,目的在于追踪和识别互联网交易市场中的违规信息,提取违规证据,为相关政府部门提供决策支持。本文结合背景项目需求,调查了国内外网络搜索、文本分类、图片处理以及恶意网页分析等相关技术的研究现状,在作者所在实验室前期研宄工作基础上,对互联网违规信息识别的整体技术方案进行了研究,改进了基于文本分类的违规信息识别技术,增加了基于组合搜索的目标网站发现技术和基于OCR、图片特征的违规图片识别技术,提高了监测系统的实时性和违规识别的

7、准确率、召回率。互联网违规信息识别技术重点进行监测的违规信息包括如下几种类型:产品信息未备案或与备案信息不符、产品信息缺失、销售国家法律规定禁止销售的违禁物品、销售假冒伪劣产品、夸大宣传产品和诋毁贬低竞争对手产品。针对以上需求,该技术首先利用基子元搜索思想和组合搜索的目标网站自动发现技术找到目标网站,然后利用网络爬虫技术采集目标网站的网页文本和图片,最后采用基于决策树的违规信息识别算法、基于多维语义的产品信息抽取识别算法以及基于OCR、图片特征的违规信息识别算法分别对釆集到的网页文本和图片进行违规分析,发现违规内容后

8、进一步分析其违规类型、提取违规证据和计算违规严重程度,并把相关信息保存至数据库中。为了验证该方案的有效性,作者对方案中的关键技术进行了实验,其中基于多维语义的产品信息抽取技术对兽药和农药信息抽取的准确率分别达到75%和92%,召回率分别达到76%和75%,基于文本分类的违规信息识别技术的准确率和召回率达到87%和82%,基于OCR的违规图片识别

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。