中文文档复制检测系统的研究与实现

中文文档复制检测系统的研究与实现

ID:36434111

大小:5.72 MB

页数:61页

时间:2019-05-10

中文文档复制检测系统的研究与实现_第1页
中文文档复制检测系统的研究与实现_第2页
中文文档复制检测系统的研究与实现_第3页
中文文档复制检测系统的研究与实现_第4页
中文文档复制检测系统的研究与实现_第5页
资源描述:

《中文文档复制检测系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP311国际图书分类号:621.39西南交通大学研究生学位论文密级:公开年级三雯二二级姓名董里埴申请学位级别王程亟±专业让篡扭撞苤指导老师.赵塞主副熬援二零一四年五月ClassifiedIndex:TP311U.D.C:621.39SouthwestJiaotongUniversityMasterDegreeThesisRESEARCHANDIMPLEMENTATIONOFCHINESEDOCUMENTSCOPYDETECTIONSYSTEMGrade:201lCandidate:WeiboDongAcademicDegreeApplied

2、for:MasterSpeciality:ComputerTechnologySupervisor:Viceprof.HongyuZhao西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1.保密口,在年解密后适用本授权书;2.不保密醇使用本授权书。(请在以上方框内打“、/”)学位论文作者签名:誓形

3、俘指导老师签名:翻亏日期:弘7中.丘/6日期:y/r中、f-∥·西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:1、详细阐述了目前国内外研究的主要的文档复制检测系统的工作原理,总结比较了它们所用的技术路线,并分析了它们的优点和不足,在此基础上总结阐述了文本复制检测的两种基本技术,为后续的研究打下了基础。2、详细研究了文本复制检测中所用到的各种技术。讨论了文本处理所需的中文分词技术,重点研究了基于字符串匹配的分词方法;重点探讨了几种文本检测相似度算法的实现过程和技术路线,分析了各个算法的优点和不足,在比较算法的基础上研究阐

4、述了目前广为使用的基于向量空间模型的相似度算法,包括文本表示、文本特征提取、TF.IDF技术和相似度计算等,由此设计了系统的数据库筛选流程;详细研究了最长公共子序列算法的实现过程和适用特点,在此基础上提出了基于句子的文本匹配算法,并给出了相似度度量公式,由此设计了系统的详细检测流程。3、在综合技术研究的基础上,提出了一种中文文档复制检测系统的实现方案。根据系统的设计目标和设计思路,实现了一个基于B/S模式的中文文档复制检测实验系统。采用中文分词技术、基于向量空间模型的相似度算法和基于句子的文本匹配算法,实现了系统设计的各种功能。通过实验及分析系统的检测效果和

5、检测效率,说明了系统的不足。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:雀钐俘日期:如lV。上、11,西南交通大学硕士研究生学位论文第1页摘要随着信息技术和网络技术的快速发展和普及,网络信息资源的共享也越来越丰富,成为人们获取信息和互相交流的重要途径,给人们的生活和工作带来了极大的便利。但是,网络资源的便利也引发

6、了一系列的弊端,频繁发生的电子文档复制抄袭现象已经成为人们不得不面对和解决的问题,尤其是高校学生的各类文档复制抄袭现象更为严重。为了提高人们的学术道德,进行文档的检测显得越来越重要,进行文档检测技术和系统的研究也越来越有意义。针对文档复制抄袭问题,本文主要是研究实现一个中文文档复制检测系统。在总结分析现有检测技术和系统的基础上,首先重点研究了文本复制检测技术中的中文分词技术和文本检测相似度算法,探讨了各个算法的实现过程及其优缺点,在比较算法的基础上重点研究了基于向量空间模型的相似度算法,包括文本表示、文本特征提取、"IF.IDF技术和相似度计算等,并设计了系

7、统的数据库检测流程;其次重点研究了最长公共子序列算法,在此基础上提出了基于句子的文本匹配算法,设计了系统的详细检测流程。在综合技术研究的基础上,提出了一种中文文档复制检测系统的实现方案。本文以J2EE为平台技术,以Mysql数据库为底层数据支撑,采用B/S模式的思想研究实现了一个中文文档复制检测系统,旨在用于检测学生的电子作业等中文文档。系统采用两级检测思想,通过文本特征提取和相似度计算来从数据库中快速找出疑似文档,然后通过基于句子的文本匹配算法进行文本的详细检测,通过计算文本相似度的大小来判断文本是否合格。如果相似度小于阈值,系统判定合格并将文档信息注入数

8、据库,否则系统判定不合格并给出检测结果和抄袭依据。除

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。