基于lucene框架的latex数学公式检索研究

基于lucene框架的latex数学公式检索研究

ID:32966227

大小:1.23 MB

页数:53页

时间:2019-02-18

基于lucene框架的latex数学公式检索研究_第1页
基于lucene框架的latex数学公式检索研究_第2页
基于lucene框架的latex数学公式检索研究_第3页
基于lucene框架的latex数学公式检索研究_第4页
基于lucene框架的latex数学公式检索研究_第5页
资源描述:

《基于lucene框架的latex数学公式检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:学校代码:10075分类号:学号:20091563管理学硕士学位论文基于Lucene框架的Latex数学公式检索研究学位申请人:闫慧丽指导教师:田学东教授杨秀丹教授学位类别:管理学硕士学科专业:情报学授予单位:河北大学答辩日期:二〇一二年六月ClassifiedIndex:CODE:10075U.D.C:NO:20091563ADissertationfortheDegreeofM.ManagementStudyonLatexMathematicalFormulaRetrievalBasedonLuceneFrameworkCandidate:YanHuiliS

2、upervisor:Prof.TianXuedongYangXiudanAcademicDegreeApplied:MasterofManagementSpecialty:IntelligenceUniversity:HebeiUniversityDateofOralExamination:June,2012摘要摘要数学公式是一种特殊的符号表达方式,是一种非线性结构的符号描述,在一些科技文档中,它能使文章展现出更加清晰的逻辑关系。如何像普通文本一样,实现对数学公式的检索,是目前信息检索领域的课题之一。本文采用Lucene框架,研究基于Latex公式语言的数学公式检索系

3、统。首先,选择Latex作为数学公式的描述语言,通过对Latex语言进行详细解析,构建针对数学公式的分析器,该分析器分别按照公式中的普通字符集、公式中的特殊字符集进行构建,公式中的特殊字符集中又细分为函数、运算符、公式同义符号等。根据传统的分词算法,实现针对数学公式的拆分算法和对Latex数学公式的解析;其次,基于Lucene框架构建Latex数学公式的预处理模块、索引模块以及搜索模块,其中预处理模块的主要功能是进行公式格式转换,使之成为Lucene可处理的文本文件类型;索引模块根据以运算为主线的按层次分类的索引方法创建索引;搜索模块采用Lucene中的模糊查询,提高

4、了检索系统的查全率。基于Lucene框架的Latex数学公式检索系统取得了较好的实验效果。关键词数学公式检索数学公式全文检索LatexLucene检索系统IAbstractAbstractThemathematicalformulaisaspecialkindwayofsymbolicexpression,andisakindofnonlinearstructuresymboldescription.Insomescienceandtechnologydocuments,itcanmakethearticlesshowmoreclearlogicrelationshi

5、ps.Howtoputretrievingthemathematicalformulasintopracticeasthecommontextisoneofthetopicsinthefieldofinformationretrievalcurrently.ThispaperstudiestheretrievalmethodsformathematicalformulasbasedontheLatex,byusingtheLuceneframework.Firstly,choiceLatexasthemathematicalformuladescriptionlang

6、uage.AfteranalyzingtheLatexlanguageindetails,structureananalyzerforthemathematicalformulas.Accordingtothecommoncharactersetandthespecialcharactersetintheformulas,theanalyzerisstructuredseparately.Thespecialcharactersetincludesfunctions,operators,formulasynonymoussymbolsandsoon.According

7、totheconventionalwordssegmentationalgorithm,realizethesplittingofmathematicalformulasandanalyzetheLatexmathematicalformulacompletely.Then,basedonLuceneframework,makeupthreemodulesforLatexmathematicalformula,whicharepretreatmentmodule,indexmoduleandsearchmodule.Intheory,thepretr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。