弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf

弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf

ID:52456604

大小:99.03 KB

页数:7页

时间:2020-03-27

弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf_第1页
弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf_第2页
弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf_第3页
弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf_第4页
弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf_第5页
资源描述:

《弱指导的统计隐含语义标引分析及其在跨语言信息检索.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、弱指导的统计隐含语义分析*及其在跨语言信息检索中的应用金千里赵军徐波中国科学院自动化所模式识别国家重点实验室北京中关村东路95号,北京2728信箱,100080{qljin,jzhao,bxu}@nlpr.ia.ac.cn摘要:本文提出了一种语义聚类和扩展的新方法,称为有指导的统计隐含语义标引(SPLSI)算法。该算法能基于双语语料,通过机器学习来自动进行语义聚类,生成词间相似度矩阵。和以前的算法相比,SPLSI算法不仅在聚类意义上更加明确、聚类的过程更容易控制,而且降低了时间和空间复杂度。基于SPLSI算法,实现了跨语

2、言信息检索领域的三个系统:多语言文本分类,跨语言文本检索,跨语言关键词扩展。实验结果显示,在准确率、召回率、平均运算时间等多个评价指标中,SPLSI均优于以前的各种算法。关键词:隐含语义标引跨语言信息检索多语言文本分类关键词扩展Weakly-SupervisedProbabilisticLatentSemanticAnalysisanditsApplicationsinMultilingualInformationRetrievalQianliJIN,JunZHAO,BoXUNationalLaboratoryofPat

3、ternRecognitionInstituteofAutomation,ChineseAcademyofScience95ZhongGuanChunDongRd.,Beijing,China,100080{qljin,jzhao,bxu}@nlpr.ia.ac.cnAbstract:Thispaperproposesanewmethodformeaningclusteringcalled’SupervisedProbabilisticLatentSemanticIndexing’(SPLSI).Basedonbilin

4、gualcorpora,thealgorithmcanproducewords-similarity-matrixthroughmachinelearning.TheadvantageofSPLSIisthatitismorereasonableandcontrollableinmeaningclustering,buthaslesstimecomplexity.Andbasedonthismethod,weproducethreeapplicationsystemsinthefieldofcross-lingualin

5、formationretrieval(CLIR).Theyare‘multilingualtextcategorization,’multilingualtextretrieval’and‘keywordsexpansion’.ExperimentsindicatethatSPLSIoutperformstheexistingmethods,andhasgoodeffectivenessinmanyapplicationsofCLIR.KeyWords:latentsemanticindexing(LSI),cross-

6、lingualinformationretrieval(CLIR),multilingualtextcategorization*本文受国家973项目子课题(G1998030501A-06)和国家自然科学基金项目(60272041)资助。1引言1.1跨语言信息检索的背景随着互联网的普及,网上信息资源也越来越丰富。由此给信息检索(IR)带来两个问题,一是如何在Internet这样一个开放式的数据库中准确的找到相关信息,二是如何克服语言障碍(LanguageBarrier)问题,即实现跨语言的信息检索(CLIR)。双语之间的

7、跨语言信息检索,代表性的研究有:美国Massachusetts大学的LisaBallesteros和W.BruceCroft的英语和西班牙语之间的交叉语言信息检索研究,采用的是双语词典结合译词选择排歧的方法;复旦大学吴立德和黄萱菁的英汉交叉语言信息检索研究;微软亚洲研究院高建峰等的英汉交叉语言信息检索研究;以及中国科学院软件研究所的英汉交叉语言信息检索研究;这些研究工作主要都是基于双语词典和译词选择的方法,不能很好的解决语言障碍问题。美国Duke大学的MichaelL.Littman将单语言信息检索中的隐含语义标引(LS

8、I)扩展到双语信息检索中,形成CL-LSI,试验取得令人满意的结果;但是由于LSI自身的物理意义不够明确,所以较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的硬件条件下很难实际应用。1999年,Hofmann提出了统计隐含语义标引(PLSI)的概念,在理论和算法上都有所突破;目前还极少有这一技术在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。