基于LDA主题模型的TFIDF算法改进及应用.pdf

基于LDA主题模型的TFIDF算法改进及应用.pdf

ID:50397687

大小:6.02 MB

页数:61页

时间:2020-03-05

基于LDA主题模型的TFIDF算法改进及应用.pdf_第1页
基于LDA主题模型的TFIDF算法改进及应用.pdf_第2页
基于LDA主题模型的TFIDF算法改进及应用.pdf_第3页
基于LDA主题模型的TFIDF算法改进及应用.pdf_第4页
基于LDA主题模型的TFIDF算法改进及应用.pdf_第5页
资源描述:

《基于LDA主题模型的TFIDF算法改进及应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’'..'.j.t'-'"(.^.^;拍^;亩—.:,;若;方.n:v;钓n:部j,%與;以苗v...(‘.了-'.‘.才想為..‘勢J综聲:.誓嘴V.U苗乎叫若‘、、./;-心’人、.--.:和為一.V.V乂V'..户錫'去.、''.;.’^兴读、%/>^YV护.礎氏.'.”.工租硕女‘‘j:.暫人备.户-^、异鸣^n..iV句_u.'‘单化论文^;站化识W讯.;;>矣的為娘祐.I、'''^'^‘?*-'‘:.^■vS/乂.:;*^.'->

2、’'’:;.、":、:\-.;l.令媒,v.错V.漫卷知.-?■?己,..'?■i‘**.,一..^基y^于LDA主题模型的TFIDF算法/';j',..争改进及应用,磯7^孤.,撫多爽.萬.-、?一■‘一".:-少-与'、会^争户这少V、%V:V?:.:-’.'.‘>.v.一:,聲秦巧iV,>n冷嗦察.n苗,\.片跋Yv\/呼V.■.'■.'.户-‘':.护-./.^'.一.'.-:X\:KV<:;今於

3、,^若h餐.?‘.';‘、’’打;'參方心矣!侣鞠V榮7鸿槪户片1:/难'-巧.‘?^??''..!-<r'.r.一f,我卷、:/fi'户)产心皆'靖’.'..‘-?、,,.V;V霉致.i.^霄,V;'恥f’’;巧’巧‘乂-丐.V.、;:、.%蘇辕品:沒乂,VrV1—.,、'^、.、-;身’、作長,乃V带7H.^4?苗拓N商扬f%扣;..、’‘.MA父女去,巧vSh娩巧;’、‘-..v,.聲,V:?,.备拱敏鶴,><v%'以—.、^’户ft;,:-

4、^\-巧亩,.這.以雜n違rvc;异與皆乂,普牺请、,、?/、弓:节:與,知V苗誤备,癸..f’.、矣;/的;%jV等‘'''/丐靴斯-.次%fer.,衣,擬荀私達難:矜:.鄭、一打、令心奠声节护帯扣養年苗少獲语/則咸靜J..-’立-.今'-与r;;费今、.VA句气若輝、辦..,.?....〇'五年+冷'.:見.A.^i讀.,/知悼―每谋.Vj蜂V祭巧苗^八^一^靖钟驾旋帝苗I、'八电賢非游吝省助心矜辦/V苗方帘iV^麥辕f巧?‘'’".八..黨.谋;為^.叫:

5、.聲媒.璋筹接、^荷私藥挺节;分类号密级_UDC工程硕±学位论文基于LD乂主题模型的TFIDF算法改进及应用高扬学科专业软件工程一丹指导教师苏(教授)--论文答辩日期201511-11学位授予日期201512-30答辩委员会主席陈友初教授级高级工程师广西大学学位论文原創性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研巧成果。除己特别加W标注和致谢的地方外,论文不包含任何其他个人或集体已经发表或撰写的研巧

6、成果,也不包含本人或他人为获得广西大学或其它单位的学位而使用过的材料一。与我同工作的同事对本论文的研究工作所做的贡献均已在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属广西大学。本人授权广西大学拥有学位论文的部分使用权,目P:学校有权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅,可将学位论文的全部或部分内容编入有关数据库进行检索和传播,可采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于;□保密

7、,在年解密后适用授权。胡%密。""(请在上相应方框内打V)论文作者签名:^场日期:心指导教师签名日期鹏.作者联系电话:基于LDA主题模型的TFIDF算法改进及应用摘要话题发现中常用的VSM向量空间模型将语言学的文本内容转化为数学上的空间向量坐标,进而把抽象的文本间相似性问题转换为空间向量坐标间的距离问题,直观且易于理解,但存在的问题是:语义缺失,即忽视了文本中包含的语义信息。本文考虑改进VSM模型中权值算法TFIDF,通过引入LDA主题模型的主题概念来增

8、加特征词权重的主旨语义信息,W期达到对文本的空间向量坐标增加语义信息(因为坐标值即是权重值)。算法的改进策略分为两种:首先,通过构建LDA模型,得出概率分布函数0和巧值,计算出语义影响-ITFIDF-力S,提出SI算街其次,主题词的概率分布9值中,判定最大的前的9值对应的特征词属于该主题,用yU十算主题分布频率TDF即:^JV-TDF算法语义分布,提出了TFIDF。实验采用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。