阶段总结

阶段总结

ID:68470095

大小:27.00 KB

页数:14页

时间:2021-11-11

阶段总结_第1页
阶段总结_第2页
阶段总结_第3页
阶段总结_第4页
阶段总结_第5页
阶段总结_第6页
阶段总结_第7页
阶段总结_第8页
阶段总结_第9页
阶段总结_第10页
资源描述:

《阶段总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、阶段总结张东旭协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究协助晓曦训练语言模型目的:协助完成一些语言模型的训练,帮助我基本了解训练流程。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究新词爬取与解析目的:对词表进行定期更新方法:1、爬取搜狗细胞词库的“网络新词”2、细胞词库解析成文本。3、将新词

2、输入百度得到返回值,作为新词的权重尚未解决的问题:1、这些新词只是作为候选词,并不能直接加入词表。需要在语料中计算词频、并结合百度返回结果,根据综合打分进行筛选。2、新词的实时性较强,如何删除词表中的新词也是一个问题。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究v2.0词典目的:改善1.0版本词典,使其更符合当前应用方法:1、选用百度知道、百度hi、移动、四川移动、新浪微博语料进行预处理、分别统计词频。2、综合五个语料的大小和五个语言模型的插值系数得到权重,对

3、词频进行加权求和。按照词频由高到低排序,取前20万作为候选词集合。3、爬取候选词集的百度返回值,按照返回值选取前15万个词作为最终的词。4、将返回值与词频信息加权求得最终每个词的权重。加权系数利用SGD拟合到v1.0的系数。5、英文词典根据词频简单排序得到,并最终人工过滤得到5000个词。v2.0词典不足:1、腾讯分词工具的粒度存在一定的问题。导致最终词典中地名人名不足。2、权重的计算方法仍然存在不合理性。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究知识向量(

4、KnowledgeVector)研究目的:通过LSTM-RNN提高语言模型性能方法:1、词典按照词频分类,去低频词。2、使用rwthlm工具训练语言模型3、使用n-best方法进行测试。效果与尚未解决的问题:最终的WER较RNN有一定差距,并没有得到提高。1、工具不够成熟。2、仍需详细比较RNNlm和rwthlm的不同。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量(KnowledgeVector)研究知识向量(KnowledgeVector)研究目的:找到一种将知识向量化的方法方法:1、使用wik

5、ipedia的词条作为知识的载体2、利用wiki词条的结构层次,构建图结构3、利用图结构、词条所在页面的文本信息、连接信息,训练出词条的向量表示。测试方法:对一些实体对的相关程度进行多人打分得到测试集。通过词条的向量计算距离,最终根据与打分序列的相关度评价系统性能。改进方向:Wiki的层次结构错综复杂,随着树规模的增大,会导致性能的下降。目标函数可能过于依赖树结构,存在一定的不合理性。希望大家批评指正!谢谢

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。