阶段总结

ID：68470095

大小：27.00 KB

页数：14页

时间：2021-11-11

资源描述：

《阶段总结》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、阶段总结张东旭协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究协助晓曦训练语言模型目的：协助完成一些语言模型的训练，帮助我基本了解训练流程。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究新词爬取与解析目的：对词表进行定期更新方法：1、爬取搜狗细胞词库的“网络新词”2、细胞词库解析成文本。3、将新词

2、输入百度得到返回值，作为新词的权重尚未解决的问题：1、这些新词只是作为候选词，并不能直接加入词表。需要在语料中计算词频、并结合百度返回结果，根据综合打分进行筛选。2、新词的实时性较强，如何删除词表中的新词也是一个问题。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究v2.0词典目的：改善1.0版本词典，使其更符合当前应用方法：1、选用百度知道、百度hi、移动、四川移动、新浪微博语料进行预处理、分别统计词频。2、综合五个语料的大小和五个语言模型的插值系数得到权重，对

3、词频进行加权求和。按照词频由高到低排序，取前20万作为候选词集合。3、爬取候选词集的百度返回值，按照返回值选取前15万个词作为最终的词。4、将返回值与词频信息加权求得最终每个词的权重。加权系数利用SGD拟合到v1.0的系数。5、英文词典根据词频简单排序得到，并最终人工过滤得到5000个词。v2.0词典不足：1、腾讯分词工具的粒度存在一定的问题。导致最终词典中地名人名不足。2、权重的计算方法仍然存在不合理性。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究知识向量（

4、KnowledgeVector）研究目的：通过LSTM-RNN提高语言模型性能方法：1、词典按照词频分类，去低频词。2、使用rwthlm工具训练语言模型3、使用n-best方法进行测试。效果与尚未解决的问题：最终的WER较RNN有一定差距，并没有得到提高。1、工具不够成熟。2、仍需详细比较RNNlm和rwthlm的不同。协助晓曦训练语言模型新词爬取与解析v2.0词典LSTM-RNN知识向量（KnowledgeVector）研究知识向量（KnowledgeVector）研究目的：找到一种将知识向量化的方法方法：1、使用wik

5、ipedia的词条作为知识的载体2、利用wiki词条的结构层次，构建图结构3、利用图结构、词条所在页面的文本信息、连接信息，训练出词条的向量表示。测试方法：对一些实体对的相关程度进行多人打分得到测试集。通过词条的向量计算距离，最终根据与打分序列的相关度评价系统性能。改进方向：Wiki的层次结构错综复杂，随着树规模的增大，会导致性能的下降。目标函数可能过于依赖树结构，存在一定的不合理性。希望大家批评指正！谢谢

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 6 7 8 9 10 / 14



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

阶段总结

阶段总结

相关文章

相关标签