《中文助手》说明书

《中文助手》说明书

ID:23821874

大小:201.50 KB

页数:9页

时间:2018-11-11

《中文助手》说明书_第1页
《中文助手》说明书_第2页
《中文助手》说明书_第3页
《中文助手》说明书_第4页
《中文助手》说明书_第5页
资源描述:

《《中文助手》说明书》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1文献自动标引解决方案21.1方案概述21.2模块组成21.2.1文献自动标引模块21.2.1.1文本分类21.2.1.2主题词标引31.2.1.3自动文摘41.3性能指标41.3.1准确率和速度41.3.2扩展性与通用性51.4效果演示52智能词语技术62.1方案概述62.2模块组成62.2.1新词语识别62.2.2词语分类聚类62.2.3智能分词系统72.3效果演示83行业知识门户83.1方案概述84联系方式991文献自动标引解决方案1.1方案概述基于自主研发的中文信息处理技术,以文本内容语义计算、文本内容自动标引为核心,“文献

2、自动标引解决方案”集成文本分类、主题词标引和自动文摘三个子模块,将文献内容以精练准确的形式,如类目、主题词、摘要自动标引出来。1.2模块组成1.2.1文献自动标引模块应用国际领先的文本挖掘、自然语言处理等核心技术,以自主研发的中文信息处理技术为基础,提供对海量数据进行智能自动分类、主题词自动标引、自动文摘等实用功能。以其为基础可方便地开发应用系统,快速地实现智能信息挖掘,有效地进行知识管理与检索。1.2.1.1文本分类“基于关键短语的立体文本分类模型”:A、立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关

3、键短语,提高特征项的完整独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),大类微平均提高了3.1%,小类微平均提高了15%。B、立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级分到四层子类。在横的方面,采用兼类多标签分类策略,智能判断文档是否兼类,兼哪几类。大类微平均和宏平均F1值比扁平模型分别提高了1.8和2.7个百分点。9C、扩展性强,用户可以根据自身需要,动态增删或调整分类体系。支

4、持自动训练,提供新分类体系和相对应的已分类文档之后能够实现新分类体系的文档的自动分类。交叉多层级立体分类,如,一篇微软新品软件发布的文档既可归为“科技_电脑_软件_操作系统”,也可归为“经济_产经_产业新闻”。可显示类别间相似度,以分析了解分类体系是否设计合理。分类方法支持领域知识、统计等多种方法。1.1.1.1主题词标引针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计

5、相结合的主题词自动标引系统。主要特点:◆ 支持叙词汉字标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。9◆ 支持文档多级标引。自动文摘1.1.1.1自动文摘文摘系统基于词语的主题度计算,自动抽取文献关键性句

6、子形成摘要(原文中约25%的文字,可自定义)。基本特点:◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。◆ 能够利用专业文档语料库进行训练。◆ 同时支持自动训练,无需提供新摘要文档语料库,即能实现新文档的自动摘要。◆ 摘要比例可由用户自定义。◆ 摘要可读性强,能覆盖原文献主题。1.2性能指标1.2.1准确率和速度A、文本分类:在4级、244个类目的分类体系,3万篇文献的开放测试中,准确率达94%;分类速度10万字/秒B、主题词标引:500篇文献的测试时间约为5秒,综合平均得分为8.08(共10分)。C、自动

7、文摘:1000篇文献的测试时间约为10秒,综合平均得分为7.76(共10分)。91.1.1扩展性与通用性完整的应用开发接口:提供.Net组件、COM组件、Java组件接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。支持多种编码:提供对 GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。扩展性强:底层词表和概念术语可以自由增加或删除,导入导出;可以根据自身需要,动态增删或调整分类体系;可以根据需要,自由设定主题词抽取个数,自由设定文摘抽取比例。1.2效果演示网络版在线演示地址:http:

8、//www.languagetech.cn/class_demo.aspx单机版详细说明参见《帮助文档》。图1:网络演示版(http://www.languagetech.cn/class_demo.aspx)91智能词语技术1.1方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。