海量非结构化信息智能化处理共54页文档课件.pptx

海量非结构化信息智能化处理共54页文档课件.pptx

ID:57253422

大小:5.71 MB

页数:54页

时间:2020-08-03

海量非结构化信息智能化处理共54页文档课件.pptx_第1页
海量非结构化信息智能化处理共54页文档课件.pptx_第2页
海量非结构化信息智能化处理共54页文档课件.pptx_第3页
海量非结构化信息智能化处理共54页文档课件.pptx_第4页
海量非结构化信息智能化处理共54页文档课件.pptx_第5页
资源描述:

《海量非结构化信息智能化处理共54页文档课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、海量非结构化信息智能化处理施水才北京拓尔思信息技术股份有限公司总裁2019年1月6日北京中国非结构化数据管理高峰论坛(CUDMS2019)提要大数据管理的新挑战海量非结构化信息智能化处理的关键技术和典型应用中国非结构化信息处理软件的市场概况TRS非结构化数据管理和智能化处理系统TRS海量非结构化信息智能化处理成功案例一、大数据管理的新挑战一、大数据管理的新挑战从互联网服务到企业信息化从各取所需到集成和融合统一建模从管理数据到理解和分析内容大数据管理的新挑战-从互联网服务到企业信息化互联网服务企业计算新一代企业计算推动了数据分析及非结构化信息管

2、理的技术突破Hadoop架构提供了巨大的可扩展性和灵活性优势朝云服务方向发展,但是并不适合很多企业计算环境对非结构化信息本身的理解非常有限成本可维护性对业务的支持内/外一体化封闭的数据库世界有限的非结构化数据管理能力缺乏低成本可扩展性在企业级计算中部署大数据管理技术是一种趋势,但仍需时日,一体机和通用平台之争大数据管理的新挑战-从各取所需到集成和融合统一建模目前解决结构化数据和非结构化数据统一处理的方法的机制并不完善,缺乏形式化支持文件系统SQLNoSQLX?SQL的传统主导地位互联网企业的反SQL文化未来的企业级平台是否能统一?IBM,Or

3、acle,Microsoft都在致力解决这个问题大数据管理的新挑战-从管理数据到理解和分析内容虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义目前海量数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等目前所有大数据管理的解决方案没有解决语义计算的基本问题:理解内容二、海量非结构化信息智能化处理的关键技术和典型应用海量

4、非结构化信息智能化处理关键技术分类和聚类信息抽取基于语义的检索关联关系挖掘情感计算可视化展现跨媒体融合多媒体内容理解个性化推荐语义智能计算短语级的语义计算相似短语、相关短语的计算实体、要素间的关联关系挖掘实体的情感分析词语级的聚类分析。例:标签聚类短语级的比对分析等。例:姓名、出生日期、学历、地址、单位名称等篇章级的语义计算同语种、跨语种的相似文本计算(例:文章转载报道、文章消重等)文本自动分类、文本的聚类分析句子、篇章级的情感分析篇章级变异信息的识别与比对(例如:篡改)自动分类关键点统计与规则相结合的混合分类引擎分类体系的科学化基于中文新闻

5、信息分类体系的分类模板构造支持多语言混合分类难点针对差异化对象数据,模板参数的合理化设置分类模板的反馈学习机制提供较实用的分类可信度评价指标,供应用参考关键词标引与自动摘要技术关键点基于位置、频度和背景词库等多维度的标引和摘要引擎行业词典支持词性、短语类型、长度、特殊符号标识基于关键句的权值运算与筛选的摘要策略关键词驱动的偏重摘要难点基于语义的隐含标引命名实体识别关键点实体识别算法+工程应用行业知识库支撑基于行业应用场景的实体识别机制(公文、案件、物品等)难点绰号、网名、小名、笔名、艺名、指标名称……同名排歧人物多重社会角色分析实体关系的抽取

6、关键点语境、上下文关系分析关系引擎构建面向行业的主题词典角色关系词典与RDBMS结合的联动挖掘难点类属关系识别(粮食:大豆)隐含关系发现(股东关系)关系链深度、广度挖掘基于图论的可视化关联展示信息抽取实例人物关系挖掘实例自动过滤与自动消重关键点垃圾广告信息的识别(群发)转载文章相似度比对技术不同阈值的相似文章聚合变异信息的识别与比对(篡改)难点千万级数据消重的亚秒级响应机制违规非法内容的判定与识别跨语言的新闻信息转载识别话题检测与追踪技术关键点海量信息片段的聚合机制话题相关度运算难点基于遗忘因子机制的话题演化跟踪敏感话题的及时发现情感分析关键

7、点主观情感色彩语句、要素识别倾向性语义模型库的构建语义倾向性词典的倾向强度划分情感持有者、情感极性与情感对象的关联判定难点复句的句法逻辑与情感词汇的潜在情感极性判断(并列复句、转折复句、条件复句、递进复句等)语气、语境与情感词汇融合的情感分析(否定句、感叹句、疑问句)多媒体标注和检索图像检索音频识别、分类和检索视频摘要、字母提取跨媒体检索20大规模挖掘的技术趋势分布式大规模挖掘,解决性能问题动态样本学习,不断优化语义规则和统计模型,确保精度的稳定和持续提高海量非结构化信息智能化处理典型应用企业搜索知识管理搜索引擎内容管理舆情分析社交网络电子商

8、务三、中国非结构化中文信息智能应用软件市场概况研究范围中文信息智能应用是指用计算机对中文信息进行智能分类、存储、搜索、发布、监测等处理和应用。非结构化中文信息智能应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。