社会化数据的混合存储和高效处理ppt课件.ppt

社会化数据的混合存储和高效处理ppt课件.ppt

ID:58719837

大小:2.72 MB

页数:21页

时间:2020-10-04

社会化数据的混合存储和高效处理ppt课件.ppt_第1页
社会化数据的混合存储和高效处理ppt课件.ppt_第2页
社会化数据的混合存储和高效处理ppt课件.ppt_第3页
社会化数据的混合存储和高效处理ppt课件.ppt_第4页
社会化数据的混合存储和高效处理ppt课件.ppt_第5页
资源描述:

《社会化数据的混合存储和高效处理ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、社会化数据的混合存储和高效处理1社会化数据特点目录2社会关系网络的存储架构3混合存储体系的落地实践数据到底“大”在了哪儿?何为“社会化”数据?1互联网社会数据新闻媒体数据社交网络数据消费行为数据物联网数据。。。2现实社会数据实名制轨迹类数据公共安全类基础数据基础建设监控数据。。。“社会化数据”“社会化媒体数据”为何“社会化”数据?公安情报分析反恐企业内审金融反洗钱反偷税漏税风险控制企业面临的数据难题如何做数据关联分析?如何透过多层次、多维度的数据分析实现对于某一个人、某一件事或某一种社会状态的现实态势的聚焦,在时间序列上离散的、

2、貌似各不相关的数据集合中,找到一种或多种与人的活动、事件的发展以及社会的运作有机联系的连续性数据的分析逻辑。从业务视角看数据数据离散,价值低,挖掘和变现能力难度大真正的大数据分析,全面系统包括挖掘,分析,关联等数据质量清洗过程中会将不符合规则的数据进行删除、修改,虽然符合了目标数据库,然而这种操作的正确性却很难保证。工作量大,性能差数据抽取、数据修改、数据入库、数据统计分析等过程独立到不同的工具,当增量数据量大时,数据延迟会非常严重。数据特征与局限变更困难某个数据集,某个属性发生变化时,接入-治理-表结构-服务程序-业务一系列功

3、能都需要修改。SCHEMA?非结构化数据传统数据整理,通常无法有效处理文本型或日志型数据,造成大量有价值数据的流失。1社会化数据特点目录2社会化关系网络的存储架构3混合存储体系的落地实践数据应用的过程运营商注册信息运营商话单车辆购买信息车辆违章处理信息卡口信息重点人员库人员户籍库旅馆住宿飞机出行网吧上网火车出行弹性数据模型手机行为记录人车计算层关联分析空间时间事件属性索引统计应用层整合计算展示发现关联检索数据模型–对象–“本体”Ontology:某一领域内的研究对象及其之间的联系计算机领域数据库、知识工程生物学门、纲、目、科、属

4、、种公安人、事、地、物、组织弄清数据的本质:概念—关联—应用—表示发现“对象”的联系Z13车厢号相同发到站相同邻座乘坐关联同行人员D人员A人员B人员J人员G通话关系弹性的社会化关系网络人员E人员K同乘关系夫妻关系通话关系人员I人员H人员C人员F如何把整个网络存下来?BigTable统一视图DBFileAPIWebsite分布式图全文索引文档库Server1社会化数据特点目录2社会化关系网络的存储架构3混合存储体系的落地实践StorageLayerHDFSHBaseElasticSearchHiveGraphProcessingS

5、erviceLayerTitanGraphDatabaseAd-hocQueryRestfulAPI混合存储体系ApplicationLayerBatchCompGraphOpOnlineComp认识Titan趟过的坑(1)1边爆炸问题••••Titan使用邻接表存储点边边经过编码后存储和查找代价仍然很大同类边合并原始信息使用其他存储2SuperNode问题••Titan对SuperNode有优化,但效果不好SuperNode标记趟过的坑(2)3多点查询效率•••TinkerPopTitanMultiVertexQuery接口根

6、据场景特定优化4索引性能和灵活度••优化相应组件复杂索引统一管理趟过的坑(3)5导入数据性能•••••并行导入=多进程+多线程划分子图,并行处理打开batch-loading,解决一致性问题优化参数,提高效率调优底层存储,如避免hotspotting等整体写数据性能批量数据插入效率(单位个数/秒)128G内存测试集群环境:5台IntelXeonE52620(24Core)多线程插入使用24线程OnYarn申请10个Container,每个10G内存实时查询性能几个典型的实时查询与计算场景测试数据120M实体,300M关系,100

7、线程并发,循环10次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。