张磊-腾讯个性化推荐平台简介

张磊-腾讯个性化推荐平台简介

ID:37333054

大小:6.46 MB

页数:29页

时间:2019-05-21

张磊-腾讯个性化推荐平台简介_第1页
张磊-腾讯个性化推荐平台简介_第2页
张磊-腾讯个性化推荐平台简介_第3页
张磊-腾讯个性化推荐平台简介_第4页
张磊-腾讯个性化推荐平台简介_第5页
资源描述:

《张磊-腾讯个性化推荐平台简介》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、腾讯个性化精准推荐TEG/数据平台部/实时计算中心regzhang(张磊)5/17/16目录推荐业务介绍精准推荐架构的演进推荐引擎设计与实现总结与未来展望推荐业务介绍推荐业务介绍我们所做的预测未来预测每个人的未来实时预测每个人的未来核心技术挑战:如何在100ms的时间内,面对8亿活跃用户中的任意一人,预测其在未来下一秒内,最可能点击10,000个广告主提供的250,000个广告中的哪一个?难点:1、从1万个广告主、25万个广告中挑出最合适的一个。最合适?2、8亿活跃用户,每个人的结果都是个性化的。为什么?3、100ms内完成,移动端50m

2、s4、效果广告-广点通每天即执行120亿次实时预测请求仅为了这120亿次预测:1、每天仅实时点击预估算法预测的广告数即超过12000亿个2、每天实时接入2PB 、50000亿条数据3、每天流式计算的事件数超过36000亿次4、每天实时数据存储层访问超过5000亿次精准推荐第一代架构广告投放系统核心特征:离线文件传输批量暴力计算实时查询引擎文件传输实时匹配查询存在的问题:数据时延高分布式计算平台人群聚类粗算法模型+用户画像扩展性差精准推荐第二代架构广告投放系统特征:实时数据传输在线实时计算流式计算推荐引擎S4TREV1实时接入HIN

3、A优点:分布式cache秒级延迟HOLD低耦合分布式计算平台易扩展算法模型+用户画像精准推荐第三代架构业务侧广告投放系统TDProcessTREV2流式计算实时推荐TDBank实时TDEngine采集实时存储引擎Spark 实时建模平台Mariana 深度学习平台TDW用户画像设备属性自然属性手机品牌、年龄、性别、用户群体app偏好...学历等QQ月活8.5EQQ智能终端月活6.42E微信和WeChat月活6.97E内容兴趣用户社会属性QQ空间活跃6.4E腾讯网、视职业、人生QQ空间智能终端月活5.73E频、音乐、画像状态等公众号.

4、.用户画像用户基础属性社交属性行为兴趣属性广告兴趣广告点击...QQ,Qzone,微信...TDBank实时接入消息文件DB其他TDBank核心需求业务数据源业务管理系统海量数据接入Agent(binlog解析/打包/压缩…)秒级接入延时低成本、高效率、元数据管理强安全方便数据管理和使数据接入中心Bus(协议解析/解压/滤重…)用业务配置主要难点TRC数据总量巨大Tube/Hippo(消息订阅/推数据存储中心数据源种类繁多送…)权限管理……数据格式各异数据分布IDC众多运营操作数据分拣中心Sort(协议转换/分拣…)特色功能

5、配置驱动多种数据源适配平衡读写数据存储层支持多种序列化协议MySQLTDWHDFSHBase……Hippo支持事务TDProcess流式处理预测用户A最可能点击广告,如何准备好预测相关数据?•对每个广告,实时计算“用户*广告*时间”多个不同维度组合的指标用户项目上下文反馈特征滑动时间窗广告位地理位点击1分钟千万级特征向量基础属性千亿级向量空间广告置曝光1小时行为属性广告类目时间浏览1天兴趣标签所属行业天气转发7天关系链素材特征节假日点赞1个月交叉维度的动态…反馈特征…………广点通120亿请求对应的每1条曝光日志,平均计算50多种交叉特征仅

6、广点通业务每天实时计算量超过6000亿次整个集群的计算量超过36000亿次秒级滑动时间窗,每一秒的数据都在变化TDProcess流式处理核心需求基于消息的流式处理分布式(方便线性扩展,应对数据的爆炸式增长计算)实时(数据消费计算延时毫秒级)难点挑战高度容错(分布式系统,宕机是常态)任务间资源隔离(多任务并发不相互影响)基于资源消耗自动扩容/缩容业界无成熟方案特色功能服务级功能抽象统一的资源管理多种编程接口TDEngine存储引擎Keeper核心需求路由管理状态管理MSDataNode11AC高并发,低延迟下发路由2BA

7、DataNode23CD高可用性,数据安全4BD…扩容管理.........1024......DataNodeN关注成本,关注资源利用率Read线性扩展CClliieennttbucket1心跳状态上报DataNodeADataNodeBDataNodeCDataNodeDWritebucket1数据块数据块数据块数据块Bucket1Bucket 2Bucket1Bucket 4Bucket 2数据复制Bucket 4Bucket 3Bucket 3数据迁移数据迁移特色功能分布式集群管理支持多副本数据备份,确保数据安全主备机同时提供服务,

8、提升集群资源利用率集群高可用,容灾切换过程中仍然提供读写服务全内存设计,多引擎支持每天支撑

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。