基于用户行为的数据分析解析与挖掘.pdf

基于用户行为的数据分析解析与挖掘.pdf

ID:51943058

大小:1.88 MB

页数:40页

时间:2020-03-20

上传者:U-255609
基于用户行为的数据分析解析与挖掘.pdf_第1页
基于用户行为的数据分析解析与挖掘.pdf_第2页
基于用户行为的数据分析解析与挖掘.pdf_第3页
基于用户行为的数据分析解析与挖掘.pdf_第4页
基于用户行为的数据分析解析与挖掘.pdf_第5页
资源描述:

《基于用户行为的数据分析解析与挖掘.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

房如华2011.09.10SACC2011SACC2011 关于我房如华,酷讯旅游网BI部门联系方式@房如华bluetentbluetent@gmail.comSACC2011SACC20112北京酷讯科技有限公司 酷讯旅游网的BI团队老公司的新部门两个使命:产品运营工作的“推进器”让网站变得更“聪明”SACC2011SACC20113北京酷讯科技有限公司 小调查有多少公司在使用自行开发的统计系统?有多少公司已经开展了数据挖掘算法方面的实践?SACC2011SACC20114北京酷讯科技有限公司 用户行为分析是道哲学题:“你是谁?”“你从哪里来?”“你要到哪里去?”SACC2011SACC20115北京酷讯科技有限公司 “你是谁?”如何识别一个用户?按惯例,我们使用浏览器的cookie区分不同的用户推荐使用Guid算法进行生成用户的唯一ID如何识别一次访问?生成访问的唯一ID,并使用cookie记录在cookie中记录会话的最后更新时间,超过N(如30)分钟则认为会话结束SACC2011SACC20116北京酷讯科技有限公司 “你从哪里来?”(1)用户的流量来源有多种划分免费流量,付费流量不同的来路网站直接打开网址SEO/SEM社会化网站付费广告SACC2011SACC20117北京酷讯科技有限公司 “你从哪里来?”(2)为什么要关注流量来源?流量质量差异(以搜索引擎和自有流量为例进行对比)跳出率平均访问深度SACC2011SACC20118北京酷讯科技有限公司 “你要到哪里去?”(1)网站的终极目标:促使用户形成转化效果电子商务支付订单社会化媒体一篇原创文章搜索引擎跳转至来源网站SACC2011SACC20119北京酷讯科技有限公司 “你要到哪里去?”(2)在转化的过程中,用户会留下各种痕迹页面访问页面点击页面结构路径行为化数据SACC2011SACC201110北京酷讯科技有限公司 现在我们回到主题基于用户行为的数据分析与挖掘的目标根据用户的访问路径、页面点击、访问内容等信息,发现共性,找促使网站产生更好转化效果的方法。SACC2011SACC201111北京酷讯科技有限公司 工作流程采集清洗统计分析挖掘SACC2011SACC201112北京酷讯科技有限公司 数据采集(1)采集哪些数据?网页浏览行为(Pageview)转化效果用户在页面上的点击行为页面元数据SACC2011SACC201113北京酷讯科技有限公司 数据采集(2)如何采集?(以酷讯旅游网为例)•javascript异步采集,get参数携带字段网页浏览行为值。页面元数据•将结构化数据树状存储。点击行为•向DOM节点挂载onclick事件。转化效果•通过统计中间页强制重定向。SACC2011SACC201114北京酷讯科技有限公司 数据采集(3)定义数据的格式以方便数据清洗和分析为第一要务根据数据规模、维护难度选择不同的方案选择数据的存储方式t 分割的文本关系型数据库Hadoop选择合适的数据流向拉从上游系统向数据分析引擎单向推送数据保证数据分析引擎与上游系统是互相独立的SACC2011SACC201115北京酷讯科技有限公司 数据采集(4)常见问题测量误差因统计代码异步加载导致某些请求未被统计到数据收集错误中文字段的乱码数据收集遗漏字符串太长,超过了字段限制而被截断我们会在数据清洗环节进行解决!SACC2011SACC201116北京酷讯科技有限公司 与上游数据商的关系很重要例:向数据表增加lastupdatetime字段CREATETABLE`logs`(...,`last_update_time`TIMESTAMPDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,...)field1field2...fieldnlastupdatetimefield1field2...fieldnlastupdatetimeaaa111xxx2011-01-0112:34:56aaa111xxx2011-01-0112:34:56bbb222yyy2011-01-0112:34:57bbb222yyy2011-01-0112:34:57ccc333zzz2011-01-0112:34:58ccc333zzz2011-01-0112:34:58上游数据商的数据库商业智能数据库(蓝色为更新的数据)说服上游数据商调整数据结构,能够形成双赢。SACC2011SACC201117北京酷讯科技有限公司 数据清洗(1)什么是数据清洗?ETL=Extract,Transform,Load(提取,转换,加载)为什么要数据清洗?脏例:性别字段非男非女,IP字段包含字母复杂“北京海淀酒店”=“北京市海淀区酒店”?不完整字段太长被截断,导致内容失去意义高达75%的数据分析初始工作时间会花在这里。SACC2011SACC2011北京酷讯科技有限公司18 数据清洗(2)常见的数据清洗工作示例工作内容示例场景解决方案过滤网站记录用户一些行为数据,通常丢弃使用cookie进行记录,如果用户禁用了cookie或清除过cookie,就会造成统计到的数据不完整。消重同一个用户,在一段很短的时间内,设定阈值,超过阈值的记录进行丢多次点击同一个按钮或者刷新同一弃个页面,如果不进行处理,则将会影响对数据分析阶段的数据准确性,给数据分析带来错误的结果。格式化用户搜索关键词存在乱码或者过长尝试判断编码格式,并进行转换预处理日志中会记录用户访问的IP地址,通过内部的IP2City功能,将日志中但是没有记录用户所在地,这样无的IP地址处理成城市,并对城市建法通过数据分析确定用户的所属信立省>市>区的父子关系。便于从多息,不利于城市以后的推广信息的个角度进行数据分析。SACC2011SACC2011推送。北京酷讯科技有限公司19 数据统计(1)基于用户行为的数据,要统计哪些?(以酷讯旅游网为例)流量来源用户行为转化效果免费流量CPA(Leads)数量•直接访问及收入•SEO页面点击行为•社会化媒体•EDM展示广告收入付费流量访问路径•SEM•转化率•各种市场推广•跳出率电话预订量SACC2011SACC201120北京酷讯科技有限公司 数据统计(2)常用第三方流量统计系统为什么我们还要做自己的数据统计呢?各种个性化的需求例:无法支持任意维度的统计例:频道间的内部交叉流量无法识别SACC2011SACC201121北京酷讯科技有限公司 数据统计(3)酷讯旅游网内部统计系统(labrador)简介SACC2011SACC201122北京酷讯科技有限公司 数据统计(4)重要特性支持流量的实时查看,最慢为小时级支持频道间交叉流量的统计对数据安全的考虑浏览器安全证书:不可仿冒,不可抵赖详细的审计日志SACC2011SACC201123北京酷讯科技有限公司 数据分析例一:利用SQLServerAnalysisServices的OLAP(联机分析处理)解决方案,分析SEM投放的投入产出比工作流程建立事实表和维度表创建多维数据集进行ETL操作SACC2011SACC201124北京酷讯科技有限公司 事实表和维度表(1)SACC2011SACC201125北京酷讯科技有限公司 事实表和维度表(2)事实表VisitsLeads维度表ChannelPageType首次到达某频道的页面类型CurrentDate当前时间EntryDate此次访问所在Visits开始时间(该visits的第一次访问时间)GlobalPageType首次到达酷讯的页面类型LeadDomain跳往下游网站的主域名Keyword搜索关键词SACC2011SACC2011北京酷讯科技有限公司26 创建多维数据集的过程1.在数据库层新建事实表和维度表2.建立度量信息3.建立维度4.将度量值与维度相关联SACC2011SACC201127北京酷讯科技有限公司 ETL流程图清除上次执行时产生的临时文件E-抽取T-转换L-加载SACC2011SACC201128北京酷讯科技有限公司 处理结果SACC2011SACC201129北京酷讯科技有限公司 数据分析例二:分析不同城市用户邮件营销的开信、点击效果工作流程数据准备进行ETL操作SACC2011SACC201130北京酷讯科技有限公司 工作列表数据准备行政区划数据库IP至城市对应关系的数据库ETL抽取:将开信日志和点击日志导入数据库转换:将开信日志表和点击日志表中的IP转换成城市加载:将转换后的城市和对应的email插入email和城市对应关系表中SACC2011SACC201131北京酷讯科技有限公司 邮件营销的分析结果SACC2011SACC2011北京酷讯科技有限公司32 数据挖掘四种任务聚类分析预测建模关联分析异常检测SACC2011SACC201133北京酷讯科技有限公司 聚类分析(1)发现紧密相关的观测值组群,使得同组的相似性越大,不同组的差别越大,以达到较好的聚类效果根据聚类得到的不同观测值组,做出决策树,为业务部门提供决策支持SACC2011SACC201134北京酷讯科技有限公司 聚类分析(2)一个决策树的例子20%产生购物行为,人均利润20元老用户60%80%未产生购物行为,人均利润-1元发放电子代金券10%产生购物行为,人均利润30元新用户40%90%未产生购物行为,人均利润-2元结论:发放电子代金券的人均利润为60%*(20%*20+80%*(-1))+40%(10%*30+90%*(-2))=2.4元,值得一做。SACC2011SACC201135北京酷讯科技有限公司 预测建模以自变量函数的方式为目标建立模型分类:预测离散的目标变量例:在过去5年内,早上10点比下午4点的流量均高出20%,可以预测未来一段时间也是这个比例。回归:预测连续的目标变量一元线性回归多元线性回归非线性回归SACC2011SACC201136北京酷讯科技有限公司 关联分析用户在预定机票的同时预定了什么?SACC2011SACC201137北京酷讯科技有限公司 异常检测识别其特征显著不同于其他数据的观测值(异常点,离群点)40.00%1.广州当地举办了什么活动?35.00%2.广州有无新的特价产品上线?30.00%转北京化25.00%上海率20.00%广州15.00%10.00%8月1日8月2日8月3日8月4日SACC2011SACC201138北京酷讯科技有限公司 回顾需要明确用户行为的衡量指标体系用户行为统计不同来源的流量质量差异明显采集与清洗数据存储的格式要利于查询需要处理好与上游数据商的关系将足够的资源投入数据清洗工作分析与挖掘数据分析的两个例子:SEM投入产出比、邮件营销效果数据挖掘的四类工作SACC2011SACC201139北京酷讯科技有限公司 Q&ASACC2011SACC201140北京酷讯科技有限公司

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭