基于用户行为的数据分析与挖掘

基于用户行为的数据分析与挖掘

ID:5370459

大小:1.88 MB

页数:40页

时间:2017-12-08

基于用户行为的数据分析与挖掘_第1页
基于用户行为的数据分析与挖掘_第2页
基于用户行为的数据分析与挖掘_第3页
基于用户行为的数据分析与挖掘_第4页
基于用户行为的数据分析与挖掘_第5页
资源描述:

《基于用户行为的数据分析与挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、房如华2011.09.10SACC2011SACC2011关于我房如华,酷讯旅游网BI部门联系方式@房如华bluetentbluetent@gmail.comSACC2011SACC20112北京酷讯科技有限公司酷讯旅游网的BI团队老公司的新部门两个使命:产品运营工作的“推进器”让网站变得更“聪明”SACC2011SACC20113北京酷讯科技有限公司小调查有多少公司在使用自行开发的统计系统?有多少公司已经开展了数据挖掘算法方面的实践?SACC2011SACC20114北京酷讯科技有限公司用户行为分析是道哲学题:“你是谁?”“你从哪里来?”

2、“你要到哪里去?”SACC2011SACC20115北京酷讯科技有限公司“你是谁?”如何识别一个用户?按惯例,我们使用浏览器的cookie区分不同的用户推荐使用Guid算法进行生成用户的唯一ID如何识别一次访问?生成访问的唯一ID,并使用cookie记录在cookie中记录会话的最后更新时间,超过N(如30)分钟则认为会话结束SACC2011SACC20116北京酷讯科技有限公司“你从哪里来?”(1)用户的流量来源有多种划分免费流量,付费流量不同的来路网站直接打开网址SEO/SEM社会化网站付费广告SACC2011SACC20117北京

3、酷讯科技有限公司“你从哪里来?”(2)为什么要关注流量来源?流量质量差异(以搜索引擎和自有流量为例进行对比)跳出率平均访问深度SACC2011SACC20118北京酷讯科技有限公司“你要到哪里去?”(1)网站的终极目标:促使用户形成转化效果电子商务支付订单社会化媒体一篇原创文章搜索引擎跳转至来源网站SACC2011SACC20119北京酷讯科技有限公司“你要到哪里去?”(2)在转化的过程中,用户会留下各种痕迹页面访问页面点击页面结构路径行为化数据SACC2011SACC201110北京酷讯科技有限公司现在我们回到主题基于用户行为的数据分析与挖掘的目标

4、根据用户的访问路径、页面点击、访问内容等信息,发现共性,找促使网站产生更好转化效果的方法。SACC2011SACC201111北京酷讯科技有限公司工作流程采集清洗统计分析挖掘SACC2011SACC201112北京酷讯科技有限公司数据采集(1)采集哪些数据?网页浏览行为(Pageview)转化效果用户在页面上的点击行为页面元数据SACC2011SACC201113北京酷讯科技有限公司数据采集(2)如何采集?(以酷讯旅游网为例)•javascript异步采集,get参数携带字段网页浏览行为值。页面元数据•将结构化数据树状存储。点击行为•向DOM节点挂载

5、onclick事件。转化效果•通过统计中间页强制重定向。SACC2011SACC201114北京酷讯科技有限公司数据采集(3)定义数据的格式以方便数据清洗和分析为第一要务根据数据规模、维护难度选择不同的方案选择数据的存储方式t分割的文本关系型数据库Hadoop选择合适的数据流向拉从上游系统向数据分析引擎单向推送数据保证数据分析引擎与上游系统是互相独立的SACC2011SACC201115北京酷讯科技有限公司数据采集(4)常见问题测量误差因统计代码异步加载导致某些请求未被统计到数据收集错误中文字段的乱码数据收集遗漏字符串太长

6、,超过了字段限制而被截断我们会在数据清洗环节进行解决!SACC2011SACC201116北京酷讯科技有限公司与上游数据商的关系很重要例:向数据表增加lastupdatetime字段CREATETABLE`logs`(...,`last_update_time`TIMESTAMPDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,...)field1field2...fieldnlastupdatetimefield1field2...fieldnlastupdatetimeaaa111xxx2011-01-01

7、12:34:56aaa111xxx2011-01-0112:34:56bbb222yyy2011-01-0112:34:57bbb222yyy2011-01-0112:34:57ccc333zzz2011-01-0112:34:58ccc333zzz2011-01-0112:34:58上游数据商的数据库商业智能数据库(蓝色为更新的数据)说服上游数据商调整数据结构,能够形成双赢。SACC2011SACC201117北京酷讯科技有限公司数据清洗(1)什么是数据清洗?ETL=Extract,Transform,Load(提取,转换,加载)为什么要数据清洗?脏

8、例:性别字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。