机器学习在搜索排序中的应用

机器学习在搜索排序中的应用

ID:19852828

大小:3.18 MB

页数:32页

时间:2018-10-07

机器学习在搜索排序中的应用_第1页
机器学习在搜索排序中的应用_第2页
机器学习在搜索排序中的应用_第3页
机器学习在搜索排序中的应用_第4页
机器学习在搜索排序中的应用_第5页
资源描述:

《机器学习在搜索排序中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器学习在搜索排序中的应用一淘及搜索事业部-搜索技术仁重agenda背景LTR方法评估并行化与多目标LTR在淘宝搜索应用的背景第一部分背景背景用户输入Query引擎召回商品商品计算featureRank项目背景-特征相关性购买转化率(GDBT)点击转化率(LR)二跳率(LR)反作弊商业业务逻辑预估模型规则个性化(LR、GDBT)图片质量(SVM)f(X)=w1*x1+w2*x2+w3*x3+w4*x4+w5*x5+w6*x6+…=通过线性模型来组合非线性的特征计算效率高可解释性好背景问题如何确定各个特征的权重W能否不同的类目给出不同的权重W如何为

2、新加入的特征设置权重W如何在不同的系统中快速的迁移特征之前用ABTest,现在使用LTRLearningToRank,使用机器学习的方法来进行排序优化。LTR应用的方法第三部分方法转化为pairwise问题把整体的排序问题转换为商品对好坏问题两个商品哪个更好CtrCvr价格VS优化目标与样本样本选择人工标注(工作量巨大)商品Ctr商品转化率详情页浏览时间论文中使用的样本选择样本选择单次pv点击位置Click>SkipAboveLastClick>SkipAboveClick>EarlierClickLastClick>SkipPreviousCl

3、ick>No-ClickNextfA>fB>fC>fD>fEfA=w*xAfB=w*xBfC=w*xCfD=w*xDfE=w*xE整体统计ctr样本选择ACtr:1CCtr:0.1BCtr:0.5DCtr:0.1ECtr:0.6A>E>B>C=DA>EA>BA>CA>DE>BE>CE>DB>CB>D相同Query统计商品ctr来生成pairctr差值需要有一定置信度没有位置信息相同queryctr单次PV样本选择B整体Ctr:0.5A整体Ctr:1C整体Ctr:0.1D整体Ctr:0.1E整体Ctr:0.6A>EA>BA>CA>DE>BE>CE>

4、DB>CB>D计算特征值需要还原到单次PV下具体的用户以及当前环境通过规则过滤掉其中的噪音购买>点击>无行为B产生了购买行为,D产生了点击行为优化目标与样本避免样本选取的偏差Pvlog特征分布(人气,卖家,文本)100亿数据训练样本分布(人气,卖家,文本)千万训练样本样本特征分析特征分布不好的特征进行改进对分布不合理的特征样本进行按比例抽样样本特征分析特征与目标值的关系相关性差相关性好无点击样本选择保持权重的一定程度稳定性无点击数据在现有排序下对Topquery没有点击的数据,前30与后30形成pair,随机抽取按不同比例混合无点击与Ctr样本约

5、50%的无点击样本无点击样本训练后的权重反映线上使用权重w模型优化调整无点击与有点击比例调整抽样策略对特征值进行改进分类目的模型Query类目预测结果的行业区分训练数据手机类目的价格权重高于其他类目RankSVM模型(一)RankSVM训练数据…RankSVM模型(二)A:1qid:xfA1fA2fA3fA4…B:0qid:xfB1fB2fB3fB4…f(x)=w1*(fA1-fB1)+w2*(fA2-fB2)+w3*(fA3-fB3)+…x1=fA1-fB1,x2=…√(产生loss)RankSVM模型Loss:(无约束)Loss:St:对于一

6、个query只有1个pair的情况:RankSVM模型givenw0fork=0,1…If,stop.SetupISolve0,obtainLetFindRankSVM模型对于一个query有多个pair的情况:A:1qid:xfA1fA2fA3fA4…B:0qid:xfB1fB2fB3fB4…C:1qid:xfC1fC2fC3fC4…Loss:A=[0…010…0-10…0]labels不可导使用TRON方法求解模型评估与效果评估第三部分【评估】模型评估baseline按线上参数计算pair准确率按模型参数计算pair准确率Abtest验证收益

7、评估模拟rank逻辑对Pvlog进行重排Rank对每个商品进行打分,重排计算CNDCG收益,全局计算目标收益交易的商品相关性为2(价格)点击的商品相关性为1DCG[i]=DCG[i-1]+G[i]/CNDCG收益与线上收益的比例通过abtest获得找出CNDCG差异的case模型迭代Pvlog按线上参数排序按训练好的模型进行排序CNDCGCNDCGNDCG收益样本混合比例调整模型训练样本选择策略调整NDCG差异query分析抽样策略调整并行化与多目标第四部分模型优化并行化(一)需要解决的问题内存问题训练时间过长两种基于MPI的方法行列分割的并行S

8、VM行分割的并行CoordinateAscent算法,用于求解NDCG为目标值的样本并行化(二)行列分割的并行的SVM算法行分割+列分割

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。