最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx

最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx

ID:62984951

大小:393.27 KB

页数:6页

时间:2021-07-23

最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx_第1页
最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx_第2页
最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx_第3页
最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx_第4页
最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx_第5页
资源描述:

《最新Kaggle大神经验分享丨如何用15个月冲到排行榜的首位.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、精品资料Kaggle大神经验分享丨如何用15个月冲到排行榜的首位........................................精品资料作者KaggleTeam中文翻译MikaCDA数据分析师原创作品,转载需授权 在最新的Kaggle用户排行榜上,排名第一位的ID是Bestfitting,他本人叫ShubinDai。他在两年前加入Kaggle,目前生活在中国湖南省长沙。他是一名数据科学家、工程师,目前领导一家为银行提供软件解决方案的公司。在工作之余,除了Kaggle,Dai还是一名狂热的山地

2、车手,喜欢户外运动。最近ShubinDai接受了Kaggle团队的专访,分享了他在参加Kaggle竞赛时的心得与体会。 Q1:可以介绍以下自己和相关背景吗?我的专业是计算机科学,在软件开发方面有超过10年的经验。工作方面,目前我负责领导一个团队,专门为银行提供数据处理和分析的方案。自大学以来,我对利用数学知识构建程序,从而来解决问题十分感兴趣。我一直在阅读计算机科学方面的书籍和论文,并且很高兴目睹了过去十年中机器学习和深度学习方面的进展。 Q2:你是如何开始参加Kaggle比赛的?正如之前所说的,我一直在

3、阅读大量机器学习和深度学习方面的书籍和论文,但发现很难将我学到的算法应用于小型数据集。Kaggle是一个很棒的平台,当中有各种有趣的数据集、算法和精彩的探讨。我迫不及待想进行尝试,我第一个参加的比赛是“预测红帽商业价值”(PredictingRedHatBusinessValue)。 Q3:在参加新的比赛时,你首先会做什么?在比赛开始的第一个星期,我会创建一个解决方案文档,在比赛进行中,我会不断对文档进行更新。为此,首先我需要把握手上的数据和比赛,然后研究类似的Kaggle比赛和相关论文。 Q4:在比赛时,

4、你会做哪些步骤呢?1.仔细阅读比赛的概述和数据的描述;2.查找类似的Kaggle比赛。作为刚加入Kaggle社区不久的新手,我对所有的Kaggle比赛进行了搜索和分析;3.阅读类似比赛的解决方案;........................................精品资料4.阅读相关论文,确保我跟进该领域的最新进展;5.分析数据,并构建可靠的交叉验证;6.进行数据预处理、特征工程、模型训练;7.进行结果分析,包括预测分布、错误分析、困难样本等;8.根据分析,精心设计模型或设计新模型;9.基于数据

5、分析和结果分析,通过设计模型增加多样性,或解决困难样本;10.模型集成;11.必要时返回前面某个步骤。 Q5:你最喜欢的机器学习算法是什么?我会逐个选择算法,但在进行集成时我更喜欢用简单的算法,如岭回归(ridgeregression)。在深度学习的比赛中,在开始我总是喜欢使用resnet-50或设计类似的结构。 Q6:你最喜欢的机器学习库是什么?在计算机视觉比赛中,我非常喜欢用pytorch。在自然语言处理或时间序列比赛中,我喜欢用用tensorflow或keras。在进行分析时,我会使用seaborn,

6、以及scipy库。很多情况下scikit-learn和XGB都是不错的选择。 Q7:你会如何进行超参数调整呢?我根据对数据和算法的理论理解来调整参数,如果我无法解释结果变好或变坏的原因,我不会轻易使用。在深度学习比赛中,我经常会搜索相关论文,查找在类似情况下其他人会怎么做。而且,我会比较参数更改前后的结果,例如预测分布、受影响的样本等。 Q8:你是如何确定交叉验证方法和最终的提交模型?有了好的交叉验证方法就成功了一半。在找到好的方法来评估模型前,我不会进入下一步。为了构建可靠的交叉验证方法,你必须很好地理解

7、数据和所面临的挑战。我还会检查,并确保验证集与训练集和测试集有类似的分布,我会确保我的模型本地交叉验证和公共排行榜上都有不错的改进。在时间序列比赛中,我会留出数据作为验证集。通常,我会以一种保守方式来选择最终的提交模型。我会选择对可靠模型进行加权平均后的集成模型,并确定出其中相对冒险的模型。在我看来,更多的参数意味着更多的风险。但我不会选择我无法解释的模型,即使它的公共排行榜得分很高。 Q9:简而言之,怎样才能赢得比赛?良好的交叉验证方法。从其他比赛中学习,阅读相关论文,还需要自律和心里承受力。 Q10:你

8、最喜欢哪类Kaggle比赛?为什么?我最喜欢自然保护和医疗相关的比赛。我觉得我有必要为改善我们的生活和保护地球做些什么。........................................精品资料 Q11:机器学习中,你对哪个子领域最感兴趣?我对深度学习的各种进步都很感兴趣。我想利用深度学习解决除计算机视觉和自然语言处理之外的问题,因此在我参加的比赛和日常工作中,我会使用到深度学习。 Q12:对你而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。