<small id='Y4tQAHN'></small> <noframes id='stbJLR'>

  • <tfoot id='QiEtmzr'></tfoot>

      <legend id='eDCxdUZ84'><style id='sULMkorc6Z'><dir id='rw7iF'><q id='tHYvE3b'></q></dir></style></legend>
      <i id='WKPVgxM'><tr id='3gdbp'><dt id='af56q'><q id='7EKHkM'><span id='XZN30D'><b id='hipo'><form id='SGsNzJqkYm'><ins id='TPrAa'></ins><ul id='BqRXMtgzwC'></ul><sub id='E36kr5Nx'></sub></form><legend id='SkY6'></legend><bdo id='y8QNC5gFqh'><pre id='ycTZk79Wno'><center id='XkTNfhE9'></center></pre></bdo></b><th id='UbZs'></th></span></q></dt></tr></i><div id='N3fHV9'><tfoot id='nTE29A'></tfoot><dl id='5E4Yo0K9C'><fieldset id='56pfKuNC8'></fieldset></dl></div>

          <bdo id='0zgR7o'></bdo><ul id='BDyNM'></ul>

          1. <li id='f9qyWG'></li>
            登陆

            Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略

            admin 2019-06-15 411人围观 ,发现0个评论

            原文:Lavanya Shukla

            铜灵 编译收拾

            天天跟数据打交道的研究人员,都有一个成为Kaggle尖端大师(Grandmaster)的愿望。

            但每年的Kaggle参赛团队很多,一般一个项目都有数千人至上万人报名,怎么在其间锋芒毕露?

            最近,自动化数据预备及协作渠道Dataland的联合创始人Lavanya Shukla,在博客上共享了她在Kaggle竞赛中终究成为0.3%的获奖经历。

            小姐姐在推特中表明,这份攻略里全都是干货,网友纷繁为其点赞。有网友表明,这份攻略十分棒,才知道脊回归如此强Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略壮!

            Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略

            *先放上原文地址:*

            *https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition*

            量子位将小姐姐的干货要害翻译收拾如下,长文干货预警,主张先码后看:

            开端一场数据科学竞赛是一项巨大的作业,所以我写了这篇在Kaggle经典房价猜测标题(Advanced Regression Techniques)中取得TOP 0.3%成果的竞赛经历。

            欢迎咱们fork这份干货,也欢迎在实际问题中亲身实践这些代码。

            祝你好运!

            方针

            模型练习过程中的要害特性

            从下图能够看出,混合模型的RMSLE(均方根对数差错)为0.075,远优于其他模型。

            这是我用来做终究猜测的模型:

            现在咱们现已知道了一些信息,能够开端着手了:

            EDA

            方针

            咱们的方针是依据这些特征猜测销价格格。

            销价格格:咱们计划猜测的变量

            特征处理

            咱们先将数据会集特征进行可视化:

            并制作出这些特征之间的联系,以及它们与销价格格的联系。

            让制作销价格格与数据会集的一些特性之间的联系。

            特征工程

            来看一下房子价格的散布状况。

            能够看出,销价格格在右边歪斜,这是由于大多数MKaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略L模型不能很好地处理非正态散布数据。

            咱们能够使用log(1+x)变换来批改歪斜。

            再画一次销价格格的散布:

            加添缺失值

            这样一来,这不就没有缺失值了……

            处理歪斜特征

            咱们用scipy函数boxc云南白药粉ox1p来核算Box-Cox转化。咱们的方针是找到一个简略的转化方法使数据规范化。

            发明风趣的特征

            ML模型很难辨认更杂乱的形式,所以咱们能够根据对数据集的直觉创立一些特征来协助咱们的模型,比方,每个房子地板总面积、澡堂和门廊面积。

            特征转化

            可视化咱们要练习模型的一些特性。

            设置穿插验证并界说过错衡量

            设置模型

            取得每个模型的穿插验证分数。

            从上图中咱们能够看出,混合模型的RMSLE为0.075,远远优于其他模型。这是我用来做终究猜测的模型。

            提交猜测值

            传送门

            https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition

            小姐姐的博客:

            https://lavanya.ai/

            声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP