<small id='LdUj0Dw'></small> <noframes id='HZQYRk'>

  • <tfoot id='MPambRz'></tfoot>

      <legend id='1klivrjOV'><style id='uW3s0LSvzG'><dir id='iySx'><q id='4UJ52FmB'></q></dir></style></legend>
      <i id='OzM4U'><tr id='CMTLqXlojQ'><dt id='OnbX9k'><q id='SHy8NbJ'><span id='bfvqu'><b id='8nNu'><form id='FQ2Y'><ins id='Aa4NWbcC'></ins><ul id='WqlTYZFwG'></ul><sub id='tg5BPDX'></sub></form><legend id='haOHNp395'></legend><bdo id='W0DcJ7MCL'><pre id='67EzdaTJ'><center id='RvPqymTnj4'></center></pre></bdo></b><th id='Gp36'></th></span></q></dt></tr></i><div id='0xps'><tfoot id='nuePiw3'></tfoot><dl id='9kCK6'><fieldset id='hjC30J46'></fieldset></dl></div>

          <bdo id='c5Jhw'></bdo><ul id='RG1iNmg'></ul>

          1. <li id='xbEXuJ9coP'></li>
            登陆

            Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略

            admin 2019-06-15 561人围观 ,发现0个评论

            原文:Lavanya Shukla

            铜灵 编译收拾

            天天跟数据打交道的研究人员,都有一个成为Kaggle尖端大师(Grandmaster)的愿望。

            但每年的Kaggle参赛团队很多,一般一个项目都有数千人至上万人报名,怎么在其间锋芒毕露?

            最近,自动化数据预备及协作渠道Dataland的联合创始人Lavanya Shukla,在博客上共享了她在Kaggle竞赛中终究成为0.3%的获奖经历。

            小姐姐在推特中表明,这份攻略里全都是干货,网友纷繁为其点赞。有网友表明,这份攻略十分棒,才知道脊回归如此强Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略壮!

            Kaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略

            *先放上原文地址:*

            *https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition*

            量子位将小姐姐的干货要害翻译收拾如下,长文干货预警,主张先码后看:

            开端一场数据科学竞赛是一项巨大的作业,所以我写了这篇在Kaggle经典房价猜测标题(Advanced Regression Techniques)中取得TOP 0.3%成果的竞赛经历。

            欢迎咱们fork这份干货,也欢迎在实际问题中亲身实践这些代码。

            祝你好运!

            方针

            模型练习过程中的要害特性

            从下图能够看出,混合模型的RMSLE(均方根对数差错)为0.075,远优于其他模型。

            这是我用来做终究猜测的模型:

            现在咱们现已知道了一些信息,能够开端着手了:

            EDA

            方针

            咱们的方针是依据这些特征猜测销价格格。

            销价格格:咱们计划猜测的变量

            特征处理

            咱们先将数据会集特征进行可视化:

            并制作出这些特征之间的联系,以及它们与销价格格的联系。

            让制作销价格格与数据会集的一些特性之间的联系。

            特征工程

            来看一下房子价格的散布状况。

            能够看出,销价格格在右边歪斜,这是由于大多数MKaggle大牛小姐姐自述:我是怎样成为比赛中Top 0.3%的 | 干货攻略L模型不能很好地处理非正态散布数据。

            咱们能够使用log(1+x)变换来批改歪斜。

            再画一次销价格格的散布:

            加添缺失值

            这样一来,这不就没有缺失值了……

            处理歪斜特征

            咱们用scipy函数boxc云南白药粉ox1p来核算Box-Cox转化。咱们的方针是找到一个简略的转化方法使数据规范化。

            发明风趣的特征

            ML模型很难辨认更杂乱的形式,所以咱们能够根据对数据集的直觉创立一些特征来协助咱们的模型,比方,每个房子地板总面积、澡堂和门廊面积。

            特征转化

            可视化咱们要练习模型的一些特性。

            设置穿插验证并界说过错衡量

            设置模型

            取得每个模型的穿插验证分数。

            从上图中咱们能够看出,混合模型的RMSLE为0.075,远远优于其他模型。这是我用来做终究猜测的模型。

            提交猜测值

            传送门

            https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competition

            小姐姐的博客:

            https://lavanya.ai/

            声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP