2 min read

学习建议

## Warning: 程辑包'DiagrammeR'是用R版本3.6.3 来建造的
dot a RStudio 使用技巧 b ggplot2 使用技巧 a->b c tidyverse 数据处理 使用技巧 b->c d 模型包 使用技巧 c->d d0 caret 树的模型 d->d0 d1 决策树 d0->d1 d2 Bagging d0->d2 d3 Random Forest d0->d3 d4 BGM d0->d4 d5 XGBoost d3->d5 d4->d5 d6 Kaggle实战 d5->d6 d7 stacking d6->d7 doing ... e EDA by Python f 矩阵计算 Numpy e->f g DataFrames计算 Pandas f->g h 数据库接入 sqlalchemy g->h i 画图 seaborn h->i j 理解各个分布 numpy i->j k 理解假设检验 numpy j->k m unsupervised learning sklearn k->m n deep learning 神经网络 sklearn k->n o supervised learning sklearn k->o l list comprehension iter() l->h p xgboost sklearn o->p p->d6

学习量要适中

学习的心得是,学习笔记写到600行的时候,对一个topic就开始烦躁了,大家练习的时候也要控量,慢慢来。

代码不够熟悉

有时候想直接复盘一些微信文章的idea和代码,但是积累不够,做起来很麻烦,一个小的idea,代码和参数的查询就要1个小时,真不开心。 因此最好的还是慢慢来,先标准化的课程过一遍,这样比较快。

特征工程和数据探索

要理解data exploring的技能,这样才能活得更好。 要搞好啊,不然每次做数据要花那么长的时间。 没有一个固定方法,或者都是炒冷饭。

迷茫中

可以谈谈现在使用R和Python的感受。

R方面。 EDA的范畴上,skimrggplot2dplyr已经足够了,其他的tidyverse包已经涵盖了。因此只要熟悉这几个包,基本上EDA没有什么大的问题。 输出和可视化方面,还需要对knitr包有一定了解。 模型的话,就具体问题具体分析了,xgboost包很好,各平台兼容很好。

Python方面。安装一直是个问题,对ananconda、原生、PyCharm,没有很仔细的区分,也没有很理解。EDA也只停留在,pandas的范畴,用的少,也记不住,希望今年能够拿下。 Python的模型包,对集成方案的理解非常好,因此模型只是熟练程度的问题。

对模型的优化,我大致都了解了,下一步要开始学习stacking了。 对了,还有就是要follow大神的blog,始终在学习上。

我本身不是CS专业,工作后,已经没有时间和精力去了解底层逻辑和推导算法了,这非常遗憾,虽然我知道Econ的底子是可以办到的。 但是总的来说,9月份开始学习,12月份开始陆续写笔记,一路下来,保持学习的状态总是好的,至少预期上是的。