"学习资源：🎓 学习建议

{r setup, include=FALSE} knitr::opts_chunk$set(eval = FALSE) ```{r echo=FALSE} library(DiagrammeR) grViz( digraph dot {

graph [layout = dot]

node [shape = egg, style = filled, color = dodgerblue, fontsize = 12, fontname = Helvetica, fontcolor = white, # label = ‘’] a [label = ‘RStudio\n使用技巧’] b [label = ‘ggplot2\n使用技巧’] c [label = ’tidyverse\n数据处理\n使用技巧’] d [label = ‘模型包\n使用技巧’] d0 [label = ‘caret\n树的模型’] d1 [label = ‘决策树’] d2 [label = ‘Bagging’] d3 [label = ‘Random Forest’] d4 [label = ‘BGM’] d5 [label = ‘XGBoost’] d6 [label = ‘Kaggle实战’] d7 [label = ‘stacking’]

node [shape = egg, style = filled, color = darkgreen, fontsize = 12, fontname = Helvetica, fontcolor = white, # label = ‘’]

e [label = ‘EDA by Python’] f [label = ‘矩阵计算\nNumpy’] g [label = ‘DataFrames计算\nPandas’] h [label = ‘数据库接入\nsqlalchemy’] i [label = ‘画图\nseaborn’] j [label = ‘理解各个分布\nnumpy’] k [label = ‘理解假设检验\nnumpy’] l [label = ’list comprehension\niter()’] m [label = ‘unsupervised learning\nsklearn’] n [label = ‘deep learning\n神经网络\nsklearn’] o [label = ‘supervised learning\nsklearn’] p [label = ‘xgboost\nsklearn’]

edge [ color = dodgerblue, fontsize = 9, fontname = Helvetica, fontcolor = dodgerblue, label = ‘’]

a -> b -> c -> d

edge [ color = darkgreen, fontsize = 9, fontname = Helvetica, fontcolor = dodgerblue, label = ‘’]

e -> f -> g -> h -> i -> j -> k l -> h k -> {m n o} o -> p d ->d0 d0 -> {d1 d2 d3 d4} {d3 d4} -> d5 {d5 p} -> d6

d6 -> d7 [label = ‘doing\n…’] }") ```

学习量要适中

学习的心得是，学习笔记写到600行的时候，对一个topic就开始烦躁了，大家练习的时候也要控量，慢慢来。

代码不够熟悉

有时候想直接复盘一些微信文章的idea和代码，但是积累不够，做起来很麻烦，一个小的idea，代码和参数的查询就要1个小时，真不开心。因此最好的还是慢慢来，先标准化的课程过一遍，这样比较快。

特征工程和数据探索

要理解data exploring的技能，这样才能活得更好。要搞好啊，不然每次做数据要花那么长的时间。没有一个固定方法，或者都是炒冷饭。

迷茫中

可以谈谈现在使用R和Python的感受。

R方面。 EDA的范畴上，skimr、ggplot2、dplyr已经足够了，其他的tidyverse包已经涵盖了。因此只要熟悉这几个包，基本上EDA没有什么大的问题。输出和可视化方面，还需要对knitr包有一定了解。模型的话，就具体问题具体分析了，xgboost包很好，各平台兼容很好。

Python方面。安装一直是个问题，对ananconda、原生、PyCharm，没有很仔细的区分，也没有很理解。EDA也只停留在，pandas的范畴，用的少，也记不住，希望今年能够拿下。 Python的模型包，对集成方案的理解非常好，因此模型只是熟练程度的问题。

对模型的优化，我大致都了解了，下一步要开始学习stacking了。对了，还有就是要follow大神的blog，始终在学习上。

我本身不是CS专业，工作后，已经没有时间和精力去了解底层逻辑和推导算法了，这非常遗憾，虽然我知道Econ的底子是可以办到的。但是总的来说，9月份开始学习，12月份开始陆续写笔记，一路下来，保持学习的状态总是好的，至少预期上是的。

"学习资源：🎓 学习建议

"学习资源系列导航

学习量要适中

代码不够熟悉

特征工程和数据探索

迷茫中

"学习资源系列导航

"学习资源：🎓 学习建议

"学习资源 系列导航

学习量要适中

代码不够熟悉

特征工程和数据探索

迷茫中

"学习资源 系列导航

"学习资源系列导航

"学习资源系列导航