1 min read

"技术：do函数和biglm包

2018/01/17

Hadley Wickman写的关于dplyr包的文章写的非常好。关于do函数解释得很清楚。

导入数据，这里需要一定体量的数据。

R语言dplyr简介 - CSDN博客

<!-- -->

y_year <- lahman_df() %>% 
  tbl("Batting") %>%
  group_by(yearID)
by_year %>% 
  do(mod = lm(R ~ AB, data = .))

如上，这里do会反馈一个list，因此可以使用mutate整合和挖掘。

并且biglm的结果非常节约内存，如下。

by_year %>% 
  do(mod = lm(R ~ AB, data = .)) %>%
  object.size() %>%
  print(unit = "MB")
#> 23.1 Mb

by_year %>% 
  do(mod = biglm::biglm(R ~ AB, data = .)) %>%
  object.size() %>%
  print(unit = "MB")
#> 0.8 Mb