4 min read

"技术:高效操作指南

"技术 系列导航

1 "技术:Poisson分布、回归Python实现 2017-12-20
2 "技术:beta系数理解 2017-12-21
3 "技术:Python List剔除重复值 2017-12-21
4 "技术:t-SNE处理高维数据可视化 2017-12-21
5 "技术:用R语言进行文件系统管理 2017-12-21
6 "技术:fct_lump分箱使用方法 2017-12-22
7 "技术:F1分数为什么可以看不平衡样本的预测能力 2017-12-27
8 "技术:Fisher的一个矩阵预算 2017-12-27
9 "技术:case_when使用方法 2017-12-28
10 "技术:Python接口函数 2017-12-28
11 "技术:fct_relevel调整对照组,批量的方案 2017-12-30
12 "技术:python中变量批量处理集成方案 2017-12-30
13 "技术:Python接口函数-中台 2018-01-03
14 "技术:使用pbd包进行debug 2018-01-03
15 "技术:R实现随机分组 2018-01-04
16 "技术:jiebaR包做文本清洗 2018-01-05
17 "技术:r_WACC使用说明 2018-01-05
18 "技术:使用switchhost安装host 2018-01-05
19 "技术:Git的下载问题 2018-01-06
20 "技术:新闻爬虫 2018-01-07
21 "技术:Scalable Data Processing in R 2018-01-08
22 "技术:使用git创建一个自己的本地仓库 2018-01-11
23 "技术:dashboard构建,来自yihui的包 2018-01-12
24 "技术:最大似然估计再理解 2018-01-12
25 "技术:itchat包提取微信好友公开数据 2018-01-13
26 "技术:do函数和biglm包 2018-01-17
27 "技术:Imputer后X少了一列 2018-01-18
28 "技术:mac连接mysql,理论上win7也可以 2018-01-19
29 "技术:ggpubr提高作图效率 2018-01-20
30 "技术:t-SNE理论部分补充 2018-01-22
31 "技术:RMarkdown的使用技巧 2018-01-30
32 "技术:通过anova检验,理解R2、R_adj.2、F值 2018-01-31
33 "技术:ggridges 山峦图 学习笔记 2018-02-02
34 "技术:Tidyverse使用技巧 2018-02-02
35 "技术:XGBoost 学习笔记 2018-02-02
36 "技术:分布变离散,或者纠正skew 2018-02-02
37 "技术:rsq在R中自定义函数 2018-02-03
38 "技术:Jupyter实战 2018-02-13
39 "技术:美化与定制 2018-02-21
40 "技术:数据对比可视化指南 2018-02-22
41 "技术:功能体验 2018-02-26
42 "技术:高效数据处理 2018-02-27
43 "技术:模型优化技巧 2018-03-05
44 "技术:原理与应用 2018-03-06
45 "技术:模型与可视化 2018-03-08
46 "技术:美化与交互指南 2018-03-11
47 "技术:用法与优化技巧 2018-03-17
48 "技术:效率提升指南 2018-03-18
49 "技术:问题排查技巧 2018-03-18
50 "技术:高效操作指南 2018-03-19
51 "技术:方法与代码示例 2018-03-21
52 "技术:进阶技巧与优化 2018-03-21
53 "技术:实战示例 2018-03-22
54 "技术:效率与规范指南 2018-03-24
55 "技术:dplython包测评 2018-03-25
56 "技术:原理与实现 2018-04-02
57 "技术:原理与应用解析 2018-04-03
58 "技术:实战指南 2018-04-05
59 "技术:核心语法与函数整理 2018-04-05
60 "技术:复利计算与应用 2018-04-08
61 "技术:简单规则模型解析 2018-04-14
62 "技术:高效代码设计指南 2018-04-25
63 "技术:原理与应用学习笔记 2018-04-29
64 "技术:实战指南 2018-04-29
65 "技术:原理与应用 2018-05-01
66 "技术:表格格式化指南 2018-05-02
67 "技术:原理与应用介绍 2018-05-08
68 "技术:高效文本拼接 2018-05-11
69 "技术:方法与实践学习笔记 2018-05-12
70 "技术:方法与工具 2018-05-12
71 "技术:功能解析 2018-05-17
72 "技术:高效数据输入 2018-05-21
73 "技术:基础模型与方法 2018-05-22
74 "技术:功能与使用体验 2018-05-26
75 "技术:特征筛选学习笔记 2018-05-29
76 "技术:实战技巧 2018-05-30
77 "技术:建模思路解析 2018-06-03
78 "技术:策略与实战 2018-06-03
79 "技术:数据展示指南 2018-06-04
80 "技术:包与环境配置指南 2018-07-14
81 "技术:高效操作指南 2018-07-19
82 "技术:方法与案例解析 2018-07-24
83 "技术:统计建模学习笔记 2018-07-24
84 "技术:展示技巧与原则 2018-08-10
85 "技术:数据采集实战技巧 2018-08-21
86 "技术:指标设计学习笔记 2018-09-20
87 "技术:建模流程实战 2018-10-01
88 "技术:大规模数据探索 2018-10-20
89 "技术:文本提取与分析 2018-10-20
90 "技术:原理与R实现实战 2018-10-21
91 "技术:学习资源获取技巧 2018-10-23
92 "技术:深度学习模型实战 2018-10-24
93 "技术:实战指南 2018-10-30
94 "技术:分析与展示指南 2018-11-03
95 "技术:图片编辑与转换 2018-11-03
96 "技术:安装与使用基础学习笔记 2018-11-07
97 "技术:非结构化数据处理 2018-11-29
98 "技术:表格美化技巧 2018-12-13
99 "技术:分类数据可视化 2018-12-24
100 "技术:流程图绘制技巧 2018-12-24
101 "技术:自动化设置 2018-12-28
102 "技术:协作与版本控制 2018-12-29
103 "技术:pipeline设计 2018-12-30
104 "技术:Git历史记录清理 2018-12-31
105 "技术:AUC指标对比 2019-01-01
106 "技术:时间序列可视化 2019-01-01
107 "技术:变量命名工具指南 2019-01-02
108 "技术:网页自动化截图 2019-01-02
109 "技术:配置与优化 2019-01-03
110 "技术:原理与应用 2019-01-07
111 "技术:语法与核心概念 2019-01-14
112 "技术:R包徽章设计 2019-01-15
113 "技术:项目结构设计 2019-01-21
114 "技术:文本分类基础任务 2019-01-22
115 "技术:线性与非线性模型 2019-01-22
116 "技术:有效性验证 2019-01-27
117 "技术:评估与应用 2019-01-29
118 "技术:循环神经网络入门 2019-01-30
119 "技术:长短期记忆网络入门 2019-01-30
120 "技术:for循环示例 2019-02-03
121 "技术:基础到进阶 2019-02-06
122 "技术:查询与整合 2019-02-06
123 "技术:方法与案例 2019-02-14
124 "技术:R包高效开发指南 2019-02-20
125 "技术:解析与操作 2019-02-20
126 "技术:训练与预测 2019-02-25
127 "技术:原理与代码 2019-02-26
128 "技术:GitHub个人访问令牌(PAT)设置 2019-03-04
129 "技术:方法与工具 2019-03-07
130 "技术:文本特征提取示例 2019-03-08
131 "技术:基础任务示例 2019-03-18
132 "技术:条形图与表头设计 2019-03-20
133 "技术:连续与分类变量差异 2019-03-30
134 "技术:思路与方法 2019-04-08
135 "技术:方法与工具 2019-04-15
136 "技术:多格式读取 2019-04-16
137 "技术:方法与工具 2019-05-11
138 "技术:Git/GitHub/GitLab 2019-05-13
139 "技术:命令与操作 2019-05-19
140 "技术:协作与版本控制 2019-05-26
141 "技术:语法与实践 2019-06-28
142 "技术:功能与API 2019-07-13
143 "技术:安装与使用 2019-07-24
144 "技术:高效数据处理 2019-10-09
145 "技术:性能优化技巧 2019-10-12
146 "技术:配置与运维 2019-10-29
147 "技术:原理与经典模型 2019-12-25
148 "技术:构建到发布流程 2019-12-26
149 "技术:方法与案例 2019-12-27
150 "技术:命令与自动化 2019-12-30
151 "技术:Pandas数据处理实战指南 2020-01-19
152 "技术:特征工程之目标编码学习笔记 2020-01-20
153 "技术:文档编写与美化 2020-01-28
154 "技术:核心算法与应用 2020-01-29
155 "技术:流程图绘制技巧 2020-01-29
156 "技术:DataCamp课程笔记 2020-01-31
157 "技术:Python实用代码片段合集 2020-01-31
158 "技术:自动化构建流程 2020-02-02
159 "技术:自动化工作流配置 2020-02-04
160 "技术:高效查找代码与项目 2020-02-11
161 "技术:代码环境快速部署 2020-02-24
162 "技术:USD数据分析论文收录暨GitBook发布 2020-05-02
163 "技术:Causal Forest 2021-03-18

{r setup, include=FALSE} knitr::opts_chunk$set(eval = FALSE) 本文于r format(Sys.Date(), "%Y-%m-%d")更新。 如发现问题或者有建议,欢迎提交 Issue

Matt Dowle | DataCamp 这个人之牛逼,可以和Hadley Wickhams肩并肩。他是data.table包的作者,语法非常类sql,非常支持sql使用者。 data.table包是十大最流行的的包,超过ggplot2

{r message=FALSE, warning=FALSE, include=FALSE} knitr::opts_chunk$set(message = FALSE, warning = FALSE, error = TRUE) library(data.table)

intro

我感觉DT分为DT[where, select, group by]三种结构,是非常类似sql的语言。 而且data.table建表自带recycling的功能,非常方便,本身也是一种data.frame。

recycling

You can also give columns with different lengths when creating a data.table, and R will “recycle” the shorter column to match the length of the longer one by re-using the first items. In the example below, column x is recycled to match the length of column y:

{r} data.table(x = c("A", "B"), y = 1:4)

{r} my_first_data_table <- data.table(x = c("a","b","c","d","e"), y = c(1,2,3,4,5))

{r} DT <- data.table(a = c(1L,2L),b = LETTERS[1:4]) DT[3,] DT[2:3,]

where

```{r} # DT and the data.table package are pre-loaded

Print the second to last row of DT using .N

DT[2:.N] # .N 相当于最后一行的意思

Print the column names of DT

names(DT)

Print the number or rows and columns of DT

dim(DT)

Print a new data.table containing rows 2, 2, and 3 of DT

DT[c(2,2,3)]

## select

```
typeof(DT[,.(b)])

{r} D <- 5 DT[, .(D)] # DT[, D] DT[,b] # vector DT[,.("b")] # data.table by only one chr. DT[,.(b)] # data.table DT[,"b"] # data.table "b" = .(b)

.()相当于select函数,其中的数字可以相当于真的就是select 5。 然而,, D]相当于select No.5 col

```{r} # DT and the data.table package are pre-loaded DT <- data.table( A = 1:5, B = letters[1:5], C = 6:10 )

Subset rows 1 and 3, and columns B and C

DT[c(1,3), .(B,C)]

Assign to ans the correct value

ans <- DT[,.(B, val = A*C)]

Fill in the blanks such that ans2 equals target

target <- data.table(B = c(“a”, “b”, “c”, “d”, “e”, “a”, “b”, “c”, “d”, “e”), val = as.integer(c(6:10, 1:5))) ans2 <- DT[, .(B, val = c(C,A))]

我觉得
`val = c(C,A)`这步操作太强了。

## group by 

```
# iris is already available in your workspace

# Convert iris to a data.table: DT
DT <- as.data.table(iris)

# For each Species, print the mean Sepal.Length
DT[, mean(Sepal.Length), by = Species]

# Print mean Sepal.Length, grouping by first letter of Species
DT[, mean(Sepal.Length), by = substr(Species, 1, 1)]

```{r} # data.table version of iris: DT DT <- as.data.table(iris)

Group the specimens by Sepal area (to the nearest 10 cm2) and count how many occur in each group

DT[, .N, by = 10 * round(Sepal.Length * Sepal.Width / 10)]

Now name the output columns Area and Count

DT[, .N, by = 10 * round(Sepal.Length * Sepal.Width / 10)][,.(Area = round,Count = N)]

```
# Create the data.table DT
DT <- data.table(A = rep(letters[2:1], each = 4L), 
                 B = rep(1:4, each = 2L), 
                 C = sample(8))

# Create the new data.table, DT2
DT2 <- DT[,.(C = cumsum(C)),by = .(A,B)]
DT2

# Select from DT2 the last two values from C while you group by A
DT2[,.(C = tail(C,2)),by =.(A)]

intermediate

chaining

这里好的地方是,不需要像dplyr一样进行ungroup有点麻烦。

```{r} # The data.table package has already been loaded

Build DT

DT <- data.table(A = rep(letters[2:1], each = 4L), B = rep(1:4, each = 2L), C = sample(8))

Combine the two steps in a one-liner

DT[, .(C = cumsum(C)), by = .(A, B)][, .(C = tail(C, 2)), by = A]

```
# The data.table DT is loaded in your workspace

# Perform chained operations on DT
 as.data.table(iris)[, .(Sepal.Length = median(Sepal.Length), 
                         Sepal.Width = median(Sepal.Width), 
                         Petal.Length = median(Petal.Length),
                         Petal.Width = median(Petal.Width)), 
                    by = Species][order(-Species)]

order(-Species)倒序。 这里很多函数一定要定义是data.table

.SD

这里类似于mutate_all

{r} DT <- data.table( x = c(2,1,2,1,2,2,1), y = seq(1,13,2), z = seq(2,14,2) ) DT[,.(lapply(.SD,mean)),by = x]

```{r} # A new data.table DT is available

Mean of columns

DT[,lapply(.SD,mean),by = x]

Median of columns

DT[,lapply(.SD,median),by = x]

## .SDcols

`.SDcols`是一个参数,是可以限定对哪些col执行函数。

DT[, .SD[-1], by = grp, .SDcols = paste0(“Q”, 1:3)] grp Q1 Q2 Q3 1: 6 4 1 4 2: 8 1 3 1 3: 8 5 2 5

这个的`SD[-1]`相当于踢掉了每组的第一行。
`paste0("Q", 1:3)`相当于选用了以`"Q"`为首字母的前三列。

这点有点难理解,很正常,但是`data.table`包本身就是base在R的基础函数上开发的,非常快。

DT[,.(lapply(.SD,sum),.N),by = x] x V1 N 1: 2 26 4 2: 2 30 4 3: 1 23 3 4: 1 26 3 DT[, lapply(.SD, cumsum), by = .(by1 = x, by2 = z > 8), .SDcols = c(“x”, “y”)] by1 by2 x y 1: 2 FALSE 2 1 2: 2 FALSE 4 6 3: 1 FALSE 1 3 4: 1 FALSE 2 10 5: 2 TRUE 2 9 6: 2 TRUE 4 20 7: 1 TRUE 1 13

## :=

这是计算机一个符号,类似于`x := x + 10`,x在循环中每次增加10.

```
# The data.table DT
DT <- data.table(A = letters[c(1, 1, 1, 2, 2)], B = 1:5)

# Add column by reference: Total
DT[, Total := sum(B), by = A]

# Add 1 to column B
DT[c(2, 4), B := B + 1L]

# Add a new column Total2
DT[2:4, Total2 := sum(B), by = A]

# Remove the Total column
DT[, Total := NULL]

# Select the third column using `[[`
DT[[3]]

我感觉这个包到这地方开始比tidyverse复杂了,所以作为backup了。

"技术 系列导航

1 "技术:Poisson分布、回归Python实现 2017-12-20
2 "技术:beta系数理解 2017-12-21
3 "技术:Python List剔除重复值 2017-12-21
4 "技术:t-SNE处理高维数据可视化 2017-12-21
5 "技术:用R语言进行文件系统管理 2017-12-21
6 "技术:fct_lump分箱使用方法 2017-12-22
7 "技术:F1分数为什么可以看不平衡样本的预测能力 2017-12-27
8 "技术:Fisher的一个矩阵预算 2017-12-27
9 "技术:case_when使用方法 2017-12-28
10 "技术:Python接口函数 2017-12-28
11 "技术:fct_relevel调整对照组,批量的方案 2017-12-30
12 "技术:python中变量批量处理集成方案 2017-12-30
13 "技术:Python接口函数-中台 2018-01-03
14 "技术:使用pbd包进行debug 2018-01-03
15 "技术:R实现随机分组 2018-01-04
16 "技术:jiebaR包做文本清洗 2018-01-05
17 "技术:r_WACC使用说明 2018-01-05
18 "技术:使用switchhost安装host 2018-01-05
19 "技术:Git的下载问题 2018-01-06
20 "技术:新闻爬虫 2018-01-07
21 "技术:Scalable Data Processing in R 2018-01-08
22 "技术:使用git创建一个自己的本地仓库 2018-01-11
23 "技术:dashboard构建,来自yihui的包 2018-01-12
24 "技术:最大似然估计再理解 2018-01-12
25 "技术:itchat包提取微信好友公开数据 2018-01-13
26 "技术:do函数和biglm包 2018-01-17
27 "技术:Imputer后X少了一列 2018-01-18
28 "技术:mac连接mysql,理论上win7也可以 2018-01-19
29 "技术:ggpubr提高作图效率 2018-01-20
30 "技术:t-SNE理论部分补充 2018-01-22
31 "技术:RMarkdown的使用技巧 2018-01-30
32 "技术:通过anova检验,理解R2、R_adj.2、F值 2018-01-31
33 "技术:ggridges 山峦图 学习笔记 2018-02-02
34 "技术:Tidyverse使用技巧 2018-02-02
35 "技术:XGBoost 学习笔记 2018-02-02
36 "技术:分布变离散,或者纠正skew 2018-02-02
37 "技术:rsq在R中自定义函数 2018-02-03
38 "技术:Jupyter实战 2018-02-13
39 "技术:美化与定制 2018-02-21
40 "技术:数据对比可视化指南 2018-02-22
41 "技术:功能体验 2018-02-26
42 "技术:高效数据处理 2018-02-27
43 "技术:模型优化技巧 2018-03-05
44 "技术:原理与应用 2018-03-06
45 "技术:模型与可视化 2018-03-08
46 "技术:美化与交互指南 2018-03-11
47 "技术:用法与优化技巧 2018-03-17
48 "技术:效率提升指南 2018-03-18
49 "技术:问题排查技巧 2018-03-18
50 "技术:高效操作指南 2018-03-19
51 "技术:方法与代码示例 2018-03-21
52 "技术:进阶技巧与优化 2018-03-21
53 "技术:实战示例 2018-03-22
54 "技术:效率与规范指南 2018-03-24
55 "技术:dplython包测评 2018-03-25
56 "技术:原理与实现 2018-04-02
57 "技术:原理与应用解析 2018-04-03
58 "技术:实战指南 2018-04-05
59 "技术:核心语法与函数整理 2018-04-05
60 "技术:复利计算与应用 2018-04-08
61 "技术:简单规则模型解析 2018-04-14
62 "技术:高效代码设计指南 2018-04-25
63 "技术:原理与应用学习笔记 2018-04-29
64 "技术:实战指南 2018-04-29
65 "技术:原理与应用 2018-05-01
66 "技术:表格格式化指南 2018-05-02
67 "技术:原理与应用介绍 2018-05-08
68 "技术:高效文本拼接 2018-05-11
69 "技术:方法与实践学习笔记 2018-05-12
70 "技术:方法与工具 2018-05-12
71 "技术:功能解析 2018-05-17
72 "技术:高效数据输入 2018-05-21
73 "技术:基础模型与方法 2018-05-22
74 "技术:功能与使用体验 2018-05-26
75 "技术:特征筛选学习笔记 2018-05-29
76 "技术:实战技巧 2018-05-30
77 "技术:建模思路解析 2018-06-03
78 "技术:策略与实战 2018-06-03
79 "技术:数据展示指南 2018-06-04
80 "技术:包与环境配置指南 2018-07-14
81 "技术:高效操作指南 2018-07-19
82 "技术:方法与案例解析 2018-07-24
83 "技术:统计建模学习笔记 2018-07-24
84 "技术:展示技巧与原则 2018-08-10
85 "技术:数据采集实战技巧 2018-08-21
86 "技术:指标设计学习笔记 2018-09-20
87 "技术:建模流程实战 2018-10-01
88 "技术:大规模数据探索 2018-10-20
89 "技术:文本提取与分析 2018-10-20
90 "技术:原理与R实现实战 2018-10-21
91 "技术:学习资源获取技巧 2018-10-23
92 "技术:深度学习模型实战 2018-10-24
93 "技术:实战指南 2018-10-30
94 "技术:分析与展示指南 2018-11-03
95 "技术:图片编辑与转换 2018-11-03
96 "技术:安装与使用基础学习笔记 2018-11-07
97 "技术:非结构化数据处理 2018-11-29
98 "技术:表格美化技巧 2018-12-13
99 "技术:分类数据可视化 2018-12-24
100 "技术:流程图绘制技巧 2018-12-24
101 "技术:自动化设置 2018-12-28
102 "技术:协作与版本控制 2018-12-29
103 "技术:pipeline设计 2018-12-30
104 "技术:Git历史记录清理 2018-12-31
105 "技术:AUC指标对比 2019-01-01
106 "技术:时间序列可视化 2019-01-01
107 "技术:变量命名工具指南 2019-01-02
108 "技术:网页自动化截图 2019-01-02
109 "技术:配置与优化 2019-01-03
110 "技术:原理与应用 2019-01-07
111 "技术:语法与核心概念 2019-01-14
112 "技术:R包徽章设计 2019-01-15
113 "技术:项目结构设计 2019-01-21
114 "技术:文本分类基础任务 2019-01-22
115 "技术:线性与非线性模型 2019-01-22
116 "技术:有效性验证 2019-01-27
117 "技术:评估与应用 2019-01-29
118 "技术:循环神经网络入门 2019-01-30
119 "技术:长短期记忆网络入门 2019-01-30
120 "技术:for循环示例 2019-02-03
121 "技术:基础到进阶 2019-02-06
122 "技术:查询与整合 2019-02-06
123 "技术:方法与案例 2019-02-14
124 "技术:R包高效开发指南 2019-02-20
125 "技术:解析与操作 2019-02-20
126 "技术:训练与预测 2019-02-25
127 "技术:原理与代码 2019-02-26
128 "技术:GitHub个人访问令牌(PAT)设置 2019-03-04
129 "技术:方法与工具 2019-03-07
130 "技术:文本特征提取示例 2019-03-08
131 "技术:基础任务示例 2019-03-18
132 "技术:条形图与表头设计 2019-03-20
133 "技术:连续与分类变量差异 2019-03-30
134 "技术:思路与方法 2019-04-08
135 "技术:方法与工具 2019-04-15
136 "技术:多格式读取 2019-04-16
137 "技术:方法与工具 2019-05-11
138 "技术:Git/GitHub/GitLab 2019-05-13
139 "技术:命令与操作 2019-05-19
140 "技术:协作与版本控制 2019-05-26
141 "技术:语法与实践 2019-06-28
142 "技术:功能与API 2019-07-13
143 "技术:安装与使用 2019-07-24
144 "技术:高效数据处理 2019-10-09
145 "技术:性能优化技巧 2019-10-12
146 "技术:配置与运维 2019-10-29
147 "技术:原理与经典模型 2019-12-25
148 "技术:构建到发布流程 2019-12-26
149 "技术:方法与案例 2019-12-27
150 "技术:命令与自动化 2019-12-30
151 "技术:Pandas数据处理实战指南 2020-01-19
152 "技术:特征工程之目标编码学习笔记 2020-01-20
153 "技术:文档编写与美化 2020-01-28
154 "技术:核心算法与应用 2020-01-29
155 "技术:流程图绘制技巧 2020-01-29
156 "技术:DataCamp课程笔记 2020-01-31
157 "技术:Python实用代码片段合集 2020-01-31
158 "技术:自动化构建流程 2020-02-02
159 "技术:自动化工作流配置 2020-02-04
160 "技术:高效查找代码与项目 2020-02-11
161 "技术:代码环境快速部署 2020-02-24
162 "技术:USD数据分析论文收录暨GitBook发布 2020-05-02
163 "技术:Causal Forest 2021-03-18