1 min read

"学习笔记:决策树理论部分 学习笔记

"学习笔记 系列导航

1 "学习笔记:Deep Learning in Python 学习笔记 2017-12-22
2 "学习笔记:Python 学习的流水笔记 2017-12-25
3 "学习笔记:Network Analysis in Python Part 1 学习笔记 2017-12-27
4 "学习笔记:XGBoost using Python 学习笔记 2017-12-28
5 "学习笔记:Supervised Learning with scikit-learn 学习笔记 2017-12-30
6 "学习笔记:Boosting理论部分 学习笔记 2018-01-02
7 "学习笔记:Machine Learning with the Experts School Budgets 学习笔记 2018-01-02
8 "学习笔记:犯罪心理解析 2018-01-02
9 "学习笔记:Shell 学习笔记 2018-01-04
10 "学习笔记:客户价值定价 学习笔记 2018-01-04
11 "学习笔记:Introduction to Git for Data Science 学习笔记 2018-01-06
12 "学习笔记:线性代数 整理笔记 2018-01-08
13 "学习笔记:退火算法 学习笔记 2018-01-09
14 "学习笔记:Fahrenheit 911 视频笔记 2018-01-18
15 "学习笔记:pandas debugging 学习笔记 2018-01-19
16 "学习笔记:brilliant.org概率论导论 学习笔记 2018-01-22
17 "学习笔记:Machine Learning with Tree-Based Models in R 学习笔记 2018-01-22
18 "学习笔记:Building Web Applications in R with Shiny 学习笔记 2018-01-25
19 "学习笔记:Inference for Numerical Data 学习笔记 2018-01-26
20 "学习笔记:Support Vector Machines SVM 学习笔记 2018-01-26
21 "学习笔记:Introduction to DataCamp Projects 学习笔记 2018-01-28
22 "学习笔记:Working with Web Data in R 学习笔记 2018-01-28
23 "学习笔记:三种平均数使用的方式 学习笔记 2018-01-29
24 "学习笔记:戒律的复活 每周六更新 2018-01-29
25 "学习笔记:Communicating with Data in the Tidyverse 学习笔记 2018-01-31
26 "学习笔记:Kaggle R Tutorial on Machine Learning 学习笔记 2018-02-01
27 "学习笔记:Kaggle Python Tutorial on Machine Learning 学习笔记 2018-02-02
28 "学习笔记:圆桌派 第三季 视频笔记 2018-02-05
29 "学习笔记:基础与技巧整理 2018-02-25
30 "学习笔记:英语学习:积累:词汇、表达与语法整理 2018-04-09
31 "学习笔记:魏剑峰英语学习:笔记:表达与语法整理 2018-05-02
32 "学习笔记:Planet Money播客学习笔记:经济学话题解析 2018-06-05
33 "学习笔记:WSJ 学习笔记 2020-10-19

从零开始学人工智能(12)–Python · 决策树(零)· 简介

决策树的理解,理解了,数字代表是变量,如$X_i$,第$i$个变量。 考虑之后可以复盘、做图。

从零开始学人工智能(13)–Python · 决策树(一)· 准则

输入一个数据

根据数据的某个特征来把数据分成好几份

如果分完数据后发现

  • 某堆数据里面某一个类别的数据占相当大多数1,就不再分隔这堆数据、直接输出类别
  • 某堆数据还很"混乱无序",那么就这堆数据就要继续分下去(转第 2. 步)

大概就这三步。可以发现,大部分时间都是根据某个"准则" 2来进行操作的,所以怎样选择这个准则就成了至关重要的问题。

为什么定义$\frac{ent_{N}}{len(label)}$,因为$N = 1,..,N$表示是改节点变量$X$的level情况。 len(label)表示数据表的行数。

这个没看懂,但是不重要,往后走!

信息增益。这是决策树生长的重点,但有了上面两个函数之后,根据定义的话、直接条件熵减去熵就行(或者更宽泛地说、是混乱程度减去条件混乱程度),最多再做一些小的改动。

从零开始学人工智能(14)–Python · 决策树(二)· 节点

最后分的最干净,也是最理想的方式。 这里面没讲什么。

数学: · 决策树(二)· 信息增益

所以,如果条件熵$H(Y | A)$越小,就意味着 $Y$ 被 $A$ 分开后的总的混乱程度越小、从而意味着 $A$ 更能够帮助我们做出决策。

$$H(Y|A) = -\sum_{i = 1}^n p_i \sum_{k = 1}^K p_{i,k}\log_2 p_{i,k}$$

信息增益:

$$g(Y,A) = H(Y) - H(Y|A)$$

因此信息增益低,说明不需要再$|A$了。

根据信息增益判断是否终止(比如在 ID3 中,如果信息增益小于阈值的话就直接终止。这种判断方法会有比较严重的缺陷。

prune 函数: 核心思想其实就是把该 node 变成一个 leaf

从零开始学人工智能(16)–Python · 决策树(四)· 树

Python具体的code不太清楚,但是至少现在决策树的理论部分、node、leaf、prune(node $\to$ leaf)、信息增益都搞懂了。


  1. 说明异质性很低了。 ↩︎

  2. Gini系数和信息熵的解释。 (数学: · 决策树(一)· 混乱程度↩︎

"学习笔记 系列导航

1 "学习笔记:Deep Learning in Python 学习笔记 2017-12-22
2 "学习笔记:Python 学习的流水笔记 2017-12-25
3 "学习笔记:Network Analysis in Python Part 1 学习笔记 2017-12-27
4 "学习笔记:XGBoost using Python 学习笔记 2017-12-28
5 "学习笔记:Supervised Learning with scikit-learn 学习笔记 2017-12-30
6 "学习笔记:Boosting理论部分 学习笔记 2018-01-02
7 "学习笔记:Machine Learning with the Experts School Budgets 学习笔记 2018-01-02
8 "学习笔记:犯罪心理解析 2018-01-02
9 "学习笔记:Shell 学习笔记 2018-01-04
10 "学习笔记:客户价值定价 学习笔记 2018-01-04
11 "学习笔记:Introduction to Git for Data Science 学习笔记 2018-01-06
12 "学习笔记:线性代数 整理笔记 2018-01-08
13 "学习笔记:退火算法 学习笔记 2018-01-09
14 "学习笔记:Fahrenheit 911 视频笔记 2018-01-18
15 "学习笔记:pandas debugging 学习笔记 2018-01-19
16 "学习笔记:brilliant.org概率论导论 学习笔记 2018-01-22
17 "学习笔记:Machine Learning with Tree-Based Models in R 学习笔记 2018-01-22
18 "学习笔记:Building Web Applications in R with Shiny 学习笔记 2018-01-25
19 "学习笔记:Inference for Numerical Data 学习笔记 2018-01-26
20 "学习笔记:Support Vector Machines SVM 学习笔记 2018-01-26
21 "学习笔记:Introduction to DataCamp Projects 学习笔记 2018-01-28
22 "学习笔记:Working with Web Data in R 学习笔记 2018-01-28
23 "学习笔记:三种平均数使用的方式 学习笔记 2018-01-29
24 "学习笔记:戒律的复活 每周六更新 2018-01-29
25 "学习笔记:Communicating with Data in the Tidyverse 学习笔记 2018-01-31
26 "学习笔记:Kaggle R Tutorial on Machine Learning 学习笔记 2018-02-01
27 "学习笔记:Kaggle Python Tutorial on Machine Learning 学习笔记 2018-02-02
28 "学习笔记:圆桌派 第三季 视频笔记 2018-02-05
29 "学习笔记:基础与技巧整理 2018-02-25
30 "学习笔记:英语学习:积累:词汇、表达与语法整理 2018-04-09
31 "学习笔记:魏剑峰英语学习:笔记:表达与语法整理 2018-05-02
32 "学习笔记:Planet Money播客学习笔记:经济学话题解析 2018-06-05
33 "学习笔记:WSJ 学习笔记 2020-10-19