{r setup, include=FALSE} knitr::opts_chunk$set(eval = FALSE)
<!-- 决策树方面,这个图最直观。 -->
- 数学: · 决策树(一)· 混乱程度 , $pi \in [0,1] \to H(Y) \geq 0$ , 所以最小值是0,这样的话,说明在一个分支内,异质性很小。 , 这个可以总结一下。
<!--  -->
决策树理论部分可以参考 Brett Lantz Machine Learning with R - Second Edition.pdf的126页附近。 决策树的解释意思就是 它会给出一个可能性,如果你的答案是$1$或$0$,那么答案就是$1$的概率为$p$,$0$的概率为$1-p$。
<!-- 决策树理论部分可以参考 -->
<!-- *Brett Lantz Machine Learning with R - Second Edition.pdf*的131页附近。 -->
<!-- Box Office Bust 在其中占比最高,所以导致了预测概率最大,因此这个节点的结果是Box Office Bust。 -->
在看完决策树后,可以了解一下随机森林,具体的之后我再准备给你。他们之间大致的关系如下图。
```{r echo=FALSE, message=FALSE, warning=FALSE} library(DiagrammeR) xgboost <- grViz( digraph boxes_and_circles {
决策树 Bagging 随机森林 boosting xgboosting
决策树 -> Bagging [label = ‘对样本重抽样,然后多个树平均’]
Bagging -> 随机森林 [label = ‘再同时对特征进行随机挑选’]
决策树 -> boosting [label = ‘对随机森林中的树进行加权平均,而非简单平均’]
boosting -> xgboosting [label = ‘对boosting中的树进行正则化’] } “) xgboost ```
这是随机森林需要看到的地方, 贝叶斯、支持向量机、神经网络也是用到的常用方法,这个可以之后跟你说,我先说我最熟悉的。