决策树的思想在生活中很常见,其实就是根据条件去做决定,选择最符合我们自己东西,例如买房子,我们要考虑的有城市/地段/是否有地铁/开发商/户型等等这些因数,这些因数在我们决策树中就叫做特征,我们就是根据这些特征来选到心仪的房子,所有对我们来说,选到心仪的房子就是多种条件的判断后的结果,也就是我们逻辑上一串的if-then规则后的结果;
那么问题来了,我们根据特征做判断,那先考虑哪个特征呢?例如我们买房子是先考虑城市/地段/是否有地铁,还是先考虑开发商/户型等等呢?那主要看个人的偏好了,个人觉得对你来说,你比较看中哪个条件,可能优先判断,然而, 从效率上说,我们肯定是想找到最简单的的判断逻辑(尽可能少的判断),也就是根据某个特征的判断,尽可能多的缩小选择范围,所以呀,我们选择判断的特征的先后顺序就有东西衡量啦,什么呢?就是经过哪个特征判断,判断后的再选择简单,就哪个特征先判断。
我们定性的想到解决方案后,我们得定量研究这个问题怎么解决,而是,就有人提出熵的概念来表示随机变量的不确定性,信息增益来表达某个特征确定后信息不确定性减少的程度。(例如:明天下雨的信息熵是1,明天阴天的情况下下雨的信息熵是0.1,那么信息增益就是1-0.1=0.9,说明阴天对明天下雨的来说很重要,不确定性能减少很多,信息增益大。)