如何用决策树模型做数据分析?

2020-12-08

数脉API

在这个大数据时代,数据对于各行各业的重要性不言而喻,因此有越来越多的企业开始重视并且运用数据分析。数据分析的方法有很多种,今天,本文作者为我们介绍了决策树模型的分析方法,让我们一起来看看如何用决策树模型做数据分析吧。
如何用决策树模型做数据分析?

在日常工作中,很多时候都会用到数据分析的方法,决策树模型看起来非常简单,但实际上它的十分重要;本文作者分享了关于如何用决策树模型做数据分析的方法,我们一起来学习一下。

一、什么是决策树?

决策树模型本质是一颗由多个判断节点组成的树。在树的每个节点做参数判断,进而在树的最末枝(叶结点)能够对所关心变量的取值作出最佳判断。

通常,一棵决策树包含一个根结点,若干内部节点和若干叶结点,叶结点对应决策分类结果。分支做判断,叶子下结论。我们看一个简单的决策树的模型,通过动物的一些特点来判断它是否是鱼类,在决策树模型中,我们来看每一个节点是如何做判断的。

我们将所有要研究的动物作为树最上端的起点,对它进行第一个判断,是否能脱离水生存?如果判断为是的话,它不是鱼类;如果为否的话,我们还要再进行下一个判断,是否有脚蹼?如果是的话,它就是非鱼类,如果否的话就是鱼类。我们仅仅是通过最多两个层次的判断,在树最末端的叶子结点,可以对我们感兴趣的问题给出了一个相对而言的最佳决策。这个就是决策树的逻辑,非常简单且和人脑理解事物的逻辑很类似。

决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。

简单:逻辑相对简单,整个算法没有更复杂的逻辑,只是对节点进行分叉;

高效:模型训练速度较快;

强解释性:模型的判断逻辑可以用语言清晰的表达出来,比如上述决策树案例中的判断,就可以直接用语言表述成:脱离水不能生存的没有脚蹼的动物,我们判断它是鱼。

决策树模型应用于数据分析的场景主要有2种:

驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);

预测:根据模型进行分类的预测。

二、熵是什么?

熵是描述判断的不确定性,大多数决策树的最终判断,并不是100%准确,决策树只是基于不确定性,作出最优的判断。

比如上述决策树案例,我们判断脱离水依然可以生存的是“非鱼类”。但是有一种特殊的鱼叫做非洲肺鱼,它脱离水后依然可以存活4年之久。虽然不是100%正确,我们在这个叶结点做出非鱼类的判断,是因为所有脱离水依然可以生存的动物里,有非常大部分都不是鱼。

如果尝试使用一个统计量E来表示不确定性的话,并且规定E的取值在0和1之间。他和人群中女性的占比应该满足这样一条曲线的关系,当女性占比为0或者100%的时候,进行判断的不确定性最小;E取最小值0当女性占比为50%的时候,判断的不确定性最大,E取最大值1;当女性占比取0到50%,或者50%到100%之间的值的时候,E的取值介于0到1之间。并且取值相对女性占比50%是对称的。熵即是用来描述以上这种不确定性,它的数学表达式为:

Pi含义:对于事件,有c种可能的结果,每一种可能结果的概率为P1、P2…Pc;熵的取值在0-1之间;一个判断的不确定性越大,熵越大。

三、信息增益

信息增益表示经过一次决策判断(分叉)后,人群熵值下降的大小,即母节点的熵与两个子节点熵值和的差值。

天眼数聚api接口大全以大数据为基础,覆盖人脸身份证识别接口、运营商、银行卡、车辆、医疗、智能识别等,为企业用户提供多维度、全方位的数据API服务;目前已服务近万家企业,涵盖了教育、游戏、电商、物流、金融、保险、支付、出行等数十个领域,同时公司在数据采集、模型算法、机器学习等领域具有较强的技术优势,所推出的基于业界领先算法模型的活体检测、人脸识别api等智能识别服务广受好评。