decision tree 又称:判定树 定义:一个流程图形式的树结构,其中每个中间结点代表某个属性或某组属性上的测试,每个分支则对应了该测试的不同结果,每个叶结点代表某个类别或预测结果。从训练数据中产生决策树的算法,通常被称为决策树学习算法或决策树算法。 学科:计算机科学技术_人工智能_机器学习 相关名词:数据挖掘 决策树分析 决策树系统 【延伸阅读】 决策树是利用树形图进行决策的预测模型,表现出的是对象属性与对象值之间的一种映射关系,是归纳学习和数据挖掘的重要方法。决策树分为分类树和回归树两种:分类树对离散变量做决策树,回归树对连续变量做决策树。 一般情况下,一棵决策树包含一个根节点、若干个内部节点和若干个叶结点。根节点包含样本全集,从根节点到每个叶结点的路径对应了一个判定测试序列。内部节点表示一个特征和属性,每个内部节点都是一个判断条件,并且包含数据集中,满足从根节点到该节点所有条件的数据的集合。根据内部节点的属性测试结果,内部节点对应的数据集合分别归到两个或多个子节点中。叶节点表示一个类,对应于决策结果。叶节点为最终的类别,如果该数据被包含在该叶节点,则属于该类别。 建立决策树的目标是通过训练样本集,建立目标变量关于各输入变量的分类预测模型,全面实现输入变量和目标变量不同取值下的数据分组,进而用于对新数据对象的分类和预测。当利用所建的决策树对一个新数据对象进行分析时,决策树能够依据该数据输入变量的取值,推断出相应目标变量的分类或取值。决策树算法主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集,完成决策树的建立过程。第二,决策树的剪枝问题,即利用检验样本集,对形成的决策树进行优化处理。 决策树的算法很多,如ID3、C4.5、CART等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。 决策树的优势有:结构简单,便于理解;效率高,较为适合训练集数据量较大的情况;通常不需要接受训练集数据外的知识;具有较高的分类精确度;等等。因此,决策树算法广泛应用于各个领域,如文本分类、语音识别、模式识别和专家系统等。 |
|