决策树构建器

这个在线计算器使用信息增益度量从训练集构建决策树

下面的在线计算器解析训练示例集,然后构建一个决策树,使用信息增益作为拆分的标准。如果您不确定它是关于什么的,请阅读计算器下面关于决策树的简短说明文本。

注意:培训示例应该以csv列表的形式输入,分号用作分隔符。首行被认为是行标签,从属性/特性标签开始,然后是类标签。其他所有的行都是例子。这个计算器中的默认数据是“打网球”决策树的著名示例数据。

PLANETCALC, 决策树构建器

决策树构建器

决策树
 

决策树

决策树是一种类似于流程图的结构,其中每个内部节点表示一个属性的“测试”(例如一个抛硬币是否出现正面或反面),每个分支代表测试的结果,每个叶节点代表一个类标签(计算所有属性后的决策)。从根到叶的路径表示分类规则。1

让我们看看计算器的默认数据。

要分析的属性是:

  • 前景: 周日/阴天/下雨
  • 湿度: 高/正常
  • 风: 真/假
  • 温度: 炎热/温暖/凉爽

类标签:

  • 打球: 是/否

因此,通过逐个分析属性,算法应该有效地回答这个问题:“我们应该打网球吗?”因此,为了执行尽可能少的步骤,我们需要在每个步骤上选择最好的决策属性—给我们最多信息的那个属性。此属性用作第一次拆分。然后这个过程继续下去,直到我们不再需要拆分(拆分之后,所有剩余的示例都是同质的,换句话说,我们可以识别类标签),或者没有更多的属性需要分割。

生成的决策树首先在“前景”上拆分。如果答案是“晴天”,那么它会检查“湿度”属性。如果答案是“高”,那么“打球”的答案就是“否”。如果答案是“正常”,那么“打球”就是“是”。如果“前景”是“阴天”,那么“打球”马上就是“是”。如果“前景”是“下雨”,那么它需要检查“有风”属性。注意,这个决策树根本不需要检查“温度”特性!

你可以使用不同的指标作为拆分的标准,例如,(通过信息增益增益比),基尼指数分类错误。这个特定的计算器使用了信息增益

你可能想知道,如果可以为每个属性组合提供决策,为什么还需要决策树。 你当然能够,但即使对于这个小示例,组合的总数也是3*2*2*3=36。 另一方面,我们只是使用了一个组合子集(14个例子)来训练我们的算法(通过构建决策树),现在它可以在没有我们帮助的情况下分类所有其他组合。 这就是机器学习的意义所在。 当然,这有许多关于不稳健性、过拟合、偏倚等方面的含义。 要了解更多信息,你可以查看搜狗百科上的决策树学习的文章。

URL 复制到剪贴板
PLANETCALC, 决策树构建器

评论