卡方自动互动检测

卡方自动互动检测

卡方自动互动检测法(chi-squared automatic interaction detector, CHAID)最早由Kass于1980年提出,是一个用来发现变数之间关係的工具。CHAID可用于预测(类似回归分析,CHAID最初被称为XAID)以及分类,并用于检测变数之间的相互作用。

    • 中文名:卡方自动互动检测
    • 外文名:CHi-squared Automatic Interaction Detection
    • 简称:CHAID
    • 提出者:戈登V.卡斯
    • 时间:1980年
    • 主要套用:医学领域

基本概念

卡方自动互动检测法(chi-squared automatic interaction detector, CHAID)最早由Kass于1980年提出,是一个用来发现变数之间关係的工具,是一种基于调整后的显着性检验(邦费罗尼检验)决策树技术。其核心思想是:根据给定的反应变数和解释变数对样本进行最优分割,按照卡方检验的显着性进行多元列联表的自动判断分组。利用卡方自动互动检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制。

在实践中,CHAID经常使用在直销的背景下,选择消费者群体,并预测他们的反应,一些变数如何影响其他变数,而其他早期套用是在医学和精神病学的研究领域。

CHAID决策树

CHAID分析构建了一个预测模型,或树,以帮助确定给定因变数,变数如何最好地合来解释结果。CHAID分析,名义,有序和连续数据可以使用,在连续预测类别被分成大致相等的若干观测。CHAID对每个分类预测创建了交叉表,直到达到最好的结果,无法继续分类为止。在CHAID技术中,我们可以直观地看到在树的分割变数和相关因子之间的关係。决策树或分类树的展开,始于确定作为根节点的目标变数或因变数。 CHAID分析将目标变数分割成两个或两个以上的类被称为根节点,或者父节点,然后使用统计算法将节点分为子节点。不同于回归分析,CHAID技术并不要求数据是常态分配。

和其他决策树一样,CHAID的优势是它的结果是非常直观的易于理解的。由于默认情况下CHAID採用多路分割,需要相当大的样本量,来有效地开展工作,而小样本组受访者可以迅速分为太小了的组,而无法可靠的分析。

在形式上,CHAID非常直观,它输出的是一个树状的图形。它以因变数为节点,对每个自变数进行分类,计算分类的卡方值。如果几个变数的分类均显着,则比较他们的显着度大小,然后选择最显着的分类法作为子节点。CHAID可以自动归併自变数中的类别,使之显着性达到最大。

CHAID决策树的构成:

在CHAID分析中,以下是决策树的要素:

(1)根节点:根节点包含因变数或目标变数。例如,CHAID使用于,银行根据年龄,收入,信用卡等,来预测信用卡风险。在这个例子中,信用卡风险是目标变数,其余变数是预测变数。

(2)父节点:该算法将目标变数分割成两个或多个分类。这些分类被称为父节点或者初始节点。在银行的例子中,父节点是高,中,低三个分类。

(3)子节点:CHAID分析树中独立变数分类低于父节点的分类被称为子节点。

(4)终端节点:CHAID分析树最后一个分类被称为终端节点。 CHAID分析树中,主要的影响变数排在前面,次要的排在后面。因此,它被称为终端节点。

CHAID原理

(1)利用卡方自动互动检测法分析健康自评及其影响因素检测。

卡方自动互动检测法的分类过程是:首先选定分类的反应变数,然后用解释变数与反应变数进行交叉分类,产生一系列二维分类表,分别计算二维分类表的χ2值,比较P值的大小,以P值最小的二维表作为最佳初始分类表,在最佳二维分类表的基础上继续使用解释变数对反应变数进行分类,重複上述过程直到P值大于设定的有统计意义的α值为止。

为了防止模型的过度拟合,可以将分析数据随机分成两部分,一部分为训练样本,另一部分为检验样本,两者所占比例通常为70%和30%,先用训练样本建立树形模型,再利用检验样本对所建模型进行修正。对修正后的模型计算Risk统计量,该统计量用于评价树形模型预测的準确程度(Risk统计量越小,表明用该树形模型进行预测的準确程度越高),当反应变数为分类变数时,Risk统计量为错分例数与总例数之比。

(2)利用接受者工作特徵曲线(receiver operating characte ristic curve,ROC曲线)下面积对卡方自动互动检测法的分析结果进行评价。

ROC曲线被广泛用于医学诊断试验性能的评价。通过改变诊断界值,获得多对假阳性率和真阳性率,以前者为横坐标,后者为纵坐标,绘製ROC曲线,计算与比较ROC曲线下的面积,可以检测方法的诊断价值大小。其面积的取值範围为0.50~1.00,完全无价值的诊断试验面积为0.50,完全理想的诊断试验面积为1.00,一般认为面积在0.50~0.70 之间表示诊断价值较低,在0.70~0.90 之间表示诊断价值为中等,0.90以上表示诊断价值较高。

CHAID的特点

对于变数较多、分类较複杂的分类或等级数据,卡方自动互动检测法比一般的交叉列联表分析更有效。相对于logistic回归等参数检验方法,卡方自动互动检测法的分析过程可以显示出变数之间相互作用的方式,能够具体分析到某变数在各亚群中的作用方式。卡方自动互动检测法要求解释变数为分类变数或等级变数,因此在进行分析前,必须先对变数进行整理分类;卡方自动互动检测法对反应变数要求相对较宽,可以为任意类型的变数,特别是当反应变数为连续性变数时,可以不受资料多变数常态分配的限制,这也是卡方自动互动检测法优于传统参数检验方法(如回归分析、ANOVA等)的一个方面。另外,在套用卡方自动互动检测法解决问题的时候,由于解释变数众多且各解释变数自身又有多个类别,使最终生成的树可能非常庞大,对树的适当修剪将成为要解决的关键性问题。

相关词条

相关搜索

其它词条