分类变数--中文百科全书

分类变数

（categorical variable）：其变数值是定性的，表现为互不相容的类别或属性。

分类变数

是指地理位置、人口统计等方面的变数,其作用是将调查回响者分群.描述变数是描述某一个客户群与其他客户群的区别.大部分分类变数也就是描述变数。

多元统计分析方法

中序次测度变数和名义测度变数的处理方法一样,所以一般并不加以区分,序次测度变数常作为名义测度变数来用,把二者合称为分类变数。

变数分类

分类

分类变数可分为无序变数和有序变数两类。

无序分类变数

无序分类变数（unordered categorical variable）是指所分类别或属性之间无程度和顺序的差别。，它又可分为①二项分类，如性别（男、女），葯物反应（阴性和阳性）等；②多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。对于无序分类变数的分析，应先按类别分组，清点各组的观察单位数，编製分类变数的频数表，所得资料为无序分类资料，亦称计数资料。

分类变数

有序分类变数

有序分类变数（ordinal categorical variable）各类别之间有程度的差别。如尿糖化验结果按－、±、+、++、+++分类；疗效按治愈、显效、好转、无效分类。对于有序分类变数，应先按等级顺序分组，清点各组的观察单位个数，编製有序变数（各等级）的频数表，所得资料称为等级资料。

其他说明

变数类型不是一成不变的，根据研究目的的需要，各类变数之间可以进行转化。例如血红蛋白量（g/L）原属数值变数，若按血红蛋白正常与偏低分为两类时，可按二项分类资料分析；若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时，可按等级资料分析（资料是根据临床资料得出）。有时亦可将分类资料数量化，如可将病人的恶心反应以0、1、2、3表示，则可按数值变数资料（定量资料）分析。

自变数哑

分类自变数的哑变数（dummy variables）编码来源：生物统计学论坛在多重回归、Logistic回归模型中，自变数可以是连续型变数（interval variables），也可以是二项分类变数，和多分类变数。为了便于解释，对二项分类变数（如好坏、死活、发病不发病等）一般按0、1编码，一般0表示阴性或较轻情况，而1表示阳性或较严重情况。如果对二项分类变数按+1与-1编码，那麽所得的logistic回归OR=exp（2beta），多重回归的beta同样增加一倍，容易造成错误的解释。因此建议尽量避免“+1”、“-1”编码形式。多分类变数又可分为有序（等级）或无序（也叫名义），如果是有序（ordinal）分类变数，一般可按对因变数影响由小到大的顺序编码为1、2、3、...，或按资料的自然大小，将它当作连续型变数处理。如果是无序的（nomial）分类变数，则需要採用哑变数（dummy variables）进行编码，下面以职业（J）为例加予以说明。