分类变数
分类变数
(categorical variable):其变数值是定性的,表现为互不相容的类别或属性。
分类变数
是指地理位置、人口统计等方面的变数,其作用是将调查回响者分群.描述变数是描述某一个客户群与其他客户群的区别.大部分分类变数也就是描述变数。
多元统计分析方法
中序次测度变数和名义测度变数的处理方法一样,所以一般并不加以区分,序次测度变数常作为名义测度变数来用,把二者合称为分类变数。
变数分类
分类
分类变数可分为无序变数和有序变数两类。
无序分类变数
无序分类变数(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),葯物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变数的分析,应先按类别分组,清点各组的观察单位数,编製分类变数的频数表,所得资料为无序分类资料,亦称计数资料。
分类变数有序分类变数
有序分类变数(ordinal categorical variable)各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变数,应先按等级顺序分组,清点各组的观察单位个数,编製有序变数(各等级)的频数表,所得资料称为等级资料。
其他说明
变数类型不是一成不变的,根据研究目的的需要,各类变数之间可以进行转化。例如血红蛋白量(g/L)原属数值变数,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析(资料是根据临床资料得出)。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变数资料(定量资料)分析。
自变数哑
分类自变数的哑变数(dummy variables)编码来源:生物统计学论坛 在多重回归、Logistic回归模型中,自变数可以是连续型变数(interval variables),也可以是二项分类变数,和多分类变数。为了便于解释,对二项分类变数(如好坏、死活、发病不发病等)一般按0、1编码,一般0表示阴性或较轻情况,而1表示阳性或较严重情况。如果对二项分类变数按+1与-1编码,那麽所得的logistic回归OR=exp(2beta),多重回归的beta同样增加一倍,容易造成错误的解释。因此建议尽量避免“+1”、“-1”编码形式。多分类变数又可分为有序(等级)或无序(也叫名义),如果是有序(ordinal)分类变数,一般可按对因变数影响由小到大的顺序编码为1、2、3、...,或按资料的自然大小,将它当作连续型变数处理。如果是无序的(nomial)分类变数,则需要採用哑变数(dummy variables)进行编码,下面以职业(J)为例加予以说明。


















