基本概念
回归,研究一个随机变数Y对另一个(X)或一组(X1,X2,…,Xk)变数的相依关系的统计分析方法。研究一 个或多个随机变数Y1 ,Y2 ,…,Yi与另一些变数X1、X2,…,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,…,Yi为因变数,X1、X2,…,Xk为自变数。回归分析是一类数学模型,特别当因变数和自变数为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变数和一个因变数,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这裏X是自变数,Y是因变数,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关。若进一步假定随机误差遵从常态分配,就叫做正态线性模型。一般的情形,差有k个自变数和一个因变数,因变数的值可以分解为两部分:一部分是由自变数的影响,即表示为自变数的函式,其中函式形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函式形式为未知参数的线性函式时,称线性回归分析模型;当函式形式为未知参数的非线性函式时,称为非线性回归分析模型。当自变数的个数大于1时称为多元回归,当因变数个数大于1时称为多重回归。
主要内容
回归分析的主要内容为:①从一组资料出发确定某些变数之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变数共同影响着一个因变数的关系中,判断哪个(或哪些)自变数的影响是显着的,哪些自变数的影响是不显着的,将影响显着的自变数选入模型中,而剔除影响不显着的变数,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控製。回归分析的套用是非常广泛的,统计软体包使各种回归方法计算十分方便。
数学套用
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变数或因变数。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“使用者满意度”变数密切相关,但是这两个变数之间到底是哪个变数受哪个变数的影响,影响程度如何,则需要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变数和自变数来确定变数之间的因果关系,建立回归模型,并根据实测资料来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测资料;如果能够很好的拟合,则可以根据自变数作进一步预测。
例如,如果要研究质量和使用者满意度之间的因果关系,从实践意义上讲,产品质量会影响使用者的满意情况,因此设使用者满意度为因变数,记为Y;质量为自变数,记为X。根据图8-3的散点图,可以建立下面的线性关系:
Y=A+BX+§
式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于使用者满意度的随机误差项。
在SPSS软体裏可以很容易地实现线性回归,回归方程如下:
y=0.857+0.836x回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,使用者满意度平均上升0.836分;或者说质量每提高1分对使用者满意度的贡献是0.836分。
上面所示的例子是简单的一个自变数的线性回归问题,在资料分析的时候,也可以将此推广到多个自变数的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出裏,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变数X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显着性水準(significant level)检验回归方程的线性关系是否显着。一般来说,显着性水準在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显着的,但是并不一定所有的回归系数都是显着的,这样就需要通过T检验来验证回归系数的显着性。同样地,T检验可以通过显着性水準或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。
表8-2 线性回归方程检验
| 指标 | 显着性水準 | 意义 | |
| R | 0.89 | “质量”解释了89%的“使用者满意度”的变化程度 | |
| F | 276.82 | 0.001 | 回归方程的线性关系显着 |
| T | 16.64 | 0.001 | 回归方程的系数显着 |


















