回归-数学术语-中文百科全书

基本概念

回归，研究一个随机变数Y对另一个(X)或一组(X1，X2，…，Xk)变数的相依关系的统计分析方法。研究一个或多个随机变数Y1 ，Y2 ，…，Yi与另一些变数X1、X2，…，Xk之间的关系的统计方法。又称多重回归分析。通常称Y1，Y2，…，Yi为因变数，X1、X2，…，Xk为自变数。回归分析是一类数学模型，特别当因变数和自变数为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变数和一个因变数，且它们大体上有线性关系，这叫一元线性回归，即模型为Y=a+bX+ε，这裏X是自变数，Y是因变数，ε是随机误差，通常假定随机误差的均值为0，方差为σ^2（σ^2大于0）σ2与X的值无关。若进一步假定随机误差遵从常态分配，就叫做正态线性模型。一般的情形，差有k个自变数和一个因变数，因变数的值可以分解为两部分：一部分是由自变数的影响，即表示为自变数的函式，其中函式形式已知，但含一些未知参数；另一部分是由于其他未被考虑的因素和随机性的影响，即随机误差。当函式形式为未知参数的线性函式时，称线性回归分析模型；当函式形式为未知参数的非线性函式时，称为非线性回归分析模型。当自变数的个数大于1时称为多元回归，当因变数个数大于1时称为多重回归。

主要内容

回归分析的主要内容为：①从一组资料出发确定某些变数之间的定量关系式，即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变数共同影响着一个因变数的关系中，判断哪个（或哪些）自变数的影响是显着的，哪些自变数的影响是不显着的，将影响显着的自变数选入模型中，而剔除影响不显着的变数，通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控製。回归分析的套用是非常广泛的，统计软体包使各种回归方法计算十分方便。

数学套用

相关分析研究的是现象之间是否相关、相关的方向和密切程度，一般不区别自变数或因变数。而回归分析则要分析现象之间相关的具体形式，确定其因果关系，并用数学模型来表现其具体关系。比如说，从相关分析中我们可以得知“质量”和“使用者满意度”变数密切相关，但是这两个变数之间到底是哪个变数受哪个变数的影响，影响程度如何，则需要通过回归分析方法来确定。

一般来说，回归分析是通过规定因变数和自变数来确定变数之间的因果关系，建立回归模型，并根据实测资料来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测资料；如果能够很好的拟合，则可以根据自变数作进一步预测。

例如，如果要研究质量和使用者满意度之间的因果关系，从实践意义上讲，产品质量会影响使用者的满意情况，因此设使用者满意度为因变数，记为Y；质量为自变数，记为X。根据图8－3的散点图，可以建立下面的线性关系：

Y=A+BX+§

式中：A和B为待定参数，A为回归直线的截距；B为回归直线的斜率，表示X变化一个单位时，Y的平均变化情况；§为依赖于使用者满意度的随机误差项。

在SPSS软体裏可以很容易地实现线性回归，回归方程如下：

y=0.857+0.836x回归直线在y轴上的截距为0.857、斜率0.836，即质量每提高一分，使用者满意度平均上升0.836分；或者说质量每提高1分对使用者满意度的贡献是0.836分。

上面所示的例子是简单的一个自变数的线性回归问题，在资料分析的时候，也可以将此推广到多个自变数的多元回归，具体的回归过程和意义请参考相关的统计学书籍。此外，在SPSS的结果输出裏，还可以汇报R2，F检验值和T检验值。R2又称为方程的确定性系数（coefficient of determination），表示方程中变数X对Y的解释程度。R2取值在0到1之间，越接近1，表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的，通过显着性水準（significant level）检验回归方程的线性关系是否显着。一般来说，显着性水準在0.05以下，均有意义。当F检验通过时，意味着方程中至少有一个回归系数是显着的，但是并不一定所有的回归系数都是显着的，这样就需要通过T检验来验证回归系数的显着性。同样地，T检验可以通过显着性水準或查表来确定。在上面所示的例子中，各参数的意义如表8－2所示。

表8－2 线性回归方程检验

指标	显着性水準	意义
R	0.89		“质量”解释了89%的“使用者满意度”的变化程度
F	276.82	0.001	回归方程的线性关系显着
T	16.64	0.001	回归方程的系数显着

回归

基本概念

主要内容

数学套用

相关词条

相关搜索

其它词条