Análisis de Regresión P. Reyes / Enero, 2007




descargar 490.56 Kb.
títuloAnálisis de Regresión P. Reyes / Enero, 2007
página1/14
fecha de publicación01.12.2015
tamaño490.56 Kb.
tipoDocumentos
med.se-todo.com > Documentos > Documentos
  1   2   3   4   5   6   7   8   9   ...   14

Análisis de Regresión P. Reyes / Enero, 2007



UNIVERSIDAD IBEROAMERICANA A.C.
MAESTRÍA EN INGENIERÍA DE CALIDAD


ANÁLISIS DE REGRESIÓN


Dr. Primitivo Reyes Aguilar
Marzo, 2007

CONTENIDO
REGRESIÓN LINEAL SIMPLE

Introducción

El modelo de regresión lineal simple

Usos y abusos de la regresión
ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL

Introducción

Prueba de falta de ajuste

Análisis de los residuos

Transformaciones de los datos

Propuesta de estrategia de ajuste del modelo
REGRESIÓN LINELA MÚLTIPLE

El modelo de regresión

Análisis de los residuos

Análisis de cada observación

Propuesta de estrategia de ajuste del modelo
TÓPICOS ADICIONALES

4.1 Calibración

4.2 Variables independientes cualitativas

4.3 Autocorrelación

4.4 Algunos usos interesantes de la regresión

1. REGRESIÓN LINEAL SIMPLE

Ajuste de una línea recta por mínimos cuadrados
1.1 Introducción

Parece que Sir Francis Galton (1822-1911) un antropólogo y metereológo británico fue responsable de la introducción de la palabra “regresión”, mostró que si Y = “estatura de los niños” y X = “estatura de los padres”, una ecuación de ajuste adecuada era µ §. El artículo de Galton es fascinante como se cuenta en The Story of the Statistics1, el método de mínimos cuadrados aparentemente fue descubierto por Carl Frederick Gauss (1777-1855)2.
El método de análisis llamado análisis de regresión, investiga y modela la relación entre una variable Y dependiente o de respuesta en función de otras variables de predicción X’s, a través del método de mínimos cuadrados.
Como ejemplo supóngase que un ingeniero industrial de una embotelladora está analizando la entrega de producto y el servicio requerido por un operador de ruta para surtir y dar mantenimiento a maquinas dispensadoras. El ingeniero visita 25 locales al azar con máquinas dispensadoras, observando el tiempo de entrega en minutos y el volumen de producto surtido en cada uno. Las observaciones se grafican en un diagrama de dispersión (Fig. 1.1), donde claramente se observa que hay una relación entre el tiempo de entrega y el volumen surtido; los puntos casi se encuentran sobre una línea recta, con un pequeño error de ajuste.

En general los modelos de regresión tienen varios propósitos como son:

Descripción de datos a través de ecuaciones

Estimación de parámetros para obtener una ecuación modelo

Predicción y estimación.

Control.
El modelo de regresión lineal simple
Al tomar observaciones de ambas variables Y respuesta y X predicción o regresor, se puede representar cada punto en un diagrama de dispersión.
Y

*

* *

*** *

*** **

***

X
Fig. 1.1 Diagrama de dispersión y recta de ajuste

El modelo de ajuste o modelo de regresión lineal es:
µ § (1.1)
Donde los coeficientes ƒÒ0 y ƒÒ1 son parámetros del modelo denominados coeficientes de regresión, son constantes, a pesar de que no podemos determinarlos exactamente sin examinar todas las posibles ocurrencias de X y Y, podemos usar la información proporcionada por una muestra para hallar sus estimados µ §. El error es difícil de determinar puesto que cambia con cada observación Y. Se asume que los errores tienen media cero, varianza desconocida ƒã2 y no están correlacionados (el valor de uno no depende del valor de otro). Por esto mismo las respuestas tampoco están correlacionadas.
Conviene ver al regresor o predictor X como la variable controlada por el analista y evaluada con el mínimo error, mientras que la variable de respuesta Y es una variable aleatoria, es decir que existe una distribución de Y con cada valor de X.
La media de esta distribución es:
µ § (1.1 a)
y su varianza es:
µ § (1.1b)
De esta forma la media de Y es una función lineal de X a pesar de que la varianza de Y no dependa de los valores de X.

1.2.1 Estimación de los parámetros por mínimos cuadrados
El método de mínimos cuadrados se usa para estimar ƒÒ0 y ƒÒ1 se estimará ƒÒ0 y ƒÒ1 de manera que la suma de cuadrados de las diferencias entre la observaciones yi y la línea recta sea mínima. Los parámetros ƒÒ0 y ƒÒ1 son desconocidos y deben ser estimados usando datos de una muestra. Supongamos que se tienen n pares de datos (y1, x1), (y1, x1), (y2, x2),....., (yn, xn) de un experimento o por historia.
De la ecuación modelo de regresión de la población

µ §
Usando los pares de datos se puede establecer el criterio de mínimos cuadrados como:
µ §

Los estimadores de mínimos cuadrados de ƒÒ0 y ƒÒ1 por decir µ §debe satisfacer es:

µ §

y

µ §

Simplificando estas dos ecuaciones se obtienen las ecuaciones de mínimos cuadrados:

µ §

µ §
La solución a las ecuaciones normales anteriores:

µ §

µ §

Donde los promedios para X y para Y son los siguientes::

µ § µ §
Aplicando el método de mínimos cuadrados del error, se obtiene el modelo que nos da un valor estimado Y en función de X, denominado ecuación de predicción o de regresión lineal, como sigue:
µ §
µ § (1.2)
Donde:
µ § (1.3)
µ § (1.4)
por tanto:
µ § (1.5)
Cuando µ § se tiene el punto µ § que se encuentra en la línea ajustada y representa el centro de gravedad de los datos.
Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X como sigue:
YX10.9835.311.1329.712.5130.88.458.89.2761.48.7371.36.3674.48.576.77.8270.79.1457.58.2446.412.1928.911.8828.19.5739.110.9446.89.5848.510.0959.38.11706.83708.8874.57.6872.18.4758.18.8644.610.3633.411.0828.6
Haciendo cálculos con el paquete Minitab con X en la columna C2 y Y en la columna C1 se tiene:

Regression Analysis: C1 versus C2

The regression equation is

C1 = 13.6 - 0.0798 C2
Predictor Coef SE Coef T P

Constant 13.6230 0.5815 23.43 0.000

C2 -0.07983 0.01052 -7.59 0.000
S = 0.8901 R-Sq = 71.4% R-Sq(adj) = 70.2%

Por lo anterior la ecuación de regresión obtenida es:

µ § (1.6)
Después de obtener esta ecuación, surgen algunas preguntas:

¿qué tan bien ajusta los datos esta ecuación?

¿el útil el modelo para hacer predicciones?

¿se viola alguna condición como varianza constante y no correlación en los errores, de ser así que tan seria es?

Todo esto debe ser aclarado antes de usar el modelo.
1.2.2 Análisis de Varianza
El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.
La desviación estándar S corresponde a la raíz cuadrada del valor de MSE o cuadrado medio residual.
µ § (1.7)
Donde:
µ § (1.8)

µ § (1.9)
La expresión µ § es el residuo que expresa la diferencia entre el valor observado y el valor estimado por la ecuación de predicción.
Donde:
µ § (1.10)

Y
Yi
^ µ §

Yi µ §

_

Y

línea ajustada

µ §

X

Xi
Fig. 1.2 Errores involucrados en la recta de ajuste
La cantidad µ § es la desviación de la observación i-ésima respecto a la media. Por otra parte:
µ § (1.11)
Suma de cuadrados = Suma de cuadrados + Suma de cuadrados

respecto a la media de la regresión del error o residuos
De tal forma que la tabla de análisis de varianza queda como:
Tabla de Análisis de Varianza .
Fuente df SS MS = SS/df Fc

Regresión 1 µ § µ § MSreg/s2 =MSreg/MSE

Residual n-2 µ § S2=MSE=SSE/n-2

__________________________________________________________.

Total corregido n-1 µ §

donde:
µ § (1.12)
µ § (1.13)
Obteniéndose con el Minitab
Source DF SS MS F P

Regression 1 45.592 45.592 57.54 0.000

Residual Error 23 18.223 0.792

Total corrected 24 63.816
El estadístico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con (1, n-2) grados de libertad y área en 100(1-ƒÑ)%, para determinar si el parámetro ƒÒ1 es significativo que es el caso de Fcalc. > Ftablas.
En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a 4.28, por tanto se rechaza H0 aceptando que existe una ecuación de regresión.
El área de la cola de Fc está descrita por el valor de p que debe ser menor o igual al valor de ƒÑ, en este caso es casi cero.

1.2.3 Intervalos de confianza para µ §
En base al error estándar para los parámetros se tiene:
(1.14)

µ § (1.15)
Del ejemplo, como s = 0.7963 y SXX = 7154.42

µ §
El intervalo de confianza 100 (1 - ƒÑ)% para µ §,µ §, considerando que las observaciones y los errores siguen un comportamiento normal, es:
Y Para el coeficiente ƒÒo se tiene:

µ § (1.16)

(1.16a)
Para el caso del coeficiente Beta 1:
El error estándar es:

µ § (1.17ª)

(1.17)

Suponiendo ƒÑ = 0.05, t(23,0.975) = 2.069, los límites de confianza para el parámetro µ § son:
-0.798 „b (2.069)(0.0105) o sea -0.798 „b 0.0217

y µ § se encuentra en el intervalo (-0.1015, -0.0581).
Para el caso de sigma, si los errores están distribuidos normalmente y son independientes, la distribución del estadístico,
µ §
es Chi-cuadrada con n ¨C 2 grados de libertad y de esta forma:
µ §
Por consecuencia un intervalo de confianza 100 (1 - Ą ) % en ċ2 es:
µ § (1.18)
1.2.4 Estimación del intervalo para la media de la respuesta
Una aplicación mayor del análisis de regresión es la estimación de la media de la respuesta E(Y) para un valor particular de la variable regresora X. El valor esperado de la respuesta Y media para un cierto valor de X = X0 es:
(1.19)
Para obtener un intervalo de confianza con 100(1 - ƒÑ )% para el coeficiente ƒÒ1 se aplica la fórmula siguiente:
µ § (1.20b)
Ver gráfica anterior del ejemplo.
1.2.5 Predicción de nuevas observaciones

Esta es otra de las aplicaciones del modelo de regresión, predecir nuevas observaciones Y correspondientes a un nivel específico de la variable regresora X. La banda de predicción es más ancha dado que depende tanto del error del modelo de ajuste y el error asociado con observaciones futuras µ §. El intervalo es mínimo en µ § y se amplia conforme se incrementa la diferencia entre µ §

La variable aleatoria,
µ §
Está normalmente distribuida con media cero y varianza:
µ §
Si se usa µ § para predecir a µ § entonces el error estándar de ƒÚ = µ § - µ §, es el estadístico apropiado para establecer un intervalo de predicción probabilístico, en el caso de un intervalo 100 (1 - ƒÑ ) % sobre una observación futura en µ § se tiene:

(1.21

Se puede generalizar para encontrar un intervalo de predicción del 100(1-ƒÑ) porciento para la media de m observaciones futuras en X = Xo. Sea Ymedia la media de las observaciones futuras en X = Xo. El intervalo de predicción estimado es:
µ §
1.2.6 Pruebas de hipótesis para la pendiente e intersección
Prueba de Hipótesis para Ho:ƒÒ0 = ƒÒ10 contra H1:ƒÒ0 „j ƒÒ10

Calculando el estadístico t, considerando que µ § = 0, se tiene:
µ § (1.22)
Probar la hipótesis para b0 no tiene interés práctico.

Ahora para probar la significancia de b1 se tiene:
µ § para µ § grados de libertad (1.23)
Si µ § se rechaza la hipótesis nula, indicando que ƒÒ1 es significativo y se tiene regresión lineal.
Del ejemplo:

µ §
Como µ § excede el valor crítico de t = 2.069, se rechaza Ho (o sea el valor de p << 0.05) .Por tanto este coeficiente es significativo.
Es importante notar que el valor de F = t2.

La salida del Minitab es como sigue:

Predictor Coef SE Coef T P

Constant = b0 13.6230 0.5815 23.43 0.000

C2 = b1 -0.07983 0.01052 -7.59 0.000

1.2.7 Inferencia simultanea para los parámetros del modelo
Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa) porciento de que ambos estimados son correctos es:
µ §
1.2.8 Estimación simultanea de la respuesta media

La estimación simultanea de la respuesta media es:

Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores específicos X, vgr. X1, X2, ¡K., Xm, que tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) porciento.
Se puede utilizar el módulo t de Scheffé:

µ §

Donde µ § es el punto de la cola superior alfa de la distribución del valor máximo absoluto de dos variables aleatorias t-student cada una basada en n-2 grados de libertad. Estos dan intervalos más cortos. Para el caso de alfa = 0.10, m=2,n=18 se tiene de tablas (A.8):

µ §

µ §

La Delta de Boferroni como sigue:

µ §

µ §

Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni no dependen de m.
1.2.9 Predicción de nuevas observaciones

El conjunto de intervalos de predicción para m nuevas observaciones en los niveles X1, X2,¡K, Xm que tienen un nivel de confianza de al menos (1-alfa) es:

1.2.10 Correlación
Las discusiones anteriores de análisis de regresión han asumido que X es una variable controlable medida con un error despreciable y que Y es una variable aleatoria. Muchas aplicaciones de análisis de regresión involucran situaciones donde tanto X como Y son variables aleatorias y los niveles de X no pueden ser controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,¡K,n son variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la relación entre los refrescos vendidos y la temperatura del día. Se asume que la distribución conjunta de Y y X es la distribución normal divariada, que es:

µ §

Donde ƒÝ1 y ƒã12 corresponden a la media y la varianza de Y, y ƒÝ2 y ƒã22 corresponden a la media y la varianza de X y
µ §

Es el coeficiente de correlación entre Y y X. ƒã12 es la covarianzade Y y X.

La distribución condicional de Y para un valor de X es:

µ §

Donde:

µ §

µ §

µ §µ §

La correlación es el grado de asociación que existe las variables X y Y, se indica por el estadístico ƒâ cuyo estimador es el coeficiente de correlación de la muestra r ó rxy. Donde:
µ § (1.24)
µ § (1.25)
Un estadístico útil es el valor del ajuste de la regresión R2, coeficiente de determinación que se define como:
r = rxy = (signo de b1)R (1.26)

(1.27)
Como Syy es una medida de la variabilidad en Y sin considerar el efecto de la variable regresora X y SSE es una medida de la variabilidad en Y que queda después de que se ha considerado X, R2 mide la proporción de la variación total respecto a la media que es explicada por la regresión. Es frecuente expresarla en porcentaje. Puede tomar valores entre 0 y 1, los valores cercanos a 1 implican que la mayoría de la variabilidad es explicada por el modelo de regresión.
En el ejemplo:

R-Sq = 71.4% R-Sq(adj) = 70.2%

Se debe tener cuidado con la interpretación de R2, ya que su magnitud también depende del rango de variabilidad en la variable regresora. Generalmente se incrementa conforme se incrementa la dispersión de X y decrece en caso contrario, de esta forma un valor grande de R2 puede ser resultado de un rango de variación no realista de X o puede ser muy pequeña debido a que el rango de X fue muy pequeño y para permitir la detección de su relación con Y.
  1   2   3   4   5   6   7   8   9   ...   14

similar:

Análisis de Regresión P. Reyes / Enero, 2007 iconMetodología de análisis con Series de tiempo P. Reyes / Marzo 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconTarea Análisis de Regresión Lineal Simple y Múltiple

Análisis de Regresión P. Reyes / Enero, 2007 iconOpinión Que Tienen Los Adolescentes Acerca De La Atención En La Consulta...

Análisis de Regresión P. Reyes / Enero, 2007 iconEjercicios de la fase de medición p. Reyes / Enero 2008

Análisis de Regresión P. Reyes / Enero, 2007 iconTeoría de restricciones p. Reyes / Sept. 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconCurso de diseño de experimentos p. Reyes / Sept. 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconSolución Inventiva de Problemas P. Reyes / Sept. 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconPruebas de hipótesis de dos poblaciones p. Reyes/Sept. 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconAnova de dos vías o direcciones (un factor bloqueado) P. Reyes / Sept. 2007

Análisis de Regresión P. Reyes / Enero, 2007 iconEjercicios lean sigma fase de análisis p. Reyes / febrero 2009


Medicina



Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com