descargar 0.93 Mb.
|
Ingreso de Datos La caja de diálogo solicita los nombres de las columnas que contienen a las variables dependientes Y e independientes X: ![]() • Y: una o más columnas numéricas que contienen las n observaciones para las variables dependientes Y. Se pueden ingresar nombres de columnas o expresiones de STATGRAPHICS. • X: una o más columnas numéricas que contienen los n valores para las variables independientes X. • Selección: selección de un subgrupo de datos. Las filas seleccionadas se usarán como el grupo de entrenamiento. Las filas así elegidas pueden usarse como un grupo de prueba para validar el modelo ajustado. En el ejemplo, se tomaron los logaritmos base 10 de las concentraciones para crear dos variables dependientes. Todas las 30 frecuencias se ingresaron en el campo de las Variables Independientes. La entrada en el campo Selección hará que las primeras 18 filas se usen como grupo de entrenamiento. Modelo Estadístico Al igual que en regresión múltiple, el objetivo de los mínimos cuadrados parciales (PLS) es construir un modelo lineal de la forma Y = Xβ + E (1) donde Y es una matriz n por m que contiene los n valores estandarizados de las m variables dependientes, X es una matriz n por p que contiene los valores estandarizados de las p variables predictoras, β es una matriz p por m de parámetros del modelo, y E es una matriz n por m de errores. A diferencia de la regresión múltiple, el número de observaciones n puede ser menor que el número de variables independientes p. Sin embargo, en vez de estimar β directamente, se extraen primero c componentes. Luego los coeficientes se calculan a partir del producto de dos matrices: β = WQ (2) donde W es una matriz p por c de pesos que transforman a X en una matriz T de valores de los factores de acuerdo con T = XW (3) y Q es una matriz de coeficientes de regresión (cargas) que expresan la dependencia entre Y y los valores de los factores: Y = TQ + E (4) La matriz de variables independientes también puede representarse en términos de P una matriz c por p de cargas de factores como X = TP + F (5) donde F es una matriz n por p de desviaciones. Parte de la tarea al realizar un análisis de mínimos cuadrados parciales (PLS) es determinar el número apropiado de componentes c. Si se establece c demasiado bajo o demasiado alto, el modelo puede no dar buenas predicciones para las futuras observaciones. Resumen del Análisis El Resumen de Análisis muestra información sobre el modelo ajustado. La sección de arriba de la salida resume los datos de entrada y presenta un análisis de varianza para cada variable dependiente. ![]() Se incluyen en la salida: • Resumen Estadístico: un indicador del número (p) de variables X y (m) del número de variables Y. • Número de Casos Completos: el número de observaciones n en el grupo de entrenamiento. • Número de Componentes Extraídos: el número de componentes c usado para ajustar el modelo. c no puede ser mayor que el menor de p y (n – 1). • Validación Cruzada: el método para validar el modelo de predicción. Dependiendo de las Opciones del Análisis, un grupo de prueba interno o externo puede ser usado para ayudar a elegir el número de componentes. • Análisis de Varianza: una tabla de ANOVA para cada una de las variables dependientes. Valores pequeños de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%) indican que el modelo es estadísticamente significativo. En el ejemplo anterior, se extrajeron 10 componentes. Los modelos resultantes son predictores significativos para las concentraciones de ambos aminoácidos., ya que ambos valores de P son extremadamente pequeños. La segunda parte de la salida ilustra la utilidad del modelo con diferente número de componentes: ![]() Para cada variable dependiente, las tablas muestran: • % de Variación en Y: el porcentaje de la suma de cuadrados total corregida para el grupo de entrenamiento explicada por cada componente conforme es agregado al ajuste. • R-Cuadrada: el porcentaje acumulado del total de la variación explicada por los modelos con el número indicado de componentes, en una escala de 0% a 100%. • Cuadrado Medio PRESS: cuadrado medio de los errores de predicción, calculado a partir del grupo de prueba de validación cruzada (PRESS, Prediction Error Sum of Squares – Suma de Cuadrados del Error de Predicción). Esta estadística es comparable al cuadrado medio de los residuos de la tabla de ANOVA, excepto que la primera se calcula a partir de las predicciones para las observaciones cuando éstas no se emplean para ajustar el modelo. Al elegir el número de componentes a extraer, se debe buscar un modelo con un cuadrado medio PRESS pequeño. • R Cuadrada de Predicción: uno menos la razón del Cuadrado Medio PRESS para el número indicado de componentes al valor cuando se ajusta un modelo con sólo un término constante. Valores altos indican buenos modelos. La R Cuadrada de Predicción alcanza un pico para LOG10(Tryptophan) en 3 componentes, y para LOG10(Tyrosine) en 9 componentes. La última sección de la salida presenta una tabla similar para los porcentajes de la variación total en las variables X y Y explicada conforme aumenta el número de componentes. ![]() La última columna muestra la R Cuadrada de Predicción promedio a través de todas las variables dependientes. El promedio alcanza un pico en 7 componentes, sugiriendo que un modelo con siete componentes sería una buena elección. ![]() Este gráfico es útil para visualizar cuántos componentes tienen que extraerse. Advierta que el porcentaje de variación para PRESS aumenta a lo largo de 7 componentes. Nota: En el resto de este documento, se mostrarán los resultados para un modelo con 7 componentes. Opciones del Análisis ![]() • Número de componentes: el número de componentes a incluir en el modelo. Este número no puede exceder al menor del número de variables independientes y n – 1. • Método de Validación: el método para validar de forma cruzada el modelo. Esto consiste en usar el modelo para predecir observaciones excluidas del ajuste del modelo. Se pueden usar los siguientes métodos: 1. Ninguno – no se lleva a cabo la validación cruzada. 2. Sacar uno a la vez – el modelo se vuelve a ajustar n veces, cada vez dejando fuera 1 de las observaciones y volviendo a ajustar el modelo usando las otras n – 1. Luego la observación omitida se predice con el modelo del que fue excluida. 3. Sacar cada k-ésima – éste es similar al método #2, excepto que sólo cada k-ésima observación es omitida y luego predicha. Esto acorta el proceso en grandes conjuntos de datos. 4. Dejar fuera bloques de k – las observaciones se remueven en grupos de k, el modelo se vuelve a ajustar, y se predicen las k observaciones. 5. Usar casos no seleccionados – si hizo uso del campo Seleccionar en la caja de diálogo del ingreso de datos, los casos excluidos por esa selección se usarán como casos de prueba. En el ejemplo, el campo Seleccionar eligió las primeras 18 filas para usarlas como grupo de entrenamiento para el modelo, formando con las 15 filas restantes un grupo de prueba. Coeficientes de Regresión La table de Coeficientes de Regresión muestra los coeficientes estimados de los modelos ajustados. Se exhiben ambos coeficientes, estandarizados y sin estandarizar. A continuación se muestra una pequeña sección de la salida: ![]() El modelo sin estandarizar muestra la ecuación ajustada en la métrica de las mediciones originales. Por ejemplo, el modelo para la primera variable dependiente es log(Tryptopan) = -4.851 – 0.105f1 + 0.113f2 – 0.126f3 + 0.406f4 + … (6) El modelo estandarizado reexpresa cada una de las variables en una forma estandarizada substrayendo su media muestral y dividiendo entre su desviación estándar muestral. Expresando las nuevas variables como Y, X1, X2, y así sucesivamente, el modelo estandarizado para dos datos muestrales es Y = – 0.160X1 + 0.173X2 – 0.171X3 + 0.423X4 + … (7) Mientras que el modelo sin estandarizar es útil para hacer predicciones para nuevas muestras, los coeficientes del modelo estandarizado se comparan más fácilmente entre sí cuando las variables predictoras tienen diferentes unidades. Gráfica de Coeficientes La Gráfica de Coeficientes presenta una de dos cantidades: 1. Los coeficientes de regresión estandarizados β para cada variable dependiente. 2. Las cargas Q del componente para cada variable dependiente. El ejemplo a continuación grafica las β’s: ![]() Los coeficientes proveen un tipo de firma para cada variable dependiente. Advierta el gran coeficiente negativo para f4 cuando predice LOG10(Tyrosine). Opciones de Ventana ![]() • Eje Y: la cantidad y valor a graficar en el eje vertical. • Primer Y/Comp: el índice de la primer variable o componente a incluir en el gráfico. • Última Y/Comp: el índice de la última variable o componente a incluir en el gráfico. • Primer X: el índice de la primer variable independiente a incluir en el gráfico. • Última X: el índice de la última variable independiente a incluir en el gráfico. Pesos y Cargas de los Componentes La tabla de Pesos y Cargas de los Componentes identifica cada uno de los componentes que se extrajeron de los datos. A continuación se muestra una porción de la tabla: ![]() Se incluyen en la tabla: 1. Q, la matriz c por m de cargas (coeficientes de regresión) que relaciona la matriz de valores de los factores T con la variable dependiente Y: Y = TQ + E (8) 2. W, la matriz p por c de pesos de los factores, que crean los valores de los factores a partir de los valores estandarizados de las variables independientes de acuerdo con T = XW (9) Gráfico de Componentes 2D La opción Gráfico de Componentes 2D presentará la matriz T de puntajes de los factores o las matrices W y P de los pesos de los componentes. En el caso de la matriz de valores de los factores, el gráfico toma la siguiente forma: ![]() Se seleccionan dos factores, para por cada eje, y se grafican n puntos que representan las n filas en las correspondientes columnas de T. En situaciones donde los factores son interpretables, este gráfico muestra el valor de cada una de las muestras para estos factores. Si se eligen los pesos de los componentes, el gráfico tiene la siguiente forma: ![]() Se eligen dos componentes, uno para cada eje, y se grafican p + m puntos que representan las p variables independientes y las m variables dependientes. A partir de esta gráfica, se puede ver cómo cada una de las variables originales afecta a los componentes derivados. Opciones de Ventana ![]() • Graficar – Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los pesos del componenete. • Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje horizontal. • Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje vertical. Gráfica de Componentes 3D La opción Gráfica de Componentes 3D es análoga al gráfico 2D excepto que se eligen tres componentes. ![]() Opciones de Ventana ![]() • Graficar – Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los pesos del componente. • Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje horizontal. • Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje que se extiende hacia atrás al interior de la pantalla. • Componente en Eje Z: Seleccione uno de los c componentes para que se grafique en el eje vertical. Predicciones y Residuos La ventana de Predichos y Residuos presenta información para las observaciones en el grupo de entrenamiento, observaciones en el grupo de prueba, y/o cualesquiera nuevas filas que hayan sido agregadas a la hoja de datos que contengan valores para las variables independientes pero valores faltantes para Y. La última opción le permite emplear el modelo para hacer predicciones para las observaciones no incluidas ni en el grupo de entrenamiento ni en el de prueba. La tabla a continuación muestra parte de la salida para los datos del ejemplo: ![]() Se incluye una tabla por separado para cada variable dependiente. Se incluyen en la tabla: • Fila – el número de la fila en la hoja de datos. • Y – el valor observado de la variable independiente, si lo hay. • Predicho – el valor Yˆ predicho a partir del modelo ajustado. • Residuo – el valor del residuo para la i-ésima observación de la j-ésima variable dependiente se calcula con ![]() • Residuo Estandarizado – para los casos en el grupo de entrenamiento, un residuo Estudentizado internamente calculado dividiendo cada residuo entre una estimación de su error estándar, dado por ![]() donde hi es el punto nivelador del i-ésimo caso. Opciones de Ventana ![]() Las filas mostradas pueden incluir: 1. Residuos atípicos en el grupo de entrenamiento: cualquiera hileras en el grupo de entrenamiento con residuos estandarizados que excedan de 2 en valor absoluto. 2. Todo el grupo de entrenamiento: todas las hileras del grupo de entrenamiento. 3. Conjunto de prueba: todas las hileras del grupo de prueba. 4. Filas con respuestas vacías: filas con valores vacías para una o más de las variables dependientes. |