Modelo de mínimos cuadrados parciales (pls) Minitab




descargar 0.93 Mb.
títuloModelo de mínimos cuadrados parciales (pls) Minitab
página5/6
fecha de publicación31.01.2016
tamaño0.93 Mb.
tipoResumen
med.se-todo.com > Documentos > Resumen
1   2   3   4   5   6

Ingreso de Datos

La caja de diálogo solicita los nombres de las columnas que contienen a las variables

dependientes Y e independientes X:

Y: una o más columnas numéricas que contienen las n observaciones para las variables

dependientes Y. Se pueden ingresar nombres de columnas o expresiones de

STATGRAPHICS.
X: una o más columnas numéricas que contienen los n valores para las variables

independientes X.
Selección: selección de un subgrupo de datos. Las filas seleccionadas se usarán como el

grupo de entrenamiento. Las filas así elegidas pueden usarse como un grupo de prueba para

validar el modelo ajustado.
En el ejemplo, se tomaron los logaritmos base 10 de las concentraciones para crear dos variables

dependientes. Todas las 30 frecuencias se ingresaron en el campo de las Variables

Independientes. La entrada en el campo Selección hará que las primeras 18 filas se usen como

grupo de entrenamiento.
Modelo Estadístico

Al igual que en regresión múltiple, el objetivo de los mínimos cuadrados parciales (PLS) es

construir un modelo lineal de la forma
Y = Xβ + E (1)
donde Y es una matriz n por m que contiene los n valores estandarizados de las m variables

dependientes, X es una matriz n por p que contiene los valores estandarizados de las p variables

predictoras, β es una matriz p por m de parámetros del modelo, y E es una matriz n por m de

errores. A diferencia de la regresión múltiple, el número de observaciones n puede ser menor que

el número de variables independientes p.
Sin embargo, en vez de estimar β directamente, se extraen primero c componentes. Luego los

coeficientes se calculan a partir del producto de dos matrices:
β = WQ (2)
donde W es una matriz p por c de pesos que transforman a X en una matriz T de valores de los

factores de acuerdo con
T = XW (3)
y Q es una matriz de coeficientes de regresión (cargas) que expresan la dependencia entre Y y los

valores de los factores:
Y = TQ + E (4)
La matriz de variables independientes también puede representarse en términos de P una matriz c

por p de cargas de factores como
X = TP + F (5)
donde F es una matriz n por p de desviaciones.
Parte de la tarea al realizar un análisis de mínimos cuadrados parciales (PLS) es determinar el

número apropiado de componentes c. Si se establece c demasiado bajo o demasiado alto, el

modelo puede no dar buenas predicciones para las futuras observaciones.
Resumen del Análisis

El Resumen de Análisis muestra información sobre el modelo ajustado. La sección de arriba de la

salida resume los datos de entrada y presenta un análisis de varianza para cada variable

dependiente.


Se incluyen en la salida:
Resumen Estadístico: un indicador del número (p) de variables X y (m) del número de

variables Y.
Número de Casos Completos: el número de observaciones n en el grupo de

entrenamiento.
Número de Componentes Extraídos: el número de componentes c usado para ajustar el

modelo. c no puede ser mayor que el menor de p y (n – 1).
Validación Cruzada: el método para validar el modelo de predicción. Dependiendo de

las Opciones del Análisis, un grupo de prueba interno o externo puede ser usado para

ayudar a elegir el número de componentes.
Análisis de Varianza: una tabla de ANOVA para cada una de las variables dependientes.

Valores pequeños de P (por debajo de 0.05 si se trabaja al nivel de significancia del 5%)

indican que el modelo es estadísticamente significativo.
En el ejemplo anterior, se extrajeron 10 componentes. Los modelos resultantes son predictores

significativos para las concentraciones de ambos aminoácidos., ya que ambos valores de P son

extremadamente pequeños.

La segunda parte de la salida ilustra la utilidad del modelo con diferente número de

componentes:

Para cada variable dependiente, las tablas muestran:
% de Variación en Y: el porcentaje de la suma de cuadrados total corregida para el

grupo de entrenamiento explicada por cada componente conforme es agregado al

ajuste.
R-Cuadrada: el porcentaje acumulado del total de la variación explicada por los

modelos con el número indicado de componentes, en una escala de 0% a 100%.
Cuadrado Medio PRESS: cuadrado medio de los errores de predicción, calculado a

partir del grupo de prueba de validación cruzada (PRESS, Prediction Error Sum of

Squares – Suma de Cuadrados del Error de Predicción). Esta estadística es

comparable al cuadrado medio de los residuos de la tabla de ANOVA, excepto que la

primera se calcula a partir de las predicciones para las observaciones cuando éstas no

se emplean para ajustar el modelo. Al elegir el número de componentes a extraer, se

debe buscar un modelo con un cuadrado medio PRESS pequeño.
R Cuadrada de Predicción: uno menos la razón del Cuadrado Medio PRESS para el

número indicado de componentes al valor cuando se ajusta un modelo con sólo un

término constante. Valores altos indican buenos modelos.
La R Cuadrada de Predicción alcanza un pico para LOG10(Tryptophan) en 3 componentes, y

para LOG10(Tyrosine) en 9 componentes.
La última sección de la salida presenta una tabla similar para los porcentajes de la variación total

en las variables X y Y explicada conforme aumenta el número de componentes.


La última columna muestra la R Cuadrada de Predicción promedio a través de todas las

variables dependientes. El promedio alcanza un pico en 7 componentes, sugiriendo que un

modelo con siete componentes sería una buena elección.

Este gráfico es útil para visualizar cuántos componentes tienen que extraerse. Advierta que el

porcentaje de variación para PRESS aumenta a lo largo de 7 componentes.

Nota: En el resto de este documento, se mostrarán los resultados para un modelo con 7

componentes.
Opciones del Análisis


Número de componentes: el número de componentes a incluir en el modelo. Este número

no puede exceder al menor del número de variables independientes y n – 1.
Método de Validación: el método para validar de forma cruzada el modelo. Esto consiste en

usar el modelo para predecir observaciones excluidas del ajuste del modelo. Se pueden usar

los siguientes métodos:
1. Ninguno – no se lleva a cabo la validación cruzada.
2. Sacar uno a la vez – el modelo se vuelve a ajustar n veces, cada vez dejando fuera 1 de

las observaciones y volviendo a ajustar el modelo usando las otras n – 1. Luego la

observación omitida se predice con el modelo del que fue excluida.
3. Sacar cada k-ésima – éste es similar al método #2, excepto que sólo cada k-ésima

observación es omitida y luego predicha. Esto acorta el proceso en grandes conjuntos de

datos.
4. Dejar fuera bloques de k – las observaciones se remueven en grupos de k, el modelo se

vuelve a ajustar, y se predicen las k observaciones.
5. Usar casos no seleccionados – si hizo uso del campo Seleccionar en la caja de diálogo

del ingreso de datos, los casos excluidos por esa selección se usarán como casos de

prueba.

En el ejemplo, el campo Seleccionar eligió las primeras 18 filas para usarlas como grupo de

entrenamiento para el modelo, formando con las 15 filas restantes un grupo de prueba.
Coeficientes de Regresión

La table de Coeficientes de Regresión muestra los coeficientes estimados de los modelos

ajustados. Se exhiben ambos coeficientes, estandarizados y sin estandarizar. A continuación se

muestra una pequeña sección de la salida:


El modelo sin estandarizar muestra la ecuación ajustada en la métrica de las mediciones

originales. Por ejemplo, el modelo para la primera variable dependiente es
log(Tryptopan) = -4.851 – 0.105f1 + 0.113f2 – 0.126f3 + 0.406f4 + … (6)
El modelo estandarizado reexpresa cada una de las variables en una forma estandarizada

substrayendo su media muestral y dividiendo entre su desviación estándar muestral. Expresando

las nuevas variables como Y, X1, X2, y así sucesivamente, el modelo estandarizado para dos datos

muestrales es
Y = – 0.160X1 + 0.173X2 – 0.171X3 + 0.423X4 + … (7)
Mientras que el modelo sin estandarizar es útil para hacer predicciones para nuevas muestras, los

coeficientes del modelo estandarizado se comparan más fácilmente entre sí cuando las variables

predictoras tienen diferentes unidades.
Gráfica de Coeficientes

La Gráfica de Coeficientes presenta una de dos cantidades:
1. Los coeficientes de regresión estandarizados β para cada variable dependiente.
2. Las cargas Q del componente para cada variable dependiente.
El ejemplo a continuación grafica las β’s:


Los coeficientes proveen un tipo de firma para cada variable dependiente. Advierta el gran

coeficiente negativo para f4 cuando predice LOG10(Tyrosine).

Opciones de Ventana


Eje Y: la cantidad y valor a graficar en el eje vertical.
Primer Y/Comp: el índice de la primer variable o componente a incluir en el gráfico.
Última Y/Comp: el índice de la última variable o componente a incluir en el gráfico.
Primer X: el índice de la primer variable independiente a incluir en el gráfico.
Última X: el índice de la última variable independiente a incluir en el gráfico.
Pesos y Cargas de los Componentes
La tabla de Pesos y Cargas de los Componentes identifica cada uno de los componentes que se

extrajeron de los datos. A continuación se muestra una porción de la tabla:


Se incluyen en la tabla:
1. Q, la matriz c por m de cargas (coeficientes de regresión) que relaciona la matriz de

valores de los factores T con la variable dependiente Y:

Y = TQ + E (8)
2. W, la matriz p por c de pesos de los factores, que crean los valores de los factores a partir

de los valores estandarizados de las variables independientes de acuerdo con

T = XW (9)
Gráfico de Componentes 2D

La opción Gráfico de Componentes 2D presentará la matriz T de puntajes de los factores o las

matrices W y P de los pesos de los componentes. En el caso de la matriz de valores de los

factores, el gráfico toma la siguiente forma:



Se seleccionan dos factores, para por cada eje, y se grafican n puntos que representan las n filas

en las correspondientes columnas de T. En situaciones donde los factores son interpretables, este

gráfico muestra el valor de cada una de las muestras para estos factores.

Si se eligen los pesos de los componentes, el gráfico tiene la siguiente forma:



Se eligen dos componentes, uno para cada eje, y se grafican p + m puntos que representan las p

variables independientes y las m variables dependientes. A partir de esta gráfica, se puede ver

cómo cada una de las variables originales afecta a los componentes derivados.
Opciones de Ventana


Graficar – Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los

pesos del componenete.
Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje

horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje

vertical.
Gráfica de Componentes 3D
La opción Gráfica de Componentes 3D es análoga al gráfico 2D excepto que se eligen tres

componentes.


Opciones de Ventana



Graficar – Elija columnas de ya sea la matriz T de valores del factor o de la matriz W de los

pesos del componente.
Componente en Eje X: Seleccione uno de los c componentes para que se grafique en el eje

horizontal.
Componente en Eje Y: Seleccione uno de los c componentes para que se grafique en el eje

que se extiende hacia atrás al interior de la pantalla.
Componente en Eje Z: Seleccione uno de los c componentes para que se grafique en el eje

vertical.
Predicciones y Residuos
La ventana de Predichos y Residuos presenta información para las observaciones en el grupo de

entrenamiento, observaciones en el grupo de prueba, y/o cualesquiera nuevas filas que hayan

sido agregadas a la hoja de datos que contengan valores para las variables independientes pero

valores faltantes para Y. La última opción le permite emplear el modelo para hacer predicciones

para las observaciones no incluidas ni en el grupo de entrenamiento ni en el de prueba.

La tabla a continuación muestra parte de la salida para los datos del ejemplo:


Se incluye una tabla por separado para cada variable dependiente. Se incluyen en la tabla:
Fila – el número de la fila en la hoja de datos.
Y – el valor observado de la variable independiente, si lo hay.
Predicho – el valor Yˆ predicho a partir del modelo ajustado.
Residuo – el valor del residuo para la i-ésima observación de la j-ésima variable

dependiente se calcula con

Residuo Estandarizado – para los casos en el grupo de entrenamiento, un residuo

Estudentizado internamente calculado dividiendo cada residuo entre una estimación de su

error estándar, dado por

donde hi es el punto nivelador del i-ésimo caso.
Opciones de Ventana



Las filas mostradas pueden incluir:
1. Residuos atípicos en el grupo de entrenamiento: cualquiera hileras en el grupo de

entrenamiento con residuos estandarizados que excedan de 2 en valor absoluto.
2. Todo el grupo de entrenamiento: todas las hileras del grupo de entrenamiento.
3. Conjunto de prueba: todas las hileras del grupo de prueba.
4. Filas con respuestas vacías: filas con valores vacías para una o más de las variables

dependientes.
1   2   3   4   5   6

similar:

Modelo de mínimos cuadrados parciales (pls) Minitab icon8 propiedades molales parciales

Modelo de mínimos cuadrados parciales (pls) Minitab iconPruebas parciales escritas

Modelo de mínimos cuadrados parciales (pls) Minitab iconTema 5 ley de dalton de las presiones parciales

Modelo de mínimos cuadrados parciales (pls) Minitab iconExisten dos métodos diferentes por los cuales la fundición a la arena...

Modelo de mínimos cuadrados parciales (pls) Minitab iconProyecto Previas Por Parciales -ausentismo y Bajo Rendimiento- horas Libres

Modelo de mínimos cuadrados parciales (pls) Minitab iconExperimento rayos catódicos, modelo de Thompson, experimento de Rutherford y su modelo

Modelo de mínimos cuadrados parciales (pls) Minitab iconActividades propuestas para Previas por parciales, Horas Libres y...

Modelo de mínimos cuadrados parciales (pls) Minitab iconXpo se convertirá en el segundo mayor proveedor de servicios de grupaje...

Modelo de mínimos cuadrados parciales (pls) Minitab iconContenidos mínimos

Modelo de mínimos cuadrados parciales (pls) Minitab iconContenidos mínimos de la asignatura


Medicina



Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com