Práctica 5. Análisis Multivariante con SPSS. Reducción de Datos: Análisis de Componentes Principales y Factorial. Grupo de Petrología Aplicada

Ir a contenido Ir a Estudios, Gobernanza y organización
Logo UA
Realizar búsqueda
Menú
Grupos de investigación
Logo Grupo de Petrología Aplicada   Grupo de Petrología Aplicada
Grupo de Petrología Aplicada

Práctica 5. Análisis Multivariante con SPSS. Reducción de Datos: Análisis de Componentes Principales y Factorial.

 

5.1. Introducción.

El Análisis Factorial y el Análisis de Componentes Principales (ACP) están muy relacionados y son una técnica de análisis multivariante de reducción de datos. Algunos autores consideran el segundo como una etapa del primero y otros los consideran como técnicas diferentes.

El método de componentes principales tiene como objetivo transformar un conjunto de variables originales, en un nuevo conjunto de variables (sin perder información), combinación lineal de las originales, denominadas componentes principales (factores). El ACP trata de hallar estos componentes o factores, los cuales se caracterizan por estar incorrelacionadas entre sí, que sucesivamente expliquen la mayor parte de la varianza total.

En el Análisis de Componentes Principales, el primer factor o componente sería aquel que explica una mayor parte de la varianza total, el segundo factor sería aquel que explica la mayor parte de la varianza restante, es decir, de la que no explicaba el primero y así sucesivamente. De este modo sería posible obtener tantos componentes como variables originales aunque esto en la práctica no tiene sentido.

Por su parte el Análisis Factorial busca factores que expliquen la mayor parte de la varianza común. En el Análisis Factorial se distingue entre varianza común y varianza única. La varianza común es la parte de la variación de la variable que está compartida con las otras variables y se puede cuantificar con la denominada comunalidad. La varianza única es la parte de la variación de la variable que es propia de esa variable. El Análisis de Componentes Principales no hace esa distinción entre los dos tipos de varianza, se centra en la varianza total. Mientras que el Análisis de Componentes Principales busca hallar combinaciones lineales de las variables originales que expliquen la mayor parte de la variación total, el Análisis Factorial pretende hallar un nuevo conjunto de variables, menor en número que las variables originales, que exprese lo que es común a esas variables.

El hecho que el ACP se utilice como uno de los métodos de extracción de factores en el Análisis Factorial, puede hacer pensar erróneamente que son métodos equivalentes. Por otra parte, en algunos programas, como el SPSS, ambas técnicas están dentro del mismo procedimiento general.

 

Aplicación del análisis

Es muy importante hacer hincapié en que las componentes principales se expresan como una combinación lineal de las variables originales. Desde el punto de vista de su aplicación, el método de componentes principales es considerado como un método de reducción de datos, es decir, un método que permite reducir la dimensión del número de variables que inicialmente se han considerado.

En cuanto al interés que presenta el ACP, en muchas ocasiones nos enfrentamos a situaciones en las que para analizar un proceso geoquímico disponemos de información de muchas variables que están correlacionadas entre sí en mayor o menor grado. Estas correlaciones tienen como un velo que impiden evaluar adecuadamente el papel que juega cada variable en el fenómeno que estamos. El ACP permite pasar a un nuevo conjunto de variables, las componentes principales, que gozan de la ventaja de estar incorrelaciondas entre sí y que, además, pueden ordenarse de acuerdo con la información que lleva incorporada. Para medir de la cantidad de información incorporada en una componente se utiliza la varianza. Es decir, cuanto mayor sea su varianza mayor es la información que lleva incorporada dicha componente. Por esta razón se selecciona como primera componente aquella que tenga mayor varianza, mientras que, por el contrario, la última es la de menor varianza.

La gran aplicación del análisis factorial y el ACP en el campo de la geoquímica es la búsqueda de asociaciones de variables. La asociación de variables (elementos químicos, puntos de recogida de muestras, parámetros físico-químicos, etc) nos puede proporcionar una información muy valiosa de los distintos procesos geoquímicos que se están produciendo (yacimientos minerales, contaminantes, procedencia de aguas, etc).

 

Contraste en el modelo factorial

Existe varios contrastes que pueden realizarse para evaluar si el modelo factorial (o la extracción de los factores) en su conjunto es significativo.

El test KMO (Kaiser, Meyer y Olkin) relaciona los coeficientes de correlación, rjh, observados entre las variables Xj y Xh, y ajh son los coeficientes de correlación parcial entre las variables Xj y Xh. Cuanto más cerca de 1 tenga el valor obtenido del test KMO, implica que la relación entres las variables es alta. Si KMO ≥ 0.9, el test es muy bueno; notable para KMO ≥ 0.8; mediano para KMO ≥ 0.7; bajo para KMO ≥ 0.6; y muy bajo para KMO < 0.5.  

La prueba de esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial de las variables estudiadas. El modelo es significativo (aceptamos la hipótesis nula, H0) cuando se puede aplicar el análisis factorial

Prueba de esfericidad de Bartlett:

Si Sig. (p-valor) < 0.05 aceptamos H0 (hipótesis nula) > se puede aplicar el análisis factorial.

Si Sig. (p-valor) > 0.05 rechazamos H0 > no se puede aplicar el análisis factorial.

 

Rotación de los componentes

Anteriormente se expuso que en el ACP se definen un nuevo conjunto de variables, combinación lineal de las originales, denominadas componentes (factores). Mediante esta definición, y su formalismo matricial, estos componentes se pueden considerar como unos nuevos ejes que representan la nube de puntos que forman las variables originales. Así la proyección de la nube de puntos sobre los componentes sirven para interpretar la relación entre las diferentes variables. Sin embargo, su interpretación, a veces, puede llegar a ser muy compleja, por lo que se puede recurrir a la rotación de los componentes (ejes).

Existen varias formas de rotar los ejes: VARIMAX, QUARTIMAX, rotaciones oblicuas, EQUAMAX, PROMAX, etc. Su estudio y aplicación están fuera del objetivo de esta asignatura. Las más utilizada en geoquímica es la rotación VARIMAX, la cual consigue que cada componente rotado presente correlaciones sólo con unas cuantas variables. Esta rotación es la más frecuentemente utilizada, y es adecuada cuando el número de componentes es reducido.

QUARTIMAX se utiliza para conseguir que cada variable tenga una correlación alta con muy pocos componentes cuando es elevado el número de estos. Tanto el VARIMAX como el QUARTIMAX son rotaciones ortogonales, es decir, que se mantiene la condición de perpendicularidad entre ada uno de los ejes rotados. Sin embargo, cuando las componentes, aun rotadas ortogonalmente, no presentan una clara interpretación, cabe todavía la posibilidad de intentar mejorarla a través de rotaciones oblicuas.

Los parámetros generales a seleccionar en el análisis de componentes principales y análisis factorial con SPSS son:

-Analizar/Reducción de Datos (Dimensiones en SPSS18)/ Análisis Factorial

-Seleccionar:

- Descriptivos:

- Estadísticos: Solución inicial.

-Matriz de correlaciones: Coeficientes; Niveles de significación; KMO y prueba de esfericidad de Bartlett.

- Extracción:

- Método: Componentes principales.

- Analizar: Matriz de correlaciones.

- Extraer: depende de los resultados obtenidos. En general se utiliza Autovalores mayores  que: 1. Si el número de factores es alto, se puede seleccionar Número de factores: 2; de esta forma se puede ver con mayor facilidad los resultados en una gráfica XY.

- Mostrar (Visualización en SPSS18): Solución factorial sin rotar; Gráfico  de sedimentación.

- Rotación:

- Método: depende de los resultados obtenidos. En general se utiliza Ninguno. Si los resultados no son fáciles de interpretar se puede seleccionar los métodos de rotación.

- Mostrar (Visualización en SPSS18): Solución rotada (si se elige algún método de rotación)

- Gráficos de saturaciones.

 

El análisis de componentes principales se suele realizar generalmente a las variables, y en situaciones determinadas, a los casos. Supongamos que nuestra matriz de datos esta constituida por n-filas (casos) x m-columnas (variables), donde los casos (filas) son cada punto de muestreo, y las variables (columnas) son los parámetros medidos en cada punto de muestro (concentración de elementos, pH, TDS, etc). El análisis de componentes principales realizados a nuestra matriz de datos se aplica a las variables, por lo que obtendremos asociaciones de los elementos y parámetros fisico-quimicos de nuestras muestras.

Si por el contrario queremos estudiar las asociaciones entre los puntos de muestreo a partir de los componentes principales, necesitamos trasponer la matriz de datos. Para ello:

-Datos/Transponer

-Seleccionar:

- Variables: todas columnas que queremos que se transpongan

- Variable de nombre: seleccionamos la columna con el nombre de los casos (i.e., nombre de los puntos de muestreo), y los utiliza para el encabezado de las columnas de la matriz transpuesta.

Esta transformación genera una nueva matriz de datos (nueva hoja del Editor de datos SPSS)

 

Práctica 5.A.

Ejemplo teorico-conceptual. Peso de racien nacidos.

 

Práctica 5.B.

La composición y características físico-químicas de 276 acuíferos del Etna, Sicilia. El objeto de este estudio es de particular interés por el progresivo agotamiento de los recursos hídricos y la calidad de sus aguas. [Datos obtenidos en Datos obtenidos en: Aiuppa, A., Bellomo, S., Brusca, L., D'Alessandro, W., Federico, C. (2003) Natural and anthropogenic factors affecting groundwater quality of an active volcano (Mt. Etna, Italy). Applied Geochemistry, 18, 863-882].

Para poder entender la procedencia de los diferentes tipos de aguas del Monte Etna y gestionar adecuadamente los recursos hídricos de Sicilia, se realizó el ACP de las variables, sin incluir Eh, NH4, V, PO4 y F debido a que en muchos casos o están  bajo del límite de detección y/o no se midieron.

El primer paso es analizar la matriz de correlaciones (que se genera dentro del ACP) y el grafico de dispersión (como se realizó en la Practica 4) y observar la relación entre variables. De la matriz de correlación se puede destacar: (1) la alta correlación (lineal) entre el Na-Cl-TDS, y una menor relación de éstos con el K-Mg-Alk; (2) la media correlación (lineal) entre NO3 - SO4. El grafico de dispersión muestra estas asociaciones lineales y descubre la relación no-lineal entre el B - SO4.

El segundo paso es evaluar si se puede aplicar el análisis factorial al conjunto de datos obtenidos mediante el test KMO y prueba de Bartlett.

De los datos obtenidos se puede concluir que se el análisis factorial es factible ya que el p-valor (Sig.) < 0.05 aunque la correlación entre todas variables es baja (el valor obtenido por el test de KMO es 0.249).

La varianza total explicada por los tres primeros componentes es del 73.94% de la varianza total explicada. La matriz de componentes nos informa de la relación entre las variables, agrupándolas y por lo tanto, reduciendo la cantidad de datos originales.

Si los datos no son muy claros (aunque en esta práctica si lo son), en este punto siempre es muy interesante realizar la rotación de los ejes.

ACP_rotados

Del análisis factorial (Matriz de componentes rotados) podemos concluir que las variables se agrupan en tres grandes grupos:

a) Componente 1: la asociación de las variables Na-K-Mg-Alk-Cl-B-TDS están relacionadas con salmueras procedentes de la cuenca sedimentaria. La relación tan alta con el TDS implica que estas aguas son las responsables del incremento de la salinidad de los acuíferos.

b) Componente 2: la asociación entre Ca-NO3-SO4 corrobora la hipótesis de la contaminación producida por la actividad agrícola debido al uso de fertilizantes de sulfato amónico y/o cálcico.

c) Componente 3: las variables pH-Ca-Alk-SiO2 están relacionadas con el lixiviado de las rocas volcánicas permeables (silicatos ferromagnesicos) ricas en CO2 de origen volcánico. Este hecho se refleja en la relación inversa entre el pH y la alcalinidad.

El siguiente paso en este tipo de estudios es situar estos procesos geoquímicos (definidos en los 3 componentes) en el mapa. Hay varias formas de abordar este problema de forma complementaria. Podemos destacar:

(1) realizando el ACP sobre los casos (trasponiendo la matriz de datos).

(2) generando mapa de superficie de componentes obtenidos en el ACP de las variables (Fig), debido a la estimación de los pesos estadísticos a cada caso (punto de muestreo o agua analizada) en las variables extraídas. Para seleccionar esta opción, se ha de seleccionar, a demás de las opciones descritas anteriormente, el tipo de puntuaciones.

ACP Etna

Fig. Mapa de distribuciones de los tres factores obtenidos en el ACP.

Es decir:

-Analizar/Reducción de Datos (Dimensiones en SPSS18)/Análisis Factorial

-Seleccionar:

- Puntuaciones:

-Guardar como variables: Método regresión.

 

Reproducir vídeo

 

Práctica 5.C.

El análisis de 5 suelos contaminados en Aznalcóllar (A, B, C, D y E) a dos profundidades (1: 0-25 cm; 2: 25-50 cm) se recogen en Galán et al (2002): Residual pollution load of soils impacted by the Aznalcóllar (Spain) mining spill after clean-up operations. The Science of the Total Environment, 286, 167-179.

A partir del estudio de los cationes pesados del suelo determinar las asociaciones geoquímicas que presentan los elementos mediante el análisis factorial y de componentes principales.

En este estudio se concluye que hay dos asociaciones geoquímicas distintas: As-Pb-Hg-Sb y Cu-Zn-Cd; y la segunda asociación son metales con mayor movilidad, y por lo tanto, mayor potencialidad a la hora de contaminar los acuíferos.