Mucha suerte ;)

Analisis factorial



Como supongo que sabrás, cuando se va a emplear un instrumento de medida (una encuesta por ejemplo), esta no puede ser creada de cualquier manera, sino que esta formada por distintas dimensiones, dependiendo de lo que vaya a medir. Una manera de ordenar todas las variables y hacer grupos de variables (llamadas dimensiones, factores o constructos) que responden a un mismo fenómeno es lo que se consigue a través del análisis factorial.

Imagínate que tenemos 10 variables que miden el número de horas que pasan los españoles realizando tales acciones, por ejemplo usar el móvil, usar el ordenador, ir a pasear, ir al gimnasio, estudiar, pasar tiempo en la universidad, realizar trabajos grupales... así hasta 10. Pues mediante el análisis factorial lo que se va a intentar conseguir es agrupar en grupos (valga la redundancia), llamados factores, dimensiones o constructos todas las variables dadas. En este ejemplo, supongamos que se puede apreciar 3 factores que podríamos llamar como Tecnología (Usar el móvil, usar el ordenador...), Deporte (Ir a pasear, ir al gimnasio...) y Estudio (Estudiar, ir a la universidad...). Una característica para poder clasificar las variables es que en la mayoría de los casos tienen que ser variables continuas (En estos casos, medidos en una escala numérica del 0-10 horas). Digo en la mayoría de casos, porque hay veces, que puede hacerse también este análisis cuando tengamos una variable con muchas categorías (más de 12).

Ahora que ya vamos entendiendo de qué va este rollo, vamos a pasar a algo más técnico. Vamos a comenzar respondiendo a cuántos factores se pueden sacar de X variables. ¿Es decir, si tengo 10 variables puedo sacar 10 factores? Pues bueno, la respuesta es depende, por poder podrías, pero conseguirías más bien poca cosa. Como indica en el libro del profesor, se recomienda que cada factor tenga como mínimo 5 variables dentro y como máximo que se respete esta fórmula, donde n es el número de variables y m es el número máximo de factores. Cuando uses esta fórmula, recuerda que (n-m)^2 no es (n^2) - (m^2), sino n^2 + m^2 - 2*n*m.
Ahora, vamos a centrarnos más en el programa SPSS. No temas si ves muchas tablas. En la mayoría de casos tan solo vamos a utilizar un dato, lo demás no nos servirá para nada, así que respira hondo. Primero, la ruta para realizar el análisis factorial en SPSS es Analizar > Reducción de dimensiones > Factor.

La primera tabla que nos vamos a encontrar es esta, llamada Matriz de correlaciones. Esta matriz realmente no la vamos a utilizar para nada, pero la parte de correlación nos aporta información sobre cuán de relacionadas están las variables. Los valores pueden llegar hasta 1. Mientras más cerca se encuentre el valor a 1, más relación existe entre esas dos variables. La parte de abajo de Sig (unilateral) ignoradla.
Ahora en la siguiente tabla que te muestro sí que tenemos que fijarnos, porque principalmente va a ser la tabla que nos ayude a decidir si vamos a poder realizar un análisis factorial o no. Recuerda que no siempre va a ser pertinente realizarlo. Esta tabla indica la prueba de KMO y Bartlett y en lo que tenemos que fijarnos es solamente en los dos números marcados de color rojo. Comenzando sobre el primero, Kaiser-Meyer-Olkin o KMO para los amigos, vemos que tiene un valor de 0,791. Aquí, al igual que arriba, mientras más alto sea el valor mejor. Se recomienda para usar el análisis factorial que KMO tenga un valor mayor a 0,70. Respecto a Bartlett, nos vamos a fijar en el Sig (Significancia). El valor de la significancia la puede establecer de antemano el investigador en el valor que quiera, pero en nuestro caso siempre va a ser 0,05. Aquí, va al contrario; si el valor de la significancia es inferior a 0,05 significa que es aceptable y nos da más razones para usar el análisis factorial. 

La siguiente tabla es la matriz anti-imagen. Realmente, si no queremos comernos mucho el coco podemos pasar de esto, aunque es interesante solo fijarnos en la diagonal principal de la correlación anti-imagen (marcado en rojo). Si tiene valores altos (Recuerda que el máximo es 1), indica que es mejor y más favorable realizar el análisis factorial.  El resto de la tabla, lo ignoramos.

Hasta aquí hemos medido solo la pertinencia del análisis factorial. Si el resultado ha sido favorable seguimos. Ahora nos encontramos con las comunalidades. Cuando añadimos una variable a un factor, es normal que pierda peso  y representatividad por la presencia de las otras variables. En la columna inicial se muestra que todas las variables, que como son independientes tienen el máximo valor (1,000), pero tras realizar el análisis factorial "mezclándose" con las demás variables, en la columna extracción, han perdido valor. Aquí, las variables con valores más altos son las variables más importantes.

Ahora esta tabla es una de las más importantes del análisis factorial. Esta tabla nos va a indicar el número de factores que se han creado a partir de las variables que hemos introducido. En la columna componente (factores) nos indica el máximo de factores que se pueden crear. En la columna Total nos indica el valor que tiene ese factor. Esto es muy importante, porque mientras más valor tenga un factor más posibilidades tiene para poder ser considerado como tal y formar parte de la decisión final. Normalmente, se suele emplear el criterio de la raíz latente, es decir, se escogen solamente los factores que tienen valores superiores a 1, como es el caso, que solamente 2 factores tienen valores superior a 1 (El factor 1 con 3360 puntos y El factor 2 con 1610) El resto de factores como no llegan a este mínimo, no son considerados como tal. Finalmente, más a la derecha nos aparece la varianza que explica tanto cada factor, como la suma de los factores. Cuanta más varianza explique la mínima cantidad de factores mejor, En este caso 2 factores explican el 82,84% de la varianza, y se ve que el más importante es el primer factor que explica por él solo el 56% de la varianza.


Vale, hasta el momento sabemos que hay 2 factores, pero no sabemos qué variables pertenecen a cada factor. Es ahora cuando lo vamos a adivinar. A través de la tabla de matriz de componente, u otra tabla muy parecida llamada matriz de componente rotado nos sirven para lo que te he comentado. Si vemos las columnas, vemos que están el componente 1 y el componente 2, y a la izquierda, las variables. Pues bien, cada factor estará compuesto de aquellos valores más altos. En este caso el factor 1 estará compuesto por las variables v1,v2,v3 y v4; mientras que el factor 2 estará compuesto por las variables v5 y v6. Nos hemos fijado en las filas y en qué en el factor que tenga mayor puntuación (Máximo 1) allí lo metemos. Lo más conveniente es que se vea claramente a qué factor pertenece cada variable, aunque en ocasiones puede ser lioso, no te preocupes, si ocurre esto, trata de fijarte entonces en la matriz de componente rotado, que precisamente lo que trata de conseguir es ajustar los valores de manera que te permita ver más fácilmente en qué sitio van. 

Finalmente, tenemos que ver qué buen modelo es el que hemos creado. Para ello, vamos a ir a ver la siguiente tabla. No te asustes, solo nos vamos a fijar en un número. ¿Ves donde pone 4 (26%) residuos? Pues como te puedes imaginar, si el 26 % son residuos, la importancia de nuestro modelo será la otra parte; es decir 100 - el valor de los residuos. En este caso el grado de aproximación es del 74%, lo cual no está nada mal. 


Y ya como curiosidad, a este gráfico se le llama gráfico de sedimentación y te permite ver gráficamente los autovalores de cada factor y cómo van decreciendo. Si te fijas, mientras más componentes (factores) cogemos menos efectivos son. A estas alturas ya sabrás de las tablas anteriores que son 2 los factores, pero bueno, este gráfico puedes ponerlo en los trabajos, que le da un toque guay. Fíjate en qué momento decrece mucho y ya está.

Por mi parte esto ha sido todo. Te recuerdo que todo lo que hemos visto es la base del análisis factorial y que seguramente te sirva para resolver ejercicios, pero que es necesario que reflexiones más y conozcas más cositas, como qué es eso que hemos hablado de la rotación, qué métodos para extraer factores hay, o qué criterios hay para elegir la cantidad de factores (raíz latente hemos visto nosotros, pero hay más)...

Posibles preguntas que te pueden hacer:
  1. Justificar la pertinencia del análisis factorial
  2. Explicar el número de factores escogidos.
  3. Reparto de las variables por factor y grado de explicación de la varianza.
  4. Grado de aproximación que se ha conseguido con el método de componentes principales.
  5. Saber qué variables es la mejor representada en el modelo factorial y qué factor la representa. ¿Cuál es la peor representada en el modelo?
O algunas un poco más rebuscadas...
  1. Si el número de autovalores mayores que 1 son 5 ¿Podrá escoger más escalas?
  2. ¿Y si fueran 12 los autovalores mayores que 1 ¿Cómo se conseguiría las 6 escalas deseadas con la menor pérdida de varianza compartida?

4 comentarios:

  1. En la tabla de Matriz de Componente al establecer las varables de cada factor hay un errata: para el factor 1: v1, v2, v3 y v4 (el v5 pertenece al factor 2)

    ResponderEliminar
  2. Hola Ana! Es cierto, un error tonto, porque luego en el factor 2 lo vuelvo a incluir >.<" Gracias por tu comentario. Ya mismo lo corrijo. Ánimo y suerte ;)

    ResponderEliminar
  3. Genial Hector, feliz de tener razón porque eso quiere decir que explicas estupendamente y me voy enterando de algo...

    ResponderEliminar
  4. Compadre eres un genio, me salvastes una tarea de Doctorado....

    ResponderEliminar

 

Universidad

Licencia Web

Visitas

Web dirigida por