Mucha suerte ;)

analisis discriminante



Imagínate que un profesor de ciencias, quiere predecir si un alumno nuevo en el colegio aprobará o suspenderá un examen, solamente sabiendo las notas numéricas que sacó el curso anterior en otro colegio. Pues bien, esta es la función principal del análisis discriminante. Si has estado avispado, te habrás dado cuenta de dos detalles:

1) Tenemos una variable categórica (aprobado/suspendido), que nos va a servir para clasificar a nuestro alumno en uno de los dos grupos, y que además va a DEPENDER de las notas que tenga el alumno (Variable Dependiente)

2) Tenemos varias variables continuas (las notas numéricas), que van a ser las variables de la ecuación/fórmula que vamos a crear para clasificarle en un grupo o en otro. (Variable independiente)

En el análisis discriminante, vamos a necesitar como has visto siempre, una variable dependiente categórica, y que las variables independientes sean continuas. Además, otra de las grandes funciones del análisis discriminante es ver qué variables tienen mayor peso para clasificar a los alumnos, en este caso.

Comenzamos como siempre, yendo a SPSS. El análisis discriminante lo conseguimos yendo a Analizar > Clasificar > Discriminante. En el ejemplo que te voy a mostrar, tengo 8 variables continuas (V1 a V8, que puedes imaginarte que cada una es la nota de una asignatura), y 3 grupos que incluye una variable llamada pras (El grupo 1, el grupo 2 y el grupo 3). 

La primera tabla que veamos será la prueba de igualdad de medias de grupos. No te preocupes por todas las cifras, Vamos a pasar de Lambda de Wilks por el momento, de F y de los grados de libertad y nos vamos a centrar solamente a la derecha del todo, en la significancia. Esta tabla nos indica si las variables independientes (las numéricas, las notas de los exámenes) son apropiadas para poder crear un modelo mediante el análisis discriminante. Recuerda que el nivel de significancia con el que vamos a trabajar siempre es de 0,05 (Nos permitimos un error del 5%, es decir, poder fallar en 5 de cada 100 casos). Esto indica que aquellas variables que tengan significancia superior a 0,05 no son estables para el modelo y hay que desecharlas y no usarlas. En este caso, la significancia, marcada de color rojo para todas las variables, vemos que  ninguna supera el valor de 0,05 por lo que todas las variables son apropiadas. 

La siguiente tabla que nos encontraremos es la del algoritmo de los determinantes. En esta tabla solo nos vamos a fijar en los valores marcados de color rojo. Esta tabla nos indica la variación que hay dentro de cada grupo. Tal vez en un caso una persona se parecía poco al resto pero como en algún sitio había que meterle pues se le metió en un grupo lo más afín a él. ¿Cómo se interpreta esta tabla? Fácil: Mientras más valor tenga el logaritmo del determinante, mayor variación existe dentro del grupo. Lo ideal es que existiese la menor variación dentro de cada grupo, y mucha variación respecto a los otros grupos. En este caso el grupo con más variación vemos que es el grupo 3.


Ahora vamos a analizar la varianza-covarianza. Para ello en el análisis discriminante nos vamos a fijar en lo que se conoce como prueba de M de Box. En la prueba M de Box, como ya veníamos haciendo antes nos fijamos en la significancia. ¿Cómo la interpretamos?. Bien, establecemos primero la hipótesis nula (H0) y la hipótesis alterna o del investigador (H1). Siempre comenzamos eligiendo la hipótesis nula, y si esta se rechaza nos quedamos con la del investigador. La hipótesis nula siempre es de igualdad, y la del investigador siempre es de diferencias, de modo que:

H0: SÍ hay igualdad de varianza-covarianza
H1: NO hay igualdad de covarianza.

Ahora establecemos lo que se conoce como p-valor, que es el límite para decidir, Como ya sabes, nuestro p-valor es 0,05. En este caso, la significancia es 0,276 que está muy por encima de 0,05 por lo que no podemos rechazar la hipótesis nula, y concluimos diciendo que SÍ existe igualdad de varianza-covarianza. 

Seguimos con la tabla de autovalores. Esta tabla nos va a indicar cuantas funciones se van a crear. ¿Crees que que se hayan creado 2 funciones ha sido cosa del azar? No. Siempre se van a crear las funciones restándole 1 a la cantidad de categorías de nuestra variable dependiente (grupos). No obstante, esto puesto bonito se queda así: Funciones= Min(3-1,8) (El 8 es la cantidad de variables independientes). Además de esto, que es importante que tengas en cuenta, también es de destacar que te fijes en la parte donde pone correlación canónica, porque va a ser el valor que interpretemos de cada función. Este valor nos indica el grado de varianza total que explica cada función. Va de 0 a 1 y mientras más cercano esté a 1 mucho mejor. No obstante, esta cifra siempre suele pasarse a una cifra más comprensible. Esto se hace del siguiente modo. Coge por separado cada función (0,771), elévala al cuadrado (0,5944) y multiplícalo por 100 para pasarlo a porcentaje (59,44%). La primera función explica el 59,44% de la varianza total.
Pasamos con la tabla de Lambda de Wilks. De aquí, para iniciarte, solo es necesario que sepas que el valor de Lamda de Wilks va de 0 a 1 y que indica lo separado que se encuentran los grupos. Mientras más discriminen mejor es ¿No? Solamente fijarnos que nos dé significancia inferior al p-valor establecido en las funciones y ya está.

La tabla de coeficientes de función discriminante canónica estandarizados (Depende del programa verás que pone Tipificados, pero es lo mismo), nos indica la importancia de cada variable para cada función. En este ejemplo, observamos que las variables V7 y V8 son más importantes para la función 1, y para la función 2 son más importantes las variables V3 y V6. El valor máximo va a ser de 1, y también podemos fijarnos para la importancia en la tabla llamada matriz de estructura.
Seguidamos, vemos casi la tabla que considero más importante de todas. Un pequeño detalle: Esta tabla que te enseño a continuación no va acorde al resto de tablas hasta ahora, pero sí que te va a servir para entender cómo interpretarla y  sí que es imprescindible para comprender el análisis discriminante: Los coeficientes de la función de clasificación de Fisher. A través de esta tabla vamos a poder clasificar a nuestro alumnado en uno de los tres grupos. ¿Cómo hacerlo? Pues primero vamos a construir el modelo para cada grupo. Siempre el modelo tiene esta forma VD = Constante + P1 * ValorP1 + P2*ValorP2... Pongámoslo más concretamente:

El modelo para el grupo 1 será: - 1,753 - 0,087 * P2 + 0,223 * P4 + 0,137 * P6 - 0,153 * P7 - 0,206 * P8.

El modelo para el grupo 2 será: - 1,231 + 0,079 * P2 - 0,038 * P4 - 0,014 * P6 + 0,129 * P7 + 0,129 * P8.

El modelo para el grupo 3 será: -4,164 + 0,301 * P2 - 0,319 * P4 - 0,173 * P6 + 0,372 * P7 + 0,401 * P8.

A la vista de los modelos ya solo nos quedaría sustituir las variables por nuestras cifras numéricas; que en el caso de los exámenes (como veíamos en el caso del principio del todo), serían las notas de cada asignatura. La persona pertenecerá al grupo en el que obtenga una puntuación mayor, comparada con el resto de grupos. Sí, en este caso tendrás que calcular para un mismo individuo su valor para los tres grupos, y elegir a cuál pertenecerá. Si aún no te ha quedado claro te lo explico más abajo.

Supongamos que P2 es la nota en Matemáticas, P4 la nota en física, P6 la nota en química, P7 la nota en lengua y P8 la nota en inglés. Se sabe que un alumno ha sacado 6 en matemáticas, 8 en física, 10 en química, 5 en lengua y 8 en inglés. Pues sustituimos estos valores en las tres fórmulas de arriba y obtenemos las siguientes puntuaciones, si la calculadora de Google no me falla:

En el modelo para el grupo 1 ha obtenido: -2,203
En el modelo para el grupo 2 ha obtenido: 0,476
En el modelo para el grupo 3 ha obtenido: -1,572

Por lo tanto, a la vista de los resultados, ese individuo pertenecerá al grupo 2 porque ha sido en el grupo donde ha obtenido la puntuación más alta.

Finalmente, la última tabla que vamos a analizar es la de Resultados de clasificación. En esta tabla nos vamos a fijar solo en los números que te marco con color rojo. En la parte referida a la validación cruzada, nos indica qué grupo ha sido el mejor y el peor representado de todos. Vemos que en este caso el grupo mejor clasificado ha sido el modelo 1, con el 80,6%, y el peor ha sido el grupo 2 con el 61,2%. Finalmente, el grado de clasificación del modelo viene indicado abajo. En este caso 72,2% de los casos han sido clasificados correctamente. 

Posibles preguntas que te pueden hacer:
¿Son apropiadas todas las variables independientes para realizar el análisis discriminante sobre la variable dependiente?
¿Existe igualdad de varianzas?
¿Qué grupo de los existentes, tiene mayor variación?
Grado de explicación de las funciones discriminantes.
Grado de clasificación total del modelo. ¿Qué grupo de los tres, es el peor representado?

3 comentarios:

  1. Buenos días, en el ejemplo, en la fórmula del modelo para el grupo 1 me sale -6,232...hago algo mal o esta incorrecto??
    Gracias. Saludos!

    ResponderEliminar
  2. Buenos días, una duda:
    en cuanto a la pregunta: Grado de explicación de las funciones discriminantes...
    se realiza mediante la Tabla de autovalores, elevando al cuadrado y multiplicando por 100 cada dato de la columna correlación canónica?
    Gracias. Un saludo.

    ResponderEliminar
  3. Hola Anabel! yo entiendo que si, cada una te da su grado de explicación y si las sumas te daría el total

    ResponderEliminar

 

Universidad

Licencia Web

Visitas

Web dirigida por