El presente trabajo es una recopilación y estructuración de datos, imprescindibles al parecer de los autores, para el correcto estudio y empleo de la técnica de análisis discriminante .
1 Introducción:
1.1 El problema de la clasificación:
El problema de la clasificación es uno de los primeros que aparecen en la actividad científica y constituye un proceso consustancial con casi cualquier actividad humana, de tal manera que en la resolución de problemas y en la toma de decisiones la primera parte de la tarea consiste precisamente en clasificar el problema o la situación, para después aplicar la metodología correspondiente y que en buena medida dependerá de esa clasificación. Por supuesto también es así en la medicina, ciencia en la que el diagnóstico constituye una parte primordial, siendo una fase previa para la aplicación de la terapia. Diagnosticar es equivalente a clasificar a un sujeto en una patología concreta en base a los datos correspondientes de su anamnesis, exploración y pruebas complementarias. Cuando hablamos de clasificar a un sujeto en un grupo determinado, a partir de los valores de una serie de parámetros medidos u observados, y esa clasificación tiene un cierto grado de incertidumbre, resulta razonable pensar en la utilización de una metodología probabilística, que nos permita cuantificar esa incertidumbre.
1.2 Enfoques del problema de clasificación:
Desde el punto de vista estadístico podemos distinguir dos enfoques diferentes al problema de la clasificación.
En el primero de ellos los grupos están bien definidos y se trata de determinar un criterio para etiquetar cada individuo como perteneciente a alguno de los grupos, a partir de los valores de una serie limitada de parámetros. En este caso las técnicas más utilizadas se conocen con el nombre de análisis discriminante, aunque como veremos existen otras posibles alternativas, tales como la utilización de la regresión logística.
El segundo enfoque corresponde a aquel caso en el que a priori no se conocen los grupos y lo que precisamente se desea es establecerlos a partir de los datos que poseemos. Ahora tenemos en esencia un problema taxonómico, y las técnicas estadísticas más utilizadas en esa área se conocen con el término análisis de “cluster”, que podemos traducir como análisis de agrupaciones y también como análisis de conglomerados por algunos autores.
2 Desarrollo:
2.1 Análisis Discriminante:
El análisis discriminante permite estudiar las diferencias entre dos (en el caso del análisis simple) o más (estaríamos ante el análisis discriminante múltiple) grupos de individuos definidos a priori, con respecto a varias variables simultáneamente.
– Tiene como objetivo analizar la relación entre una variable dependiente categórica con g modalidades, que se corresponden con los grupos analizados, y un conjunto de variables independientes x1 , x2 … xp, métricas o cuantitativas, a partir de una serie de funciones discriminantes, que son combinaciones lineales de las variables independientes que mejor discriminan o separan los grupos, y cuya expresión es la siguiente:
ƒkm =µ0 + µ1X1km + µ2X2km + … +µpXpkm
siendo fkm el valor o puntuación en la función discriminante para el caso m en el grupo k; xikm el valor de la variable discriminante xi para el caso m en el grupo k y µi los coeficientes o ponderaciones de las variables xi.
El número de funciones discriminantes a obtener depende, a su vez, del número de grupos definidos por la variable dependiente, ya que se obtienen tantas funciones como grupos menos uno, salvo que el número de variables independientes incluidas en el modelo sea inferior, en cuyo caso el número de funciones discriminantes obtenidas coincide con el de variables.
Las funciones discriminantes se obtienen de forma que la primera contiene aquellas variables explicativas cuyos valores más diferencian los distintos grupos, la segunda función es la segunda combinación de variables que más discrimina entre los grupos, pero con la condición de que los valores obtenidos mediante la primera función no estén correlacionados con los de aquélla, y así sucesivamente.
Estimadas las funciones discriminantes, su capacidad predictiva se evalúa mediante el establecimiento de una puntuación de corte óptima, que permite asignar los casos a cada uno de los grupos definidos por la variable dependiente, obteniéndose de la puntuación discriminante que corresponde a cada caso, a partir de los valores que presenta el individuo en la combinación de variables explicativas que forman las funciones discriminantes.
2.1.1 Análisis Discriminante Predictivo:
En el análisis discriminante predictivo se trata de estimar a partir de los datos unas ecuaciones que aplicadas a un nuevo sujeto, para el que se determinan los valores de las diferentes variables, pero del que se desconoce a qué grupo pertenece, nos proporcionen una regla de clasificación lo más precisa posible. Se trata pues de formular un algoritmo por el que se pueda determinar a qué grupo pertenece una nueva observación. Este tipo de análisis puede constituir por ejemplo una ayuda al diagnóstico, o un método de ayuda a la decisión sobre la utilización de una terapia concreta. En el análisis discriminante predictivo es importante cuantificar con qué precisión se clasificará a un nuevo sujeto.
Ejemplo:
Análisis Discriminante PREDICTIVO
Objetivo: Se desea prever el riesgo de morosidad relativa a los préstamos personales en una entidad bancaria.
Diseño: Se explora el fichero histórico de los clientes morosos – no morosos y se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral….
Resultado: Aplicando el modelo estimado con el fichero histórico, el análisis permitirá anticipar el riesgo de morosidad de nuevos clientes.
2.1.2 Análisis Discriminante descriptivo:
A diferencia del anterior, en el análisis discriminante descriptivo estamos más interesados en las variables empleadas para diferenciar los grupos, en las variables explicativas, y lo que deseamos es determinar cuáles de esas variables son las que más diferencian a los grupos, cuales son importantes y cuáles no a efectos de clasificar los sujetos.
Ejemplo:
Análisis Discriminante DESCRIPTIVO
Objetivo: Se desea caracterizar el perfil de los compradores de un determinado producto en un determinado establecimiento.
Diseño: Se diseña una muestra con 100 compradores y 100 no compradores y se toman datos de renta, edad y cercanía al establecimiento.
Resultado: El análisis discriminante establecerá la importancia relativa de cada uno de estos atributos en la decisión de compra permitiendo orientar mejor la política promocional o de distribución del producto.
2.1.3 Manejo de errores en Análisis Discriminante:
Mediante las ecuaciones estimadas en el procedimiento de análisis discriminante obtenemos un mecanismo para asignar un sujeto a uno de los grupos, a partir de los valores de las variables explicativas. Si estamos trabajando sólo con dos grupos, en la asignación existen dos posibles errores: el que se comete al clasificarlo en el primer grupo, cuando en realidad pertenece al segundo P(I/II), y el que se cometería al incluirlo en el segundo grupo, cuando en realidad pertenece al primero P(II/I). El criterio matemático de clasificación se determina de tal manera que minimice la probabilidad de error, que en el caso más general de prevalencias diferentes en cada grupo con valores P(I) y P(II), será
P(error) = P(I/II) P(II) + P(II/I) P(I)
Cuando la importancia de cada uno de los errores es diferente, por ejemplo si estamos ante un diagnóstico, cuando es más grave el error que se comente al clasificar a un individuo enfermo como sano (falso negativo) que el que se cometería al clasificar a uno sano como enfermo (falso positivo), el criterio de clasificación puede tenerlo en cuenta, introduciendo en la ecuación que se va a minimizar un peso o coste para cada error. Si llamamos C1 al peso o coste del error de clasificar en el grupo II a un sujeto del grupo I, y C2 al de clasificar en el grupo I a un sujeto del grupo II, se trata ahora de minimizar la ecuación
C(error) = C1 P(I/II) P(II) + C2 P(II/I) P(I)
siendo C1+C2=1
Cuando tenemos dos grupos y p variables explicativas, el análisis discriminante nos permite estimar los coeficientes b0, b1… by de una función de clasificación
D=b0+b1*x1+b2*x2+…+by*xy
Siendo P(I) y P(II) las prevalencias de cada grupo, C1 y C2 los costes de clasificación incorrecta anteriormente definidos, y si denominamos
C2 . P(II)
c = ———
C1. P(I)
la regla de decisión consiste en clasificar una observación concreta de X en el grupo I cuando D > ln c, y clasificarla en el grupo II cuando D < ln c
Este procedimiento se generaliza para clasificación en más de dos grupos.
2.1.4 Limitaciones del Análisis Discriminante:
El principal inconveniente del análisis discriminante tradicional radica en que supone que los grupos pertenecen a poblaciones con distribución de probabilidad normal multivariante para las variables explicativas X1 a Xp, con igual matriz de varianzas y covarianzas. Por ello no debiera incluirse en el modelo variables que no cumplieran esa condición, lo que no permite por ejemplo la utilización de variables cualitativas.
2.2 La selección de variables.
En casi cualquier análisis multivariante nos encontramos con la necesidad de seleccionar variables: identificar las variables más relacionadas con el resultado que se estudia y qué variables no parece que guarden relación. Y el análisis discriminante, o en general la construcción de modelos para clasificación, no constituyen una excepción a este deseo. Conviene, una vez más, hacer una llamada de atención en cuanto a la tendencia a utilizar técnicas estadísticas automáticas de selección de variables, conocidas como métodos de regresión por pasos o “stepwise”, que lamentablemente son utilizadas con excesiva frecuencia, quizás porque los programas modernos permiten su fácil empleo y favorecen la pereza intelectual, a pesar de la amplia crítica que suscitan entre los expertos.
A diferencia de los problemas que son fácilmente tratables con regresión lineal hay problemas en los que la asignación de un número a cada categoría no resuelve el problema ya que si tenemos, por ejemplo, la variable ejercicio físico con tres posibles respuestas: sedentario, realiza ejercicio esporádicamente, realiza ejercicio frecuentemente, y le asignamos los valores 0, 1, 2, significa a efectos del modelo, que efectuar ejercicio físico frecuentemente es dos veces mayor que solo hacerlo esporádicamente, lo cual no tienen ningún sentido. Más absurdo sería si se trata, a diferencia de ésta, de una variable nominal, sin ninguna relación de orden entre las respuestas, como puede ser el estado civil.
La solución a este problema es crear tantas variables dicotómicas como número de respuestas – 1. Estas nuevas variables, artificialmente creadas, reciben en la literatura anglosajona el nombre de “dummy”, traduciéndose en español con diferentes denominaciones como pueden ser variables internas, indicadoras, o variables diseño.
Así por ejemplo si la variable en cuestión recoge datos de tabaquismo con las siguientes respuestas: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, tenemos 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:
I1 | I2 | I3 | |
Nunca fumó | 0 | 0 | 0 |
Ex- fumador | 1 | 0 | 0 |
Menos de 10 cigarrillos diarios | 0 | 1 | 0 |
10 o más cigarrillos diarios | 0 | 0 | 1 |
En este tipo de codificación el coeficiente de la ecuación de regresión para cada variable diseño (siempre transformado con la función exponencial), se corresponde al odds ratio de esa categoría con respecto al nivel de referencia (la primera respuesta), en nuestro ejemplo cuantifica cómo cambia el riesgo respecto a no haber fumado nunca.
3 Conclusiones:
El primer aspecto a considerar para la realización del estudio empírico se refiere a la selección de las variables a incluir en el modelo a desarrollar, tanto la dependiente, que define el fenómeno cuyo comportamiento se trata de explicar, como las independientes o explicativas de dicho fenómeno.
En el análisis discriminante estudiamos las técnicas de clasificación de sujetos en grupos ya definidos. Partimos de una muestra de N sujetos en los que se ha medido p variables cuantitativas independientes, que son las que se utilizarán para tomar la decisión en cuanto al grupo en el que se clasifica cada sujeto, mediante el modelo matemático estimado a partir de los datos. Dentro del análisis discriminante nos encontramos a su vez con dos enfoques diferentes, uno que denominaremos predictivo y otro explicativo.
Bibliografía consultada:
- Métodos estadísticos de clasificación, Luis M. Molinero (Alce Ingeniería) CorreoE: bioestadí[email protected],
Diciembre 2002,
www.seh-lelha.org/stat1.htm - Análisis Discriminante, Regresión Logística, Fernando Rosario. Universidad Peruana Cayetano Heredia, 13 de Marzo de 2008
- Aplicación del Análisis Discriminante y Regresión Logística en el estudio de la morosidad en las entidades financieras. Comparación de resultados.
- Jesús Mures Quintana
- Ana García Gallego
- Eva Vallejo Pascual 2005
Autores: Ing. Yoamel Acosta Morales 1 , Ing. Yixander Yero Tarancón 2. 1: Universidad de las Ciencias Informáticas, La Habana, Cuba. Departamento de Programación y Sistemas Digitales, Facultad # 6; 2: Universidad de las Ciencias Informáticas, La Habana, Cuba. Dirección de Calidad.
Datos para citar este artículo:
Yoamel Acosta Morales. (2014). Clasificación de datos en el análisis discriminante. Revista Vinculando. https://vinculando.org/articulos/analisis-discriminante.html
Deja un comentario