Análisis discriminante, regresión logística - PRACTICA
Artículo creado por
Fernando Rosario
13 de Marzo de 2008
Psicología
1 - PRACTICA
Practica Calificada IV
Curso : Psicomatemática II
Periodo : Verano 2008
Tema : Análisis Discriminante, Regresión Logística
Universidad Peruana Cayetano Heredia
1. Los objetivos del Análisis Discriminante pueden sintetizarse en dos:
a) Analizar si existen diferencias entre los grupos en cuanto a su comportamiento con respecto a las variables consideradas y averiguar en qué sentido se dan dichas diferencias (Fin descriptivo)
b) Elaborar procedimientos de clasificación sistemática de individuos de origen desconocido, en uno de los grupos analizados (Fin predictivo).
2. Para llevar a cabo un análisis de este tipo se deben los siguientes pasos:
a. Plantear el problema a resolver
b. Analizar si existen diferencias significativas entre los grupos
c. Establecer el número y composición de las dimensiones de discriminación entre los grupos analizados
d. Evaluar los resultados obtenidos desde un punto de vista predictivo
3. Determinar cual caso corresponde a un determinado análisis discriminante:
Análisis Discriminante DESCRIPTIVO
Objetivo: Se desea caracterizar el perfil de los compradores de un determinado producto en un determinado establecimiento.
Diseño: Se diseña una muestra con 100 compradores y 100 no compradores y se toman datos de renta, edad y cercanía al establecimiento.
Resultado: El análisis discriminante establecerá la importancia relativa de cada uno de estos atributos en la decisión de compra permitiendo orientar mejor la política promocional o de distribución del producto.
4. Mencione el objetivo y lógica de una regresión logística :
Los modelos de regresión logística son modelos de regresión que permiten estudiar si una variable binomial depende, o no, de otra u otras variables (no necesariamente binomiales): Si una variable binomial de parámetro p es independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de regresión es una función de p en X que a través del coeficiente de X permite investigar la relación anterior.
El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).
5. Determine la función de los odds ratio en la regresión logística
6. ¿Se pueden usar variables cualitativas en la regresión logística?, ¿Si se podría como se denominarían a esas variables y que lógica se utilizaría?
Ex- fumador 1 0 0
Menos de 10 cigarrillos diarios 0 1 0
10 o más cigarrillos diarios 0 0 1
Respuesta 2 1 0
Respuesta 3 1 1
Con esta codificación cada coeficiente se interpreta como una media del cambio del riesgo al pasar de una categoría a la siguiente.
En el caso una categoría que NO pueda ser considerada de forma natural como nivel de referencia, como por ejemplo el grupo sanguíneo, un posible sistema de clasificación es:
Respuesta 2 1 0
Respuesta 3 0 1
donde cada coeficiente de las variables indicadoras tiene una interpretación directa como cambio en el riesgo con respecto a la media de las tres respuestas.
7. Dado estos datos que podrías deducir :
PERU: MORTALIDAD INFANTIL, POBREZA Y CONDICIONES DE VIDA
http://www.inei.gob.pe/biblioineipub/bancopub/est/lib0077/indice.htm∞
Definición de las Variables
Variable dependiente: vivo actual.
Variables independientes.
- Edad de la madre.
- Nivel de educación de la madre.
- Tipo de asistencia durante el parto.
- Estrato.
- Tiempo de lactancia.
- Estado Civil
- Servicio Higiénico.
- Abastecimiento del agua.
- Hacinamiento.
Como se indicó anteriormente, el modelo utiliza tanto las variables cuantitativas como las cualitativas, para el caso de las variables independientes cualitativas o categóricas, con "k" categorías, el modelo genera "k-1" variables denominadas Dummy, con la finalidad de que todas las variables queden debidamente representadas en el modelo. En tal sentido si la variable tiene dos categorías, la variable Dummy generada tiene una, que la contrasta con el resto de categorías. Por ejemplo, en el caso de la variable Nivel de Educación (RECNIVED), las categorías son cuatro: Sin Nivel, Primaria, Secundaria y Superior; sin embargo las variables Dummy generadas solo tienen tres categorías, RECNIVED(1), RECNIVED(2) y RECNIVED(3), por consiguiente la interpretación de la Razón de Disparidad (OR), se debe realizar enfrentando la primera categoría contra el resto y así sucesivamente.
4.5 Factores de Riesgo
Del modelo logístico generado podemos observar que el signo de los coeficientes de algunas variables es positivo, eso significa que la variable aumenta la probabilidad del suceso en estudio lo que es lo mismo aumenta la probabilidad de muerte de niños en los hogares. En efecto se tiene; el resumen siguiente:
En este modelo de Regresión Logística la medida de Asociación más empleada es el OR (Odds Ratio), número "e" elevado al coeficiente de Regresión Logística; si este OR es significativamente mayor que 1, ello también indicará que se trata de un Factor de Riesgo.
En el caso que tratamos, la variables hacinamiento en los hogares ofrece un riesgo de 2.63 veces mayor que los hogares no hacinados con respecto a la Mortalidad Infantil.
Las personas sin nivel de educación (Rec. nived (1)) ofrecen un riesgo de 2.13 veces mayor que otros niveles educativos respecto a la mortalidad en la niñez, en tanto que las personas con nivel de educación primaria (nived (2)) ofrecen un riesgo de 1.12 veces mayor que otros niveles educativos superiores respecto a la mortalidad en la niñez. Es decir que los hogares con madres sin nivel educativo o que hayan alcanzado máximo la primaria, están en alto riesgo de mortalidad temprana, contrariamente, los hogares con madres que alcanzaron la secundaria o los niveles superiores de estudio están garantizando la supervivencia de sus niños. Está claro, entonces, que el O.R. disminuye a mayor nivel educativo.
Otra variable que indica riesgo de muerte infantil en los hogares es: Servicios Higiénicos conectados a red pública (Rec Serhi (1)), en los hogares sin servicios higiénicos conectados a Red Pública, el riesgo es de 1.92 veces mayor con respecto a los hogares que tienen si tienen acceso a la Red Pública.
En resumen se tiene que las variables que exponen al riesgo de muerte infantil en los hogares son: Hacinamiento, madres sin nivel de educación o primaria, y viviendas sin servicio higiénico conectado a red pública.
Las variables que favorecen la supervivencia de los niños en los hogares serían: Parto atendido por profesional u otro técnico, residencia urbana, estado civil casado, nivel de educación secundaria y servicio de agua conectado al domicilio.
Curso : Psicomatemática II
Periodo : Verano 2008
Tema : Análisis Discriminante, Regresión Logística
Universidad Peruana Cayetano Heredia
1. Los objetivos del Análisis Discriminante pueden sintetizarse en dos:
a) Analizar si existen diferencias entre los grupos en cuanto a su comportamiento con respecto a las variables consideradas y averiguar en qué sentido se dan dichas diferencias (Fin descriptivo)
b) Elaborar procedimientos de clasificación sistemática de individuos de origen desconocido, en uno de los grupos analizados (Fin predictivo).
2. Para llevar a cabo un análisis de este tipo se deben los siguientes pasos:
a. Plantear el problema a resolver
b. Analizar si existen diferencias significativas entre los grupos
c. Establecer el número y composición de las dimensiones de discriminación entre los grupos analizados
d. Evaluar los resultados obtenidos desde un punto de vista predictivo
analizando la significación estadística y práctica del procedo de discriminación
3. Determinar cual caso corresponde a un determinado análisis discriminante:
Análisis Discriminante DESCRIPTIVO
Objetivo: Se desea caracterizar el perfil de los compradores de un determinado producto en un determinado establecimiento.
Diseño: Se diseña una muestra con 100 compradores y 100 no compradores y se toman datos de renta, edad y cercanía al establecimiento.
Resultado: El análisis discriminante establecerá la importancia relativa de cada uno de estos atributos en la decisión de compra permitiendo orientar mejor la política promocional o de distribución del producto.
Análisis Discriminante PREDICTIVO
Objetivo: Se desea prever el riesgo de morosidad relativa a los préstamos personales en una entidad bancaria.
Diseño: Se explora el fichero histórico de los clientes morosos – no morosos y se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral....
Resultado: Aplicando el modelo estimado con el fichero histórico, el análisis permitirá anticipar el riesgo de morosidad de nuevos clientes.
Objetivo: Se desea prever el riesgo de morosidad relativa a los préstamos personales en una entidad bancaria.
Diseño: Se explora el fichero histórico de los clientes morosos – no morosos y se observan variables cuantitativas potencialmente explicativas: renta total, edad, créditos adicionales, años de estabilidad laboral....
Resultado: Aplicando el modelo estimado con el fichero histórico, el análisis permitirá anticipar el riesgo de morosidad de nuevos clientes.
4. Mencione el objetivo y lógica de una regresión logística :
Los modelos de regresión logística son modelos de regresión que permiten estudiar si una variable binomial depende, o no, de otra u otras variables (no necesariamente binomiales): Si una variable binomial de parámetro p es independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de regresión es una función de p en X que a través del coeficiente de X permite investigar la relación anterior.
El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).
5. Determine la función de los odds ratio en la regresión logística
Una de las características que hacen tan interesante la regresión logística es la relación que éstos guardan con un parámetro de cuantificación de riesgo conocido en la literatura como "odds ratio"
El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra.
El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra.
6. ¿Se pueden usar variables cualitativas en la regresión logística?, ¿Si se podría como se denominarían a esas variables y que lógica se utilizaría?
Puesto que la metodología empleada para la estimación del modelo logístico se basa en la utilización de variables cuantitativas, al igual que en cualquier otro procedimiento de regresión, es incorrecto que en él intervengan variables cualitativas, ya sean nominales u ordinales.
La asignación de un número a cada categoría no resuelve el problema ya que si tenemos, por ejemplo, la variable ejercicio físico con tres posibles respuestas: sedentario, realiza ejercicio esporádicamente, realiza ejercicio frecuentemente, y le asignamos los valores 0, 1, 2, significa a efectos del modelo, que efectuar ejercicio físico frecuentemente es dos veces mayor que solo hacerlo esporádicamente, lo cual no tienen ningún sentido. Más absurdo sería si se trata, a diferencia de ésta, de una variable nominal, sin ninguna relación de orden entre las respuestas, como puede ser el estado civil.
La solución a este problema es crear tantas variables dicotómicas como número de respuestas - 1. Estas nuevas variables, artificialmente creadas, reciben en la literatura anglosajona el nombre de "dummy", traduciéndose en español con diferentes denominaciones como pueden ser variables internas, indicadoras, o variables diseño.
Así por ejemplo si la variable en cuestión recoge datos de tabaquismo con las siguientes respuestas: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, tenemos 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:
I1 I2 I3
Nunca fumó 0 0 0La asignación de un número a cada categoría no resuelve el problema ya que si tenemos, por ejemplo, la variable ejercicio físico con tres posibles respuestas: sedentario, realiza ejercicio esporádicamente, realiza ejercicio frecuentemente, y le asignamos los valores 0, 1, 2, significa a efectos del modelo, que efectuar ejercicio físico frecuentemente es dos veces mayor que solo hacerlo esporádicamente, lo cual no tienen ningún sentido. Más absurdo sería si se trata, a diferencia de ésta, de una variable nominal, sin ninguna relación de orden entre las respuestas, como puede ser el estado civil.
La solución a este problema es crear tantas variables dicotómicas como número de respuestas - 1. Estas nuevas variables, artificialmente creadas, reciben en la literatura anglosajona el nombre de "dummy", traduciéndose en español con diferentes denominaciones como pueden ser variables internas, indicadoras, o variables diseño.
Así por ejemplo si la variable en cuestión recoge datos de tabaquismo con las siguientes respuestas: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, tenemos 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:
I1 I2 I3
Ex- fumador 1 0 0
Menos de 10 cigarrillos diarios 0 1 0
10 o más cigarrillos diarios 0 0 1
En este tipo de codificación el coeficiente de la ecuación de regresión para cada variable diseño (siempre transformado con la función exponencial), se corresponde al odds ratio de esa categoría con respecto al nivel de referencia (la primera respuesta), en nuestro ejemplo cuantifica cómo cambia el riesgo respecto a no haber fumado nunca.
Existen otras posibilidades entre las que se destaca con un ejemplo para una variable cualitativa de tres respuestas:
I1 I2
Respuesta 1 0 0Existen otras posibilidades entre las que se destaca con un ejemplo para una variable cualitativa de tres respuestas:
I1 I2
Respuesta 2 1 0
Respuesta 3 1 1
Con esta codificación cada coeficiente se interpreta como una media del cambio del riesgo al pasar de una categoría a la siguiente.
En el caso una categoría que NO pueda ser considerada de forma natural como nivel de referencia, como por ejemplo el grupo sanguíneo, un posible sistema de clasificación es:
I1 I2
Respuesta 1 -1 -1Respuesta 2 1 0
Respuesta 3 0 1
donde cada coeficiente de las variables indicadoras tiene una interpretación directa como cambio en el riesgo con respecto a la media de las tres respuestas.
7. Dado estos datos que podrías deducir :
PERU: MORTALIDAD INFANTIL, POBREZA Y CONDICIONES DE VIDA
http://www.inei.gob.pe/biblioineipub/bancopub/est/lib0077/indice.htm∞
Definición de las Variables
Variable dependiente: vivo actual.
Variables independientes.
- Edad de la madre.
- Nivel de educación de la madre.
- Tipo de asistencia durante el parto.
- Estrato.
- Tiempo de lactancia.
- Estado Civil
- Servicio Higiénico.
- Abastecimiento del agua.
- Hacinamiento.
Como se indicó anteriormente, el modelo utiliza tanto las variables cuantitativas como las cualitativas, para el caso de las variables independientes cualitativas o categóricas, con "k" categorías, el modelo genera "k-1" variables denominadas Dummy, con la finalidad de que todas las variables queden debidamente representadas en el modelo. En tal sentido si la variable tiene dos categorías, la variable Dummy generada tiene una, que la contrasta con el resto de categorías. Por ejemplo, en el caso de la variable Nivel de Educación (RECNIVED), las categorías son cuatro: Sin Nivel, Primaria, Secundaria y Superior; sin embargo las variables Dummy generadas solo tienen tres categorías, RECNIVED(1), RECNIVED(2) y RECNIVED(3), por consiguiente la interpretación de la Razón de Disparidad (OR), se debe realizar enfrentando la primera categoría contra el resto y así sucesivamente.
4.5 Factores de Riesgo
Del modelo logístico generado podemos observar que el signo de los coeficientes de algunas variables es positivo, eso significa que la variable aumenta la probabilidad del suceso en estudio lo que es lo mismo aumenta la probabilidad de muerte de niños en los hogares. En efecto se tiene; el resumen siguiente:
En este modelo de Regresión Logística la medida de Asociación más empleada es el OR (Odds Ratio), número "e" elevado al coeficiente de Regresión Logística; si este OR es significativamente mayor que 1, ello también indicará que se trata de un Factor de Riesgo.
En el caso que tratamos, la variables hacinamiento en los hogares ofrece un riesgo de 2.63 veces mayor que los hogares no hacinados con respecto a la Mortalidad Infantil.
Las personas sin nivel de educación (Rec. nived (1)) ofrecen un riesgo de 2.13 veces mayor que otros niveles educativos respecto a la mortalidad en la niñez, en tanto que las personas con nivel de educación primaria (nived (2)) ofrecen un riesgo de 1.12 veces mayor que otros niveles educativos superiores respecto a la mortalidad en la niñez. Es decir que los hogares con madres sin nivel educativo o que hayan alcanzado máximo la primaria, están en alto riesgo de mortalidad temprana, contrariamente, los hogares con madres que alcanzaron la secundaria o los niveles superiores de estudio están garantizando la supervivencia de sus niños. Está claro, entonces, que el O.R. disminuye a mayor nivel educativo.
Otra variable que indica riesgo de muerte infantil en los hogares es: Servicios Higiénicos conectados a red pública (Rec Serhi (1)), en los hogares sin servicios higiénicos conectados a Red Pública, el riesgo es de 1.92 veces mayor con respecto a los hogares que tienen si tienen acceso a la Red Pública.
En resumen se tiene que las variables que exponen al riesgo de muerte infantil en los hogares son: Hacinamiento, madres sin nivel de educación o primaria, y viviendas sin servicio higiénico conectado a red pública.
Las variables que favorecen la supervivencia de los niños en los hogares serían: Parto atendido por profesional u otro técnico, residencia urbana, estado civil casado, nivel de educación secundaria y servicio de agua conectado al domicilio.
Valora este capítulo:
Opiniona sobre 'Análisis discriminante, regresión logística - PRACTICA' (0)
Tu nombre debe tener tres caracteres como mínimo.
Es necesario que te des de alta con una cuenta de correo válida.
Es necesario que te des de alta con una cuenta de correo válida.
El contenido del título de tu opinión debe tener tres caracteres como mínimo.
Es obligatorio que selecciones una valoración del recurso.
El contenido del comentario de tu opinión debe tener tres caracteres como mínimo.
Opina sobre este artículo |
Wikis relacionados con 'Análisis discriminante, regresión logística - PRACTICA'
El currículo se constituye en el puente que permite, fomenta y desarrolla la interactividad entre...
Más »
Curso sobre política, la práctica que se ocupa de gestionar, de resolver los conflictos colectivos...
Más »
Hablar de captar el mejor talento representa uno de los cambios más importantes que ha...
Más »
En el siguiente artículo se dará a conocer las ventajas y desventajas de una contabilidad...
Más »
El presente artículo describe las funciones de las compensaciones, presenta el modelo de gestión de...
Más »
