Regresión Logística

  • Post by cmunozm
  • 21 noviembre 2013
post-thumb

Este análisis corresponde a un método estadístico avanzado, más bien descrito recientemente, 1976, y que se ha utilizado ultimamente en medicina, odontología y otras áreas, y que tiene algunos parecidos al análisis de regresión simple y múltiple. En este análisis de Regresión Logística (RL) la variable dependiente muchas veces, y en el modo más simple, presenta una dicotomía: vivo o muerto, sano o enfermo, cariado o sano, con síntomas en la ATM o sin síntomas en la ATM, sobrevive a los 5 años o no, etc,; y las variables independientes son muchas veces continuas, pero también de las otras (nominales u ordinales) y por lo tanto hay una mezcla de variables.

En este análisis de RL se construye una ecuación de regresión para predecir la condición a partir de una combinación lineal de variables. La ecuación dará el riesgo de contraer la condición (o de pertenecer a un grupo) con una suma ponderada de los factores.

z = b0 + b1x1 +b2x2 + b3x3 + … + bnxn

Las probabilidades están limitadas entre 0 y 1 y se transforman a escala de valores de Z y a esto se le llama transformación logística:

y = Pr (Enf | z)    = 1  /  (1 + e-z)

Esto lo que dice es que y es la probabilidad de contraer Enf para un valor conocido de Z (o sea un valor dado de la ecuación de regresión).

Si Z = 0, entonces Y = 1 / (1 + exp(0)) = 1 / (1 + 1) = 0,5

Cuando Z tiende a infinito (inf) entonces es 1 / (1 + exp( – inf)) = 1. Y si Z tiende a – inf el resultado es
1/(1 + exp (inf)) = 0. Es decir describe una curva suave que se aproxima a 0 para valores de negativos de Z, grandes en valor absoluto y se aproxima a 1 cuando Z es muy grande y positivo (fig. 1).

Fig. 1. Curva de la función logística.
Fig. 1. Curva de la función logística.

Si tenemos varias variables, ordenando todas ellas se evalúa:

(1 – y) / y   = e – (b0 + b1x1 +b2x2 + b3x3 + … + bnxn)

Para eliminar el exponencial se toma el logaritmo (de ahí el nombre de regresión logística) y si:

log [ y / (1 – y)] =  b0 + b1x1 +b2x2 + b3x3 + … + bnxn

Manipulada la ecuación pasamos a tener de nuevo una expresión lineal por lo que podemos analizarlo como problema de regresión. Por eso se calcula igual que en la regresión lineal un coeficiente b para cada variable con su significancia estadística (como lo hace el software no se preocupe, por ahora).

Si por ejemplo tuviéramos una sola variable predictiva X1  que solo tiene dos valores (1 presente, 0 ausente) la probabilidad de tener la condición (enfermo, por ejemplo) es:

log [ (p1 (x1) / ( 1 – p1 )(x1)] = b0 + b2

y si es X1 negativo entonces la probabilidad de que sea sano es:

log [ (p0 (x1) / ( 1 – p0 )(x1)] = b0

La razón p / ( 1 – p) es la probabilidad de tener la enfermedad con X1 siendo positivo o negativo. La razón de probabilidad es el cociente de probabilidades, y el log de la razón de probabilidad es:

log [ p1/ (1- p1)  /   po /  (1 – p0 )] = b3

Para variables de predicción discretas el coeficiente de regresión coincide con el log de la razón de probabilidad del suceso cuando el predictor está presente o ausente.

Una característica interesante de la RL es la relación de los coeficientes con un parámetro de cuantificación de riesgo conocido como odds ratio. El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra. Lo mismo que habíamos visto ya, la razón p / ( 1 – p), siendo p la probabilidad del suceso. Cuando se calcula un odds, probabilidad de tener caries, y después se calcula la probabilidad de no tener caries, y se divide el primer odds por el segundo, tenemos un odds ratio que cuantifica cuánto más probable es la aparición de caries cuando ocurre una determinada condición (por ejemplo ingesta de mucha azúcar vs ingesta de poca azúcar).

EJEMPLOS

1. Regresión Logística binaria.

Empezamos con un ejemplo citado por Steinber y Colla, 1997, que a su vez lo tomaron de Hosmer y Lemeshow, en el cual se toman niños de bajo peso al nacer (LOW, si la madre es o no de bajo peso) como variable dependiente que depende de varios riesgos (entre estos factores incluyen, edad (AGE), peso de la madre en su último período menstrual (LWT), raza (RACE, 1 blanco, 2 negro, 3 otra), estado de fumar al embarazo (SMOKE), historia de parto prematuro (PTL), hipertensión (HT), infección uterina (UI) y número de visitas al especialista durante el primer trimestre (FTV)). La variable dependiente es codificada 0 y 1 (1 para aquellos que pesan menos de 2500 g al nacer y 0 todos los demás).

En este primer modelo LOW  (niños de bajo peso al nacer) es la variable dependiente, y LWD (mujeres de bajo peso en su ultimo período menstrual, o sea se transformó la variable LWT, si pesa menos de 110 lb se dejó como 1, y 0 las otras) es la variable independiente, y las instrucciones fueron:

USE HOSLEM
MODEL LOW=CONSTANT+LWD
ESTIMATE

Categorical values encountered during processing are:
LOW (2 levels)
0,        1

Binary LOGIT Analysis.

Dependent variable: LOW
Input records:          189
Records for analysis:          189
Sample split

Category choices
0   (REFERENCE)       130
1   (RESPONSE)         59
Total      :             189

L-L at iteration 1 is     -131.005
L-L at iteration 2 is     -113.231
L-L at iteration 3 is     -113.121
L-L at iteration 4 is     -113.121
Log Likelihood:     -113.121
Parameter                Estimate         S.E.        t-ratio      p-value
1 CONSTANT            -1.054           0.188       -5.594        0.000
2 LWD                         1.054           0.362       2.914        0.004
95.0 % bounds
Parameter              Odds Ratio        Upper        Lower
2 LWD                         2.868              5.826        1.412
Log Likelihood of constants only model = LL(0) =     -117.336
2*[LL(N)-LL(0)] =        8.431 with 1 df Chi-sq p-value = 0.004
McFadden’s Rho-Squared =        0.036
El computador entrega, primero Category choices, como se distribuyen los casos entre 0 (reference) y 1 (response) para la variable dependiente, LOW. Después da una historia de la iteración, mostrando el progreso del proceso de convergencia. Finalmente entre los parámetros estimados, error estándar, coeficiente estandarizado (llamado normalmente t ratio), valores de p, y el log-likelihood.
Debe tenerse en cuenta en este resultado: que el valor de LWD es grande en comparación con su error estándar (t ratio=2.91), y por lo tanto parece un factor predictivo importante de bajo peso al nacer. La interpretración del coeficiente es bastante diferente a la de una regresión ordinaria. El coeficiente logístco dice cuanto incrementa el logaritmo por una unidad de aumento en la variable independiente, pero la probabilidad de 0 ó 1 es una función no linear del logaritmo.

La tabla de odds-ratio da un significado más intuitivo para cada coeficiente. El odds de la respuesta está dado por p / (1 – p), donde p es la probabilidad de resuesta y el odds ratio es el factor multiplicativo por el cual el odds cambia cuando la variable independiente aumenta en una unidad.  En el primer modelo, ser una madre de bajo peso aumenta el odds de un recién nacido de bajo peso por un factor multiplicativo de 2.87 con límite de confianza superior e inferior de 1.41 y 5.83, respectivamente. Dado que el límite inferior es mayor  que 1, la variable parece representar un genuino factor de riesgo, o sea si la madre es de bajo peso, existiría un mayor riesgo de tener un hijo de bajo peso al nacer (algo lógico, y que podría haber supuesto previamente).

2. Regresión Logística binaria con múltiples predictores.

Veamos que pasa agregando una variable, AGE, variable continua, y después la interacción de edad con LWD (AGE*LWD).

Instrucciones dadas:
LOGIT
ISE HOSLEM
MODEL LOW=CONSTANT+LWD+AGE
ESTIMATE / MEANS

Resultado:

Categorical values encountered during processing are:
LOW (2 levels)
0,        1

Binary LOGIT Analysis.

Dependent variable: LOW
Input records:          189
Records for analysis:          189
Sample split

Category choices
0   (REFERENCE)       130
1   (RESPONSE)         59
Total      :             189

Independent variable MEANS
PARAMETER                      0           -1      OVERALL
1 CONSTANT                    1.000        1.000        1.000
2 LWD                                0.356        0.162        0.222
3 AGE                              22.305       23.662       23.238
L-L at iteration 1 is     -131.005
L-L at iteration 2 is     -112.322
L-L at iteration 3 is     -112.144
L-L at iteration 4 is     -112.143
L-L at iteration 5 is     -112.143
Log Likelihood:     -112.143
Parameter                Estimate         S.E.      t-ratio      p-value
1 CONSTANT             -0.027        0.762       -0.035        0.972
2 LWD                         1.010        0.364        2.773        0.006
3 AGE                        -0.044        0.032       -1.373        0.170
95.0 % bounds
Parameter              Odds Ratio        Upper        Lower
2 LWD                         2.746        5.607        1.345
3 AGE                         0.957        1.019        0.898
Log Likelihood of constants only model = LL(0) =     -117.336
2*[LL(N)-LL(0)] =       10.385 with 2 df Chi-sq p-value = 0.006
McFadden’s Rho-Squared =        0.044

Tenemos los promedios de las variables independientes. En este caso tenemos una diferencia importante entre el promedio de LWD en los grupos de peso al nacer, pero una diferencia poco significativa en el promedio de la AGE.
AGE claramente no es significativa por medios convencionales estandares si miramos su coeficiente y relación con error estándar. El internvalo de confinaza para el odds ratio (0.898, 1.019) incluye 1 indicando un riesgo relativo sin efecto, cunado es ajustado para LWD. Antes de concluir que la edad no pertenece a este modelo, consideramos la interacción de AGE y LWD, que es el siguiente resultado:

Instrucciones dadas:
LOGIT
ISE HOSLEM
MODEL LOW=CONSTANT+LWD+AGE
ESTIMATE / PREDICTION

Categorical values encountered during processing are:
LOW (2 levels)
0,        1
Total      : 12

Binary LOGIT Analysis.

Dependent variable: LOW
Input records:          189
Records for analysis:          189
Sample split

Category choices
0   (REFERENCE)       130
1   (RESPONSE)         59
Total      :             189

L-L at iteration 1 is     -131.005
L-L at iteration 2 is     -112.322
L-L at iteration 3 is     -112.144
L-L at iteration 4 is     -112.143
L-L at iteration 5 is     -112.143
Log Likelihood:     -112.143
Parameter                Estimate         S.E.      t-ratio      p-value
1 CONSTANT             -0.027        0.762       -0.035        0.972
2 LWD                         1.010        0.364        2.773        0.006
3 AGE                        -0.044        0.032       -1.373        0.170
95.0 % bounds
Parameter              Odds Ratio        Upper        Lower
2 LWD                         2.746             5.607        1.345
3 AGE                         0.957             1.019        0.898
Log Likelihood of constants only model = LL(0) =     -117.336
2*[LL(N)-LL(0)] =       10.385 with 2 df Chi-sq p-value = 0.006
McFadden’s Rho-Squared =        0.044

Model Prediction Success Table
Actual  Predicted Choice                Actual
Choice     Response    Reference         Total

Response       20.641       38.359       59.000
Reference       38.359       91.641      130.000

Pred. Tot.          59.000      130.000      189.000
Correct                 0.350        0.705
Success Ind.        0.038        0.017
Tot. Correct         0.594

Sensitivity:        0.350     Specificity:        0.705
False Reference:        0.650  False Response:        0.295

En este punto puede ser conveniente evaluar el modelo como un todo. Un método de evaluación del model es considerar  le estadístico likelihood-ratio (relación de probabilidad). Este test estadístico evalúa la hipótesis que todos los coeficientes, excepto la constante son 0, similar como el test de F informado en la regresión linear. El estadístico likelihood-ratio (abreviado LR) de 13.532 es chi-cuadrado con 3 grados de libertad y un valor de p de 0.004. Los grados de libertad son iguales al número de covariados en el modelo, no incluyendo la constante. El valor rho-cuadrado de McFadden es una transformación del estadístico LR cuya intención es es minimizar un R-cuadrado. Siempre tiene un valor de 0 a 1 y un más alto rho-cuadrado corresponde a un resultado más significativo. Sin embargo, Rho-cuadrado tiende a ser mucho más bajo que R-cuadrado, y un número bajo no necesariamente implica un modelo que se ajuste pobremente. Valores entre 0.20 y 0.40 son considerados muy satisfactorios.

Los modelos también pueden ser evaluados entre sí. Un test de la relación de probabilidad (LR) se realiza calculando dos veces la diferencia de los log-likelihoods para cualquier par de modelos obtenidos. Comunmente llamado el estadístico G, tiene grados de libertad igual a la diferencia en el número de parametros estimados en los dos modelos. Comparando el actual model con el previo tenemos:

G = 2 * (11.14338 – 110.56997) = 3.14684

con un grado de libertad el cual tiene una valor de p de 0.076. La conclusión es que la interacción llega a ser significativa.

Tablas de predicción de éxito.

La salida también incluye  una tabla de predicción de éxito, la cual resume el poder clasificatorio del modelo. Las filas de la tabla muestran cómo las observaciones desde cada nivel de la variable dependiente son asignadas a los predichos (o pronosticados). Leyendo por la primera fila (Response) vemos que de los 59 casos de bajo peso al nacer, 21.28 estan correctamente predichos y 37.72 incorrectamente. La segunda fila demuestra que de los 130 que no eran de bajo peso, 37.72 están incorrectamente predichos y 92.58 están correctamente.

La tabla de predicción de éxito suma las probabilidades en cada celda; así, cada observación contribuye con una fracción a las celdas de  Respuesta y Referencia en la fila apropiada. La suma de las columnas da los totales predichos para cada opción, y las sumas de las filas da los totales observados. Estas sumas serán siempre iguales para modelos con una constante.

La tabla también incluye resultados analíticos adicionales. La fila Correcto es la proporción de correctamente predichos, definida como la diagonal de la tabla dividido por el total de la columna, y Tot. Correct es la relación de la suma de los elementos de la diagonal en la tabla con el número total de observaciopnes. En la columna Respuesta, 21.29 están correctamente predichos de un total de 59, dando una relación de correctos de 0.3607. En total, 21.28 + 92.28 de un total de 189 están correctos, dando un total de correctos de 0.6009.

La ganancia que este modelo presenta sobre un puro modelo al azar es Success Ind que asignó la misma probabilidad de LOW a cada observación en los datos. El modelo produce una ganancia e 0.0485 sobre un modelo de respuesta al azar y 0.0220 para los casos de referencia. Basado en estos resultados, no podemos pensar muy bien de este modelo.

En la literatura bioestadística se utiliza otra teminología para estas cantidades. La cantidad Correct es también llamada sensibilidad para el grupo Response y especificidad para el grupo Reference. La False Reference relación es la fracción de aquellos predichos a responder que actualmente no responden, mientras que la False Response es la fracción de aquellos predichos que no responden a los actualmente respondedores.

 

Tamaño de la muestra para análisis de RL

No existe una forma bien aceptada, que yo sepa, pero lo que se ha sugerido es que el tamaño sea superior a : 10x(k+1), donde k es el número de covariables, o sea variables independientes. En el caso de la variable dependiente dicotómica, debe haber al menos 10 casos en cada grupo.

 

REFERENCIAS BIBLIOGRÁFICAS Y SITIOS EN INTERNET

1.-  Norman GR, Streiner DL. Bioestadística, Mosby, Madrid, 1996, 125.
2.- Vivanco M. Análisis estadístico multivariable. Teoría y Práctica. Vicerrectoría de asuntos académicos, U de Chile, Edit. Universitaria, Santiago, 1999: 155.

3. Silva LC, Barroso, IM. Regresión logística. Madrid. Edit La Muralla, 2004: 164. (Libro disponible en biblioteca UM, Alameda).