Estadística No Paramétrica UNIVERSIDAD MAYOR
FACULTAD DE ODONTOLOGÍA
BIOESTADÍSTICA

UNIDAD DE AUTO APRENDIZAJE
para alumnos de Odontología, curso de Bioestadística.
 

ESTADISTICA NO PARAMÉTRICA
Dr. Benjamín Martínez R.
Profesor de Bioestadística
 
 

INTRODUCCIÓN

Afortunadamente para el estudio de la estadística no paramétrica se necesita conocimientos muy básicos de matemáticas y de estadística descriptiva, por lo que creemos que todos los tests estadísticos tratados en esta unidad son de fácil comprensión para un estudiante de odontología, y son tests que hemos incluído ya que puede requerir en análisis e interpretación de resultados de algún trabajo de investigación que realice durante sus estudios.

La estadística descriptiva utiliza la distribución normal o Gaussiana, con dos parámetros básicos promedio y desviación estándar, y esto se utiliza en variables o mediciones continuas. Pero muchas veces tenemos distribuciones Binomiales, asociadas con ciertos recuentos, y con dos parámetros n, y p, donde n es el número total de observaciones y  p es la probabilidad que ocurra un evento para cada observación. El número total de ocurrencias r, tiene una distribución binomial en las n observaciones, 0<= r <= n.

La distribución binomial es relevante para conteos de eventos favorables. Esto se le llama generalmente "éxitos", pero puede ser aplicada esta distribución a situaciones dicotómicas. Por ejemplo el número de niños hombres en una familia de tamaño n tiene una distribución binomial con p = 1/2; también el número de seis registrados tirando 10 veces un dado tiene distribución binomial con n = 10 y p =  1/6.

Los test no paramétricos son menos fuertes o poderosos que los tests paramétricos (test de Student, ANOVA, análisis de regresión), pero deben aplicarse ya que son los únicos disponibles para datos que se han evaluado en orden (por ejemplo variables ordinales: grado de dolor evaluado como ausente, leve, moderado, marcado); rangos, o conteos de varias categorías.

Ejercicio 1.

1.- Frecuencia similar. ¿Está el dado cargado ?
 
Cara f(0)  f(E)  (0-E)2/E
1 7 10 0,9
2 5 10 2,5
3 15 10 2,5
4 17 10 4,9
5 5 10 2,5
6 11 10 0,1
TOTAL 60 60 13,40= c2
 f(0): frecuencia observada
 f(E): frecuencia esperada
O-E : Observado menos Esperado

GL (grados de libertad) = 6 - 1 = 5 (número de filas - 1)

c2 0.05 = 11.07 (Valor crítico obtenido de la tabla de valores de c2). Aceptar H1.
 
El dado estaba cargado!!!
 

Ejercicio 2

2.- Se obtienen 200 números entre 0 y 9 de una tabla de números aleatorios y se desea establecer si están bien "aleatorios".
 
Número f(O) f(E) (0-E)2 /E
0 21 20 0,05
1 20 20 0,00
2 22 20 0,20
3 20 20 0,00
4 27 20 2,45
5 16 20 0,80
6 23 20 0,20
7 13 20 2,45
8 17 20 0,45
9 22 20 0,20
TOTAL 200 200 å = 6,80 = c2  
gl = 10 - 1 = 9

c2 0.05 = 16.919 (valor crítico de la tabla de valores de c2 )

 No significativo. El valor obtenido de 6,80 es menor que el crítico. Qué significa que no es significativo?

 

 

 

 

3.- Se evaluó en 300 ratas el efecto anti-cálculo de 3 pastas dentales habiéndose evaluado los depósitos como bajo, moderado, alto.

 
 
Pasta Dental Bajo (E) Moderado (E) Alto (E) Total
A 49 (55) 30 (26) 21 (19) 100
B 67 (55) 21 (26) 12 (19) 100
C 49 (55) 27 (26) 24 (19) 100
TOTAL
165 78 57 300
(E) : valor esperado para cada celda.

El valor Esperado de la celda Bajo con Pasta Dental A se obtuvo:

E = (100 * 165) / 300 (ó en otras palabras: total de la fila por total de la columna divido por total de casos.

c2 = å(49 - 55)2/55 + ... + (24 - 19)2/19 = 9,65

gl = (f - 1) (c - 1) = (3 - 1) (3 - 1) = 4

(gl: grados de libertad, número de filas menos una, por número de columnas menos una).

  c2 0.05 = 9,49 . Valor de chi cuadrado crítico. Interprete los resultados.

 

 

 

4.- Se observó que las edades en que se presentaba un tumor (carcinoma espino celular del paladar) tenían esta distribución, es normal ?
 
Grupo de Edad (años) f(0)  f(E)  (0 - E)2 /E
< 39 14 8,81 3,06
40 - 49 5 7,79 1,00
50 - 59 6 10,93 2,22
60 - 69 8 13,36 2,15
70 - 79 10 14,79 1,49
80 - 89 16 12,25 1,47
90 y más 32 32,02 4,52
TOTAL
91 90,99 15,91= c2
 

En esta Tabla la frecuencia esperada debe obtenerse mediante m y d para estos datos:

m = 72.74

d = 25.5

 

Valores esperados :

Z= (x - m)/ d = (39,5 – 72,74)/25,5 = 1,30

Z1.30 = 0,4032 (de tabla de valores de Z)

0.5 - 0,4032 = 0,0968

0,0968 * 91= 8.808  (Valor que aparece en la tabla como 8,81. Trate de calcular los otros valores de frecuencias esperadas.
 
 


 Chi-cuadrado  c2

Este test se utiliza como vimos en los ejemplos anteriores con variables nominles y ordinales. Los datos deben estar agrupados en tablas, por ejmplo una tabla puede tener dos filas y dos columnas (2x2), o una columna como en el primer ejercicio, pero en la investigación lo más frecuente es encontrarse con tablas de 2x2 ó superiores. Es aconsejable que coloque siempre en las filas las categorías correspondientes a la variable independiente, la que también se le llama a veces variable explicatoria, exógena o predictor. La variable dependiente, con sus respectivas categorías debe estar en las columnas, también se le conoce como endógena o variable criterio o variable de respuesta. Al ubicar la variable dependiente en las columnas será más fácil interpretar los resultados, además si todos los investigadores siguen el mismo método para ordenar la presentación de sus datos, se hace más fácil entenderlos. Cuando se va a realizar un análisis de chi-cuadrado es conveniente calcular antes los porcentajes por las filas, o en otras palabras conocer la importancia de cada categoría de la variable independiente (siendo el total de cada fila 100), y obseve que existen dos porcentajes más que podría calcular (por la columna, total de la columna sería 100), y para el total de la tabla (en que la suma del porcentaje de cada celda de la tabla nos dará 100).

Chi-cuadrado es un test estadístico que indica si dos variables son o no independientes y NO entrega información acerca de la fuerza, dirección, o patrón de la asociación que pudiera haber entre ellas. El cálculo de este estadístico está basado en la relación entre las frecuencias en celdas que observamos en una tabla construída previamente (frecuencias observadas) y las frecuencias que esperamos observar, si se cumple como verdadera la hipótesis nula de que no hay asociación entre las variables.

c de Pearson =  å (O - E)/ E

c con corrección de Yates =  å( |O - E|  - 1/2)   /  E

La corrección de Yates es solamente para tablas 2x2 y con muestras pequeñas, o sea cuando en una celda existan menos de cinco observaciones. El tamaño ideal para realizar el test de chi-cuadrado debe calcularse multiplicando por 10 el número de celdas, por ejemplo para una tabla de 2x2 el ideal debiera ser 40 casos. No calcule el tamaño de la muestra cuando está por terminar la investigación, esto debe haberlo realizado cuando escribió el protocolo y había (ó debería)  pensado en qué análsis realizar.

El análisis de dos variables categóricas trata de determinar una relación, o sea asociación entre dos variables. La mejor forma de evaluar la asociación entre dos variables es calcular los porcentajes, pero de todas formas se necesita resumir esto en forma concisa. Cuando pensamos como resumir una asociación hay cuatro características que debemos tener en cuenta:

Existencia de una asociación
Para demostrar la existencia de una asociación entre dos variables lo más simple si ya tiene ubicada como debe ser a la variable dependiente (esto es con sus categorías en las columnas), obtenga los porcentajes por las filas y observe si existe alguna diferencia en la distribución de los porcentajes. Si observamos que no, decimos que las variables son independientes. No tienen asociación.

Lambda de Goodman y Kruskal  constituyen una medida de la existencia y de la fuerza de la asociación entre dos variables y varía entre 0 y 1. Lambda es 1 cuando para cada categoría de la variable independiente, solamente una celda de la tabla contiene todos los casos. O sea en este caso conociendo el valor de la variable independiente le permite hacer una predicción perfecta de la variable dependiente (una reducción del error en 100%).  Cuando tenemos que dos variables son estadísticamente independientes, lambda es cero. Desgraciadamente lo contrario no es verdadero, cuando lambda es cero no significa que las dos variables son independientes. Lambda debe usarse para variables nominales. En el caso de variables ordinales debe utilizar otras mediciones. Lambda y otras mediciones son calculadas por la mayoría de los softwares estadísticos.

Medidas para asociación de variables ordinales.
Existen dos diferencias con las medidas de asociación que se usan en variables nominales. Primero, debido a que las categorías están ordenadas, la asociación entre dos variables tiene una dirección indicada por el signo del coeficiente. Un signo más indica asociación positiva, el signo menos indica asociación inversa (similar a lo que ocurre con la correlación de Pearson), por lo que el valor va entre 1.0 y -1.0 pasando por 0 que indica ausencia de asociación y 1 asociación perfecta positiva. Segundo, debido a que las categorías están ordenadas los casos pueden ser ranqueados de acuerdo a si caen en categorías más altas o más bajas (Wilkinson).

Para las tablas ordinales la medida más utilizada se denomina Gamma de Goodman y Kruskal, además es la más simple. Se preocupa de contar solamente pares concordantes y discordantes en su fórmula (concordantes: aquellos pares serán concordantes cuando están ranqueados en el mismo orden en ambas variables, y discordantes son ranqueados en orden opuesto en ambas variables).

        concordancias - discordancias
g  = ----------------------------------------
        concordancias + discordancias

Gamma es una medida simétrica de asociación. Esto significa que tiene el mismo valor indistintamente si la variable independiente es la variable en las filas o las columnas. Dado que gamma no incluye ningún par empatado puede basarse en un número pequeño de casos. En el hecho, gamma puede ser 1 (ó -1) basado solamente en un par si todos los otros pares estaban empatados en una o ambas variables. En las tablas de 2x2 a gamma se le llama Q de Yule y la mayoría de los softwares estadísticos también entregan este valor.
 
Chi cuadrado se utiliza mucho más que en los ejemplos anteriores en tablas de contingencia de 2 x 2, por ejemplo si tenemos:
 

Mejoró No Mejoró TOTAL
Droga 48 8 56
Placebo 38 13 51
TOTAL 86 21 107
 
 

Mejoró No Mejoró TOTAL
Droga a b a + b
Placeo c d c + d
TOTAL a + c b + d a+b+c+d
 
Valor esperado para celda a = (a + c) (a+b) / (a+b+c+d) = 86 * 56 / 107 = 45,01
Practique obteniendo los otros valores esperados para celdas b, c y d.

Aplicando:

c con corrección de Yates =  å( |O - E|  - 1/2)   /  E

Obtenemos:

c2 = (|48 - 45,01| - 0,5)2 /45,01  +  (|8 - 10,99| - 0,5)2 /10,99 + (|38 - 40,99| - 0,5)2 / 40,99 +
         (|13 - 10,01| - 0,5)2 / 10,01

c2 = 0,138 + 0,564 + 0,151 + 0,619 = 1,47

Grados de libertad (nf - 1) (nc - 1) = (2 - 1)(2-1) = 1

De acuerdo a la tabla de valores críticos para chi cuadrado con 1 grado de libertad  y para p<0,05 = 3,84. Por lo tanto afirmamos que no existen diferencias significativas. O en otras palabras la mejoría fue similar con droga o placebo.

Muchas veces en las tablas de 2 x 2 se calcula el odds ratio que se refiere a la relación de frecuencias de dos categorías y también se conoce o es equivalente al riesgo relativo. De acuerdo a la tabla con las celdas a, b, c y d, el odds ratiio se calcula:
OR = a/b - c/d
Cuando OR es mayor que uno, un sujeto en la fila uno es más (o menos) probable de ser clasificado en la columna uno que un sujeto en la fila dos. Con un OR de uno, queremos decir que no hay asociación, y este valor puede ir de cero a infinito, y entre más alejado de uno indica una fuerte asociación.
El logaritmo de OR (Ln(Odds)) puede utilizarse para tests de significancia estadística y construir intervalos de confianza para el OR, con un rango entre 0 e infinito.Con el OR, el Ln y el error estándar que entregan la mayoría de los softwares estadísticos se puede calcular el intervalo de confianza para el OR.
 

Analice los resultados de la misma tabla obtenidos con software estadístico

SYSTAT Output
File D:\PATOLOGIA\BIOESTADISTICA\TABLA.SYD

SYSTAT Rectangular file D:\PATOLOGIA\bioestadistica\Tabla.syd,
Two-way Tables - Statistics
  Cases are weighted by the value of variable N.
Frequencies

 GRUPO$ (rows) by RESP_$ (columns)
 

MEJOR NO MEJOR Total
DROGA  48.000  8.000  56.000
PLACEBO  38.000  13.000  51.000
Total  86.000  21.000  107.000
 

Row percents
 GRUPO$ (rows) by RESP_$ (columns)
 

MEJOR NO MEJOR Total N
DROGA  85.714  14.286  100.000  56.000
PLACEBO  74.510  25.490  100.000  51.000
Total  80.374  19.626  100.000
N  86.000  21.000  107.000
 
 
Test statistic Value df Prob
Pearson Chi-square  2.124  1.000  0.145
Yates corrected Chi-square  1.473  1.000  0.225
Fisher exact test (two-tail)

 0.223
 
Coefficient Value Asymptotic Std Error
Odds Ratio  2.053
Ln(Odds)  0.719  0.499
Yule Q  0.345  0.220
Yule Y  0.178  0.121
 

Conteste las siguientes preguntas:
1. Por qué existe diferencia en el valor de chi-cuadrado con y sin corrección de Yates?

2. Los porcentajes de mejoría como son?
 

3. Qué significa la Q de Yule de 0,345?
 

4. En la última tabla aparece Odds Ratio = 2,053 Sabe ud. para qué sirve ? También para qué sirve el valor que dice Ln(Odds) = 0,719, con error estándar asintótico de 0,499?
  

Chi-cuadrado para evaluar tendencia (chi-squared test for trend)

Muchas veces necesitamos evaluar en variables ordinales o con categorías que siguen un orden si existe una tendencia, para esto nos sirve este test de chi-cuadrado cuya formula es:

  chi

Ejemplo tomado del libro de Altman, página 263, en donde se quiere ver la relación de frecuencia de cesáreas y zapato materno (Frame, y col., 1985). Yo habría visto relación entre cáncer oral vs. Años en hombres y mujeres u otra tendencia más estimulante, pero nos limitamos al ejemplo:


Tamañodel zapato (talla Inglesa, por ejemplo 5 equivale a 37)
Cesárea <4 4 4 1/2 5
5 1/2 6 +
Total
Si 5 7 6 7 8 10 43
No 17 28 36 41 46 140 308
Total 22 35 42 48 54 150 351

trend

Fig. Proporciòn de mujeres que tuvieron hijo por cesárea con diferentes tallas de zapatos.

Para evaluar la tendencia lo que debemos hacer es encontrar si existe una línea que siga una inclinación o pendiente de acuerdo a los valores observados, en este caso las proporciones en cada grupo, o en otras palabras que porcentaje de mujeres que tuvieron cesárea, tenían cada talla de zapatos y lo que vamos a demostrar es si la pendiente es distinta de 0 (igual que en análisis de regresión simple).

Tabla. Datos de Tamaño de zapato materno y frecuencia de cesárea (Frame et al, Brit J obst Gynaecol92;1239, 1985)


Tamaño del zapato (talla Inglesa, por ejemplo 5 equivale a 37)
Cesárea <4 4 4 1/2 5
5 1/2 6 + 
Total
Si (ri) 5
7

7 8
10
43 ( = R)
Total (ni) 22
35 42
48
54
150
351 ( = N)
Score (xi) 1
2
3
4
5
6


(rixi)
5
14
18
28
40
60
165

(nixi)
22
70
126
192
270
900
1580

(nix2i)
22
140
378
768
1350
5400
8058

Promedio (x) = 1580 / 351 = 4,5014; p = 43 / 351 = 0,1225; 1 – p = 0,8775

El score 1 a 6 se dá de acuerdo al orden de la tabla, o en este caso desde la talla menor (<4) hasta la más grande 6 +.

chi

 chi

Si se calcula el valor de chi-cuadrado en la forma tradicional explicada anteriormente se obtiene 9,29 y con 5 grados de libertad, el cual no es significativo (p =  0,098), pero si se considera acá que los grados de libertad son solamente uno (ya que se toma en cuenta el número de variables menos 1) se obtiene que p < 0,05. Por lo tanto podemos afirmar que existe fuerte tendencia  linear que una proporción de mujeres tienen cesárea de acuerdo al tamaño o talla del zapato (!), pero esto no es lo mismo a tratar de predecir qué mujeres de qué talla de zapato van a tener que ir a cesárea.

Tabla de Valores de chi-cuadrado
Grados de Libertad 0,05 0,01
1 3,84 6,63
2 5,99 9,21
3 7,81 11,34
4 9,49 13,28
5 11,07 15,09
6 12,59 16,81
7 14,07 18,48
8 15,51 20,09
9 16,92 21,67
10 18,31 23,21
11 19,68 24,72
12 21,03 26,22
13 22,36 27,69
14 23,68 29,14
15 25,00 30,58
16 26,30 32,00
17 27,59 33,41
18 28,87 34,81
19 30,14 36,19
20 31,41 37,57
21 32,67 38,93
22 33,92 40,29
23 35,17 41,64
24 36,42 42,98
25 37,65 44,31
26 38,89 45,64
27 40,11 46,96
28 41,34 48,28
29 42,56 49,59
30 43,77 50,89
40 55,76 63,69
50 67,50 76,15
60 79,08 88,38
70 90,53 100,42
80 101,88 112,33
90 113,14 124,12
100 124,34 135,81
 
 

Test del signo del Rango.

Este test es equivalente al test t pareado o sea para comparaciones antes y después de un tratamiento, pero aquí tenemos variables que no siguen una distribución normal o que son ordinales.
Se evaluó el efecto de un diurético, producción de orina mL/día. (Antes y Después se refiere al valor obtenido en mL/día de orina antes y despueés de administrado el diurético).
 
Pcte Antes  Después Diferencia Rango 
de la dif. *
Signo del Rango
1 1600 1490 -110 5 -5
2 1850 1300 -550 6 -6
3 1300 1400 100 4 4
4 1500 1410 -90 3 -3
5 1400 1350 -50 2 -2
6 1010 1000 -10 1 -1





W = - 13
  * 1 magnitud menor, 6 valor mayor de diferencias.
W valor del test estadístico. Al observar en tabla de valores el valor de p = 0.219. No significativo.
 

7.- Test de Mann-Whitney

Este test es equivalente al test t no pareado.

Producción de orina diaria mL/día en dos grupos de pacientes, a los cuales se les administró placebo y al otro grupo droga diurética.
 
Placebo Rango Droga Rango
1000 1 1400 6
1380 5 1600 7
1200 3 1180 2


1220 4
T = 
9
19
 

Mann-Whitney U = 9, p = 0.289. (Valor de p obtenido del análisis realizado con Systat. Si ud. no tiene software estadístico debe ubicar en libro de estadística, como los que figuran en las referencias, la tabla de valores para el test de Mann-Whitney).

Resultado con Systat:

  Categorical values encountered during processing are:
GRUPO$ (2 levels)
   droga, p
 
Kruskal-Wallis One-Way Analysis of Variance for 7 cases
Dependent variable is ORINA
 Grouping variable is GRUPO$
 
    Group       Count   Rank Sum
 
  droga            4      19.000
  p                3       9.000
Mann-Whitney U test statistic =        9.000
Probability is        0.289
Chi-square approximation =        1.125 with 1 df.
 

Test de Kruskal - Wallis

En 1952, Kruskal y Wallis propusieron una extensión del test de Mann-Whitney, utilizando fórmulas de Wilcoxon. Supongamos que tenemos p muestras al azar, y la muesatra i ( i = 1, 2, 3, ....., p) consistente de n observaciones, la j de estos siendo xi, ( j = 1, 2,...., p). El número total de observaciones es:

N = Sini.
Obtenemos rango de todas las observaciones N desde la más pequeña (rango 1) a la más grande (rango N), rangos empatados se da el promedio del valor que corresponda.

Si tenemos rij el rango asignado a xi,j y si, = Sjrij la suma de los rangos para la muestra i.
Calculamos:
Sp = Si ( si2 / ni ) y
Sr = Si, jrij2
Esto corresponde a la suma de cuadrados de rango para los tratamientos y del total, similar a lo que veíamos en ANOVA. De cada uno de ellos sustraemos una corrección apropiada para el promedio,

C =1/4 N ( N + 1 )2

Si no hay empates :
Sr = N ( N + 1 ) ( 2N + 1 ) / 6. El test estadístico es :

         ( n - 1) (Sp - C)
T = ---------------------
                Sr - C

Sin empates se simplifica a:
T = 12 Sp / [ N ( N + 1 )] - 3 ( N + 1 )

Si N es moderado o grande, T tiene una aproximación a la distribución de chi-cuadrado con p-1 grados de libertad si no hay diferencia en los tratamientos.
Ejemplo:
Se realizó recuento de linfocitos en biopsias de pacientes controles (A), glándulas adyacentes a Mucoceles (B), y en pacientes con Síndrome de Sjögren (C),
 
Condición Recuentos
A 13  27  26  22  26
B 43  35  47  32  31  37 
C 33  33  33  26  44  33  54
 

Es bueno ordenar los rangos
 
Condición Recuento

                                        R: 
13  22  26  26  27 
1    2    4     4   6 

                                        R: 
31  32  35  37           43     47 
7    8    12  13,5       15  17 

                                        R:
26  33  33  33           37     44    54 
4    10  10  10           13,5  16    18 
 R : rango.

s1= 1+ 2+ 4+ 4+6 = 17
s2= 7+ 8+ 12+ 13,5+ 15+ 17= 72,5
s3= 4+ 10+ 10+ 10+ 13,5+ 16+ 18= 81,5

sp= ( 17 )2/ 5+ ( 72,5 )2/ 6+ ( 81,5 )2/ 7= 1882,73

Suma de cuadrados de los rangos medios:
Sr = 2104,5
C    = 18 x ( 19 )2/ 4
       = 1624,5
 

T    = 17 ( 1882,73 - 1624,5 ) / ( 2104,5 - 1624,5 )
      = 9,146

Grados de libertad = 3 - 1= 2

Por lo tanto rechazamos la hipótesis de nulidad y el grupoA tiene un recuento de linfocitos menor, que difiere en forma significativa, o en otras palabras las glándulas salivales normales tenían menor recuento de linfocitos.

Comparaciones múltples después de realizado Kruskal - Wallis.

Si existen diferencias significativas debemos realizar la comparación entre los grupos, o sea en el ejemplo anterior habría posibilidad de determinar si existen diferencias significativas entre:
A vs B ( controles vs mucoceles)
A vs C (controles vs Sjögren)
B vs C (mucoeles vs Sjögren)
algo similar a lo que se hace con test de Scheffé o Tukey después de realizar el ANOVA.

Si tenemos los promedios de los rangos para estas muestras:

| mi - m | > tN-t,a   [( Sr - C ) ( N -1 -T ) ( ni + nj )/{ni nj ( N - T) ( N - 1) }]1/2
(recuerde que la expresión entre [  ...  ]1/2  debe obtener la raíz cuadrada)

donde T es el valor encontrado y tn-t,a es el valor de t requerido para significancia al 100% del nivel de significancia en un test con N- t grados de libertad y los otros valores ya están descritos .

En el ejemplo anterior veíamos que el recuento en A era menor, debemos determinar si difiere en forma significativa del que le sigue, o sea en B.
Los rangos que importan son :
m1 = 17/ 5 = 3,4 para A
m2 = 72,5 /5 = 12,1 para B

Grados de libeeertad : ( n1 - 1 ) + ( n2 - 1 ) + ( n3 - 1 ) = 15.
Tenemos Sr- C = 2104,5 - 1624,5= 480,0 y T = 9,146, N = 18, n1 = 5, n2 = 6, t = 3 y de acuerdo a la tabla de valores críticos al 1% de significancia con 15 grados de libertad, que es 2,95. Por lo que el lado izquierdo de la fórmula anterior es 12,1 - 3,4 = 8,7, y el lado derecho es 2,95  [ ( 480 ) (17 - 9,164 ) ( 11 ) / 6 x 5 ( 17 ) ( 15 ) ]1/2  =6,86.

Ya que 8,7 > 6,86 la diferencia es significativa. O sea existen diferencias entre el grupo A y B.
Si quiere entretenerse un poco, realice las comparaciones entre A vs. C y B vs. C.
 

 
 

 

Correlación de Spearman
 

Equivalente del análisis de regresión pero para variables ordinales o para determinar la significancia de la asociación de dos variables continuas en que no existe normalidad de ellas. Contrapartida no paramétrica de la correlación de Pearson.

rs = 1 - 6å(xi – yi)2 /n(n2 – 1) = 1 – 6å d2 /(n – 1)(n)(n + 1) = 1 – 6å d2 /n3 – 1

(n: número de pares de obs.)
(xi – yi : diferencia en rango de x con respecto a y)
 

Si tenemos un valor que corresponde a reabsorción de hueso en la mandíbula al lado derecho y deseamos establecer en 10 pacientes si es independiente de lo que ocurre al lado izquierdo, tenemos:

 
Der 83 97 91 72 76 88 95 89 75 74
Rango
5
10
8
1
4
6
9
7
3
2
Izq 87 98 84 82 74 92 91 83 80 77
Rango
7
10
6
4
1
9
8
5
3
2
Dif de Rangos
-2
0
2
-3
3
-3
1
2
0
0
d2
4
0
4
9
9
9
1
4
0
0
å d2 = 40

rs = 1 – 6(40)/10(102 – 1) = 0,757

Para determinar si existe significancia estadística en el valor de correlación de Spearman (rs) es necesario calrcular valor de t, similar a lo que se realiza en la correlación de Pearson.

t =  rs /  [ (1 - rs2) / (N - 2)]1/2

[   ]1/2   Esta expresión, significa obtener raíz cuadrado de lo encerrado en el paréntesis cuadrado.
 

Referencias  Bibliográficas.
 

  1. Sprent P. Applied nonparametric statistical methods. 2nd Ed., Chapman-Hall, London, 1993:1-3.
  2. Glantz SA. Primer of Biostatistics, 3th ed., McGraw Hill, New Yor, 1992.
  3. Rimm AA, Hartz AJ, Kalbfleisch JH et al. : Basic Biostatistics in Medicine and Epidemiology. Appleton-Century-Crofts, New York, 1980:237-241.
  4. Norman y Streiner. Bioestadística. Mosby, 1996.
  5. Snedecor GW, Cochran WG. Statistical Methods. The Iowa State U Press, Ames, Iowa, 7th ed,1980.