Facultad de Odontología Patología Oral / General / Bioestadística / Cariología Unidades de autoaprendizaje Autor: Dr. Benjamín Martínez R.

Tamaño de la Muestra

TEMA TAMAÑO DE LA MUESTRA.
TIEMPO APROXIMADO 45 MINUTOS.
CURSO CURSO METODO DE INVESTIGACION Y BIOESTADÍSTICA, FAC. ODONTOLOGÍA, U MAYOR
INSTRUCTOR DR. BENJAMIN MARTINEZ R.

I. RACIONAL:

Al realizar una investigación también debemos tener en claro cuanta es la muestra mínima para poder obtener o realizar un análisis que sea significativo.

II. OBJETIVOS TERMINALES:

El alumno será capaz de calcular el tamaño de la muestra para distintos tipos de investigaciones.

III. OBJETIVOS ESPECIFICOS:

El alumno :

  • Podrá calcular el tamaño de una muestra en test t pareado y no pareado.
  • Calcular el tamaño de la muestra en ANOVA de una vía.
  • Calcular el tamaño de la muestra en análisis de regresión simple y correlación.
  • Calcular el tamaño de la muestra en test chi-cuadrado.

CICLO DE PRACTICA I:

Introducción

Siempre que se va a determinar el tamaño de una muestra es necesario tener en cuenta, en una investigación, de acuerdo a Browner y col, 1988:

  1. Establecer la hipótesis de nulidad y determinar si va a realizar un análisis de una o dos colas.
  2. Seleccionar el test estadístico para analizar los resultados.
  3. Elegir efecto tamaño razonable (y la variabilidad si es necesario).
  4. Establecer los valores para alfa y beta (errores I y II).
  5. Consultar una tabla o fórmula apropiada (algunas se encuentran en esta unidad de enseñanza).

Puede que uno o más de los ingredientes necesarios no se conozcan, o sea incierto, pero es importante estimar el tamaño de la muestra temprano en el proceso de diseño de un estudio. El estimar el tamño de una muestra es difícil de calcular para algunos estudios pero siempre debiera hacerse aunque sea en forma aproximada. Un problema es cuando no se conoce nada acerca del efecto tamaño o de la desviación estándard. En los alumnos es frecuente que planteen esto, pero nos queda la duda de si habrán realizado una búsqueda exhaustiva en la literatura nacional y/o mundial acerca del tema que desean investigar, ya sabemos que es muy difícil ser 100% original, y por lo tanto casi siempre existe algo realizado, y alguien ha publicado una DS de esegrupo (o esos grupos) que se parece al que queremos investigar. Ahora si realmente no puede encontrar nada ni siquiera existe información obtenible al conversar con otros investigadores se debiera hacer un pre-test con un grupo pequeño. Otra cosa que se ha sugerido es que para variables intervalares se dicotomicen, o sea dejarla en dos grupos y utilizar el test z para estimar la muestra. Ahora si no puede hacer nada, de esto el investigador debiera pensar bien su problema e imaginar los posibles resultados y decidir que muestra probablemente es la que necesita. Recuerde siempre que muchas investigaciones han informado, o no se han publicado, porque no hubo diferencias significativas entre los grupos, y esto ha sido debido a que los grupos eran muy pequeños para poder detectar diferencias importantes entre ellos que podrían haberse descubierto con grupos más grandes, Freiman y col, 1978.

REFERENCIAS BIBLIOGRAFICAS

  1. Browner WS, Black D, Newman TB, Hulley SB. Estimating sample size and power in Designing Clinical Research ed by Hulley SB & Cummings SR. Chap 13. Williams & Wilkins, Baltimore, 1988:139-150.
  2. Freiman JA, Chalmeres TC, Smith H, Kuebler R. The importance of beta, theType II error and sample size in the design and interpretation of the randomized controlled trial. N Eng J Med 299:690-694, 1978.

RETROALIMENTACION

1. ¿Por qué cree que es importante conocer qué test estadístico va a utilizar para saber qué tamaño de muestra necesita?

2. Defina hipótesis de nulidad.

 


CICLO DE PRACTICA II

Buena parte de la estadística se basa en inferencias o sea obtener conclusiones en base a una muestra, o también usar una muestra para determinar la probabilidad de que una conclusión obtenida del análisis de los datos de una muestra sea cierta. Para esto es importante que la muestra sea seleccionada al azar o en otras palabras realizar un muestreo aleatorio.

Siempre para poder determinar el tamaño de una muestra debemos asumir algunos valores y es cosa de pensar que para calcular algo necesitamos de otro valor (u otros valores). Si tenemos por ejemplo que el promedio del CI (coeficiente intelectual) es 100, y quisiéramos tener una diferencia mínima de 5 puntos a favor para considerar que un grupo tiene diferencia significativa, Qué tamaño de muestra necesitamos para que el CI se eleve en cinco puntos (por ejemplo si le damos lentejas enriquecidas día de por medio a un grupo de niños). Para el cálculo del tamaño de la muestra necesitamos la DS (desviación estándard), en este caso supongamos que es 15.

Debe partir definiendo un error tipo alfa (error tipo I) y un error beta (error tipo II). El error tipo alfa con que se trabaja es igual a 1.96 que corresponde al valor de z para una probabilidad de 0.05. También suele llamarse a éste valor crítico (VC) porque a ese nivel se considera significativo en estadística (Za, leáse como z alfa). Si decidimos trabajar con un error tipo II beta igual a 0.10, lleva esto el VC a 1.28 y se le llama (Zb, leáse como z beta), Norman y Streiner, 1996.

Así tenemos:

                (VC - 100)                  --------------------= Za = 1.96                   s /(n) 1/2

y

                (105 - VC)                  ------------------ = Zb = 1.28                   s /(n)1/2

Colocando ambas ecuaciones juntas se puede eliminar VC:

                (105 - 100)                  ------------------- = Za + Zb                     s /(n)1/2

Si le llamamos a 105 – 100 la diferencia d, tenemos:

                     d                  ------------------ = Za + Zb                     s /(n)1/2

y así encontramos n:

          (Za + Zb)s (n)1/2 = -----------------                 d

elevamos al cuadrado y tenemos n,

                 (Za + Zb)s              n = [ --------------------  ]2                         d

La división entre s/d, se le llama efecto tamaño, o sea que corresponde a la razón de la desviación estándard con la diferencia entre los grupos. Este efecto es como una especie de valor z, y entrega la magnitud de la diferencia en unidades de DS. En la tabla adjunta para facilitar las cosas, se ha tomado de Norman y Streiner,1996,  dichos valores y aparece los tamaños de muestra necesarios para determinados valores de alfa y beta, que ud. debe determinar para su estudio. Los valores que se utilizan en dicha tabla, que se deben calcular con datos previos se ubican a la izquierda de la tabla y corresponde a la inversa del efecto tamaño, o sea se divide en este ejemplo 5 / 15= 0.33.

Completando los datos del ejemplo anterior, tenemos entonces que n es:

        n =  [ (3.24 x 15) / 5 ]2 = 95
TABLA 1. Tamaño de la muestra necesario para demostrar una diferencia entre promedios igual a ds/d (efecto tamaño, et). (Tomada de Norman y Streiner, 1996:Tabla B, pág. 240).                          ------------------------------------------------------                               alfa = 0.05                             et      beta=0.20    0.15    0.10 -----------------------------------------------------                              0.5             2       2       3        1.0             8       9       11       1.5             18      21      24       1.6             21      24      28       1.7             23      27      31       1.8             26      30      35       1.9             29      33      39       2.0             32      37      43       2.1             35      40      47       2.2             39      44      52       2.3             42      48      57       2.4             46      53      61       2.5             50      57      67       2.6             54      62      72       2.7             58      67      78       2.8             62      72      83       2.9             67      77      90       3.0             72      82      96       3.1             76      88      102      3.2             81      93      109      3.3             86      99      116      3.4             92     105     123      3.5             97     112     130      3.6            103    118     138      3.7            108    125     145      3.8            114    131     153      3.9            120    138     161      4.0            127    145     170      ------------------------------------

Una gran variedad de tests estadísticos utilizan esta fórmula para la estimación del tamaño de muestras como veremos más adelante, por lo tanto es muy importante que la recuerde y está en negrilla. Esta misma fórmula es la que se requiere para el test t pareado, en donde debemos tener una diferencia esperada o esperable deacuerdo a estudios previos o suposiciones bien fundamentadas.

REFERENCIAS BIBLIOGRAFICAS

  1. Norman GR y Streiner DL. Bioestadística. Mosby / Doyma Libros. Madrid,1996:50-51.

RETROALIMENTACION

1. ¿Qué tamaño de muestra necesita para compararpacientesantes y despues de recibir un tratamiento sabiendo que la ds = 8y la diferenciaque se ha observado previamente es de 3, considere alfa=0.05y beta=0.2?

2. ¿Qué es el efecto tamaño?


CICLO DE PRACTICA III:

TAMAÑO DE LA MUESTRA EN TEST T NO PAREADO.

En el caso del test de Student o test t no pareado la fórmula es muy parecida a la última que veíamos en la unidad anterior, pero se incluye un dos extra que se debe a los dos grupos que se utilizan en el test, por lo tanto la fórmula es:

                  (Za + Zb)s             n = 2[ --------------------  ]2                           d

Por ejemplo si tenemos que el promedio de plasmocitos en un lobulillo glandular mucoso del labio inferior es de 42, y la DS es 15, si deseamos comparar con pacientes que tienen esclerodermia y suponemos que tendrían un 20%más de infiltrado, o sea 0,2 x 42 = 8,4 y vamos a trabajarcon alfa= 0.05 y beta = 0.20, tenemos Za=1.96, y Zb=1.28 por lo que tendremos:

                  (1.96 + 1.28) 15               n = 2[ --------------------  ]2                            8.4           n = 66.94,

aproximado es 67 pacientes para cada grupo, control y con esclerodermia (en la realidad, bastante difícil de conseguir dichos pacientes).Qué puede hacer ? Bajar el nivel de Zb, o en otras palabras utilice beta = 0.30 ó 0.40. Vea la tabla adjunta.

Para no tener que efectuar dichos cálculos cada vez que necesite determinar el tamaño de la muestra se incluye la tabla siguiente con los valores en donde ud. debe determinar el efecto tamaño, que en el caso anterior es 15/8.4 = 0.5, y como puede ver en la tabla aparece 63, que es algo aproximado, utilizando alfa = 0.05 y beta = 0.1.

TABLA 2. Tamaño de la muestra necesario al utilizar el test de Student no pareado. et = ds/d (efecto tamaño). (Tomada de Norman y Streiner, 1996:Tabla D, pág. 242).                         ------------------------------------------                                alfa = 0.025 (una cola)         -------------------------------                   alfa = 0.05 (dos colas)         -------------------------------                          et   beta=0.20    0.15    0.10  0.05 -------------------------------------------                              0.10    1570    1795    2102    2599     0.20    393     449     526     650      0.25    251     287     336     416      0.30    174     199     234     289      0.40    98      112     131     162      0.50    63      72      84      104      0.60    44      50      58      72       0.70    32      37      43      53       0.75    30      32      37      46       0.80    27      30      33      41       0.90    21      24      28      32       1.00    18      20      23      28       1.10    15      17      19      23       1.20    13      14      17      20       1.30    11      13      14      17       1.40    10      11      13      15       1.50    9       10      11      14       1.60    8       9       10      12       1.70    7       8       9       11       1.80    7       8       8       10       1.90    6       7       8       9        2.00    6       6       7       8        2.10    6       6       7       8        2.20    6       6       6       7        2.30    6       6       6       7        2.40    6       6       6       7        2.50    6       6       6       6        3.00    6       6       6       6        3.50    2       2       6       6        4.00    2       2       2       6        ------------------------------------------------------ Nota: los tamaños de la muestra son para cada grupo.

En el test t pareado se utiliza la fórmula que se indicó en el ciclo de práctica anterior.

REFERENCIAS BIBLIOGRAFICAS

  1. Norman GR y Streiner DL. Bioestadística. Mosby / Doyma Libros. Madrid,1996:61-62.

RETROALIMENTACION

1. De un ejemplo donde aplicar el test de Student no pareado.

2. Calcule para dicho ejemplo el tamaño de la muestra, suponga un efecto tamaño, o sea invente o busque una ds y diferencia que espera, y trabaje con alfa=0.05 y beta=0.2.


CICLO DE PRACTICA IV:

Tamaño de la muestra para ANOVA

El problema con ANOVA (análisis de varianza) es que ahora tenemosmás de dos grupos y por lo tanto hay que preocuparse de varios promedios los cuales pueden estar distribuidos de varias formas y debemos estimar el promedio de la diferencia entre los promedios y su probable distribución.

Si llamamos d la diferencia entre el promedio mayor y menor, y el efecto tamaño es et (ds / d), podemos tener tres grupos donde se observe:

  • Dispersión mínima (dmin)
  • Dispersión máxima (dmax)
  • Dispersión intermedia (dinter)

Y así podemos tener, si k = número de grupos:

  • dmin = d (1 / 2k)1/2
  • dmax = d [ ( k2 - 1)/ 2k ]1/2 para k = impar
  • dmax = d x 1, para k = par
  • dinter = d x 1 / 2 [ ( k + 1)/ 3 (k - 1) ]1/2

Con un ejemplo esperamos que quede un poco más claro. Si tenemos que evaluar 5 anti-inflamatorios no esteroidales (AINE) para el dolor postextracción dentaria, podemos suponer que todos tienen un efecto similar, pero supongamos que estudios previos han demostarado:

  1. Queremos una diferencia de 1 cm al evaluar el dolor en escala visual analógica (EVA), entre el mejor y peor analgésico AINE
  2. Suponemos que los promedios están distribuidos para los cinco grupos por igual a lo largo de la escada en esa diferencia de 10 mm.
  3. Conocemos que la DS, desviación estándard, es de 8 mm.

La pregunta ahora es entonces qué tamaño de muestra necesito para determinar esta distribución de diferencias ? He ahí el problema, siempre necesito tener algunos antecedentes previos, la DS,dispersión de valores y hacer algunas suposiciones si no, NO se puede calcular el tamaño de la muestra.

En nuestro ejemplo tendremos que,

d = 10 / 8 = 1.25

et (efecto tamaño) para una distribución intermedia es=1.25 x 1 / 2 [ ( 5 + 1)/ 3 (5 - 1) ]1/2

et = 0.442

con este valor vemos la tabla adjunta habiendo definido, supongamos, alfa= 0.05 y beta = 0.2.

TABLA 3. Tamaño de la muestra necesario al utilizar ANOVA de una vía o con un factor. et = efecto tamaño, n = número de grupos.  (Tomada de Norman y Streiner,  1996:Tabla I, pág. 250).                          ------------------------------------------                                alfa = 0.05              -----------------------------                                et     n beta=0.30    0.20    0.10 -------------------------------------------                                                                               3       251     315     415              4       217     269     351      0.1     5       191     237     307              6       173     213     274              7       148     182     235                                                       3       64      80      105              4       55      68      89       0.2     5       49      60      78               6       44      54      69               7       38      46      59                                                        3       29      36      47               4       25      31      40       0.3     5       22      27      35               6       20      25      32               7       17      21      27                                                        3       17      21      27               4       15      18      23       0.4     5       13      16      20               6       12      24      18               7       10      12      16                                                        3       11      14      18               4       10      12      15       0.5     5       9       11      13               6       8       10      12               7       7       8       10                                                        3       8       10      13               4       7       9       11       0.6     5       7       8       10               6       6       7       9                7       5       6       8        --------------------------------------------------------- Nota: los números corresponden al tamaño para cada grupo.

Para el ANOVA de medidas repetidas se puede utilizar la fórmula recomendada en el test t pareado, ciclo de práctica II, tomando en cuenta a los dos grupos que más interesa en el estudio.

REFERENCIAS BIBLIOGRAFICAS

  1. Norman GR y Streiner DL. Bioestadística. Mosby / Doyma Libros. Madrid,1996:70-71.

RETROALIMENTACION

1. Dé un ejemplo odontológico donde aplicar el test de Anova de una vía, cuál es la hipótesis nula.

2. Calcule para dicho ejemplo el tamaño de la muestra, suponga un efecto tamaño, o sea invente o busque una ds y diferencia que espera, y trabaje con alfa=0.05 y beta=0.30.


CICLO DE PRACTICA V:

Tamaño de la muestra en análisis de regresión simple y correlación

Además de tener en cuenta la fórmula ya señalada para el test t no pareado, debemos considerar aquí el error estándar de la correlación que puede existir entre las dos variables, este error depende de la mangnitud de la correlación y del tamaño de la muestra, basados en estudios previos. Tenemos que n para estos estudios de regresión simple es:

          za + zb ( 1 - r2)1/2  n = [  ---------------------- ] + 2                 r

Para no tener que hacer estos cálculos se encuentra la figuraa djunta y para interpretarla correctamente debe especificar el nivel alfa y beta al que va a trabajar, también debe elegir la magnitud de la correlación que quiere determinarse como significativa ubicándola en el eje X, finalmente observará en el eje Y el tamaño dela muestra querequiere.

En el análisis de regresión múltiple, es más sencillo, multiple que el número de variables que va a estudiar por 5 (ó por 10), según sea sus posibilidades de tiempo y medios.

Tamaño de la muestra en estudio de proporciones.

En estudios donde se desea obtener el riesgo relativo, muchas veces especificado como el efecto tamaño, por ejemplo en un estudio de dos grupos de mujeres, y se desea establecer si las que usan anticonceptivos orales tienen un riesgo doble de desarrollar infarto al miocardio comparado con las que no los utilizan. Es común en estos estudios que se convierta el riesgo relativo en las proporciones ya que es justo la división entre la proporción de un grupo dividido por la del otro grupo (P1 y P2), o sea P1 / P2.

En estudios con casos control, la situación es más compleja ya que el riesgo relativo se aproxima al riesgo de desigualdad (odds ratio, OR) que es igual a:

P1 x ( 1 – P2) / P2 x ( 1 – P1 )

El investigador debe especificar P2 (proporción de controles expuestos a la variable predictiva). Luego P1 (proporción de casos expuestos a la variable predictiva) es igual a :

OR x P2 / ( 1 – P2 + OR x P2)

Por ejemplo si se espera que el 10% de los controles estén expuestos (P2 = 0.1), y desea detectar un OR = 3 asociado con la exposición, tenemos que:

P1 = (3 x 0.1) / (1 – 0.1 + 3 x 0.1)

P1 = 0.3 / 1.2 = 0.25

Ahora un ejemplo dedicado a la patología bucal (tomado de Hulley y Cummings). Un investigador planea un estudios de casos controlados para determinar si el herpes simplex labial está asociado con cáncer del labio inferior. Un rápido estudio piloto encuentra que cercadel 30% de las personas tienen herpes simplex labial sin tener cáncer en el labio. El investigador está interesado en detectar si el OR para el cáncer de labio está asociado con el herpes simplex y es igual a 2.5 ó más, con alfa = 0.025 y beta = 0.1. ¿Cuántos individuos requiere para su estudio ?

Recordemos que la Hipótesis de nulidad es que la proporción de casos con cáncer de labio y con historia de herpes labial es la misma que la proporción de controles con historia de herpes labial sin cáncer. La hipótesis alternativa es que esta proprorción de casos con cáncer de labio y herpes es mayor que en los controles con herpes labial.

Para realizar el cálculo se procede :

P2 (proporción de controles que se espera tengan el factor)= 0.30.

P1 (proporción de casos que se esperaba que tuvieran el factor de riesgo) = P1 = OR x P2 / ( 1 – P2 + OR x P2)

P1 = (2.5 x 0.3 ) / (1 – 0.3 + 2.5 x 0.3)

P1 = 0.75 / 1.45

P1 = 0.52

Entre los valores P1 y P2 el más pequeño es 0.30, y la diferencia entre ellos es cerca de 0.20. En base a alfa = 0.025 y beta= 0.1 se busca en la tabla adjunta y el tamaño requerido para el grupo de casos es 124 y los controles deben ser también 124 (ubique el valor 124 en la tabla siguiente para entender mejor).

TABLA 3. Tamaño de la muestra, por grupo, necesario al utilizar test z para comparar proporciones de variables dicotómicas.(Tomada de Hulley y Cumnings, 1988, Apéndice 13 B. pág. 216). Alfa 0.05, beta 0.2 y 0.1 (éste último es el segundo valor de cada fila)                       -----------------------------------------------------------------------------------------                                           Valor        -----------------------------------------------------------------------------                               más pequeño             Diferencia esperada entre P1 y P2 de P1 y P2  t              0.10   0.20    0.30     0.40     0.50             ---------------------------------------------------------------------------------------                                                      0.10                        140     49      27      17      12                                 187     65      35      22      15  0.20                    293     81      38      22      14                                  392     108     51      29      19  0.30                    356     93      42      23      14                         476     124     56      31      19  0.40                387     97      42      22      13                         518     129     56      29      17  0.50                387     93      38      19      --                         518     124     51      25      -- ------------------------------------------------------------------------------------- Nota: los números corresponden al tamaño para cada grupo.

En el caso de emplearse el test de chi-cuadrado, o sea utilizando variables nominales, es relativamente fácil calcular el tamaño de la muestra, y se considera el número de celdas que tendrán los datos agrupados, por filas y columnas, y se multiplica dicho valor por10, así en una tabla de 2×2 se requerirán 40 individuos.También debiera tenerse en cuenta en el análisis de chi-cuadrado que el 80% de las celdas deben tener frecuencias esperadas de más de 5 observaciones y las frecuencias esperadas deben ser en todas las celdas maayor a 1 (Wilkinson y col, 1996).

REFERENCIAS BIBLIOGRAFICAS

  1. Norman GR y Streiner DL. Bioestadística. Mosby / Doyma Libros. Madrid,1996:106.
  2. Browner WS, Black D, Newman TB, Hulley SB. Estimating sample size and power.in Designing Clinical Research ed by Hulley SB & Cummings SR. Chap 13. Williams & Wilkins, Baltimore, 1988:139-150.
  3. Wilkinson L, Blank G, Gruber C. Desktop data analysis with Systat.PrenticeHall Upper Saddle River, New Jersey, 1996.

RETROALIMENTACION

1. ¿Dé un ejemplo odontológico donde aplicar análisis deregresiónsimple y correlación de Pearson, cuál es la hipótesis nula?

2. Calcule para dicho ejemplo el tamaño de la muestra, suponga una correlación de 0.75, y trabaje con alfa=0.05 y beta=0.20.

3. ¿Cuál es la utilidad del test de chi – cuadrado ?


test final