Transformación de datos

  • Post by cmunozm
  • 07 enero 2014
post-thumb

Transformando datos

J Martin Bland, Douglas G Altman
Brit Med J 1996;312: 770-771.

Traducción y modificación por Dr. Benjamín Martínez R.
Facultad de Odontología – Universidad Mayor.

A menudo transformamos datos obteniendo el logaritmo, raíz cuadrada, recíproco o con alguna otra función aplicada a los datos. Luego analizamos los datos transformados más que los datos crudos o no transformados. Realizamos esto debido a que muchos tests estadísticos, tales como test t, regresión, análisis de varianza, requieren que los datos tengan una distribución particular. Las observaciones mismas deben provenir de una población con una distribución normal, y diferentes grupos de observaciones deben venir de poblaciones que tienen la misma varianza o desviación estándar. Necesitamos esta varianza uniforme debido a que estimamos la varianza dentro de los grupos y podemos hacer esto bien, solamente si podemos asumir que es la misma dentro de cada grupo.  Muchas variables biológicas tienen una distribución normal con varianza uniforme. Algunas que no, pueden hacerse con una transformación apropiada. Afortundamente una transformación que hace que los datos sigan una distribución normal a menudo hace que la varianza también sea uniforme, y viceversa. En esta nota trataremos de explicar  porqué ocurre esto.

Primero, la distribución normal y la varianza uniforme van juntas. Puede demostrarse matemáticamente que si tomamos muestras al azar de una población, los promedios y desviaciones estándar (DS) de las muestras serán independientes (y por lo tanto no correlacionadas) si la población tiene una distribución normal. En otras palabras, la DS de las muestras no estará relacionada al promedio. Además si el promedio y la DS son independientes la distribución debe ser normal. Esto es más difícil de dar crédito pero es verdad.

Segundo, si sumamos varias variables juntas, generalmente obtenemos una distribución normal. Por ejemplo el teorema central del límite demuestra que los promedios de grandes muestras seguirán una distribución normal, cualquiera sea la distribución de las observaciones mismas1.  En forma similar si una variable biológica es el resultado de la suma de varias influencias seguirá una distribución normal.  El peso de los humanos es una de ellas. Muchas mediciones biológicas  no son como esta, sin embargo son el producto de varios factores. Las sustancias presentes en la sangre, por ejemplo, pueden ser eliminadas a una velocidad dependiendo de otras sustancias y a la vez es producido por otras y así sucesivamente. Tenemos el producto de varias influencias multiplicados juntos, más que la suma. Si tomamos el logaritmo del producto de varias variables obtenemos la suma de sus logaritmos2.  Así una variable que es el producto de varios factores tiene un logaritmo que es la suma de varios factores y seguirá una distribución normal.

Tercero, cualquier relación entre varianza y promedio de varios grupos es bastante simple. La varianza puede ser proporcional al promedio del grupo, al cuadrado del promedio, al promedio elevado a la cuarta potencia, etc. Pueden encontrarse para tales relaciones las transformaciones simples que harán la varianza independiente del promedio.  Si la varianza es proporcional al promedio podemos utilizar la transformación de la raíz cuadrada. Esto es a menudo el caso que ocurre para datos de recuentos de cosas o evento, por ejemplo el número de células de un tipo particular en un volumen dado de sangre o el número de fallecidos de SIDA en una zona geográfica durante un año. Tales datos tienden a presentar una distribución de Poisson, la cual tiene su varianza igual a su promedio. Si la varianza es proporcional al promedio al cuadrado, esto es que la DS es proporcional al promedio, utilizamos la transformación logarítmica. Este es el caso más frecuente en la práctica e indicado para variables tales como el colesterol en el suero. Si la varianza es proporcional al promedio elevado a la cuarta potencia, o sea que la DS es proporcional al promedio elevado al cuadrado, utilizamos calcular el valor recíproco, utilizado en cantidades altamente variables como son el nivel de creatinina en el suero. Así podemos transformar los datos para hacer la varianza no relacionada con el promedio, caso en el cual muy probablemente seguirá una distribución normal.

Algunas personas preguntan si el uso de una transformación es engañoso. No hay una razón de porqué  la escala «natural» deba ser la única, o por otra parte la mejor forma de presentar las mediciones. El pH por ejemplo, es siempre presentado como una medida logarítmica,
pH = – log10(H+), donde H+ es la concentración de iones de hidrógeno en moles por decímetro cúbico. Así la escala «natural» es 10-pH. Esta escala natural es muy difícil de explicar para su uso, y siempre se utiliza desde luego el logaritmo.

Si nosotros podemos transformar los datos para obtener una distribución normal con varianza independiente del promedio, pueden realizarse análisis válidos sobre estas escalas transformadas. Hay un inconveniente, sin embargo, que los intervalos de confianza basados en escalas transformadas pueden ser difíciles de interpretar. Trataremos esto en una nota posterior.

1. Altman DG, Bland JM. The normal distribution. BMJ 1995; 310:298.
2. Bland JM, Altman DG. Logarithms. BMJ 1996; 312: 700.

Nota del traductor:
Otra transformación frecuente es en el caso de valores expresados en porcentaje (por ejemplo: recuento en un hemograma expresando cada célula en %, tambien porcentaje de sitios con sangramiento a nivel gingival, etc), en estos debe calcularse una función llamada arco de seno. Esta transformación va a ocasionar pocos cambios en valores entre 30% – 70%, y la transformación ahí casi no va a ser necesaria. Pero si se tienen valores cercanos a cero hasta sobre 30% ó entre 70% y 100% pueden encontrarse cambios notables (Snedecor,  y Cochran, 1980)1 . En el caso de una proporción igual a cero debe calcularse como 1 / (4n) y una proporción de 100% como (n – 1/4) / n antes de la transformación al  ángulo. También tiene el mismo problema expresado ya por los autores Bland y Altman,  para interpretar el intervalo de confianza de valores transformados, al igual que promedio y DS o cualquier estadístico descriptivo obtenido de la variable transformada.

En periodoncia se recomienda para el índice gingival (medido por ejemplo con el indice de gingivitis papilar-marginal, PMGI, Fleiss et al, 1985, que tiene valores de 0 a 3 según la intensidad de la inflamación), la obtención de la raíz cuadrada del valor promedio total de la boca, y se ha analizado como la más eficaz para detectar diferencias significativas- Nos parece que en otros índices de uso en periodoncia, como índice de placa y otros evaluados en una escala ordinal de 0 a 4, también puede utilizarse, y basado siempre en el promedio total de la boca del paciente. No conozco referencias a su aplicacioón en otros indices en odontologia, como por ejemplo en displasia epitelial o en su uso para analisis de dientes individualmente, pareciera más lógico utilizar siempre el valor total de un paciente y no por sitio o diente individualmente. Cualquier aporte al respecto será reconocido.

Referencias a nota del traductor:

  1. Snedecor GW, Cochran WG. Statistical methods. 7th ed., Iowa State U Press, Ames, Iowa, 1980: 290.
  2. Fleiss JL, Park MH, Bollmer BW et al. Statistical transformations of indices of gingivitis measured non-invasively. J Clin Periodont 1985;12:750-755.