TEMA | GRAFICOS EN INVESTIGACION. |
TIEMPO APROXIMADO | 45 MINUTOS. |
CURSO | CURSO METODO DE INVESTIGACION Y BIOESTADÍSTICA. |
INSTRUCTOR | DR. BENJAMIN MARTINEZ R.
DRA. CAROLINA GUTIERREZ |
Conocer algunos tipos de gráficos útiles para publicaciones científicas e intepretar algunos de ellos. Podrá determinar la utilidad de distintos tipos de gráficos.
Normalmente en la sección de resultados de una publicación científica debemos incluir algún tipo de gráfico que ilustre en forma clara nuestros principales hallazgos. Un gráficono sólo debe ser agradable a la vista, sino que también debe ser sencillo y autoexplicativo, y reflejar lo más fielmente posible los hechos. Es bien sabido que un gráfico dice más que muchas palabras y permite en forma clara establecer una relación o cuantificar el grado de diferencia entre dos grupos, o alguna otra relación de acuerdo a nuestros datos. Hoy en día, con la ayuda de algunos softwares computacionales tales como: Systat, Excel, STATA, SAS Minitab etc, es relativamente fácil realizar gráficos de:
Siempre debe pensar si vale la pena colocar un gráfico o si será mejor colocar una frase que simplifique más las cosas. ¨¿No será que a veces nos encontramos con gráficos para llenar espacio, o quizás para impresionar?El tipo de gráfico que podemos realizar está de acuerdo a los própositos y a los datos o tipo de variable (por ejemplo de una variable nominal NO puede hacer un histograma, pero de cualquier variable intervalar como por ejemplo la edad puede realizar un histograma):
En resumen la representación gráfica de datos nos permite o sería deseable que tengan, según Gnanadesikan, 1980:
2. ¿Qué tipos de gráficos
conoce ?
Este tipo de gráficos fundamentalmente se utilizan para variables nominales u ordinales, en las cuales tenemos categorías que difieren en la proporción o tamaño en que se han presentado en la muestra analizada. El gráfico de torta o "pie" debe tener identificadocada sector; es muy conveniente colocar, además, el número de observaciones y la frecuencia en porcentaje, adyacente a cada categoría.
En un gráfico de barras se despliega cada barra separada por categoría, donde el alto de cada barra puede representar:
Un histograma es una presentación de una distribución de frecuencia y se realiza por medio de barras o rectángulos para cada intervalo de clase, de tal forma que cada barra es proporcional a la frecuenciade cada clase. La variable intervalar es la que normalmente debe tener un histograma, el cual va a servir para demostrar la normalidad en cuanto a la distribución de la muestra examinada. Al igual que en otros tipos de gráficos el eje X debe corresponder a la variable examinada, incluyendo el valor mínimo y máximo; en el eje Y se ubica la cantidad de individuos o muestras, o sea la frecuencia. Además como cualquier gráfico debe acompañarse de un título.
No debe llamar histograma a un gráfico de barras de variablesnominales u ordinales. En muchas ocasiones vemos gráficos de barrasque se les denomina histogramas; en estos casos se ha ubicado en el ejeY una variable nominal u ordinal (ver Rimm, pag. 46, fig. 2), y el largode la columna representa la frecuencia observada de cada categoría.Estos son gráficos de barra y no histogramas.
En base a los siguientes datos, tomados de un archivo de Systat, enelcual tenemos 10 casos, con su respectiva edad y sexo, hemos obtenidola siguiente estadística descriptiva para edad:
EDAD SEXO$En base a estos datos hemos realizado un gráfico de barras, en el cual tenemos la variable sexo$ (se utiliza el símbolo $ en Systat para definir las variables ingresadas como caracteres), n=10, y el porcentaje que se encontró de cada categoría (femenino 70% y masculino 30%, 7 y 3 casos respectivamente).
CASE 1 23 f
CASE 2 25 f
CASE 3 27 f
CASE 4 35 f
CASE 5 37 m
CASE 6 45 m
CASE 7 38 m
CASE 8 54 f
CASE 9 34 f
CASE 10 32 f
TOTAL OBSERVATIONS: 10
EDAD
N OF CASES 10
MINIMUM 23.00
MAXIMUM 54.00
MEAN 35.00
STANDARD DEV 9.38
Resultados obtenidos con Systat v. 6.0 para DOSEsto mismo que representamos con dos columnas, para f y m, (femenino y masculino) puede ser representado en gráfico de torta o pie, en que cada sector representa un grupo, por lo tanto la mayor parte de "la torta" en este caso correspondería al grupo femenino (70%).
BAR GRAPH OF VARIABLE SEXO$ , N = 10
VALUE COUNT PERCENT
f 7 70.00 ***********************************
m 3 30.00 ***************
Fig. 2. Gráfico de torta o pie, de la distribución
por sexo femenino y masculino, con sus respectivos porcentajes.
En base a los mismos datos y con la variable EDAD, hemos realizado un histograma en el cual se puede observar que en el eje Y (de la izquierda) aparece la proporción por barra, y a la derecha la cuenta, o sea cuantas observaciones existen para cada barra. La edad media aparece indicada con ^ en el eje X, que corresponde aproximadamente a 35 años. Al examinar Fig. 2 fácilmente se puede observar que un poco másdel 80% de los casos presentabanmenos de 40 años, y cerca de 16%presentaba más de 40. En laFig. 3 se presenta histograma de laestatura en hombres y mujeres, se representaun poco diferente, pero elsignificado de los ejes Y son similares, a la derechala proporción por barra y a la izquierda la cuenta (count), gráfico realizado con versión 7.0 de Systat.
Fig. 3. Histograma de la
Estatura, grupo 1= Hombres, 2= Mujeres. Datos de X. Haro, 45 hombres y 45
mujeres, chilenos. Observe la distribución para los hombres, entre
1.6 y 1.8 mt. está la mayoría, encambio en las mujeres, entre
1.5 y 1.7 mt. Gráfico realizado conSystat, v. 7.0 para Windows.
2. ¿Qué puede ir en el eje
Y al realizar un gráfico debarras?
El plot de caja es una manera más simple que el gráficode tallo-hoja (que se explica más abajo) de desplegar datos. Esútil para identificar rápidamente la mediana, la cual esla barra al medio de la caja, barra que divide el sitio donde se encuentrala mitad de las observaciones (ver el gráfico más abajo).Los bordes de la caja o que denominaremos bisagras corresponden a los límitesque contienen la mitad de las observaciones, o sea el largo de la cajaindica donde está el 50% de los casos. Debe tenerse presente queel ancho de la caja es igual al rango medio o rango intercuartil.
Además, de cada extremo de la caja sale una línea perpendicular que contiene la distribución del resto de los casos hacia amboslados de la muestra. Las líneas perpendiculares que salen a amboslados de la caja, que llamaremos bigotes, en una distribución normaldebieran tener aproximandamente el mismo largo. Los valores que estánfuerade los bigotes son ploteados con asteriscos (*), o sea representanvaloresalejados de la distribución normal, y los valores considerablementealejados de la normalidad son representados con círculos vacíos(0).
En Systat si tenemos dos o más grupos y queremos comparar lascajas de distribución para una variable podemos utilizar estos gráficos. Cuando las cajas de dos grupos no están al mismo nivel seguramente existen diferencias significativas entre ambos grupos. Si existen variosvalores marcados con círculos vacíos es probable que la distribución en ese grupo no sea normal y a lo mejor es necesario transformar los valores.
Ejemplo:
Distribución de la edad. Gráfico de caja en base a losdatos que aparecen en el Ciclo de Práctica I. El largo de las líneas perpendiculares a la caja no es igual, o sea algunos individuos de más de 40 años, están alterando la distribución de estamuestra. Esto ocurre comunmente, no tener una distribución normal,cuando la muestra tiene menos de 20 o 30 casos. Gráfico generadocon Systat.
BOX PLOT OF VARIABLE: EDAD , N = 10Fig. 4. Gráfico de caja para la edad de los datos que se encuentran en el Ciclo de práctica II. Signo + al medio de la caja indica donde está la mediana. Realizado con Systat v.5.03.
23.00 54.00
MINIMUM MAXIMUM
---------------+-------
------+ + +-------------------------------
---------------+-------
a
b
Fig. 5a.En a gráfico de cajas, para la estatura de 90 chilenos, 45 hombres y 45 mujeres, mediana entre 1.6 y 1.7 mt, y tambien note que másdel 25% mide más de 1.7 mt. En b aparecen dos cajas, realizado con los mismos datos utilizados en la figura 1b (que aparecían con la DS). Note que el cuartil superior en las mujeres no aparece con una línea, y la mediana en el caso de los hombres no aparece al medio de la caja, indicando que las distribuciones de la edad en ambos sexos no es normal. También aparecen dos asteriscos en relación a la distribución femenina, o sea valores alejados de la distribución normal. (Gráficos realizados con Systat.
Fig. 6. Distribución de la edad en dos grupos (F: femenino; M:
masculino), de un estudio de trauma dentomaxilar, relizado por Amparo, UAB,
Santiago, 2012, en el cual evaluaron 2262 niñas y 4028 niños
de 0 a 15 años, y en que las mujeres tenían un promedio de 5,3
años, y los hombres 6,0 años. Con un gran número de
casos el gráfico box-plot es una buena alternativa para ilustrar la
distribución y observar los cuartiles para cada grupo, (gráfico
realizado con Stata v. 12)
Se considera el tipo de gráfico más importante para análisis de números desde que apareció el test-t. En un sentido este tipo de gráfico es una especie de presentación en barras,pero en un sentido más amplio permite el análisis de datospara examinar las propiedades de distribución de un conjunto dedatos (mediana, desviación estándar), y encontrar valoresalejados de lo normal (outside values). Todo por el precio de escribir los datos una vez y contando hacia abajo, algo parecido a un árbol, y de ahí el nombre de diagramas en Tallo-Hoja.
STEM AND LEAF PLOT OF VARIABLE: EDAD , N = 10Fig. 7. Gráfico tallo y hoja para la distribución de las edades de 10 pacientes, arriba aparece la edad mínima, bisagra inferior (Lower hinge), o sea donde se encuentra el cuartil inferior, vale decir que está entre 23 y 27 años, después está la mediana (34,5 años), la bisagra superior (Upper hinge) de 38 años, y el valor máximo (54 años), con esos datos puede encontrar los cuartiles de la distribución de la edad.
MINIMUM: 23.00
LOWER HINGE: 27.00
MEDIAN: 34.50
UPPER HINGE: 38.00
MAXIMUM: 54.00
2 3
2 H 57
3 M 24
3 H 578
4
4 5
5 4
En el gráfico de tallo-hoja anterior
puede observar que la mediana es 34 años, la edad mínima es
23 años, y la máxima es 54 (datos en ciclo de práctica
I). Ubique 23 y 54 años,que corresponden a los extremos de edades.
La M que aparece entre dos H está indicando la ubicación de
la mediana y cada H ubica los cuartiles de los casos. En este gráfico
se presenta la distribución de todos los valores de la variable analizada,
observe que cada valor: 23, 25, 27, 32, 34, 35, 37, 38, 45 y 54 está
representado en el gráfico anterior.
2. ¿Qué significa las barras
perpendiculares a cada lado de lacaja ?
En el analisis de variables dependientes e independientes siempre loprimero que debe realizar, lo cual es relativamente fácil en laactualidadcon los softwares existentes, incluídas las planillasde cálculo, es la representación gráfica de los datos,ver como se distribuyen los pares de observaciones, lo cual nos va a permitirdeterminar ya visualmente si existe algún tipo de asociaciónentre las variables en estudio. Recuerde que en el eje X se ubica la variableindependiente, y en el eje Y la variable dependiente. Se puede plotearno solo variables intervalares (X e Y, intervalares), si no tambiénpuede plotear una variable categórica en el eje X vs. una intervalarlo que nos permite visualizar como se distribuyen los casos para cada grupo.
Fig. 8. Plot entre estatura, eje X, y circunferencia del cráneo,
eje Y, datos obtenidos de X. Haro, 1997. Cada círculo representa
un par de observaciones, la recta corresponde a la definición dela
ecuación para estos datos (Y = a + bX), y las curvas a ambos
lados de la recta representan la dispersióen con nivel de confianza95%.
Gráfico realizado con Systat v. 7.0 para Windows.
Un tipo muy útil es el SPLOM, gráfico que nos permiteanalizar múltiples variables intervalares, y combinar histograma,cajas u otros con gráfico de dispersión y en estos últimosal igual que en cualquier plot podemos observar la línea que definela ecuación y=a+bx, y además incluirla dispersión de la curva con un nivel de confianza, normalmentede 95%, pero que podemos modificar de acuerdo a nuestra utilidad o conveniencia.
2. ¿Qué combinación
de gráficos podría utilizaren un SPLOM ?