
Vamos a continuar con un ejemplo de cada tipo de los que vimos en conceptos básicos para comprender cómo se organizan y estudian las variables.
- Variable cualitativa: Color de pelo
- Variable cuasicuantitativa: Nivel de estudios alcanzado
- Variable cuantitativa discreta: Número de hijos
- Variable cuantitativa continua: Resultado test de rendimiento académico
Una vez que ya sepas cuál es tu objeto de estudio, pasarás la encuesta o realizarás la medición a los individuos de tu muestra.
Teniendo todos los resultados de tu test es imposible conocer o hablar de los resultados que han dado, por lo que el siguiente paso que vas a hacer es agrupar los resultados en una tabla de frecuencias.
Has de tener en cuenta que pueden existir datos atípicos, es decir, datos mal registrados que han de ser eliminados de la muestra. Por ejemplo, si estás estudiando la variable de la puntuación de un test de 100 preguntas y recibes un resultado de 102, es un dato no correcto y hay que eliminarlo.
1.3.1. VARIABLES CUALITATIVAS
1.3.1.1. CONTEOS Y FRECUENCIAS
Hemos dicho que la variable que vamos a estudiar es X = “Color del pelo”. Lo primero que tendrás son los datos que te hayan respondido al test, los cuales organizarás en una tabla (esta tabla viene dada ya en los ejercicios) con el número de respuestas de cada tipo. Este conteo se llama frecuencia absoluta (ni) y la tabla que se crea con estos valores y los que vas a estudiar a continuación se llama tabla de frecuencias.
La sumade las frecuencias absolutas te tiene que dar el número total de individuos, que se denomina n.
(Seguiremos trabajando con este ejemplo y los siguientes a lo largo de los temas, así que ¡no las pierdas estas tablas!)
Las frecuencias absolutas no sirven para saber si la mitad de los individuos tienen 0 hijos, por ejemplo. Para saber los porcentajes que hay en cada grupo usamos las frecuencias relativas o proporciones ( pi ).
Las frecuencias relativas ( pi ) y los porcentajes ( Pi ) vienen a ser lo mismo, pero el primero en tanto por uno y el segundo en tanto por ciento. Al estar más acostumbrado a usar porcentajes te resultará más entendible el porcentaje, pero no te olvides que es la frecuencia relativa multiplicada por 100.
Estas fórmulas que ves no son más que la regla de tres:
Vamos a completar la tabla anterior con lo que hemos aprendido:
Unas reglas que te servirán para ver si te has equivocado en algún cálculo son:
- La suma de ni tiene que dar n
- La suma de pi tiene que dar 1 o próximo a 1 (por el error de redondeo)
- La suma de Pi tiene que dar 100% o próximo (por el error de redondeo).
Las frecuencias te sirven para conocer numéricamente tu variable, pero el mejor modo de visualizarla es con un gráfico.
Existen muchos tipos de gráficos distintos , los que tú vas a estudiar para las variables de tipo cualitativo son: el gráfico de barras y el gráfico de sectores (también llamado gráfico de pastel).
También hay gráficos conjuntos para dos variables, pero los veremos en el Tema 4: Análisis conjunto de dos variables.
Antes de empezar a describir los gráficos tienes que recordar que los gráficos tienen ciertas características:
- Eje de abscisas o eje X: es la línea horizontal, en la que pondremos los valores de nuestra variable.
- Eje de ordenadas o eje Y: es la línea vertical, en la que pondremos las frecuencias.
- Origen: punto de corte de los ejes. En matemáticas se corresponde con las coordenadas (0,0) pero no en Estadística. Solamente será el valor 0 para el eje de ordenadas.
— GRÁFICO DE BARRAS —
El diagrama de barras también podremos usarlo para las variables cuasicuantitativas y cualitativas discretas.
Este gráfico consiste en poner unas barras sobre cada uno de los valores de la variable que lleguen hasta su frecuencia.
Vayamos por pasos con el ejemplo (Tabla 1.3):
1º) Dibuja los ejes.
Escribe los valores de la variable en el eje horizontal (aunque uno de los valores fuera el 0 no hay que ponerlo en el origen).
Fíjate en la frecuencia mínima y en la máxima de la tabla de frecuencias para poner las marcas en el eje vertical.
2º) Dibuja las barras.
Sobre cada uno de los valores de la variable haz una barra que llegue hasta la frecuencia absoluta del valor.
En este ejemplo hemos puesto la frecuencia absoluta, pero puedes poner cualquiera de las frecuencias vistas en el apartado anterior.
Ya tienes el diagrama de barras.
Cuanto más alta es la barra mayor cantidad de individuos hay en ese valor, es decir, mayor es su frecuencia.
— GRÁFICO DE SECTORES —
El diagrama de sectores, aunque sí lo dais en teoría, no vas a tener que crearlo a mano en ningún momento, ya que para hacerlo te haría falta un transportador de ángulos.
Aun así, el diagrama de sectores es muy utilizado, con lo que te vendrá bien conocerlo.
1º) Cálculo de los grados.
Del mismo modo que has calculado el porcentaje en la tabla de frecuencias, con la idea de la regla de tres tienes que calcular los grados. Si el tamaño de la muestra son los 360° del círculo, ¿cuántos grados tendrá ni?
2º) Dibujar las porciones.
Una vez que ya tienes los grados correspondientes tienes que ir creando las “porciones de tarta” (por esto este gráfico también se le llama gráfico de pastel).
Cuanto más alta es la porción mayor cantidad de individuos hay en ese valor (mayor frecuencia).
1.3.2.1. CONTEOS Y FRECUENCIAS
Este tipo de variables se comporta de un modo muy similar a las cualitativas, pero tienes que tener en cuenta que los valores de la variables se han de colocar en el orden preestablecido. Vamos a trabajar con la variable X = “Nivel de estudios alcanzado”.Los valores de las variables cuasicuantitativas también se agrupan en una tabla de frecuencias y podemos calcularles también las frecuencias relativas y los porcentajes:
(Seguiremos trabajando con este ejemplo y los siguientes a lo largo de los temas, así que ¡no las pierdas estas tablas!)
Recordemos las fórmulas para el cálculo:
Para este tipo de variables, también se pueden calcular las frecuencias acumuladas. La frecuencia acumulada consiste en sumar frecuencias de las anteriores respuestas, es acumular hacia los valores más altos de la variable. Por ejemplo, la frecuencia absoluta acumulada de Educación secundaria es la sumar Educación secundaria y Educación primaria (12+8), la frecuencia absoluta acumulada de Bachillerado es la suma de Bachillerato, Educación secundaria y Educación primaria ( 40+12+8), etc. Nota: la frecuencia acumulada del primer valor de la variable sólo es el propio valor, sin sumar nada.
Tenemos tres frecuencias acumuladas: frecuencia absoluta acumulada ( nai), frecuencia relativa acumulada ( pai) y porcentaje acumulado ( Pai). Cada uno acumula con sus respectivas frecuencias simples.
Como lo que hacemos es sumar distintas respuestas de la variable esto tiene que tener sentido. Por ello, en la variable cualitativa color de pelo no tiene sentido sumar los rubios y los morenos, por ejemplo. Las frecuencias acumuladas se pueden hacer de variables cuasicuantitativas y cuantitativas.
La tabla con todas las frecuencias quedaría así:
Para comprobar que está bien acumulado sólo tienes que darte cuenta de que la últimafila se corresponda con la suma de las frecuencias simples.
Si, por ejemplo, quieres saber qué porcentaje tiene un nivel de estudios menor a Grado universitario, tienes que irte a la tabla de los porcentajes acumulados (Pai) y mirar la fila correspondiente nivel inferior a Grado universitario, es decir, a Bachillerato: el 60% tiene un nivel de estudios menor a Grado universitario.
Completemos la tabla de definiciones con lo nuevo aprendido:
Al igual que para las variables cualitativas, las cuasicuantitativas se representan con el gráfico de barras y el gráfico de sectores.
La variable Nivel de estudios alcanzados quedaría representada así:
— GRÁFICO DE BARRAS —
Representamos la frecuencia absoluta.
— GRÁFICO DE SECTORES —
Representamos el porcentaje.
1.3.3. VARIBLES CUANTITATIVAS
Las variables cuantitativas discretas se trabajan igual que las anteriores vistas. Por ejemplo, con la variables X = “Número de hijos” la tabla de frecuencias y la representación gráfica quedaría del siguiente modo:
Por el contrario, las variables cuantitativas continuashan de trabajarse de un modo distinto. Lo vemos a continuación.
1.3.3.1. CONTEOS Y FRECUENCIAS
Las variables cuantitativas continuas no se pueden organizar en una tabla de frecuencias con una fila por cada valor, ya que el número de valores posibles puede ser muy amplio. Lo que hay que hacer con los valores es agruparlos en intervalos, y serán estor intervalos los que vayan en las filas de la tabla de frecuencias.
Los intervalos están formados por el límite inferior y el límite superior. A estos límites los vamos a llamar límites aparentes, límite inferior aparente (LIA) y límite superior aparente (LSA). El límite inferior aparente es el valor mínimo que pueden tomar los datos que estén en ese intervalo, y el límite superior aparente el máximo.
Veámoslo con el ejemplo X = “Resultado test de rendimiento académico”.
Con esta tabla de frecuencias en intervalos representamos que 82 alumnos tienen un rendimiento de entre 0 y 20, 104 alumnos tienen un rendimiento de entre 21 y 40, 122 alumnos tienen un rendimiento de entre 41 y 60, 108 alumnos tienen un rendimiento de entre 61 y 80 y 84 alumnos tienen un rendimiento de entre 81 y 100.
Lo que ocurre con estos límites es que hay un salto entre los intervalos. ¿Qué pasaría si alguien sacase un 20,5 en el test? Para arreglar esto se crean los límites exactos o reales, límite inferior exacto (LIE) y límite superior exacto (LSE).
Los límites exactos restan y suman, respectivamente para limite inferior y superior, una cifra decimal al número. Es decir, si tengo límite superior aparente 20 (como en el primer intervalo del ejemplo), el límite superior exacto es 20,5. Si tuviese un límite superior aparente de 20,3, el límite superior exacto sería 20,35. Añadiendo el 5 como un decimal más.
La tabla de frecuencias del rendimiento quedaría así:
Con este tipo de variables, además de los límites, es necesario conocer tres términos más:
- Punto medio del intervalo (PM). El punto medio del intervalo es el valor que representa el centro del intervalo. Este punto se calcula sumando los límites (aparentes o exactos) y dividiendo para dos:
- Amplitud del intervalo (ai). La amplitud del intervalo es el número de datos que entran en los límites aparentes. Es la resta de límites exactos.
- Intervalo abierto. Un intervalo abierto es un intervalo que no tiene límite inferior o superior. Por ejemplo, si estudiásemos la variable altura no tiene sentido que el último intervalo tuviera un límite superior ya que en cualquier momento podríamos entrevistar a alguien que fuera más alto (lo mismo ocurriría con el primer intervalo), por lo que el último intervalo podríamos dejarlo como “más de 1,90 metros”, por ejemplo.
Completemos la tabla de definiciones con lo nuevo aprendido y completamos la tabla de frecuencias.
1.3.3.2. GRÁFICOS
Las variables cuantitativas continuas se pueden representar con el histograma y con el polígono de frecuencias o diagrama de líneas.
— HISTOGRAMA —
El histograma es un gráfico muy similar al diagrama de barras, pero las barras van a estar juntas al representar variables cuantitativas continuas.
En este gráfico pondremos un rectángulo por cada intervalo con los límites exactos que sea tan alto como su frecuencia.
Vayamos por pasos con el ejemplo del rendimiento (Tabla 1.10):
1º) Dibuja los ejes.
Escribe los límites exactos de los intervalos en el eje horizontal.
Fíjate en la frecuencia mínima y en la máxima de la tabla de frecuencias para poner las marcas en el eje vertical.
2º) Dibuja las barras.
Sobre cada uno de los intervalos haz una barra que llegue hasta la frecuencia absoluta de dicho intervalo.
En este ejemplo hemos puesto la frecuencia absoluta, pero puedes poner cualquiera de las frecuencias vistas en el apartado anterior.
Ya tienes el histograma.
Recuerda que además de las frecuencias absolutas también puedes representar las frecuencias acumuladas, porcentajes, etc.
— POLÍGONO DE FRECUENCIAS O DIAGRAMA DE LÍNEAS —
El polígono de frecuencias también se puede usar con variables cuantitativas discretas además de con las cuantitativas continuas.
Para crear un polígono de frecuencias tienes que haber creado previamente un diagrama de barras o un histograma ya que lo que vas a hacer es crear una línea de unión entre las alturas de las barras. Como este:
Esto mismo se hace también con el histograma.
Los puntos rojos representan el punto medio del intervalo.
1.4. VISUALIZAR Y COMPRENDER
Los gráficos nos ayudan a ver de forma general nuestros datos.
— TENDENCIA CENTRAL —
Puedes ver donde se encuentra el centro de los datos, lo que llaman la tendencia central. Si pusiésemos la gráfica sobre una regla, buscar el punto de equilibrio será, más o menos, donde se encuentre la media.
— VARIABILIDAD —
Además de la media podemos ver la variabilidad o apuntamiento. La variabilidad es el “cuanto” se mueven mis datos, si están muy dispersos o si están agrupados. Si los datos están muy agrupados, es decir, tienen poca variabilidad, la frecuencias es homogénea. Si por el contrario hay mucha variabilidad, la frecuencia es heterogénea.
— FORMA —
Podemos ver la asimetría. Para mirara si tus datos son simétricos tienes que “cortar” el gráfico por la mitad y mirar si la zona derecha es igual que la izquierda, como si fuera un espejo. Si esto no ocurre quiere decir que tus datos son asimétricos.
Existen dos tipos de asimetría: asimetría positiva, en la que la cola estará a la derecha, y asimetría negativa, la cola estará a la izquierda. La idea de derecha/izquierda te será más fácil de recordarla si piensas que en el eje x los números positivos están a la derecha y los negativos a la izquierda.
¿Qué información nos da saber que hay una asimetría?
Por ejemplo, una asimetría negativa nos dice que tenemos muchos valores altos y tiene algunos valores pequeños que crean esa cola a la izquierda.
Refiriéndonos a la forma y al Gráfico 1.12., cuando los datos están muy agrupados y la forma es muy puntiaguda se dice que tiene forma leptocúrtica. Si los datos están dispersos y tiene forma aplanada se llama forma platicúrtica. Y si no es puntiaguda ni plana se llama forma mesocúrtica.
Con esta entrada terminamos el primer tema. Si te perdiste la primera parte del tema no pierdas el tiempo y a por ella.
Espero que te haya resultado de ayuda. Y si tienes dudas no tengas problema en preguntar en los comentarios.
Continúa entendiendo la Estadística en Tema 2, parte 1: Medidas de tendencia central.
Deja una respuesta