
En este tema te voy a explicar la idea de variabilidad, poco a poco y de modo claro, que siempre resulta un poco raro toparse con la variabilidad e intentar comprenderla. También te hablaré de la asimetría, recuerda que ya hablamos un poco de ella en el Tema 1, parte2, apartado 1.7.
La idea de variabilidad es el cuanto se mueven tus datos, como de dispersos están.
Ponte en el ejemplo de dos parejas distintas de baile: una pareja que baila salsa y se mueve por toda la pista, y una pareja de abuelitos. ¿Quién se mueve más por la pista? La pareja de salsa se mueve por muchos más puntos de la pista, “varía” más su ubicación. Pues esta misma idea es con tus datos.
Existen distintos cálculos de la variabilidad. En esta asignatura veis la amplitud, la varianza, la desviación típica, el coeficiente de variabilidad y la amplitud semi-intercuartil.
En este tema ya nos tenemos que olvidar de las variables cualitativas. Si recuerdas, teníamos un ejemplo, el nivel de estudios alcanzado. Pues todas las medidas de este tema sólo se pueden calcular con variables cuantitativas.
3.1. Amplitud total o Rango
El rango o amplitud total (AT) es un simple cálculo de resta del valor máximo menos el valor mínimo de la variable. Sin más ni más. Esta resta se hace con los límites exactos.
Esta medida es muy poco usada, ya que expresa muy poca información (es una simple diferencia) y además es muy sensible a los datos extremos. Date cuenta que estás restando máximo y mínimo, si hay un dato extremo seguro que este es un máximo o un mínimo.
Veámoslo con los dos ejemplos.
Ejemplos
En el ejemplo del Nº de hijos: AT = Máx – Mín = 4’5 – ( – 0’5 ) = 5
En el ejemplo del Rendimiento: AT = Máx – Mín = 100’5 – ( – 0’5 ) = 101
La idea principal es que el Nº de hijos toma una amplitud de cinco números enteros ( 0, 1, 2, 3, 4 y 5 ) y el Rendimiento 101 (0, 1, 2, …, 99, 100).
3.2. Amplitud semi-intercuartil
Esta medida es muy poco usada, pero como está en vuestro temario te la explico.
Al igual que cuando te he hablado de la mediana en el tema anterior te he dicho que era la medida de centralización adecuada para datos con distribución asimétrica, la amplitud semi-intercuartil es su medida de variabilidad adecuada.
La amplitud semi-intercuartil ( Q ) es la mitad de la distancia entre los cuartiles 1 y 3.
Recuerda el dibujo que te había puesto al explicar los cuartiles en el tema anterior.
La resta de el primer y el tercer cuartil nos dice la distancia entre ellos, es decir, la distancia entre la mitad ( 50% de datos ) central de los datos.
Ejemplos
En el ejemplo del Nº de hijos teníamos el valor 0’7143 en el Q1 y 3’3 en el Q3, así que:
En el ejemplo del Rendimiento teníamos el valor 28’7692 en el Q1 y 72’9074 en el Q3, así que:
3.3. Varianza y Desviación típica
La varianza ( S2X ) y la desviación típica ( SX ) son las medidas más usadas y las que mejor se pueden interpretar. Tienes que tener en cuenta que están basadas siempre en diferencias a la media.
Antes de hablar de las fórmulas prefiero que tengas bien claro que la varianza y la desviación típica en verdad son lo mismo, la varianza es el cuadrado de la desviación típica, y la desviación típica es la raíz cuadrada de la varianza.
Es decir, si te piden la varianza y te han dicho que la desviación típica es 3, tu respuesta tiene que ser:
Si te han dado una varianza de 100 y te preguntan por la desviación típica tienes que responder:
La primera idea para la fórmula que tienes que tener es la de la diferencia de cada dato a la media.
La suma de todas las diferencias es CASI el numerador de la fórmula de la varianza. Digo casi porque nos falta elevar cada diferencia al cuadrado.
¿Y por qué tienes que elevarlo al cuadrado?
De todas estas diferencias unas serán positivas, cuando el dato sea mayor que la media, y negativas, cuando el dato sea menor que la media (el gráfico de abajo te aclarará esto). Al hacer la suma de positivos y negativos se van a ir compensando, concretamente nos va a quedar 0 (exactamente 0 es una propiedad de la media que no te he explicado pero que tampoco la vas a usar).
Así que elevamos las diferencias al cuadrado, las sumamos y por último dividimos entre el tamaño de la muestra para conocer lo que serían la media de las diferencias al cuadrado.
Esta fórmula es lo que yo suelo llamar fórmula teórica, de donde sale la explicación de la varianza. Pero a la hora de trabajar con tablas de frecuencias tenemos que multiplicar cada diferencia por la frecuencia de ese valor, como habíamos con la media.
Hacer esta fórmula conllevaría los siguientes pasos:
- Hacer las diferencias de cada valor menos la media (nueva columna en la tabla de frecuencias)
- Elevar las diferencias al cuadrado (nueva columna en la tabla de frecuencias)
- Multiplicar las diferencias con su correspondiente frecuencia (nueva columna en la tabla de frecuencias)
- Sumarlas todas
- Dividir para n
Es un proceso un poco largo, por eso hay otra fórmula más sencilla que sale de desarrollar el cuadrado (si quieres saber el proceso pregúntame en los comentarios, no lo incluyo aquí porque no es necesario que lo sepas) y que es la que vamos a usar en los ejercicios.
Esta fórmula es más sencilla porque la mayor parte la tenemos calculado ya de antes.
La media la tendremos ya calculada, y recuerda que para calcularla hacíamos una nueva columna en la tabla de frecuencias con el producto xini. Si esta columna la multiplicamos por xi obtenemos en numerador de la varianza.
Así que con esta fórmula los pasos serán:
- Multiplicar la columna xini por xi (nueva columna en la tabla de frecuencias)
- Sumarlo todo
- Dividir para n
- Restar la media al cuadrado
Aunque solo nos ahorramos un paso son más sencillos los cálculos que hay que hacer.
Una vez que tengas el valor de la varianza sólo tienes que hacer la raíz cuadrada para sacar la desviación típica.
Propiedades de la varianza
- Transformaciones lineales de la variable
Ponte en el caso de haber hecho un estudio sobre temperatura en grados centígrados y has tenido una media de 30°C y una desviación típica de 4°C. Si quieres hablar en tus datos en grados Fahrenheit, ¿tendrías que aplicar a todos los datos la fórmula lineal* del cambio y volver a calcular la media?
¡No es necesario!
Ya dijimos en la primera parte del tema 2 cómo afectaba la transformación lineal a la media. Pues a la varianza también le afecta de cierto modo.
A la varianza no le afecta un número que sume o reste, pero sí un número que multiplique o divida. Además le afecta de modo cuadrático (pondremos ese número al cuadrado).
Las transformaciones lineales las verás escritas en los ejercicios y en los exámenes con la fórmula general:
En la fórmula a y b son número cualesquiera, X la vieja variable e Y la nueva variable. En el ejemplo, X son los °C, Y los °F, a es y b 32.
Así que la nueva varianza y desviación típica será:
Esto como mucho te lo preguntarán en una pregunta de teoría, así que tampoco le des muchas vueltas, pero es importante que por lo menos te suene.
*Fórmula para pasar de Centígrados a Fahrenheit:
¿CÓMO INTERPRETAMOS LA VARIANZA Y LA DESVIACIÓN TÍPICA?
La interpretación se hace desde la desviación típica.
En el cálculo de la varianza hemos hecho todo el rato diferencias al cuadrado, por lo que mis datos serían cuadrados. Es decir, si estamos en el ejemplo de los hijos sería: tiene una varianza de 40 (por ejemplo) hijos cuadrados. ¡Esto no se puede explicar!
Al hacerle raíz, la desviación típica sí que son hijos.
La interpretación sería decir que la mayor parte de tus datos se mueven en desde el valor que sale de hacer media menos desviación típica y desde el valor que sale sumando.
Veamos el proceso con los ejemplos:
Ejemplo del Nº de hijos
Este es la tabla que nos había quedado tras calcular la media (que nos había dado 1’875):
Vamos a añadirle la nueva columna y la sumamos:
Aplicamos la fórmula:
Es decir, la mayor parte de mis datos se mueven entre 0’44 hijos y 3’31.
- 1’875 – 1’435 = 0’44 hijos
- 1’875 + 1’435 = 3’31 hijos
Ejemplo del Rendimiento
Este es la tabla que nos había quedado tras calcular la media (que nos había dado 50’738):
Realizamos los mismos pasos:
Es decir, la mayor parte de mis datos se mueven entre un rendimiento de 24’142 y 77’334.
- 50’738 – 26’596 = 24’142 hijos
- 50’738 + 26’596 = 77’334 hijos
3.4. Coeficiente de Determinación
Estas dos varianzas que hemos visto en los ejemplos NO se pueden comparar.
¿Y esto por qué es así?
Date cuenta que cada desviación típica está relacionada con la media y con la generalidad de los datos. Si tus datos toman valores pequeños, como el ejemplo del Nº de hijos, la desviación será acorde con ellos. Y si tus datos toman valores altos, como en ejemplo del Rendimiento, la desviación tendrá un valor alto.
Así que no podemos comparar directamente las desviaciones típicas de distintos grupos de datos. Para solucionar este problema existe el coeficiente de variación ( CV ).
De todos modos, para poder calcular el coeficiente de variación tienes que tener la deviación típica y la media calculadas, porque su fórmula es esta:
Al dividir la desviación típica entre la media estás “relativizándola”, eliminando la influencia de la media de un modo que podrá ser comparativo entre distintas muestras.
Una vez que ya tenemos la desviación relativizada lo expresamos en tanto por ciento (por ello el producto por 100) y ya podemos comparar qué distribución es más o menos dispersa.
Ejemplos
En el ejemplo del Nº de hijos tenemos una media de 1’875 y una desviación típica de 1’435, así que el coeficiente de variación tiene un valor de 76’536%.
En el ejemplo del Rendimiento tenemos una media de 50’738 y una desviación típica de 26’596, así que el coeficiente de variación tiene un valor de 52’418%.
Ahora ya puedes llegar a la conclusión que los datos del ejemplo del Nº de hijos tienen más variabilidad que los del Rendimiento.
3.5. Índice de Asimetría de Pearson
En el apartado 7 del Tema 1 habíamos hecho una primera toma de contacto con la asimetría, concretamente con su visión de la asimetría. También la hemos visto relacionada con la posición de las medidas de centralización en el Tema 2, parte 1. Pero además de verla hace falta cuantificarla, darle un valor.
Para cuantificar la asimetría utilizamos en Índice de Asimetría de Pearson ( As ).
Su cálculo relaciona la distancia entre la media y la moda (tanto el signo que toma como la cuantificación) y la variabilidad.
El signo (positivo o negativo) que tome el índice depende de las posiciones, del numerador de la fórmula ya que la desviación típica es siempre positiva.
Así que tenemos tres opciones:
- Si la media es menor que la moda ( Me < Mo ) la resta dará lugar a un número negativo. Así que el índice será negativo y habrá asimetría negativa.
- Si la media es mayor que la moda ( Me > Mo ) la resta dará lugar a un número positivo. Así que el índice será positivo y habrá asimetría positiva.
- Si la media y la moda tienen el mismo valor, o muy próximo, ( Me = Mo ) la resta dará lugar al cero. Así el índice será cero y no habrá asimetría.
En resumen, las tres conclusiones a las que llegamos con el valor del Índice de Asimetría son las siguientes:
- Si As > 0 è Tus datos tienen asimetría positiva
- Si As < 0 è Tus datos tienen asimetría negativa
- Si As = 0 è Tus datos son simétricos
Ejemplo del Nº de hijos
En este ejemplo tenemos una media de 1’875, una moda de 1 y una desviación típica de 1’435. Hacemos el Índice:
Tiene un poco de asimetría positiva, es decir un poco de cola en la derecha. Puedes contrastarlo con el diagrama de barras que hicimos en el Tema 1.
Ejemplo del Rendimiento
En este ejemplo tenemos una media de 50’738, una moda de 50’5 y una desviación típica de 26’596. Hacemos el Índice:
Estos datos son simétricos. Puedes contrastarlo con el histograma que hicimos en el Tema 1.
3.6. Puntuaciones típicas
En mi opinión este apartado no pega mucho en este tema, yo lo habría incluido en el Tema 7 que es cuando más se van a usar. Pero a por él vamos.
Cada muestra tiene su propia media y desviación típica y no se pueden comparar datos al tun tun. Para poder comparar necesitamos tipificar.
Tipificar los datos nos hace centralizar los datos y agruparlos de modo que distintas muestras tengan formas más parecidas.
Para tipificar los datos tendremos que realizar el mismo cálculo con los n datos que tengamos: restar la media y dividir por la desviación típica.
El paso de restar a cada dato la media hace que la media de mis nuevos datos sea 0 (desplaza los datos). Y el de dividir por la desviación típica hace que la varianza y la desviación típica nueva sea 1 (agrupa los datos). Esto son las propiedades que tiene.
Si ya has mirado cosas de esta asignatura o recuerdas cosas de Estadística del Bachillerato te sonará la Campana de Gauss o Normal( 0, 1 ), de media 0 y desviación típica 1. Si no te suena tranquilo, lo veremos en el Tema 7.
Te voy a enseñar estas propiedades de modo gráfico para que veas esas ideas de desplazamiento y agrupación con unos datos aleatorios creados con el ordenador. Estos datos tienen una media de 20’09 y una desviación típica de 4’868.
Este es su histograma.
Te pongo unos datos para que veas los cálculos que se hacen:
RESTAMOS LA MEDIA
Ahora, si restamos a todos los datos la media de 20’09 lo que hacemos es que en vez de tener la media este dato la tendrá en el 0. Date cuenta de que los datos van desde un 5 a uno 33, aproximadamente, es decir, AT = 28.
En este gráfico tienes el cero en el centro, es decir, es como si hubiésemos cogido la gráfica y la hubiésemos desplazado hacia la izquierda. Ha cambiado la media pero tiene la misma desviación. Los datos ahora van desde un -13 hasta un 13, tienen AT = 26 (el cambio de número es porque miro los datos solo en el gráfico, no el valor real).
DIVIDIMOS POR LA DESVIACIÓN TÍPICA
Ahora lo que hacemos es agrupar los datos al dividir por la desviación típica.
Fíjate en cuanto ha cambiado el eje de las X. Ahora los datos van desde el -3’algo hasta casi el 3. Los datos se han agrupado y ahora tenemos AT=6, aproximadamente.
Este es el cálculo que hemos hecho con los datos:
Este tema es más corto que los anteriores pero es un poco más denso, así que te recomiendo que lo leas poco a poco y que te inventes unos datos con los que hacer todos los cálculos para que te quede claro todo.
Ya sabes, si te ha quedado alguna duda o necesitas profundizar en algo escribe en los comentarios.
Si te ha gustado coméntalo también y comparte en redes sociales.
Continúa entendiendo la Estadística en Tema 4: Análisis conjunto de dos variables.
Muchísimas gracias , además vas avisando al correo y podemos estar al tanto. Gracias
Hola Lucía,
Muchas gracias por el comentario, espero que ayude la entrada 🙂
La newsletter la mando a la gente que está suscrita, para que no perdáis ningún tema.
No se si tendrás tú o algún compañero problemas PEC de esos que os mandan, si tenéis mandádmelos please.
¡Mucho ánimo!
A qué te refieres con problemas PEC? en esta asignatura no hay PEC, que significa Prácticas de Evaluación Continua. Si te refieres a listas de ejercicios sí te las podemos mandar
Opsss, como otros años teníais pensaba que aún había.
Mándame por favor esa lista de ejercicios.
Gracias y ánimo!
Lidia
claro!, a dónde te las mando?
El email es estadisticalidia@gmail.com
Gracias!
Muchas muchas felicidades por este pedazo de blog! Es espectacular y esta todo clarísimo!
Por cierto, tengo una duda. En el apartado de la amplitud total no entiendo porque el mínimo aparece en negativo.
Muchas gracias y felicidades de nuevo 🙂
Hola Beatriz.
Muchísimas gracias por tu comentario.
Respecto a tu duda, en nuestros ejemplos, como el límite inferior aparente es 0, el limite inferior exacto es -0’5. Por eso el mínimo es -0’5, porque tenemos que hacerlo con los límites exactos. Si sigues teniendo duda no tengas problema en preguntar.
Saludos y ánimo!
Estupendo, Lidia!!!
Después de leer apuntes que había por ahí y el libro, sólo he comprendido los conceptos y cómo hacer cuando he leído tu explicación.
Explicas cada una de las letras que se usan, que es lo que yo necesito… comprender para poder utilizar.
Muchas gracias. Espero que sigas con todos los temas así..
Gracias por tu comentario Gloria.
Seguiré subiendo temas, ahora mismo estoy trabajando con el siguiente. Si estas suscrita te llegará un email cuando esté la entrada.
Si te surge alguna duda no tengas problema en preguntar.
Saludos y ánimo!
Lidia
muchas gracias por tu trabajo, no tengo ni idea de la asignatura pero con tus explicaciones el tema 1 y 2 me han quedado claros, ahora voy a por el 3 que lo veo muyyyy denso, gracias
Hola Francys.
Me alegro un montón de que te vayan bien las explicaciones. ¡Ánimo con el siguiente tema!
Saludos y ánimo!
Lidia
Hola Lidia :
Tengo una duda con la amplitud total.Tu pones que hay restar y luego entre parentesis vuelves a restar . Y en los ejercicios de autoevaluación no me sale el resultado haciéndolo de esa manera.
. La amplitud total de la distribución de frecuencias de la tabla 1. es: A) 11; B) 12; C) 100.
Tabla 1. Estatura en centímetros de 100 niños de 12 meses de edad.
Estatura Frecuencia
79-81 10
76-78 25
73-75 45
70-72 20
Según tus apuntes tendría que : 81.5- (-69.5) =151
Y las respuestas de los ejercicios me dice que es 81.5-69.5=12
Me puedes explicar porqué ?
Muchisimas gracias.
Consu
Hola Consu,
No es que vuelva a restar, es que el límite exacto inferior del valor 0 (en el caso de variable discreta) y del intervalo 0-20 (en el caso de la variable continua) es -0’5.
En tu ejercicio el límite exacto inferior del intervalo 70-72 es 69’5.
Saludos y ánimo!
Lidia
Ya está Lidia , lo acabo de ver !!
Es porqué el valor es más pequeño de 0. Por lo que es negativo -0.5.
Muchísimas gracias por tu bloc.
Consu
Hola Consu.
Justo te estaba escribiendo la contestación. Pero ya lo has descubierto 😀
La fórmula es Máx-Mín, y en mi ejemplo el mín es negativo como bien dices.
Saludos y ánimo!
Lidia
Buenas tardes Lidia:
He querido hallar por mí misma los Q1 y Q3 para la amplitud semi-intercuartil que como tú ya habías puesto la respuesta, para ver si me daba lo mismo, y vamos… nada que ver. ¿Hay alguna forma de ver las operaciones para llegar a esos datos? Gracias!
Perdona Lidia, lo he hecho más veces y sí me sale lo mismo… Disculpa! Los números y yo decididamente no son lo mio! 🙁
Hola Elena.
Tú tranquila al hacer las cuentas, que te saldrá todo.
De todos modos los cuartiles están creados en el Tema 2, así que échale un vistazo de todos modos.
Saludos y ánimo!
Lidia
Hola Lidia.
En el ejemplo del punto 3.1 ¿Por qué usas los valores 4.5 y -0.5? ¿Los laterales no son 5 y 0?
Muchas gracias por el blog!! Viene genial!! Eres una crack!
Por cierto, los ejercicios que he leído que una compañera te ha pasado, ¿los vas a poner en algún sitio resueltos?
Un saludo
María Batet
Hola María.
Es 4.5 y -0.5 porque se hace con los límites exactos y no con los aparentes (4 y 0). La explicación de los límites exacto y aparentes lo tienes en el Tema 1, parte 2.
Y gracias por el apoyo! 😀
Saludos y ánimo!
Lidia
Muchas gracias Lidia! Le voy a echar un vistazo!!!
¿Has visto mi pregunta sobre los ejercicios?
Un saludo
¡Ops! Se me había olvidado.
Cuando termine de crear el temario me pondré con ello.
Saludos y ánimo!
Lidia
Hola Lidia :
Tengo una duda .Me puedes ayudar ? En la Asimetria de pearson si calculas la media y la moda y ves que la primera es mayor que la segunda , ya es suficiente para decir que la disttribución es asimetrica positiva ? o tienes que calcular la desviación típica de todas maneras ?
Gracias por ayudarnos
Consu
Hola Consu,
Realmente es necesario que calcules el índice para poder cuantificar cómo de asimétrica es tu variable.
Saludos y ánimo!
Lidia
Hola Lidia!
A ver si me puedes ayudar, ya sabes esto es una desesperación para algunos!
Cuando en los ejercicios nos piden que calculemos la varianza, en el formulario tenemos varias formulas. Cómo sé cuál tengo que aplicar en cada caso? en las soluciones de los examenes suelen aplicar la que se resuelve restando la media de cada valor de X, es decir no la que viene en último lugar. Y es que no me salen los mismos resultados..qué hago mal?
Muchisimas gracias por tu ayuda!!!
Hola Gloria.
La fórmula que tienes que usar, aunque depende de los datos que tengas, yo te recomiendo que hagas la del sumatorio y luego restar la media al cuadrado, es más sencilla de calcular con la calculadora.
Si en la tabla de frecuencias ya tienes calculada la columna de xi*ni de la media, no tienes más que volver a multiplicar por xi para tener el cuadrado. Es más sencillo.
Saludos y ánimo!
Lidia
Hola Lidia, no entiendo muy bien porque se explica el cambio de datos en las puntuaciones típicas. ¿No basta con saber la fórmula y aplicarla? No me queda muy claro para que se necesitan esos cambios y que aplicación tienen.
Muchas gracias.
Leonor
Hola Leonor,
Tienes que tener en cuenta que en el libro de fórmulas no tienes la normal (20, 30), la N(10,15)… la única que tienes es la N(0,1). Por ello tienes que tipificar tus datos, pasando de la normal que sea a la N(0,1) para poder mirar las probabilidades en la tabla.
Si tienes dudas podemos concertar una clase para solventarlas.
Saludos y ánimo!
Lidia
Hola Lidia, muchas gracias por hacer fácil lo difícil, da gusto… Deberías dedicarte a la educación, ayudarias a mucha gente…
No haces ésto con las demás asignaturas de primero de psicología?
Imagino que te habrás especializado en la estadística, no?
Muchas gracias por tu interés y dedicación, los que preparan los temarios deberían aprender un poco de ti!
Hola Jesús,
Muchísimas muchísimas gracias por tu comentario.
La cosa es que soy estadística y por ello esta es la única asignatura para la que preparo apuntes 🙂
Saludos y ánimo!
Lidia
He estado siguiendo los apuntes sobre el curso de analisis de dos variables y me parece que tu guia es absolutamente entendible y muy practica. Desearia poder disponible las notas del tema 4 que yo los pueda tener en mi computador.
Gracias
Hola Julian,
Me alegra mucho que hayas entendido las cosas gracias al blog.
Los apuntes descargables los voy subiendo poco a poco cuando tengo un rato.
Saludos y ánimo!
Lidia