
Recuerda que nos encontrábamos en la segunda parte de la asignatura, probabilidad e inferencia. En los Temas 5, 6 y 7 hemos hablado de probabilidad, en este último tema nos centramos en la inferencia estadística.
En este tema vamos a ver una introducción de cómo podemos tomar muestras de una población y aprenderemos a estimar y crear intervalos de confianza para la media y la proporción.
La inferencia estadística se divide en realizar intervalos de confianza, que aprenderemos en este tema, y los contrastes de hipótesis, que se trabajaran en la asignatura de segundo Diseños de investigación y análisis de datos.
8.1. Introducción
La inferencia estadística consiste en “trasladar” lo calculado en una muestra a la población, ver si lo que tenemos calculado en la muestra se corresponde con lo que pasa en general. Si yo quiero calcular la media de una población necesito estimarla con la de una muestra.
Si no recuerdas bien la diferencia entre población y muestra vuelve a echarle un vistazo a la primera parte del Tema 1.
Para poder hacer inferencia hay que realizar ciertos pasos. Tú no vas a tener que hacerlos pero viene bien que sepas los pasos que habría que hacer si quisieras hacer un estudio.
- FASE 1: Definir lo que queremos estudiar, la variable, y el grupo al que queremos estudiar o dirigirnos, que es la población.
- FASE 2: Una vez que tenemos definida la población, que suele tener un tamaño muy alto, tenemos que coger un pequeño grupo que será la muestra. El tamaño muestral será una cantidad asequible con la que podremos hacer cálculos.
- FASE 3: Teniendo ya la muestra y sabiendo la variable que queremos estudiar tenemos que medirla en cada uno de los individuos de la muestra.
- FASE 4: Podemos realizar análisis descriptivos de la variable de estudio.
- FASE 5: Hacemos inferencia sobre el parámetro que queramos (media, varianza, proporción, etc).
8.2. Muestreo
Como hemos dicho, por lo general el tamaño de población (N) es demasiado grande como para medir la variable en todos los individuos, por lo que tenemos que tomar una muestra (n) de la población.
Coger una muestra no consiste en tomar los 100 individuos, por ejemplo, que me de a mi la gana, sino que una muestra tiene que ser representativa de la población.
¿Qué quiere decir eso de representativa?
Que una muestra sea representativa de la población quiere decir que tiene que cumplir las mismas características que la población. Por ejemplo, si mi población tiene 50% de hombres y 50% de mujeres mi muestra no puede tener un 80% de hombres, sino que tiene que cumplir, más o menos, los mismos supuestos.
Existen métodos estadísticos de obtención de muestras que nos garantizan que la muestra sea representativa, se llaman métodos probabilísticos.
Vamos a nombrarlos y dar una pequeña explicación, no hace falta que los conozcas a fondo. En cada uno te pongo el ejemplo de tomar una muestra de un colegio.
- Muestreo aleatorio simple: Todos los elementos de la población (N) tienen la misma probabilidad de salir y es un muestreo con reposición, cada vez que selecciono un elemento para pertenecer a la muestra (n) lo devuelvo para que la población esté siempre igual.
El ejemplo sería meter los nombres de todos los alumnos en una bolsa (N papeletas) e ir tomando una papeleta, apuntar el nombre y volver a meterla a la bolsa hasta completar el tamaño de muestra (n).
- Muestreo sistemático: El muestreo sistemático necesita que los individuos de la población (N) estén ordenados. Una vez que están ordenados dividimos la población en tantos grupos como tamaño de muestra (n) queremos. Tomamos un elemento de modo aleatorio del primer grupo, tomamos como referencia la posición que ocupa dentro del grupo y la muestra estará formada por los elementos que ocupen esa posición dentro de cada grupo.
Pongamos que ordenamos alfabéticamente a los 1.000 (N) alumnos del colegio y queremos tomar una muestra de 20 (n). Así que voy a tener 50 individuos en cada grupo ( 1.000 / 20 = 50 ).
Tomo de modo aleatorio un individuo del primer grupo, supongamos que he sacado al individuo 2 (primer individuo de mi muestra), y ahora quiero esa misma posición del resto de los grupos: el individuo que ocupa la posición 2 del segundo grupo es el individuo 50+2=52, el individuo que ocupa la posición 2 en el tercer grupo es 2·50+2=102 (también vale hacer 50+52), etc.
Este tipo de muestreo suele ser muy típico de hacer a la entrada de un comercio, por ejemplo.
- Muestreo estratificado: Este tipo de muestreo se realiza cuando hay unos grupos “prefijados” en la población y dentro de los grupos hay homogeneidad (homogeneidad significa parecerse) y entre los grupos heterogeneidad (son diferentes). Lo que se hace en estos casos es tomar muestras dentro de cada grupo.
Por ejemplo, los ciclos de enseñanza del colegio (grupos) son muy distintos entre sí, pero dentro de cada ciclo hay homogeneidad. Así que tomaremos una muestra dentro de cada ciclo.
- Muestreo por conglomerados: El muestreo por conglomerados es contrario al estratificado. Los grupos “prefijados” son homogéneos y es dentro de los grupos donde existe heterogeneidad. Por ello lo que se hace es tomar todos los elementos de alguno de los grupos grandes para formar la muestra.
Si queremos estudiar los colegios públicos españoles, sabemos que los colegios se comportan más o menos igual. Por lo que, en vez de tomar una muestra dentro de cada colegio como en muestreo estratificado ya que serían muy parecidas las muestras, lo que hacemos es tomar todos los elementos de algunos colegios.
En contra a los métodos probabilísticos de toma de muestras tenemos los métodos no probabilísticos.
En los métodos no probabilísticos no podemos asegurar que la muestra sea representativa de la población. Sería por ejemplo el caso de enviar un email con una encuesta, sólo la va a contestar el que quiera, no es representativa.
Sobre estos métodos no necesitas saber nada más, simplemente te voy a poner los nombres que te dicen en el libro para que te suenen un poco, muestreo por cuotas, muestreo opinático, muestreo casual y muestreo bola de nieve
8.3. ¿Qué es la inferencia?
Tras haber elegido nuestro estudio, nuestra población objetivo, nuestra muestra y haber realizados cálculos con la muestra como los vistos desde el Tema 1 hasta el Tema 4 (la media, la mediana, los percentiles, la varianza, etc) tenemos que hacernos una pregunta.
¿Las medidas que hemos calculado en la muestra serían las mismas de hacerlas calculado en la población?
Exactamente el valor obtenido no va a ser, es muy complicado que de entre todos los datos vaya a coincidir exactamente ese valor, por lo que a ese valor obtenido hay que añadirle un intervalo de confianza.
Un intervalo de confianza es una ventana alrededor del valor que nos da más margen de maniobra. Piensa en una diana, el centro de la diana es el valor exacto y el resto el intervalo, pero en el caso de los número será lineal.
Los intervalos de confianza tienen un límite inferior, valor mínimo, y un límite superior, valor máximo. Y llevan siempre un nivel de confianza (1-α), un porcentaje de acierto (en 1- α en tanto por uno), por llamarlo de algún modo. A mayor nivel de confianza más amplia será la ventana.
Por ejemplo, tenemos una media del rendimiento de 50’738 y un intervalo de confianza asociado al 95% de [48’4044; 53’0716]. En el 95% de las muestras diferentes que se pueden tomar de al población la media estará en el intervalo.
La inferencia del valor exacto se llama estimación puntual y la del intervalo de confianza se llama estimación por intervalo.
8.4. Estimación de la media
Vamos a ver como hacemos inferencia a la media poblacional, recuerda que la denotábamos por μ (mu) con la media muestral. El valor que usemos para estimar la media poblacional (o cualquier otro concepto) se llama estimador.
Para comenzar por esto tenemos que centrarnos en la idea teórica de que tenemos el valor de la media poblacional con los N datos y que al hacer muestreo, como los elementos son tomados de modo aleatorio, hay muchas muestras posibles con n elementos.
8.4.1. Distribución muestral y estimación puntual
Siguiendo con la idea de que hay muchas muestras posibles, también tenemos que decir que cada muestra tiene su media muestral.
Así que tendremos una media de cada muestra que tomemos, a esto se le llama distribución muestral de la media. Y resulta que la media de esas medias coincide con la media poblacional.
Así que la media muestral es un estimador insesgado para la media poblacional. Decir estimador insesgado es decir que es el estimador perfecto.
Supongamos que tenemos m muestras posibles.
Además de lo referente a la relación de las medias, también tienes que saber que:
- La varianza de las medias coincide con la varianza poblacional entre n.
- A la desviación típica de las medias se le llama error típico de la media.
- Si pusiésemos en un gráfico de barras la distribución muestral de la media tendría una forma muy similar a la campana de Gauss.
(En el libro tenéis un ejemplo numérico con una población de 5 elementos y con las 25 muestras posibles de 2 elementos, pero no es relevante para entender la idea de la distribución de las medias)
Así que de todo esto podemos resumir lo siguiente:
*Cuanto mayor sea este valor más imprecisa es la estimación.
También tenemos que introducir un pequeño concepto más, el cálculo de la cuasivarianza y cuasidesviación típica en una muestra en vez de la varianza y la desviación típica. Pasamos a calcular las cuasi porque son mejores estimadores de la varianza y desviación típica poblacional. Lo único que tenemos que modificar es que en vez de estar dividido por n va a estar dividido por n-1.
Así que la cuasivarianza es un estimador insesgado para la varianza poblacional, la varianza no es insesgada.
Fíjate bien en las fórmulas de la varianza y la cuasivarianza, ¿te das cuenta que los numeradores son iguales? Esto nos va a facilitar calcular una teniendo el valor de la otra.
Si despejamos de ambas fórmulas el sumatorio e igualamos los resultados (como si fuesen los sistemas de ecuaciones del cole) obtenemos lo siguiente:
Y de esta fórmula despejamos uno o el otro.
8.4.2. Estimación por intervalos
Una vez que ya sabemos quien es el mejor estimador de la media poblacional tenemos que crear el intervalo de confianza para esta estimación.
Antes de ello tenemos que darnos cuanta de que a la hora de la verdad querer estimar la media significa que no conocemos la media poblacional. Este desconocimiento de μ nos lleva a decir que queremos que nuestra estimación no cometa mucho error al estimar. A este error se le llama error de estimación.
Por ejemplo, decir que el error máximo que quiero cometer al estimar la media de altura de los alumnos sea 2 cm.
Si recuerdas, en el Tema 4 habíamos hablado del error que se crea al predecir y hacíamos Yi-Yi’. Pues en el error de estimación máximo hacemos la diferencia entre el estimador y el poblacional, del siguiente modo:
*La diferencia entre mi estimador y el valor poblacional quiero que sea como mucho Emáx (Emáx es un número)
Ese Emáx lo calculamos con el nivel de confianza (recuerda que matemáticamente lo escribíamos como 1-α) que queremos darle al intervalo y el error típico de la media:
Recuerda que z1-α/2 es un percentil de la distribución N( 0 ; 1). 1- α/2 es la probabilidad que buscaremos en el interior de la tabla. Por ejemplo, si queremos nivel de confianza 95%, como 1-α = 0’95 (recuerda que se daba en tanto por uno), α es 0’05, α/2 es 0’025 y 1-α/2 es 0’975. Así que buscamos en la tabla de la normal la probabilidad 0’975 y nos da el número 1’96.
Volviendo al intervalo de confianza (I.C.), el valor del error máximo lo restaré al estimador para tener el límite inferior y lo sumaré para tener el límite superior.
La fórmula del intervalo de confianza suele venir dada así:
Date cuenta de que esta fórmula te obliga a conocer la desviación típica poblacional (σ), así que ¿qué hago si la desconozco?
Lo que hacemos si la desconocemos es estimarla, y antes hemos dicho que la mejor estimación para la varianza/desviación típica poblacional es la cuasivarianza/cuasidesviación típica.
En este caso de desconocer la varianza poblacional también tenemos que hacernos otra pregunta (porque hay dos fórmulas posibles), ¿cuál es el tamaño de la muestra? Según si el tamaño es menor de 30 o mayor usaremos la distribución t de Student o la distribución Normal. Las dos fórmulas serían estas:
*Recuerda que para mirar probabilidades de la t de Student necesitábamos los grados de libertad para mirar en el fila, en este caso n-1, y la probabilidad en la columna.
Una vez que ya tenemos las fórmulas pasemos a los ejemplos.
Ejemplos
Vamos a ver cuatro ejemplos para aplicar lo explicado con los datos del ejemplo que hemos ido viendo de la variable X=”Rendimiento académico de los estudiantes de colegios e institutos de Zaragoza”.
Aquí te recuerdo los datos que hemos ido calculando a lo largo de los temas:
- ¿Cuál es el valor estimado de la media poblacional? ¿Y de la varianza poblacional y desviación típica?
- Calcula el I.C. para la media al nivel de confianza 90% y 95%.
- Calcula el I.C. para la media en el caso de que supiésemos por estudios anteriores que σ es 28 al nivel de confianza 98%.
- Calcula el I.C. para la media en el caso de que el tamaño de la muestra fuera 20 al nivel de confianza 99%.
PREGUNTA 1
Como el mejor estimador para la media poblacional es la propia media decimos que μ = 50’738.
Y el mejor estimador para la varianza poblacional es la cuasivarianza. Así que teniendo que S2 = 707’344 hacemos:
Para la desviación típica no tenemos más que hacer la raíz:
PREGUNTA 2
Como para los intervalos de confianza tenemos tres fórmulas lo primero que tenemos que saber es la fórmula que tenemos que usar. Este caso se corresponde con la última fórmula que tenéis en el formulario (p. 19), ya que desconocemos sigma y el tamaño de muestra es mayor de 30.
Y una vez seleccionada la fórmula que tenemos que usar no hay más que sustituir lo que conocemos:
La pregunta nos decía crear el I.C. para nivel de confianza 90 y 95%. Así que primero queremos α=0’1 y luego α=0’05. Luego buscaremos el valor de la normal tipificada que deje por debajo una probabilidad de 1- α/2.
Nivel de confianza 90%:
Así que:
Nivel de confianza 95%:
Así que:
PREGUNTA 3
En este caso, como sí que conocemos el valor de σ, tenemos que usar la primer fórmula:
Y una vez seleccionada la fórmula que tenemos que usar no hay más que sustituir lo que conocemos:
La pregunta nos decía crear el I.C. para nivel de confianza 98%, así que α=0’02. Luego buscaremos el valor de la normal tipificada que deje por debajo una probabilidad de 1- α/2.
Así que:
PREGUNTA 4
En este caso el tamaño de la muestra es menor de 30, así que la fórmula que tenemos que usar es la de la t de Student:
Y una vez seleccionada la fórmula que tenemos que usar no hay más que sustituir lo que conocemos:
La pregunta nos decía crear el I.C. para nivel de confianza 99%, así que α=0’01. Luego buscaremos el valor de la t que deje por debajo una probabilidad de 1- α/2.
Así que:
8.5. Estimación de la proporción
Del mismo modo que hemos podido estimar la media y la varianza, también podemos hacer lo mismo con la proporción.
Pero, ¿qué es la proporción?
Hasta ahora no hemos hablado de ella, pero la habrás oído nombrar más de una vez. Por ejemplo la proporción de voto o la proporción de personas mayores de cierta edad.
Las proporciones se miden en variables dicotómicas (recuerda las variables dicotómicas en el Tema 1, parte 1). Las respuestas de la variable se codifican con 0 y 1, de modo que si sumo la variable consigo saber cuantas personas han contestado 1.
La fórmula para calcular la proporción es la siguiente:
Recuerda, que P era la proporción en la muestra y π a la proporción en la población.
8.5.1. Distribución muestral y estimación puntual
Igual que hicimos con la media podríamos hacer los pasos de selección de todas las posibles muestras, pero te voy a resumir en que principalmente la proporción sigue una distribución Binomial, pero cuanto mayor sea el tamaño de muestra y π más próximo a 0’5 será muy próximo a la Normal.
También tenemos un cuadro resumen de la estimación:
*Cuanto mayor sea este valor más imprecisa es la estimación.
8.5.2. Estimación por intervalos
Una vez que ya sabemos quien es el mejor estimador de la proporción poblacional tenemos que crear el intervalo de confianza para esta estimación.
Del mismo modo que cuando hemos creado el intervalo de confianza para la media también tenemos un error máximo para el intervalo de la proporción.
Recuerda que z1-α/2 es un percentil de la distribución N( 0 ; 1). 1- α/2 es la probabilidad que buscaremos en el interior de la tabla. Por ejemplo, si queremos nivel de confianza 95%, como 1-α = 0’95 (recuerda que se daba en tanto por uno), α es 0’05, α/2 es 0’025 y 1-α/2 es 0’975. Así que buscamos en la tabla de la normal la probabilidad 0’975 y nos da el número 1’96.
Volviendo al intervalo de confianza (I.C.), el valor del error máximo lo restaré al estimador para tener el límite inferior y lo sumaré para tener el límite superior.
La fórmula del intervalo de confianza suele venir dada así:
*Como la mayor parte de las veces desconocemos π lo calculamos con P.
Ejemplo
Vamos a ver un pequeño ejemplo para aplicar lo explicado con una modificación de los datos del ejemplo que hemos ido viendo de la variable X=”Rendimiento académico de los estudiantes de colegios e institutos de Zaragoza”. La nueva variable será Y=”Rendimiento académico mayor a 60”.
Siendo que esta es la tabla de frecuencias que teníamos para la variable X de una muestra de 500 alumnos podemos decir que 192 alumnos (108 + 84) tienen rendimiento mayor a 60.
De modo que podemos calcular la estimación de la proporción:
El intervalo de confianza al 95% será:
Así que:
8.6. Tamaño de la muestra
El tamaño de la muestra es n y n aparece en la fórmula del error máximo. No tenemos más que despejar de la fórmula:
Así que la fórmula para calcular el tamaño de muestra es:
Así que el tamaño de muestra depende del nivel de confianza que queramos, de la variabilidad y del error máximo.
¿Cómo influyen cada uno al tamaño de muestra?
En los ejercicios que te pongan en el examen o te darán el valor de la varianza muestral o estimas con la cuasivarianza.
Ejemplo
Supongamos que queremos realizar un estudio con un intervalo de confianza del 99% y en la estimación no queremos cometer un error mayor de 2. Calcula el tamaño muestral siendo que conocemos de estudios anteriores que σ = 5.
¡¡Bueeeeno, por fin terminamos el temario!!
Espero poder haberte ayudado a lo largo de los temas. El próximo paso es hacer ejercicios y exámenes (próximamente), iré poniendo resueltos paso a paso.
Espero que te haya quedado claro, pero si tienes alguna dudilla no tengas reparo en preguntarla en los comentarios. También tengo videoclases por Skype en las que podré resolver todas tus dudas cara a cara y sin moverte de casa.
Si te ha gustado la entrada y te ha ayudado a entender mejor la asignatura no tengas reparo en dejármelo saber en los comentarios. 😉
GRACIAS!! Buen trabajo 🙂 y gran ayuda
Hola Eva,
Gracias por tu comentario. 😀
Saludos y ánimo!
Lidia
Lidia lo primero muchas gracias por tu blog, me ha resultado muy útil.Quería preguntarte en el último ejemplo Z de 0.995=2.33? Es que creo que hay un pequeño fallo y es 2,57. Me gustaría que me lo confirmases o me corrigieses. Gracias!
Hola Elena,
¡¡Me alegra que te sirva!!
Me he colado yo. Ahora mismo lo cambio ¡Gracias!
Saludos y ánimo!
Lidia
Lidia
¡muuuuchas gracias! por tu ayuda.
Cuanto me encantaría que tuvieras una segunda parte del blog para la asignatura de Diseños de investigación y análisis de datos 😛 ¡Cuanto me ayudaría!
Gracias de nuevo 😀
Hola Eva!
¡¡¡¡GRACIAS!!!!
La intención es hacer explicaciones también para la siguiente asignatura 😀
Saludos y ánimo!
Lidia
Hola Lidia!, quería agradecerte el esfuerzo y el fantástico trabajo que has echo, enhorabuena, eres estupenda!!! 🙂
Hola Cinthia!
¡¡Me alegro mucho de que te sirva!!
Mucho ánimo y saludos!
Lidia
Hola Lidia,
en el punto 8.4 , el último ejercicio, n=20 , por eso hacemos t de student, sin embargo en el denominador pones la raíz de 500.
Es así?
Hola Eva,
Gracias, se me ha colado, raíz de 20, no de 500. Ahora mismo lo modifico.
Saludos y ánimo!
Lidia
Muchísimas gracias por tu blog, sos un cielo, gracias por tu ayuda que me viene increíble!! soy muy de letras y a las estadísticas las llevo fatal, pero aquí lo pones todo tan sencillo que lo entiendo bastante bien :). Avisa cuando hagas un blog de diseños de investigación porque si apenas puedo con esta, imagínate con diseños…. Enhorabuena wapa!
Hola Mariana,
Me alegro de que te esté ayudando un montón (si necesitas más ayuda con algún concepto o tema no dudes en que te ayude con una clase
En un futuro el blog también tendrá la asignatura que tenéis en segundo. Así que a por ella.
Saludos y mucho ánimo!
Lidia
Dios mío este blog es oro puro!!!! nunca creí que fuera a entender y a hacer por mi misma todos los ejercicios y con tu ayuda lo estoy haciendo! Muchísimas gracias por compartir tu trabajo!!!! 🙂
Hola Aza,
😀 Me encanta tu comentario 😀
Y me alegro mucho de que te sirva.
Saludos y ánimo!
Lidia
Aprobé Lidia!!!!
No sé si lo hubiera conseguido sin tu ayuda…así que vuelvo a darte las gracias por este maravilloso blog que anima a hacer ejercicios,y ejercicios, y a hacerlo ameno! 🙂 🙂 🙂
Madre mía Aza!
Me alegra muchísimo saber qué has aprobado.
Mucho ánimo para segundo y, por favor, recomienda la página a quien lo necesite 😀 Gracias
Saludos y ánimo!
Lidia
Mil gracias Lidia. Saqué en junio un 3,4 sin entender casi nada. Ahora que la comprendo gracias a tus explicaciones, espero que me vaya mucho mejor.
Hola Soledad,
Me alegro de tu comentario y que te hayan servido mis explicaciones. Así que a sacar una notaza ahora!
Saludos y ánimo!
Lidia