
Hasta ahora te he enseñado a trabajar con una variable por si sola: hemos visto como organizar los datos (Tema 1, parte 2) y como calcular sus medidas de tendencia central (Tema 2, parte 1), sus medidas de posición (Tema 2, parte 2) y su variabilidad (Tema 3).
Ahora vamos a trabajar con dos variables a la vez, para ver si tienen relación la una con la otra, como por ejemplo:
- ¿Si fumo hay más posibilidades de tener cáncer de pulmón? → Queremos ver si hay asociación entre dos variables cualitativas, fumar y cáncer de pulmón.
- ¿Si me distraigo menos sacaré mejor nota en el examen? → Queremos ver si hay relación entre dos variables cuantitativas, nivel de distracción en las horas de estudio y nota en el examen.
- ¿Si tomo un medicamento para bajar el colesterol me baja el colesterol? → Queremos ver si hay diferencias en una variable cuantitativa, colesterol, según una variable cualitativa (tomar o no el medicamento).
Los dos primeros ejemplos los vas a estudiar en la asignatura de este curso (Introducción al análisis de datos) y el tercero en la del curso que viene (Diseño de investigación y análisis de datos).
Te pongo los tres ejemplos para que sepas desde ya que se pueden buscar relaciones entre todas: cualitativa vs. cualitativa, cuantitativa vs. cuantitativa y cualitativa vs. cuantitativa.
Comenzamos con el primer ejemplo: cualitativa vs. cualitativa.
4.1. Asociación entre dos variables Cualitativas
Vamos a empezar creando los datos de trabajo. Vamos a trabajar con las variables del ejemplo y como ahora tenemos dos variables las denominaremos como X=Fumar e Y=Cáncer.
Vamos a preguntarle a una muestra de 100 personas si fuman y si tienen cáncer. La tabla de frecuencias queda así con dos variables:
Al trabajar con dos variables vamos a organizar los datos de otro modo para que todo se vea más limpio. La nueva organización se llama tabla de contingencia o tabla de doble entrada.
Los datos que están en el centro ( 8, 2, 20 y 70) son las frecuencias conjuntas porque están relacionando las dos variables. Las de los laterales son las frecuencias marginales y se refieren a una sola variable.
A la derecha tenemos 28 y 72, que son las frecuencias de SÍ FUMA y NO FUMA. Y abajo tenemos las frecuencias de padecer o no cáncer, 10 para el SÍ CÁNCER y 90 para el NO CÁNCER.
Las frecuencias conjuntas, las del centro, se llaman frecuencias empíricas u observadas y las vamos a denotar como ne.
Para saber si existe relación entre las variables tenemos que comparar estos datos con los que hubiese si no hubiese ninguna relación, si fuesen independientes, esto se llama frecuencia teórica o esperada y se denota con nt.
La fórmula para calcular las frecuencias teóricas trabaja con las frecuencias marginales.
Con el ejemplo te va a ser más fácil de entender.
Así que quedaría:
Comparando la tabla de ne y nt podemos ver las diferencias y hacer resta entre ellas para ver la asociación:
Recuerda que la frecuencia teórica es la que habría si las variables fueran independientes, si no tuvieran relación. Así que si tu muestra, tus datos observados, realmente no hubiese relación ne y nt serían muy parecidos.
En este ejemplo no ocurre eso, fíjate las diferencias que ha dado. Estas diferencias quieren decir que existe relación entre fumar y tener cáncer y entre no fumar y no tener cáncer. Son las diferencias positivas, en las que el dato empírico es mayor que el esperado (por ejemplo, 8 es mayor que 2’8).
Pues bien, esto que acabamos de hacer es solamente a “ojillo”, hay que calcular si esta diferencia es realmente suficiente como para afirmar que sí están asociadas las variables.
Vamos a usar un coeficiente llamado Chi-cuadrado o Ji-cuadrado, X2.
Aunque la fórmula tiene un doble sumatorio ¡qué no te de dolor de cabeza! Los números ya los tienes todos calculados en el grupo de tablas anterior, ne, nt y la resta.
Empiezas por el primer cuadrante de la tabla de contingencia, al que antes lo hemos llamado A, de la resta (5’2) y lo elevas al cuadrado. Ya tienes el numerador. Y ese valor lo divides entre el primer cuadrante de la tabla de contingencia de nt.
Éste es tu primer sumando. Esta operación la tendrás que repetir para el resto de cuadrantes y sumar.
Desarrollémoslo con el ejemplo:
Este coeficiente nos dice si hay mucha o poca relación. El problema surge en saber cuanto es mucho y cuanto es poco, porque va del 0 (este valor cuando no hay relación) hasta el más infinito.
Para acotar y poder decir si es alta o baja la relación calculamos el Coeficiente de Contingencia ( C ). El Coeficiente de contingencia va a tomar valores entre 0 y 1.
Veamos que sale en nuestro ejemplo:
Por lo general, yo el resultado lo dividido en cuatro opciones:
- Del 0 al 0’4, no hay relación
- Del 0’4 al 0’6, poca relación
- Del 0’6 al 0’8, relación media
- Del 0’8 al 1, alta relación
Cuanto más se acerque al 1 mayor será la asociación de las variables. Cuanto más se acerque al 0 menor será.
Si en los datos que tienes el número de filas y columnas, es decir, el número de respuestas en las dos variables, es distinto, tus cálculos acaban aquí. Pero si tienes el mismo número de filas que de columnas hay otro cálculo que puedes hacer.
Si es así, hay un último cálculo que se puede hacer que dirá la asociación máxima que puede salir:
Siendo k el número de filas/columnas. En nuestro caso k=2.
Así que concluiríamos diciendo que si el C máximo es 0’7071 y el C del ejercicio es 0’3601, la relación que hay en estos datos es la mitad de la máxima, es media.
Gráfico para dos variables cualitativas
¿Recuerdas los gráficos que podíamos hacer para variables cualitativas?
Esto se explicó en el Tema 1, parte 2. Podemos hacer un diagrama de barras, un diagrama de sectores o un polígono de frecuencias.
Lo primero que tenemos que a hacer para dibujar un gráfico con dos cualitativas es elegir una de las dos para dividir los datos, porque en verdad va a ser como un gráfico normal pero duplicado.
Si sólo nos fijásemos en la variable X=Fumar tendríamos este gráfico de barras:
Aquí tenemos a los 100 individuos de la muestra. Así que ahora dividimos por los que tienen y no tienen cáncer ( 10, 90) y hacemos barras para cada uno.
Cada barra está representando las frecuencias conjuntas.
El que se suele usar es siempre este gráfico, el gráfico de barras agrupado. Pero también es posible que veas gráficos de sectores, lo único que se hace es dibujar dos gráficos de sectores distintos al dividir por una de las variables. Digo dos por nuestro ejemplo, pero serán tantos como categorías tenga la variable.
4.2. Correlación entre dos variables Cuantitativas
Pasamos ahora a buscar las relación entre dos variables cuantitativas, como podría ser la Altura y el Peso (muy típica), la Nota del examen de inglés y la Nota del examen de matemáticas y, el que vamos a usar en este tema, el Nivel de distracción en las horas de estudio y la Nota del examen.
X = Nivel de distracción en las horas de estudio
Y = Nota del examen
Centrémonos en el ejemplo. Hemos seleccionado a un grupo de 10 alumnos y les hemos pasado un test para que realicen tras haber estudiado para medir el Nivel de distracción. Luego hemos tomado sus Notas del examen y queremos saber si tienen relación. ¿Cómo podemos saberlo?
Primero vemos qué es lo que pasa gráficamente y luego calcularemos unos estadísticos que, al igual que los coeficientes X2 y el C, nos dirán a qué nivel hay relación. Los estadístico que veremos sólo miden la relación lineal, que es la que nos interesa.
Visión gráfica
Primero vamos a hacer el del ejemplo y luego te contaré las diferentes opciones que pueden salir.
Estos son nuestros datos:
1º) Dibuja los ejes.
En cada eje tienes que poner una variable, así que fíjate en los valores de las variables para poner bien las escalas.
En este ejemplo numeraremos tanto el eje de la X como la Y de 1 a 10 de uno en uno.
2º) Dibuja los puntos.
Ahora, para cada alumnos tenemos que tomar sus coordenadas y poner un punto en el gráfico correspondiente a sus coordenadas.
En este gráfico te he indicado el número de individuo que es para que veas la correspondencia con la tabla. Pero a la hora de la verdad sólo se pone el punto.
Ya tienes hecho el diagrama de dispersión.
El diagrama de dispersión es el modo gráfico de ver la relación existente entre las dos variables.
En lo que nos vamos a fijar es en la forma lineal que tiene la nube de puntos. En general pueden suceder tres cosas:
1º) Que sea una nube dispersa sin forma
2º) Que tenga una forma lineal creciente
3º) Que tenga una forma lineal decreciente
Expliquemos cada una de las opciones posibles:
La primera opción, nube sin forma, quiere decir que no existe relación entre las variables: sea cual sea el valor que tomo en la variable X, puedo tomar cualquier otro en la variable Y.
En las otras dos opciones sí que hay relación.
La segunda opción, forma lineal creciente, nos dice que la relación entre las variables es una relación lineal directa entre las variables. Esto quiere decir que si tengo valor alto en la variable X también tendré valor alto en la Y, y si tengo valor bajo en la X tendré valor bajo en la Y.
La segunda opción, forma lineal decreciente, nos dice que la relación entre las variables es una relación lineal inversa entre las variables. Esto quiere decir que si tengo valor alto en la variable X tendré valor bajo en la Y, y si tengo valor bajo en la X tendré valor alto en la Y.
En nuestro ejemplo tenemos una relación lineal inversa entre el nivel de distracción y la nota de examen. Es decir, si tengo un alto nivel de distracción tendré una nota baja y si me distraigo poco tendré nota alta.
Dato numérico de la relación
Ahora hay que calcular si esta relación lineal es realmente suficiente como para afirmar que sí existe correlación entre las variables. Para ello vamos a calcular la covarianza, SXY.
Al igual que cuando te había explicado la varianza en el tema anterior, esta sería lo que yo llamo la fórmula teórica. Recuerda que en el numerador de la varianza teníamos el cuadrado de la diferencia del valor menos la media, así que cuando tenemos dos variables, en vez de multiplicar dos veces la diferencia, multiplicamos las diferencias de cada variable.
Hacer esta fórmula conllevaría los siguientes pasos:
- Hacer las diferencias de cada valor de X menos la media de X (nueva columna en la tabla de frecuencias)
- Hacer las diferencias de cada valor de Y menos la media de Y (nueva columna en la tabla de frecuencias)
- Multiplicar cada una de las diferencias de cada individuo (nueva columna en la tabla de frecuencias)
- Sumarlas todas
- Dividir para n
Desarrollando el producto de las diferencias (si quieres saber el proceso pregúntame en los comentarios, no lo incluyo aquí porque no es necesario que lo sepas) tenemos una fórmula más sencilla de cálculo y que es la que vamos a usar en los ejercicios.
Esta fórmula es más sencilla porque la mitad ya lo tenemos calculado.
Así que con esta fórmula los pasos serán:
- Hacer los productos del valor de X y el valor de Y (nueva columna en la tabla de frecuencias)
- Sumarlos todos
- Dividir para n
- Restar el producto de las medias
Aunque sólo ahorramos un paso los cálculos son más rápidos y sencillos.
La covarianza es fácil de calcular pero difícil de interpretar, al igual que había pasado con el coeficiente X2. Es difícil porque su valor puede ir desde el menos infinito hasta el más infinito y no se sabe a partir de qué valor afirmar que existe relación.
Los valores positivos indican que la relación es directa y los valores negativos que es inversa.
Para acotar y poder decir si existe o no relación y en qué nivel calculamos el Coeficiente de correlación de Pearson, rXY. El Coeficiente de correlación de Pearson va a tomar valores entre -1 y +1.
El Coeficiente guarda el signo de la covarianza, SXY, ya que las desviaciones típicas siempre son positivas. Así que:
- Si el Coeficiente es positivo tendremos relación directa a un cierto nivel, cuanto más se acerque a 1 mayor será la relación
- Si el Coeficiente es negativo tendremos relación inversa a un cierto nivel, cuanto más se acerque a -1 mayor será la relación
- Si el Coeficiente es cero o próximo a cero no habrá relación
Por lo general, yo el resultado lo dividido en cuatro opciones, mirando el valor absoluto de rXY pero sin olvidarnos del signo:
- Si | rXY | va del 0 al 0’4, no hay relación lineal
- Si | rXY | va del 0’4 al 0’6, hay poca relación lineal
- Si | rXY | va del 0’6 al 0’8, hay relación media lineal
- Si | rXY | va del 0’8 al 1, hay alta relación lineal
Desarrollando la fórmula anterior del Coeficiente de correlación (si quieres saber el proceso pregúntame en los comentarios, no lo incluyo aquí porque no es necesario que lo sepas) tenemos otra fórmula que también se usa según los datos que te hayan dado:
Aunque yo sigo prefiriendo la primera fórmula, esta fórmula es buena cuando en el enunciado te han dado los valores de los sumatorios, el de xi, el de yi, los de los cuadrados y el del producto.
Veamos que sale en nuestro ejemplo.
Ejemplo
Recuerda que tenemos las variables X: Nivel de distracción en las horas de estudio, Y: Nota del examen.
Para calcular la correlación tenemos que calcular las medias y el sumatorio del producto:
Nota: date cuenta de que en este ejemplo no hace falta usar la fórmula que multiplica la frecuencia por el valor de la variable, en este caso la frecuencia sería 1 porque vamos de alumno en alumno.
Vemos que hay relación negativa, pero ¿a qué nivel?
Calculamos el Coeficiente de correlación, así que necesitamos las desviaciones típicas:
Ambas fórmulas dan el mismo resultado. Nuestros datos SÍ que tienen una ALTA CORRELACIÓN NEGATIVA.
Una vez visto que los datos sí que están relacionados, el siguiente paso es intentar predecir o pronosticar. Hablar de predecir quiere decir responder a preguntas del tipo ¿qué nota tendría si mi nivel de distracción es 1? Esto lo vamos a resolver con la recta de regresión lineal.
4.3. Regresión lineal
La regresión lineal va a crear una recta para los datos que sea la que mejor se adapte a ellos, es decir, la que haga menos errores.
Esta recta se crea con un método llamado de mínimos cuadrados, por suerte a ti te dan directamente la fórmula a utilizar. Esta fórmula se usa para predecir el valor de Y respecto a cierto valor de X.
Fíjate que para calcular b te he puesto tres fórmulas distintas. Las dos primeras te vienen en el formulario y la última te la he puesto yo ya que a mi me parece la más sencilla de todas (viene de desarrollar rXY de la anterior). Te recomiendo que uses cualquiera de las dos últimas, pero no la primera que es más liosa.
Date cuenta que el signo que nos haya salido en la correlación o en la covarianza saldrá también en el valor de b, recuerda que las desviaciones típicas siempre van a ser positivas.
No se si recordarás del colegio las partes de la fórmula de una recta, así que vamos a explicarlas rápidamente:
- Y’i es el valor que se va a predecir al decir cuanto vale X. Puntuaciones pronosticadas.
- a es la ordenada en el origen. Es el valor que tomará Y’i cuando X valga 0. Es el punto en el que la recta corta al eje de las X’s
- b es la pendiente. Es el valor que nos dice si la recta es creciente (b positivo) o decreciente (b negativo)
- Xi es el valor que queremos dar a predecir
Calculemos con nuestros datos.
Ejemplo
Vamos a empezar calculando la b con las tres fórmulas. También usaremos los resultados de los cálculos anteriores, desviaciones típicas, media, covarianza…
Ahora calculamos a:
Y teniendo ya los valores de a y b podemos crear la recta de regresión lineal:
En la gráfica de dispersión quedaría así:
El error que se crea
El valor real de Y y el valor predicho o pronosticado Y’ no son iguales, hay una diferencia denominada error E. El error que hace la recta es la que te pongo en rojo en la gráfica.
El error simplemente lo calculamos del siguiente modo:
Puedes ver en la tabla que el resultado de la suma para Y y para Y’ es igual y que la suma de E es 0, y es que hay ciertas propiedades que debes saber:
- La media de E es 0. Como la suma es 0, por mucho que dividamos por 10 sigue siendo cero
- Las media de Y y de Y’ (la pronosticada) son iguales
- La varianza de Y es igual a la varianza de Y’ más la de E. Comprobemos esto con el ejemplo
Ya conocemos la desviación típica de Y que es 2’3245, así que la varianza es su cuadrado: 5’4. Calculemos ahora las varianzas de Y’ y de E.
Nota: ya te habrás dado cuenta que por lo general el último resultado lo redondeo a tres decimales.
Nota: En el libro a la varianza de los errores la llaman SX·Y2 no tengo muy claro por qué. Yo la denomino SE2 para que sea más claro.
Comprobemos esa correspondencia entre las varianzas:
¿Cómo de buena es la regresión?
Para terminar sólo falta responder a una pregunta, ¿cómo de buena es la regresión?
Tras realizar una regresión tenemos que incluir el cuánto se explica con es recta. Con los datos reales tendríamos el 100%, ¿cuánto con los de la regresión?
Cuanto más se acerque al 100% lo que explica la regresión mejor será. Lo llamamos variabilidad explicada y se calcula así:
Esta fórmula nos dará un valor en tanto por 1, lo multiplicamos por 100 y ya tenemos el porcentaje de varianza explicada.
En el ejemplo
Es decir, la recta de regresión explica un 86’1%, que es muy alto, está muy bien.
Por otro lado tenemos el complementario hasta el 100% que será el porcentaje de varianza no explicada.
Así que:
Bueno, acabamos de superar la mitad de la asignatura.
Espero que te sirva para poder hacer los ejercicios demás. Así que ya sabes, si tienes algún pequeño problema a los resultados, sino también tienes la opción de la clase personal.
Continúa entendiendo la Estadística en Tema 5, parte 1: Notaciones básicas de probabilidad.
Si te ha gustado y te ha servido de ayuda dímelo en los comentarios.
Estoy muy agradecída por tu blog, me está sirviendo mucho! Te recomiendo por todas partes.
A la espera del tema 5 a topeeeee!!
Hola Rocío!
Me viene genial que me difundas, así más gente ve el blog! Mil gracias.
Esta semana subiré nuevo tema. No te preocupes que si estás suscrita te enviaré un mail en cuanto esté publicado.
Saludos y ánimo!
Lidia
Hola Lidia, cuando al inicio pones «¿Si me distraigo menos sacaré mejor nota en el examen? Queremos ver si hay relación entre dos variables cualitativas…» ¿No serían dos variables cuantitativas?
El inicio de la asignatura no me ha resultado muy difícil pero ahora se está poniendo cuesta arriba y con tu web consigo aclararme algo más. Gracias
Hola Olga.
Error mío, se me ha colado. Muchas gracias por avisar, ahora mismo lo cambio.
Me alegro de que te sirva el blog.
Saludos y mucho ánimo!
Lidia
En los apuntes que tengo del libro la formula del ‘error residual me sale al revés! «e= Y’ – Y¡» ¿Cuál es la correcta?
Hola Josefo,
Realmente es indiferente el orden, pero tanto en el libro oficial de la asignatura como en el formulario que tenéis para el examen está como yo lo he puesto, Y-Y’.
Saludos y ánimo!
Lidia
Buenas tardes Lidia, me encanta tu blog! Gracias al mismo, podré sobrellevar un poco mejor la asignatura. Pero me gustaría comentarte si podrías incluir ejercicios prácticos para realizar con soluciones y así poder llevar a la práctica la teoría. O otra opción, poner más ejemplos más claros.
Gracias.
Hola Silvia,
Más adelante sí que colgaré exámenes y prácticas, aún estoy trabajando en ello.
Saludos y ánimo!
Lidia
Simplemente: mesalvas la vida!! jajaj mil gracias!
me salvas*** =D
Simplemente: me encantan tus comentarios! Jajajaja
Saludos y ánimo!
Lidia
Jajajaja. Me alegro Cristina!
Saludos y ánimo!
Lidia
Gracias entendí muy bien 😀 solo tengo una duda ¿cuál es la bibliográfica o de donde sacaste la información?. Saludos 😀
Hola Bel,
Gracias por tu comentario.
Bibliografía como tal simplemente sería el libro propio de la asignatura 😀 Pero todas las explicaciones son de mi puño y letra.
Saludos y ánimo!
Hola Lidia, creo que hay una pequeña errata en el apartado de regresión lineal. Una vez que comienzas a explicar el ejemplo, al calcular b con las 3 fórmulas, en la segunda has intercambiado los datos de Sx y Sy, en el numerador iría 2,324 y en el denominador iría 2,828.
Aún así, geniales apuntes, me están dando a conocer que tengo la oportunidad de aprobar la asignatura jejeje.
Un saludo
Hola Leonor.
Gracias por el apunte 😉
Me alegra mucho saber que te está sirviendo.
Saludos y ánimo!
Lidia