Estadística Inferencial
Página creada por Juan Carlos Falcón y de libre disposición
Si tenemos una variable aleatoria x cuya función de distribución es F(x), podemos generar una muestra artificial aleatoria simple mediante números randómicos de una distribución uniforme 0,1 calculando sobre cada elemento de la muestra el inverso de la función de distribución F(x).
Referencia Excel: en el ejemplo usamos la función ALEATORIO() y algunas funciones que devuelven las inversas de distribuciones bien conocidas. |
Usaremos los siguientes resultados para los tests
![]() |
Los valores críticos +t, -t deja la zona sombreada con valor alfa | ![]() |
![]() |
El valor crítico de t deja la zona sombreada con valor alfa | ![]() |
![]() |
El valor crítico de t deja la zona sombreada con valor alfa | ![]() |
Las siguientes fórmulas son comunes en todos los ejemplos
Referencia EXCEL: Fórmulas usadas | |
PROMEDIO(rango) | Calcula la media poblacional |
DESVESTP(rango) | Calcula la desviación estándar poblacional |
DESVEST(rango) | Calcula la raíz de la cuasivarianza. |
DISTR.T.INV(prob;g.l.) | Devuelve +t siendo el área a la izquierda de -t y a la derecha de +t juntos igual a prob en una t de g.l. grados de libertad. |
El estadístico siguiente es una distribución t con (n-1)g.l.
En este problema nos planteamos la hipótesis si una población tienen por media un número fijo. El cálculo del valor t se hace a través de dividir por la raíz de la varianza poblacional y multiplicar por la raíz de los grados de libertad. Equivalente a la fórmula anterior.
Para el cálculo de hipótesis de una sola cola tenemos que tener en cuenta que la función DISTR.T.INV(prob;g.l.) devuelve el +t de dos colas. Por consiguiente invocaremos a dicha función con el doble del nivel de significación establecido.
Un ejemplo interesante. Los datos son simulados a través de las funciones ALEATORIO() y DISTR.NORM.INV(prob;m,s). De esta manera posemos jugar cambiando simplemente el valor de la media y desviación, así como el nivel de significación. Un buen ejercicio para percibir la precisión del test.
Referencia EXCEL: Fórmulas usadas | |
ALEATORIO() | Devuelve un número aleatorio 0<=rnd<1 |
DISTR.NORM.INV(prob;m,s) | Devuelve el valor de un número cuya acumulada para una normal de media m y desviación s es prob |
Para la comparación de medias de dos poblaciones normales con igual varianza atenderemos al siguiente estadístico cumpliendo la distribución especificada:
En este caso la igualdad de varianzas se da por supuesta. Advertimos que la invocación de la función DISTR.T.INV(prob;g.l.) se hace con el doble del nivel de significación establecido por ser un test de una cola y el valor devuelto por dicha función es para test de dos colas.
Ejemplo completo de un test de dos colas al que previamente se someten las muestras a un test de igualdad de varianzas. Además usamos la función condicional si(condición;sentenciaverdadero;sentenciafalso) para automatizar el proceso de decisión. La función DISTR.F.INV(prob;g.l.,g.l.) se tiene que usar tanto para el valor a la derecha como su inverso para el lado de la izquierda.
Referencia EXCEL: Fórmulas usadas | |
SI(condición;sentenciaverdadero;sentenciafalso) | Evalúa condición y ejecuta sentenciaverdadero si verdadero o sentenciafalso si falso |
DISTR.F.INV(prob;gl1,gl2) | Devuelve el valor de un número que deja a su derecha la probabilidad prob en una distribución F de Snedecor con gl1 y gl2 grados de libertad. |
Usaremos para este tipo el siguiente resultado para datos normales de muestras que provienen de los mismos individuos. Las variables aleatorias no han de cumplir independencia.
Ejemplo normal de dos colas.
Usaremos test de este tipo cuando necesitemos comparar las varianzas de dos poblaciones normales. Nos basamos en el siguiente resultado
![]() |
Los valores críticos f,1/f deja la zona sombreada con valor alfa | ![]() |
![]() |
El valor crítico de f deja la zona sombreada con valor alfa | ![]() |
![]() |
El valor crítico de f deja la zona sombreada con valor alfa | ![]() |
Medimos la calidad de un aparato por resultados cercanos a la media. En este caso si se rechaza la hipótesis nula daremos por mejor aparato el primero, como así ocurre.
Los siguientes tests se basan en el siguiente resultado
Las siguientes fórmulas son comunes en todos los ejemplos
Referencia EXCEL: Fórmulas usadas | |
PRUEBA.CHI(rangoA;rangoB) | Realiza el test anterior con los grados de libertad adecuados entre las frecuencias observadas (rangoA) y las esperadas (rangoB). Los rangos en este caso tiene que estar en forma vectorial. Los rangos en forma de tabla responden a tablas de contingencia. Devuelve el p valor de la prueba. |
PRUEBA.CHI.INV(prob;g.l.) | Devuelve el valor que deja a la derecha la probabilidad prob en una distribución Chi cuadrado de g.l. grados de libertad. |
Un ejemplo práctico. Me sirve para comprobar que efectivamente la fórmula de EXCEL PRUEBA.CHI(rangoA;rangoB) hace lo que tiene que hacer. Genero una muestra uniforme con la función ALEATORIO(). El intervalo (0,1) lo divido en cuatro intervalos: (0,0.10], (0.10,0.25], (0.25,0.40] y (0.40,1). Al ser una distribución uniforme sus probabilidades esperadas son respectivamente .1, .15, .15, .6 . Para contar las ocurrencias del intervalo uso la función CONTAR.SI(rango,cond), que me devuelve las frecuencias acumuladas. Las frecuencias esperadas las apunto también. Después de ello uso dos caminos para realizar el test: directamente por la fórmula EXCEL y a través de construir la fórmula tradicional. Veo que el resultado es el mismo, lo que me asegura que uso la fórmula correctamente. Parece que nos podemos fiar también de la función ALEATORIO().
Referencia EXCEL: Fórmulas usadas | |
CONTAR.SI(rango;cond) | Cuenta el número de ítems de rango que cumple la condición cond. Muy usado para el cálculo de frecuencias acumuladas. Ejemplo: CONTAR.SI(rango;"<=0,1") devuelve el número de ítems menores iguales a 0,10 en rango. |
ALEATORIO() | Devuelve un número aleatorio 0<=rnd<1 |
Este ejemplo es parecido al anterior. La muestra en este caso es de tamaño cien. Uno de los intervalos es el doble de grande que los otros. Uso la función CONTAR(rango) para contar los ítems numéricos de un rango y la función SI(cond;act1;act2) usada para automatizar la decisión de aceptación y rechazo del test a un grado alfa de confianza a través del p valor.
Usaremos el test chi cuadrado para estudiar la dependencia de sucesos en una población. Partimos de las siguientes hipótesis:
Sea una población que admite las siguientes descomposiciones:
de manera que
Bajo la hipótesis de independencia estocástica de Ai y Bj podemos afirmar lo siguiente
En esta situación realizamos n pruebas independientes cumpliendo
Observadas | B1 |
![]() |
Bl | Subtotales |
A1 |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Ak |
![]() |
![]() |
![]() |
![]() |
Subtotales |
![]() |
![]() |
![]() |
![]() |
Esperadas | B1 |
![]() |
Bl | Subtotales |
A1 |
![]() ![]() |
![]() |
![]() ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Ak |
![]() ![]() |
![]() |
![]() ![]() |
![]() |
Subtotales |
![]() |
![]() |
![]() |
![]() |
Bajo estas condiciones, el estadístico cumple
Referencia Excel: | |
Para hacer referencia en la hoja de cálculo a las celdas usamos habitualmente notación columna fila donde la columna se nombra a partir del abecedario (A,B,C,...) y las filas a partir de números (1,2,...). cuando en una celda aparece una fórmula con un rango determinado, al copiarla y pegarla automáticamente el rango es trasladado tantas posiciones en filas y columnas como la diferencia de filas y columnas entre la celda original y la celda donde se pega la fórmula. Se dice que las celdas están referenciadas de manera relativa. En ocasiones este movimiento no es deseable, al menos en parte. Esto es lo que ocurre para la construcción de la tabla de frecuencias esperadas. Si queremos que el pegado de las fórmulas respete el rango original usaremos referencias absolutas en las celdas, notando que se tiene la capacidad de fijar filas o columnas de manera independiente, es decir, podemos forzar que el desplazamiento de celdas ocurra solo en columnas, solo en filas o en ninguna de las dos. La manera de establecer la referencia absoluta es anteponer el signo $ antes del nombre de columna o fila de una celda. Tal y como se puede visualizar en los ejemplos, para el cálculo de la primera frecuencia esperada, f1.xf.1 multiplico los dos subtotales y referencio como absolutas la fila (numero) del primero, la columna (letra) del segundo y la fila y columna del total. En el ejemplo 85 dicha frecuencia queda así: =D$12*$H9/$H$12. Luego solo queda arrastrar la fórmula, una vez introducida, primero hacia la derecha y después hacia abajo (o al revés). De esta forma la tabla de frecuencias esperadas queda rápidamente confeccionada. Para el cálculo del p valor de la tabla de contingencia usaremos la función PRUEBA.CHI(rangoA;rangoB) donde rangoA son las frecuencias observadas y rangoB las frecuencias esperadas. No es necesario indicar los grados de libertad, pero los datos tienen que venir en forma de tabla. OBS: es recomendable señalar el rango marcando la tabla con bordes para no confundirnos. |
|
Fórmulas usadas | |
SUMA(rango) | Suma todos los elementos incluidos en rango |
Un test altamente significativo. Da dependencia entre color de ojos y de pelo.
Ejemplo sacado del "Cuadras". Para hacer tablas de contingencia 2x2 se suele aplicar la corrección de Yates. La EXCEL no la usa y dado lo ajustado del resultado, allí donde en el "Cuadras" sale el test no significativo, en el caso del ejemplo en EXCEL sí sale significativo. Como conclusión: EXCEL no usa la corrección de Yates
Estudio de la aplicación des tres fármacos sobre distintos apacientes. No se aprecian diferencias significativas entre los fármacos A, B y C.
El propósito de la regresión lineal es el de establecer pronósticos de medidas cercanas a la media de los datos independientes (valores x) que modelan la media de una población normal y se comportan de una manera más o menos lineal de manera local. Algo parecido al comportamiento de la derivada en un punto. Para que la regresión sea efectiva tiene que cumplir cuatro hipótesis iniciales:
Para i=1,...n tenemos yi =b0+b1 xi1+...+bk xik+ ui
n observaciones de y n de xj para j=1,...,k
u una perturbación estocástica. Todo ello bajo las hipótesis siguientes.
De este modo se trata de establecer estimadores tanto para los factores bj como para la desviación sigma de las perturbaciones. Para ello se usan estimadores mínimo cuadráticos.
No entraremos en detalles acerca de cómo se construyen los estimadores. Nos centraremos en los recursos de que la hoja EXCEL dispone.
Referencia EXCEL |
La función usada para estimar los parámetros par la regresión lineal es ESTIMACION.LINEAL(rangoA;rangoB;lógico1;lógico2). Es una función que devuelve un conjunto de valores, esto es, una función matricial. Para poder incrustar los resultados de una fórmula matricial en una hoja hay que seguir religiosamente los siguientes pasos:
Una vez seleccionado el rango matricial de valores devueltos es MUY RECOMENDABLE no manipularlo, pues no soporta alteración de celdas individuales y de manera impertinente lanza errores que nos obligan a abortar el proceso de la aplicación, perdiendo los datos hasta ahora introducidos en la hoja. Se recomienda proteger las celdas. También es recomendable leer la ayuda EXCEL buscando por estimación, pues es bastante completa (lo mismo para el resto de funciones). |
Como es habitual hago uso de la simulación artificial que la EXCEL me ofrece. Éste es un ejemplo donde la variable y es explicada por una combinación lineal de una única variable x y una perturbación cuya desviación sigma se puede modificar. Los coeficientes son fijados al principio de la hoja y se pueden cambiar al gusto para ver el comportamiento de la recta de regresión. Los datos están en color azul debidamente identificados al igual que el cálculo de predicciones y de residuos. La matriz de resultados devuelta está en naranja claro y su explicación en naranja oscuro. Es acompañado el ejemplo de un gráfico de residuos para estudiar de manera cualitativa la homocedasticidad.
Un ejemplo análogo al anterior, solo que en este caso las variables independientes son múltiples (xi). Notar que los coeficientes para las x son devueltos en forma inversa a como se introducen en la función. El término independiente se devuelve al final. Es acompañado de un gráfico de residuos.