GEOPY

Vaya al Contenido

Menu Principal

METGLANOVA

Modelos Generales Lineales: ANOVA


El análisis de varianza o ANOVA es una prueba o test estadístico que permite comparar simultáneamente las medias poblacionales de más de dos poblaciones. Es uno de los test más importantes en diseño de experimentos.


  • Diseño experimental


El diseño de experimentos con tres o más grupos experimentales (k>2) utiliza una serie de conceptos que definiremos a continuación:

  • Observación: es el valor de la variable aleatoria X ij en el j-ésimo individuo (por ejemplo roca, fósil, rata, planta, paciente etc.) que pertenece al grupo experimental o muestra en la que ha sido aplicado el i-ésimo tratamiento (por ejemplo lugar geográfico, estrato geológico, especie, abono, fármaco, rata etc.).


  • Tratamiento: es el agente o proceso i-ésimo que ejerce un efecto sobre el valor medio de la variable X. La variable X tiene distribución normal y su valor se mide en los individuos que forman parte del experimento (por ejemplo temperatura, área geográfica, intensidad luminosa, dósis de medicamento, voltaje etc.). En ANOVA el vocablo factor es sinónimo a tratamiento.


  • Experimento factorial: Es un experimento o ANOVA con dos o más factores o tratamientos.


  • Vía: Vocablo utilizado en ANOVA con el que se hace referencia al número de factores. Por ejemplo, ANOVA-1 vía o un factor, ANOVA-2 vías o dos factores. Un término equivalente es dirección.


  • Nivel: Es valor cualitativo o cuantitativo que toma un factor o tratamiento. Por ejemplo, en un experimento en que se aplique una descarga eléctrica, la descarga es es el factor o tratamiento, y su nivel es el voltaje aplicado, por ejemplo 9 V, 25 V o 50 V.


  • Unidad experimental: Es el sujeto u objeto en el que se aplica el tratamiento y se realizan las mediciones de la variable aleatoria X. Son los individuos de las muestras aleatorias.


A continuación, se explica cuál es el fundamento estadístico del análisis de varianza o ANOVA:



[ Definiciones, conceptos y métodos]









  • Modelo del ANOVA de 1 vía o factor


El modelo de una vía o factor es descrito a continuación:


[ Definiciones, conceptos y métodos]




  • Explicación del script


Con el fin de obtener información a nivel descriptivo acerca de las muestras comenzamos por obtener algunos gráficos, tales como el diagrama de caja y bigotes (líneas 31-33), diagramas de dispersión (líneas 35-46) y el histograma gaussiano con el que esposible comparar el histograma de los datos experimentales con la distribución normal o ditribución de Gauss (líneas 48-59). Concluimos obteniendo un histrograma de frecuencias mostrándose el código entre las líneas 61 y 70.

A continuación, y antes de realizar el test del ANOVA, comprobaremos si se cumplen los dos supuestos principales del análisis de varianza:

  • El primer supuesto es el de (1) normalidad de la variable que es verificado entre las líneas 73 y 112. En esta sección realizamos los test de Kolomorgorov, Shapiro-Wilks, D’Agostino y Anderson-Darling para cada una de las muestras por separado. Obsérvese como el test de normalidad realizado con la prueba general de Kolmogorov-Smirnov requiere de los datos tipificados (líneas 77, 90 y 103) a una distribución normal Z o N(0,1). En cada muestra los p-valores obtenidos aunque diferentes deberían conducir a una misma decisión sobre la aceptación o rechazo de la normalidad de la variable.


  • El segundo supuesto de un ANOVA es el supuesto de (2) homogeneidad de varianzas u homocedasticidad. Es decir, debe cumplirse que no haya diferencias significativas en las varianzas de los grupos experimentales. Entre las líneas 115 y 127 comprobamos si se cumple (2) realizando el test de Bartlett (líneas 117-121) y el test de Levene (líneas 122-126), siendo el contraste en ambos casos similar.


   Por consiguiente, y en una situación práctica ¿cómo procederemos? Por ejemplo, supóngase que los experimentos y el ANOVA se realizan con 3 grupos experimentales. En primer lugar comprobaremos la normalidad de la variable (1) en los tres grupos, realizándose en segundo lugar el contraste de hipótesis que evalúa la igualdad de varianzas (2):






Laboratorio

____________________________________________________________________________________

  • Análisis del contenido en cobre en plantas cultivadas en tres clases de suelos ácidos


Un laboratorio analiza el contenido en cobre en 33 ejemplares de una especie de planta procedente de tres terrenos diferentes (k=3) caracterizados por su diferente acidez. De cada terreno se obtuvieron 11 plantas aleatoriamente, tras el análisis ¿afecta la clase de suelo (su acidez) a la presencia de cobre en la planta?



Solución: ejemplo71.mp4




















En el contraste de las varianzas , si p-valor es mayor que el nivel de significación elegido (por ej. 0.05) entonces aceptamos H0 cumpliéndose la homocedasticidad, rechazándose H0 en caso contrario.

Si los supuestos (1) y (2) se cumplen entonces podemos realizar la prueba del ANOVA.


[ ver código en Python]

Ahora bien ¿cómo procederemos si no se cumple (1) o (2)? Si se cumplen ambos supuestos y en el ANOVA hay diferencias significativas entre grupos (rechazamos H0) ¿qué haremos? Estas preguntas son resueltas con el script en Python, explicándose a continuación:


[ Definiciones, conceptos y métodos]


Regreso al contenido | Regreso al menu principal