GEOPY

Vaya al Contenido

Menu Principal

MEDU

Estadística Descriptiva Univariante

La estadística descriptiva es un conjunto de técnicas estadísticas que permiten obtener una primera impresión de la información contenida en los datos. Su finalidad es sintetizar o resumir la información de la muestra (conjunto de datos u observaciones), organizar los datos en tablas y representarlos gráficamente. De esta forma el investigador, a partir de los datos obtenidos en un primer experimento piloto, cuenta con herramientas estadísticas que le permitirán formular hipótesis o conjeturas acerca del fenómeno objeto de estudio.

La estadística descriptiva puede aplicarse al análisis de una variable aleatoria X o dos variables aleatorias X e Y, refiriéndonos  a uno y otro de los casos como estadística descriptiva univariante y estadística descriptiva bivariante.

  • Preliminares


En primer lugar organizaremos los datos experimentales en una tabla de datos. Se trata de una matriz 2x2 con el siguiente formato: en filas se ubican los elementos o sujetos que son objeto de estudio, llamados unidades de análisis:

(UA1, UA2, …, UAi)


y en columnas los valores de las variables aleatorias:

(X1, X2,…, Xj)


Por consiguiente, un vector columna (j) es una muestra aleatoria, mientras que un vector fila (i) es un vector de observaciones.



La estadística descriptiva resume la información contenida en una muestra en tres clases de valores numéricos a los que se denomina como medias de centralización, dispersión y forma.


[  Definiciones, conceptos y métodos]






  • Explicación del script


En las líneas 33-60 se calculan las medidas de centralización, dispersión y forma. Se incluye además una prueba de normalidad de los datos. En primer lugar el script obtiene el tamaño muestral, valores mínimo, máximo y rango de la variable (líneas 36-39). A continuación, se calcula la media aritmética (línea 40), media geométrica (línea 41), media harmónica (línea 42) y media cuadrática (línea 43). La moda es calculada en la línea 44, y los cuartiles Q1, Q2 y Q3 en las líneas 46-48. Otros cuantiles pueden obtenerse especificándose en la orden:

np.percentile(data,_)


Las medidas de dispersión son obtenidas a continuación. Varianza, desviación estándar, error estándar de la media, rango intercuartílico y coeficiente devariación de Pearson son calculados en las líneas 49-53. Finalmente, se obtienen las medidas de forma, tanto la asimetría (línea 55) como la curtosis (línea 57). El script efectúa el test de normalidad de D’Agostino y Pearson (línea 59).

Un variable aleatoria es una propiedad observable.

Si es cuantitiativa entonces puede ser continua, es decir se trata de una propiedad medible; o discreta cuando la propiedad es contable.

Las variables aleatorias se clasifican según el siguiente criterio:


  •   Cuantitativas:


     - Discretas: 0, 1, 2,…

     - Continuas: 0.26, 1.81,…


  •   Cualitativas:


     - Ordinal o Rango (orden): por ejemplo, colores ordenados por longitud de onda.

     - Nominal (no orden) : por ejemplo, los colores azul, verde, rojo etc.

     - Atributos (frecuencias) = Datos enumerativos. Por ejemplo, porcentaje de personas del grupo sanguíneo A; o porcentaje de silicatos en una región.


Llamaremos observaciones a los valores de la variable X, que representaremos como una secuencia:

{x1, x2, ... , xn}


Con el fin de simplificar la notación en esta secuencia nos referimos con x1 al valor de la variable en la primera unidad de análisis, x2 al valor en la segunda unidad de análisis etc. El valor de n es el tamaño muestral, es decir el número de elementos, objetos o unidades de análisis en los que ha sido obtenido experimentalmente el valor de la variable aleatoria X.


Laboratorio

Los métodos gráficos más habituales se realizan con el fragmento de código representado en el script entre las líneas 61-93. Las líneas 63-77 muestran distintas versiones de la orden que permite representar un gráfico de caja y bigotes con los datos experimentales. La línea 65 muestra la orden básica para un gráfico de caja y bigotes. Si se desea con una muesca en la caja que repesente un intervalo de confianza para la mediana (Me) entonces la orden es la que se muestra en la línea 68. En la línea 74 el gráfico de caja y bigotes se muestra en horizontal. La detección de valores atípicos o “outliers” y su representación gráfica se realiza utilizando la orden de la línea 71. Finalmente, la línea 77  muestra la orden que permite obtener un gráfico de caja y bigotes con bigotes más largos.

Entre las líneas 79-83 se representa un histograma. El número de clases y por tanto de barras del histograma puede especificarse o estimarse un valor apropiado con la expresión de Sturges (línea 82). Otras características del histograma son especificadas con la orden:

plt.hist(data,numBins,_,…,_)


La sección de código que sigue (líneas 85-88) representa un diagrama de dispersión simulando con y_data el jitter de los datos y permitiendo al usuario definir algunas características gráficas en plt.scatter(data,y_data,_,…,_). Finalmente, entre las líneas 90-93 se representa un gráfico de probabilidad normal.

______________________________________________________________________________________________________________________________

  • Estudio de los niveles de ozono en una ciudad


En una determinada ciudad se registran los niveles de ozono máximos durante 60 días. Sea X la variable aleatoria "nivel de ozono máximo por día", efectúese el correspondiente análisis estadístico descriptivo de la variable objeto de estudio ¿Qué podemos concluir?¿hay días con valores atípicos o extremos de ozono?


Solución: ejemplo11.mp4

______________________________________________________________________________________________________________________________


  • Estudio de la cantidad de silicio en una roca sedimentaria


En un experimento de campo se estudia en una roca sedimentaria la variable aleatoria X "cantidad de silicio por roca". Si realizamos un análisis estadístico descriptivo de la variable ¿Qué anomalía hemos detectado en este estudio? ¿cómo se distribuye el silicio en esta roca sedimentaria?


Solución:  ejemplo12.mp4

Regreso al contenido | Regreso al menu principal