La estadística estudia el comportamiento de los datos. Gracias a esta ciencia exacta podemos construir nuestras conclusiones sobre estos datos en función de las diferentes variables que han sido aplicadas. Así, tratando estudios sobre población, existen dos enfoques sobre los que basar los análisis: ¿cuál es la diferencia entre estadística descriptiva e inferencial? ¿Cómo interfieren estos tipos de estudio en el análisis del big data?
Estadística descriptiva e inferencial: describir o analizar
Como herramienta en diversos ámbitos de estudio, nos servimos de la ciencia estadística, la cual es imprescindible para extraer conclusiones sobre diversos temas. El objeto de estudio puede tener que ver con:
- el comportamiento de grupos de personas (como en el caso de los estudios que realiza la sociología)
- el comportamiento de datos de otra índole más científica que no derive de actitudes humanas
Una vez identificado el objetivo sobre el que trabajar, necesitamos coleccionar datos sobre los que habrá que decidir desde qué enfoque nos acercaremos a su análisis: ¿estadística descriptiva o inferencial? La primera tiende a hacer una descripción de los datos y la segunda realiza lo que se denomina inferencias, procurando ir más allá de una descripción.
Rasgos de la estadística descriptiva y de la estadística inferencial
No hay un método estadístico más válido que otro sino que la elección acerca de cuál usar dependerá de lo que se quiera estudiar o del tipo de aplicación que se esté investigando. Veamos cada concepto con mayor detalle.
Si se piensa en un listado de población tipo censal en un tiempo concreto en el que figuren los datos personales de las personas que viven en cada domicilio de cada calle de cada núcleo de población, lo que se está practicando aquí es estadística descriptiva.
Si posteriormente se toma una porción de esos mismos datos censales y se extrae con ellos ciertas conclusiones haciendo uso de operaciones aritméticas, se trata de estadística inferencial.
Estadística descriptiva
La estadística tradicional es la estadística descriptiva. El enfoque que propone es el análisis de las variables decididas para luego proceder a una descripción de los datos. Por ello se dice que se basa en la precisión. Este tipo de estadística tiene como objetivo organizar y establecer una clasificación de los datos obtenidos de un grupo de población por ejemplo.
Se puede establecer una categorización dentro de ella y el uso de determinados conceptos técnicos:
- Dispersión
En el marco de una variable determinada, se produce una distancia entre valores. A esta diferencia se le llama dispersión.
- Promedio
El promedio es la media y por lo tanto la tendencia dentro de una variable. Es decir, el resultado de la división de la suma de valores entre el número de ellos.
- Sesgo
El sesgo o curtosis de una variable es la cualidad de la curva de datos. Es decir, el valor que tiene que ver con la distancia y proximidad de los datos con respecto al promedio.
- Gráficos
La materialización o presentación de los datos desprendidos de un análisis se realiza en forma de representación gráfica. Existe variada tipología de gráficos: en barras, círculo, lineales, polígonos…
- Asimetría
Los diferentes datos de una variable se distribuyen con respecto al promedio de una forma determinada; este valor se llama asimetría.
Estadística inferencial
La estadística inferencial observa una muestra de datos y extrae conclusiones que aplica al conjunto a través de inferencias. Este tipo de enfoque, al ser resultado de un cálculo de tipo probabilístico, conlleva cierto margen de error.
Los análisis que ejecuta este tipo de estadística quieren ser capaces de predecir el comportamiento de unas informaciones determinadas. Es en este punto donde entran los modelos de probabilidades y las técnicas de machine learning e inteligencia artificial, así como los modelos predictivos.
Se puede categorizar a la estadística inferencial en dos grandes grupos:
- Pruebas de hipótesis
Se trata de validar aquellas conclusiones que se han construido respecto a esa porción de datos estudiados.
- Intervalos de confianza
Son valores aleatorios que sirven para identificar los márgenes de error que pueden existir. Suelen ser un par de números o varios pares de ellos entre los cuales se estima que se encuentra un valor concreto de manera probable.
Así, la estadística descriptiva e inferencial son herramientas diferentes dentro de esta ciencia de análisis. La primera recopila datos para poder mostrarlos en forma de resumen. La descripción de los datos puede ser de un conjunto de la población entera o de un subconjunto de población. La cuestión es que las conclusiones que se extraen son válidas al 100% porque se basan en la descripción de todos los datos de todo un grupo definido.
La estadística inferencial, por su parte, lo que hace es tomar una muestra y establecer la probabilidad de una conclusión. Los datos son de carácter probabilístico y hay que asumir cierto error.
La estadística descriptiva e inferencial no son caras opuestas de una misma moneda sino diferentes maneras de acercarse a los datos. De manera tradicional, la estadística se ha identificado con la colección de datos. Sin embargo la estadística avanza y se actualiza con los tiempos y hoy en día intervienen herramientas y enfoques que tienen que ver con la computación y que, de hecho, asientan las bases del desarrollo de la inteligencia artificial y el machine learning.