Las técnicas de análisis de datos en la era del ‘big data’

30 de octubre de 2018

Internet y la generación de datos masiva ha hecho que las técnicas de análisis de datos se hayan convertido en una herramienta indispensable para explotar todo el potencial de una compañía.

Independientemente del sector o del tamaño de la empresa, la información extraída del big data es un gran apoyo para la toma de decisiones en cualquier área.

Por ejemplo, para promocionar negocios pequeños por internet, como un hotel con capacidad para treinta huéspedes, es fundamental conocer cuántos clientes visitan la página web y cuál es su país origen.

A medida que el tamaño de negocio es mayor y cubre un espectro del mercado más amplio, como puede ser el caso de una compañía del sector asegurador, tendrá que conocer bien los diferentes tipos de cliente a los que atiende  y disponer también de métricas que le ayuden a fijar precios, para saber qué coberturas ofrecerles y con qué tarifas. Para una gran empresa del sector de la moda, por ejemplo, un error en la predicción de sus ventas puede suponer un gran coste para su cadena de suministro o perjudicar su imagen ante la posibilidad de dejar a sus clientes insatisfechos.

Técnicas de análisis de datos: 2 criterios para seleccionarlas

El big data o el internet de las cosas exponen a nuevos conjuntos de información que requieren aproximaciones adaptadas. Existen diferentes técnicas analíticas que se adaptan tanto a las características de los datos recopilados como a las preguntas a las que se quiere dar respuesta. Estas técnicas responden, principalmente, a dos enfoques:

  • El objetivo con el que se analizan los datos.
  • La naturaleza de los datos.

Técnicas de análisis de datos según el objetivo

Existen multitud de alternativas para analizar un problema: desde métricas sencillas y de uso cotidiano hasta técnicas complejas que exigen una gran inversión de tiempo. La técnica de análisis adecuada se decidirá a partir de cuál es la pregunta que se necesite contestar o el tipo de decisión que se debe tomar.

Técnicas descriptivas

Si el objetivo es entender la realidad a la que se enfrenta el negocio (“¿dónde hay más clientes?”, “¿cuánto está creciendo el negocio?”), el análisis de datos descriptivo es una buena herramienta para dar con la respuesta:

  1. Cuentas, sumas y medias
  2. Tasas de variación
  3. Tablas de frecuencias
  4. Test A/B
  5. Análisis factorial y de cluster
  6. Árboles de decisión
  7. Análisis espacial
  8. Aplicación de la teoría de grafos

De esta manera, el pequeño hotel tendrá que preparar un cuadro de mando utilizando las técnicas más sencillas que midan el tráfico en su web, como el crecimiento de visitas. A medida que el mercado al que se enfrenta o la diversidad de clientes aumenta, será necesario utilizar técnicas más complejas, como el test A/B, para evaluar qué anuncio ha generado más conversión.

Técnicas predictivas

¿Quieres anticiparte a los acontecimientos y saber qué va a ocurrir? (“¿en qué momento habrá más clientes?”, “¿cuándo tengo que empezar a ofrecer el servicio?”) Utiliza técnicas predictivas para obtener la respuesta:

  1. Series temporales
  2. Técnicas de regresión
  3. Redes neuronales
  4. Machine learning y deep learning
  5. Algoritmos de boosting como XGBoost

Así, mediante series temporales y técnicas de regresión, la gran empresa de moda dispondrá de predicciones de ventas en toda su red y podrá tomar las mejores decisiones en lo referente al suministro.

Técnicas prescriptivas

Si lo que necesitas es una recomendación, utiliza técnicas prescriptivas basadas en la identificación de reglas de causa/efecto o algoritmos de optimización:

  1. Métodos de probabilidad condicionada
  2. Técnicas de regresiones
  3. Reglas de asociación
  4. Método de Montecarlo y simulación estocástica
  5. Algoritmos genéticos
  6. Técnicas de optimización espacial

De esta manera, una aseguradora puede conocer la sensibilidad al precio según los distintos tipos de clientes y productos con técnicas de regresión, y tomar mejores decisiones a la hora de fijar precios a través de simulaciones.

Técnicas de análisis de datos según la naturaleza

La capacidad de generar, acumular y tratar información se ha multiplicado exponencialmente y esto ha obligado a adaptar las técnicas de análisis. Por ello, las soluciones tecnológicas también son más sofisticadas, y esta evolución viene de la mano de tanto de fabricantes veteranos (SAS o IBM, por ejemplo) como de nuevos entornos colaborativos (R, Spark, Python o Scala, entre otros).

Técnicas de análisis según el volumen de datos

El volumen de información ha aumentado y las técnicas que más aprovechan este factor son las que explotan el aprendizaje automático del machine learning por dos vías:

  • La recalibración continua del modelo a modo de aprendizaje (una red neuronal, por ejemplo).
  • La capacidad para combinar distintos modelos, ya sea una misma técnica aplicada a distintas submuestras o la ejecución de diversas técnicas que compiten entre sí (técnicas de bagging, random forest o boosting entre otras).

Técnicas de análisis según la tipología de los datos

La tipología de información también es más variada. Ahora las bases de datos no son únicamente numéricas, también es posible trabajar con textos, voz o imagen, y afloran técnicas nuevas que permiten alcanzar todos los objetivos que exige la gestión empresarial en la actualidad.

La explotación de textos o imágenes permite llevar a cabo los siguientes tipos de análisis:

  • El análisis semántico, partiendo de bases de lenguaje natural.
  • El análisis de sentimiento, capaz de diferenciar estados de ánimo en función de los términos utilizados.
  • El análisis multimedia que permite identificar patrones a partir de imágenes, como el seguimiento de personas y objetos dentro de un video (un ejemplo son los desarrollos que hace la Universidad de California con la que colabora Cognodata).

Disponemos de una gran variedad de herramientas y técnicas para el análisis de datos.

El objetivo de este análisis y la naturaleza de los datos disponibles determinan la técnica más adecuada. En este contexto, lo que es imprescindible para una compañía data-driven es contar con un aliado para navegar entre el conjunto de soluciones que hay en el mercado y hacerlo en la buena dirección.