En la actualidad, es bastante habitual oír hablar del big data en cualquier sector. Pero muchos no saben exactamente a qué hace referencia este término.
El big data son cantidades ingentes de datos, tanto estructurados como desestructurados. Estos datos pueden proceder de diversas fuentes, y ser muy variados, lo que dificulta tanto se recopilación como su tratamiento. Por lo tanto, su proceso de análisis es complejo, y es preciso recurrir a sistemas y métodos sofisticados, conocidos popularmente como “herramientas ‘big data’”.
La cantidad y variedad de información que contienen estos datos puede superar la capacidad de procesamiento de una compañía. Por lo tanto, para extraer únicamente la información útil para la empresa es imprescindible trabajar con herramientas específicas capaces de gestionar este volumen de datos.
Del ‘big data’ al ‘smart data’ de la mano de Hadoop
El framework open source Apache Hadoop, considerado por muchos el estándar para el almacenamiento, análisis y procesado de grandes volúmenes de datos, permite trabajar de manera flexible con cantidades masivas de datos estructurados y desestructurados para extraer únicamente lo que resulte útil. Gracias a Hadoop, además de almacenar gran cantidad de información, se pueden realizar consultas complejas en bases de datos creadas previamente, obteniendo respuestas con rapidez.
Gracias al uso del herramientas como las que ofrece el framework Hadoop, además de procesar grandes cantidades de datos, se puede pasar del big data al smart data. Es decir, del mero procesado y almacenamiento de grandes volúmenes de información, a la posibilidad de analizar la información relevante, comprenderla y ofrecer una respuesta acorde a ella. Por tanto, su objetivo es solucionar los problemas planteados a partir de los datos analizados.
Pero además del framework Hadoop, hay otros que permiten trabajar con big data para su proceso y análisis. Es el caso de Apache Spark, otro framework de código abierto, o de Storm, también de Apache, y orientado al proceso de grandes cantidades de datos en tiempo real. Cassandra, también de Apache, destaca por su potencia de integración con Hadoop para entornos distribuidos para obtener tanto analíticas operacionales específicas como reportes de grandes cantidades de datos en tiempo real.
‘Data analytics’ y ‘machine learning’ con Python y R
En los campos de data analytics y machine learning existe una gran variedad de herramientas. No obstante, dos de las que más se utilizan en un entorno big data son Python y R, dos lenguajes de programación open source en torno a los que se han desarrollado los dos ecosistemas. Por eso tienen cada vez más aceptación y éxito en el desarrollo de proyectos de data science.
Python es un lenguaje de programación de gran versatilidad que cuenta con una nutrida comunidad de desarrolladores que, además de enriquecerlo, lo utilizan en diversos campos, entre ellos, en data analytics, sobre todo, por dos motivos:
- La gran cantidad de librerías disponibles para el análisis de datos (para cálculos matemáticos, estadísticos, representación gráfica de datos, etc.).
- La integración con aplicaciones y plataformas como Pentaho, Hadoop o la base de datos MongoDB. Además, su aprendizaje es bastante sencillo.
El uso de Python en machine learning es posible también gracias a que cuenta con librerías específicas para esta disciplina. Entre ellas, varias de trabajo con modelos estadísticos y para análisis predictivos y exploratorios. Además, también cuenta con otras que facilitan la evaluación y el diagnóstico, así como las comprobaciones cruzadas.
En cuanto a R, se trata de un lenguaje multiparadigma y multiplataforma que también cuenta con una nutrida cantidad de desarrolladores que lo enriquecen. Se utiliza en data analytics, sobre todo por su orientación al análisis estadístico. Como consecuencia, este lenguaje altamente modular es muy empleado en la minería de datos, dada su gran precisión y exactitud.
Asimismo, R también se utiliza en operaciones con matrices y vectores, y cuenta con muchos paquetes de creación de gráficos, perfectos para visualización de información, pero también para obtener una representación gráfica de los resultados del análisis.
En lo que respecta al machine learning, R cuenta dispone de un número destacado de algoritmos implementados y desarrollados específicamente para el trabajo en esta disciplina. Sin embargo, la curva de aprendizaje de R es más lenta que la de Python, y cuenta con algunas limitaciones para el procesamiento en paralelo. Además, consume más memoria que Python. No obstante, también cuenta con integración con Hadoop.
Casos prácticos: el ‘big data’ y el ‘smart data’ en distintos sectores
El ‘big data y el ‘smart data’ en el sector hotelero
La industria hotelera es uno de los sectores en los que se está sacando más partido al análisis y procesamiento de datos, así como al aprendizaje automático. Las cadenas hoteleras, principalmente, pero también los hoteles independientes, recopilan información desde la gestión de la reserva hasta que el cliente abandona el establecimiento: sobre su consumo, las actividades que realiza mientras está alojados, etc. A partir de estos datos, y gracias al uso de herramientas big data desarrollan, entre otros, modelos de segmentación propensión a la compra y life time value.
Ciertas variables (la ubicación, el precio, los programas de fidelización, y el consumo en bares y restaurantes, entre otras) permiten analizar la lealtad de los clientes al determinar la recurrencia de reservas para diferentes segmentos de clientes. Estos datos también se pueden conseguir analizando los textos de comentarios y las quejas en redes sociales.
Otras variables (las condiciones climatológicas, la estacionalidad de la demanda, los eventos locales o la cancelación de vuelos, por ejemplo) permiten construir modelos de optimización de precios para conseguir el máximo rendimiento de cada habitación del hotel. De esta manera se pueden poner en marcha estrategias de fijación dinámica de precios, o pricing dinámico. Con ellas, el precio de las habitaciones cambian en función de la oferta y la demanda que haya en cada punto. Y pueden variar prácticamente en tiempo real. Por otra parte, estos modelos también se pueden utilizar para lanzar campañas de search en momentos y zonas determinadas en las que se incrementa la demanda de habitaciones de forma puntual.
El ‘big data y el ‘smart data’ en el sector de los seguros
En cuanto al sector de los seguros, el big data es de gran utilidad para la detección de fraudes. Para ello, los sistemas encargados del análisis de informes fraudulentos toman cada una de las reclamaciones que se presentan y las contrastan con las almacenadas en distintos clústers de reclamaciones que han resultado ser fraudulentas.
Estos sistemas analizan no solo las variables de cada cliente y su póliza, también analizan sus redes sociales, además de las de sus familiares, y las de entidades y personas que mantienen una relación económica con él; por ejemplo, las de su empresa. Y se repite el proceso con las redes de distribución y servicios relacionadas; por ejemplo, los talleres de reparaciones de coche que frecuenta o los servicios de asistencia al hogar, e incluso los peritos.
Incluso se hace text mining sobre los textos y comentarios de los reparadores o del perito, y de las transcripciones de los call centers. Se identifican así segmentos/perfiles de clientes, peritos o reparadores con alta probabilidad de fraude y patrones que desencadenan alarmas al negocio.
Pero el big data y el smart data también pueden ayudar a las compañías de seguros en sus campañas comerciales. Por ejemplo, en las campañas de mailing o de correo directo. Los modelos de inteligencia artificial pueden determinar tres elementos fundamentales:
- La probabilidad de que un cliente o un cliente objetivo abra un mensaje de correo electrónico o pueda sentirse atraído por un anuncio publicitario, e incluso de que termine comprando.
- La efectividad de la comunicación por tipo de comunicación/canal/segmento de clientes y, por lo tanto, el ROI previsto de la campaña.
- La simulación de la eficiencia de las inversiones en publicidad basada en los datos de conversiones de las campañas de años anteriores.
Tras analizar ambas probabilidades, se aplican diferentes reglas de negocio. Por ejemplo, la rentabilidad de cada producto o su disponibilidad en una zona geográfica. Con estos modelos se logra aumentar la conversión.
En definitiva, aunque el término big data hace referencia a grandes volúmenes de datos caracterizados por tener unas estructuras muy variables y por generarse a gran velocidad, este volumen no es lo más importante para trabajar con datos. Lo que es lo más importante es la capacidad de las empresas para generar insights y aplicaciones de negocio con el uso de herramientas big data. Transformar el big data en smart data significa generar valor para la compañía.