La arquitectura de datos es un elemento fundamental para que los sistemas de gestión de información y de organización empresarial tengan éxito.
En ella se integran los modelos, las políticas y las reglas que rigen qué datos se van a recopilar; cómo van a ser almacenados, clasificados y explotados mediante la infraestructura tecnológica disponible.
De la misma forma que la arquitectura de datos es crítica para la buena gestión de una empresa, también lo es su estrategia corporativa, por lo que hay que cuidar su diseño y puesta en marcha. Ambas están relacionadas, ya que si falla algo en el diseño de la estrategia corporativa, puede haber muchos fallos en la gestión de los datos y, en consecuencia, en la organización de la compañía. Un proceso de migración, por ejemplo, puede convertirse en un verdadero quebradero de cabeza si el diseño de la base de datos presenta problemas.
Un ejemplo de arquitectura de datos bien definida son aquellas empresas que, tras conocer los cambios que se iban a aplicar a la RGPD, adaptaron sus bases de datos antes de que la normativa entrara en vigor.
Big data y el origen de la arquitectura de datos
Para entender en qué consiste la arquitectura de datos, hay que saber qué es el big data: ‘grandes volúmenes de datos de todo tipo que no pueden ser analizados mediante herramientas informáticas convencionales’. Así, el objetivo de las herramientas big data no es otro que analizar los datos y la información de manera inteligente, con el fin de ayudar en la toma de decisiones.
Por su lado, el objetivo de la arquitectura de datos es definir el origen y los tipos de datos necesarios para el desarrollo del negocio. El sistema diseñado para conseguirlo debe ser lo bastante sencillo como para que los interesados puedan comprenderlo, además de coherente y estable. Por tanto, la arquitectura de datos no busca definir una metodología de diseño universal, sino desarrollar técnicas para ayudar a desplegar y producir espacios de información.
Planificación y diseño de la arquitectura de datos
En general, la arquitectura de datos se diseña y se desarrolla durante la etapa de planificación de un nuevo sistema para establecer la manera en que se procesarán, almacenarán y utilizarán los datos, y cómo se podrá acceder a ellos. Así, para diseñar un sistema eficiente, controlar el flujo de datos y garantizar su protección, es importante conocer la relación y el tipo de gestión necesaria para cada tipo de dato desde el principio.
11 funciones necesarias en la gestión de datos
Con respecto a la gestión de datos, la organización DAMA International define once funciones necesarias:
- Data governance: planificación, supervisión, y control en la gestión y uso de datos.
- Data architecture: establecimiento de modelos, políticas y reglas para gestionar los datos.
- Data modeling & design: diseño de la base de datos, y gestión de la implementación y del soporte técnico.
- Data storage: definición del lugar de almacenamiento, y la cantidad y el tipo de datos por almacenar.
- Data security: protección de la privacidad y la confidencialidad.
- Data integration & interoperability: transporte y consolidación de los datos.
- Documents & contents: establecimiento de las reglas que hay que aplicar a los datos fuera de las bases de datos.
- Reference & master data: gestión de datos compartidos para reducir la cantidad de información redundante, mejorar la calidad de los datos y obtener una visión global de la información.
- Data warehousing & BI: gestión del proceso de datos analítico y acceso a datos que servirán de apoyo para la toma de decisiones.
- Meta-data: indexación de la información que contiene una base de datos.
- Data quality: definición, control y mejora de la calidad de los datos de acuerdo con las necesidades del proyecto.
La arquitectura de datos en el desarrollo del modelo de datos
La arquitectura de datos de una empresa tiene que ser uno de los pilares en los que se apoye el desarrollo del modelo de datos del negocio. Para definirla hay que tener en cuenta los siguientes aspectos:
- La configuración de la base de datos.
- La forma de almacenamiento de los datos.
- La arquitectura de metadatos.
- El modelo o modelos de integración de datos.
Las pautas elegidas en la definición y planificación de una arquitectura de datos deben contemplar la vinculación con otros modelos de negocio y ofrecer cierta flexibilidad para que la organización pueda desarrollar los datos cuando sea necesario y sin impedimentos. Por ejemplo, deben tener en cuenta que los datos recogidos y almacenados puedan explotarse en otro momento por diversas unidades de negocio, y no solo para la que se recogieron en un primer momento.
En muchos casos, para poder llevar a cabo este desarrollo será necesario que la compañía se adapte a las circunstancias del mercado, y también a sus demandas. Por ejemplo, cuando surja una nueva legislación en materia de protección de datos, como ha ocurrido en Europa con la RGPD, será necesario adaptar la arquitectura de datos a la nueva realidad que plantee tanto en lo que se refiere a las nuevas normas como a lo que demandan los clientes en relación a la protección de su información.
Al establecer las bases de una arquitectura de datos, se vertebra el esqueleto informativo de una empresa. En este proceso, hay varios factores que no se pueden pasar por alto, por ejemplo, las necesidades informativas presentes y futuras de la empresa, y la calidad de los modelos de datos. Para ello, es recomendable definir la estrategia corporativa de la gestión de información en torno a tres puntos:
- Desarrollo de estándares aplicables a todas las perspectivas del modelo de datos.
- Revisión de la calidad del modelo de datos.
- Administración de versiones y procesos de integración del modelo de datos.
Hay que tener en cuenta que los diseños de arquitectura de datos que se crean en el seno de una organización pueden reutilizarse para generar otros sistemas diferentes; por ejemplo, para generar los diseños de la arquitectura de datos de nuevas filiales que abra la empresa que realizó el diseño original. De esta manera, se consigue rebajar costes y mejorar la calidad de las bases de datos, sobre todo si las arquitecturas de las que se reutilizan los diseños han tenido éxito.
El ciclo de desarrollo de la arquitectura de datos
El desarrollo de una arquitectura de datos, que precede siempre al desarrollo del sistema, se divide en cuatro etapas:
- Requerimientos. Esta fase se centra en la captura, documentación y priorización de requisitos que influyen en la arquitectura de datos. Es necesario hacer un énfasis especial en la calidad de los datos, ya que juegan un papel crucial dentro de dichos requerimientos. Por ejemplo, si los datos obtenidos son redundantes, incompletos o no guardan relación con la información que se desea obtener según lo establecido en la arquitectura de datos, estos datos serán buenos, pero no podrán considerarse de calidad, ya que no se ajustan a los requisitos solicitados.
- Diseño. Es la etapa más compleja de la arquitectura de datos, ya que es el momento en el que se definen las estructuras que la componen. Para crearla se utilizan patrones y tácticas de diseño. En este punto también hay que elegir las tecnologías que se utilizarán para la gestión, el almacenamiento y el tratamiento de datos.
- Documentación. Tras la creación del diseño de la arquitectura hay que poder comunicarlo al resto de actores implicados en su desarrollo, y para hacerlo con éxito es necesario documentar el diseño de la arquitectura con detalle.
- Evaluación. Después de la etapa de documentación, es importante evaluar el diseño para identificar posibles problemas. Esto aporta una ventaja si se hace de forma temprana, antes de comenzar con la codificación, ya que el coste de corregir los defectos que se identifiquen es menor que si se hace después de construir el sistema.
Si el diseño de la arquitectura de la base de datos está perfectamente definido y ajustado, y cumple con todos los requisitos legales en lo referente a almacenamiento y gestión, se evitarán problemas posteriores. En este sentido, el análisis es el instrumento fundamental para obtener una mejora continua.