¿Qué es Data Vault?

Uno de los temas más delicados en el Business Intelligence es la arquitectura del data warehouse y en particular la modelización. Ya conocemos el uso de tablas de hecho y dimensiones, y esquema en estrella y esquema en copo de nieve. Como todo, este modelo tiene sus limitaciones. Y no es otro que el impacto de un cambio en nuestros sistemas origen. Por mucho que la experiencia nos permita preparar por avanzado el data warehouse siempre hay detalles no previsibles.

Para intentar paliar este problema aparece un nuevo tipo de modelización: data vault, creado por Dan Lindsted.

¿En qué consiste?

Este método de modelización busca cubrir principalmente dos aspectos: proporcionar una trazabilidad máxima respecto los sistemas origen y ser absolutamente flexible ante cambios en los sistemas transaccionales. Por ello considera tres tipos de tablas:

  • Hubs: contiene las claves de negocio.
  • Links: relaciones n-m entre diferentes claves de negocio.
  • Satellits: contienen la información histórica.

La idea es separar las claves de los atributos (siendo estos últimos los que realmente varían en el tiempo).

Para saber más, aquí.

Review del libro Pentaho 3.2 Data Integration

Cuando me encaro a hacer una review de un libro (como el que nos ocupa hoy: Pentaho 3.2 Data Integration) siempre tengo en mente el pragmatismo y la utilidad el mismo no sólo para mí sino para los futuros lectores. Es por eso que, cuando uno toma entre sus manos este libro y le echa un vistazo a la portada, destaca, al menos para mí, de sobremanera la frase que uno se encuentra: «Learn by doping: less theory, more results«. Buen principio: apuntando al centro de la diana.
Antes de continuar, quiero agradecer a María Carina Roldán, autora del libro, experta en Pentaho y que participa activamente en la comunidad, y a Richard Dias, de Packt Publishing, por darme la oportunidad de hacer la revisión de este libro.
Una de las principales herramientas de Pentaho es Pentaho Data Integration (PDI y anteriormente llamada Kettle), su solución para cubrir las necesidades de extracción, manipulación, validación y carga de datos desde múltiples fuentes de origen y en diferentes entornos. Como ya es bien conocido por mis lectores, en los proyectos de inteligencia de negocio éste es un punto importante y crucial. Vital, dirán muchos. Por ello, este libro que se centre en esta solución se antoja ya de por si interesante.
Este libro permite conocer el origen de esta solución, cuales son sus componentes, qué es una transformación y un trabajo, qué pasos existen tanto a nivel de trabajos como transformaciones y para que sirven, qué es un repositorio en PDI y, ante todo, cómo resolver situaciones reales mediante la combinación de lo que ofrece esta solución. Es decir, apunta al principal problema ante cualquier herramienta: ¿qué debo hacer para resolver el problema? Y es que, mediante la resolución de problemas es como poco a poco vamos conociendo la solución.
Es por lo tanto, tanto un libro de lectura como un recetario para aquel que necesita encontrar a una situación típica de forma rápida (por ejemplo cargar una tabla de hecho con información agregada).
¿Qué es lo que me ha gustado del libro?
  • La orientación tanto al usuario neófito (al que será de máxima utilidad) como al usuario experto mediante los detalles de mejores prácticas (como por ejemplo, la carga de dimensiones SCD mediante Kettle).
  • El pragmatismo y el enfoque del libro orientado a que el lector mediante ejercicios adquiera competencias suficientes para desarrollar con éxito un proyecto con PDI.
  • El uso de un lenguaje directo, conciso y preciso para las explicaciones sustentado con imágenes cuando necesario.
¿Qué es lo que me ha gustado más?
Frecuentemente se tiende a pensar que PDI sólo puede usarse para trabajar en proyectos de Inteligencia de Negocio. Craso error que menosprecia esta herramienta. Este libro busca dejar claro que Kettle es una potente herramienta capaz de manipular y transformar datos en todos aquellos proyectos dónde sea necesario trabajar con datos. Detalle importante, por ejemplo, que el capítulo de uso de javascript (que puede ser ciertamente práctico en muchas situaciones siempre que no abusemos de él) se presenta antes del de base de datos o incluso del de data warehouse.
Sólo queda ya que os recomiende encarecidamente su compra.