Data Warehousing, Data Warehouse y Datamart

¿Qué pasa cuando hemos identificado la necesidad de mejorar los sistemas que dan soporte a la toma de decisiones en nuestra organización? Rápidamente, nos hallamos en un contexto que si bien tiene puntos en común con nuestro modelo de negocio y nuestras aplicaciones transaccionales, nos deja descolocados. Más de la mitad de términos que se usan en las presentaciones de productos nos son desconocidos.

Así que de nuevo nos situamos desde el marco de establecer significados etimológicos. Recordemos que dimos ya las definiciones de Inmon y Kimball. Para empezar es necesario tener claro que significan los términos Data Warehousing, Data Warehouse y Data Mart que participan en las fases iniciales de implantación de una herramienta Business Intelligence.

Definición de Data Warehousing

Entendemos por Data Warehousing el proceso de extraer y filtrar datos de las operaciones comunes de la organización, procedentes de los distintos sistemas de información operacionales y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacén de datos (Data Warehouse, en inglés) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización. Es decir, la finalidad es convertir los datos operacionales en información relacionada y estructurada, homogénea y de mayor calidad, identificada convenientemente y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales, y de manera más agregada los datos anteriores. Se pretende crear un círculo virtuoso para la información.

Definición de Data Warehouse

Un Data Warehouse proporciona una visión global, común e integrada de los datos de la organización, independiente de cómo se vayan a utilizar posteriormente por los consumidores o usuarios, con las propiedades siguientes: estable, coherente, fiable y con información histórica. Al abarcar un ámbito global de la organización y con un amplio alcance histórico, el volumen de datos puede ser muy grande (centenas de terabytes). Las bases de datos relacionales son el soporte técnico más comúnmente usado para almacenar las estructuras de estos datos y sus grandes volúmenes. Normalmente en el almacén de datos habrá que guardar información histórica que cubra un amplio período de tiempo. Pero hay ocasiones en las que no se necesita la historia de los datos, sino sólo sus últimos valores, siendo además admisible generalmente un pequeño desfase o retraso sobre los datos operacionales. En estos casos el almacén se llama almacén operacional (ODS, Operational Data Store).

Definición de Data Mart

Podemos entender un Data Mart como un subconjunto de los datos del Data Warehouse con el objetivo de responder a un determinado análisis, función o necesidad y con una población de usuarios específica. Al igual que en un data warehouse, los datos están estructurados en modelos de estrella o copo de nieve y un data mart puede ser dependiente o independiente de un data warehouse. Por ejemplo, un posible usos sería para el data mining.

¿Qué diferencia existe entonces entre un data mart y un data warehouse? Su alcance. El data mart está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización. Es el almacén natural para los datos departamentales. En cambio, el ámbito del data warehouse es la organización en su conjunto. Es el almacén natural para los datos corporativos comunes.

Continuaremos, en una futura entrada, definiendo los conceptos necesarios y con la mira puesta a hablar sobre el diseño de un Data Warehouse.

17 respuestas a «Data Warehousing, Data Warehouse y Datamart»

  1. Muy buenas las definiciones !!!
    Estaría buenisimo ver algunos ejemplos de la manera en que se arma un data warehouse a partir de una base transaccional

  2. Me gustaría que visualizaras un ejemplo de el diseño de cada uno de estos que mencionas. Como por ejemplo un diseño de datamart orientado a las necesidades de un usuario.

  3. Gracias por vuestros comentarios. Continuaremos con la serie de entradas sobre data warehouse y, probablemente, le pongamos la guinda con un ejemplo.

  4. Sobre El area Staging , es una base donde se efectua todo el mapeo de los temporales .

    Donde se emplea las tablas Temporales antes de ser procesadas.

    Ahi va estar todo lo necesario para la ejecucion de un datamart .

    Menos Dimensiones y tablas de Hechos

    Saludos ,
    Jose Lopez Reinoso

  5. hola: muy buenos los comentarios anteriores. Escribo porque tengo una duda sobre los datamrts..
    Estoy trabajando en un project en donde hace falta hacer algo asi como un manejador para nuestra Base de datos en postgreSQL con el objetivo de crear nuevas tablas y agregar atributos etc.. Mi duda es si me serviría implementar un datamart para saber todas las tablas y los atributos que han sido creado desde la aplicacion, y tambien para verificar cuando que una tabla o atributo que quiera adicionar no se encuentre en la Base de Datos.
    Agradecería que alguien me haga salir de la duda.
    Gracias

  6. Hola a todos.

    Un poco continuando con el tema. No siempre es necesario tener una staging area. A veces nuestro modelo es simple y no necesita de la misma. O incluso otras veces la usamos de ODS.

    Para Yandy: lo que quieres hacer cae más en el ciclo de vida del data warehouse. Tienes diversas opciones o bien eso se tiene en cuenta en las propias tablas del data ware house o datamart o bien en una capa de metadatos o bien incluso se podría hacer en una staging area. Eso depende mucho de cómo es la situación en la organización con la que trabajas.

    Un saludo.

  7. Super bueno, me gustó el enfoque que le diste a las definiciones, apta para que casi cualquier usuario la entienda.

    Gracias.

  8. Hola Josep,
    Muy bueno el blog. Solo un pequeño apunte: según Inmon, el datawarehouse no tiene por qué estár modelado en estrella, puede ser normalizado.
    Por otro lado, una pregunta: existen soluciones BI como por ejemplo QlikView (cuadros de mando) o Alterian (segmentación de marketing) que utilizan tecnologías de almacenamiento propias: en memoria en caso de la primera, en base de datos orientadas a columnas la segunda. En ese caso, ¿crees (creeis) que hablamos de Data-Mart´s?

    Un saludo.

  9. Hola Ángel.

    Me alegro que te guste el blog. Haces un buen apunte al recordar que Inmon admite la normalización.

    Respecto las tecnologías de almacenamiento propias (en este caso pones como ejemplo, QlikView, Alterian,… pero hay otras como Panopticon), desde mi punto de vista son soluciones innovadores desde el punto que vista del enfoque del Data Warehouse / Data Mart y que frecuentemente caen más en el lado del data mart (para proporcionar funcionalidad al usuario de negocio con necesidades avanzadas de análisis) que no de la construcción de un data warehouse.

    Aunque cabe comentar que el roadmap de algunas de estas soluciones están mejorando sus prestaciones para abordar la construcción del data warehouse corporativo.

    Tendremos de estar atentos a la evolución de estas interesantes soluciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.