Checklist para advanced analytics

Ya sabemos que la palabra de moda es Analytics (ya sea como machine learning, artificial inteligence o deep learning). Aquellas empresas que no están generando estas capacidades dejarán de ser competitivas (lo dice todo el mundo Gartner, IDC, Harvard Business School, MIT,…). Podemos discutir (o no) si, se creemos en esto o si debemos creerlo con matices (no es la discusión de hoy).

Hoy estoy de retrospectiva.

Desde TDWI (en 2009!), se preparó una lista  – checklist lo llamaban – para advanced analytics que toda persona interesada en el tema debía (según ellos) echar un vistazo (como os podéis imaginar el enlace ya no existe o al menos yo no lo he encontrado). Creo que es interesante recuperar el tema. Veamos la lista:

  1. Uso de advanced analytics para descubrir relaciones y anticipar el futuro.
  2. Escalar la integración de datos para aumentar el alcance de volúmenes de datos a analizar.
  3. Identificar que reporting y analytics tiene diferentes objetivos y necesidades.
  4. Distinguir entre data warehouse, data mart y bases de datos analíticas.
  5. Diseñar una arquitectura de data warehouse que encaje con el análisis.
  6. Preparar los datos para cumplir las necesidades del método de análisis escogido.
  7. Preservar la riqueza de los datos, dado que en ella están ocultas los patrones buscados.
  8. Mejorar los datos después de trabajar con ellos, no antes. Es decir, incorporar los resultados a los datos.
  9. Aplicar el análisis al BI y al DW.

Algunos encontrarán esta lista obvia (de sentido común, dirán otros). Lo interesante de esta lista es que con unas ligeras modificaciones la adaptamos al contexto actual.

  1. Uso de machine learning y deep learning para descubrir relaciones y anticipar el futuro.
  2. Escalar la ingestión de datos para aumentar el alcance de datos complejos (big data) a analizar.
  3. Identificar que reporting y analytics tiene diferentes objetivos y necesidades.
  4. Distinguir entre big data, data lakedata warehousedata mart y bases de datos analíticas.
  5. Diseñar una arquitectura de data warehouse y/o big data que encaje con el análisis.
  6. Preparar los datos para cumplir las necesidades del método de análisis escogido.
  7. Preservar la riqueza de los datos, dado que en ella están ocultas los patrones buscados.
  8. Mejorar los datos después de trabajar con ellos, no antes. Es decir, incorporar los resultados a los datos.
  9. Aplicar el análisis al BI, DW y al Big Data.

Está claro que detrás de esta lista muy simple hay muchos detalles complicados. Como, por ejemplo, el punto 4 puede llegar a ser realmente interesante. Preguntas como: ¿es necesario desplegar una arquitectura ad-hoc, es suficiente con una out-of-the-box -que haremos evolucionar- y/o hacemos uso de recurso de cloud computing?

En todo caso, es interesante ver que esta lista sigue bastante vigente.

Data Warehousing, Data Warehouse y Datamart

¿Qué pasa cuando hemos identificado la necesidad de mejorar los sistemas que dan soporte a la toma de decisiones en nuestra organización? Rápidamente, nos hallamos en un contexto que si bien tiene puntos en común con nuestro modelo de negocio y nuestras aplicaciones transaccionales, nos deja descolocados. Más de la mitad de términos que se usan en las presentaciones de productos nos son desconocidos.

Así que de nuevo nos situamos desde el marco de establecer significados etimológicos. Recordemos que dimos ya las definiciones de Inmon y Kimball. Para empezar es necesario tener claro que significan los términos Data Warehousing, Data Warehouse y Data Mart que participan en las fases iniciales de implantación de una herramienta Business Intelligence.

Definición de Data Warehousing

Entendemos por Data Warehousing el proceso de extraer y filtrar datos de las operaciones comunes de la organización, procedentes de los distintos sistemas de información operacionales y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacén de datos (Data Warehouse, en inglés) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización. Es decir, la finalidad es convertir los datos operacionales en información relacionada y estructurada, homogénea y de mayor calidad, identificada convenientemente y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales, y de manera más agregada los datos anteriores. Se pretende crear un círculo virtuoso para la información.

Definición de Data Warehouse

Un Data Warehouse proporciona una visión global, común e integrada de los datos de la organización, independiente de cómo se vayan a utilizar posteriormente por los consumidores o usuarios, con las propiedades siguientes: estable, coherente, fiable y con información histórica. Al abarcar un ámbito global de la organización y con un amplio alcance histórico, el volumen de datos puede ser muy grande (centenas de terabytes). Las bases de datos relacionales son el soporte técnico más comúnmente usado para almacenar las estructuras de estos datos y sus grandes volúmenes. Normalmente en el almacén de datos habrá que guardar información histórica que cubra un amplio período de tiempo. Pero hay ocasiones en las que no se necesita la historia de los datos, sino sólo sus últimos valores, siendo además admisible generalmente un pequeño desfase o retraso sobre los datos operacionales. En estos casos el almacén se llama almacén operacional (ODS, Operational Data Store).

Definición de Data Mart

Podemos entender un Data Mart como un subconjunto de los datos del Data Warehouse con el objetivo de responder a un determinado análisis, función o necesidad y con una población de usuarios específica. Al igual que en un data warehouse, los datos están estructurados en modelos de estrella o copo de nieve y un data mart puede ser dependiente o independiente de un data warehouse. Por ejemplo, un posible usos sería para el data mining.

¿Qué diferencia existe entonces entre un data mart y un data warehouse? Su alcance. El data mart está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización. Es el almacén natural para los datos departamentales. En cambio, el ámbito del data warehouse es la organización en su conjunto. Es el almacén natural para los datos corporativos comunes.

Continuaremos, en una futura entrada, definiendo los conceptos necesarios y con la mira puesta a hablar sobre el diseño de un Data Warehouse.