Datos y Algoritmos: retrospectiva y mirada al futuro

Hace unos meses me pidieron un artículo para el 35º Aniversario de ComputerWorld España. Podéis encontrar el articulo aquí junto otros artículos. Lo reproduzco para facilitar su lectura:

Cuando aún muchas organizaciones están lidiando con la revolución que ha supuesto los factores de base tecnológica conocidos como SMAC (Social, Mobile, Analytics y Cloud Computing), hemos empezado ya a hablar de la siguiente etapa. Ya sea haciendo referencia a la cuarta revolución industrial, que se trata de una redefinición de los procesos de producción, hablando de una cuarta plataforma fundamentada en sensores/IoT, machine learning, y una interacción natural entre máquinas y personas que crea efectos asintóticos en red o de las organizaciones exponenciales, caracterizadas por su rápido crecimiento y fundamentadas por unas capacidades organizaciones diferentes respecto el dato, los activos, la interacción, la fuerza de trabajo y las comunidades con las que se vincula.

Sea cual sea la forma en la que describimos la siguiente etapa para las organizaciones, tanto el presente como el futuro coinciden en que el dato y nuestra capacidad de analizarlo de forma adecuada van a ser absolutamente cruciales.

Aprovechando que ComputerWorld cumple su 35 aniversario es un buen momento para hacer una retrospectiva sobre cómo ha evolucionado la gestión y análisis de la información en las últimas décadas.

La necesidad de analizar datos no es nueva. Ya en la década de los 70 las organizaciones empezaron a usar sistemas de informes y la estadística para comprender el rendimiento operacional. A este primer enfoque lo llamamos, sistemas de gestión de la información. Cabe comentar estamos hablando de informes estáticos generados mediante procesos batch contra los sistemas operacionales.

A lo largo de la siguiente década nuestras necesidades se ampliaron y empezamos a hablar de los sistemas de información ejecutivos y nuevas tecnologías emergieron. Por un lado, el data warehouse con una doble finalidad: tener una fuente de datos fiables y relevantes para la toma de decisiones y, además, para reducir el impacto de los informes sobre los sistemas operacionales. Por otro lado, la aparición de nuevas formas de análisis más flexibles con capacidades exploratorias como OLAP (Online Analytical Processing) y las consultas ad-hoc.

La década de los 90 puede considerarse como un punto de inflexión relevante en este mercado puesto que asistimos a la aparición de las primeras plataformas completas de inteligencia de negocio. Esto se tradujo en nuevas funcionalidades tanto orientadas a los usuarios (como los cuadros de mando o las primeras capacidades de colaboración) como orientadas a facilitar la implementación de estos sistemas de información como los procesos ETL (para dejar atrás cargas de datos fundamentadas en SQL o lenguajes de programación).

La siguiente década, del 2000 al 2010, se puso foco en la analítica de negocio, es decir, en la aplicación de técnicas analíticas para resolver problemas de negocio muy específicos como, por ejemplo, detectar el fraude, segmentar clientes u optimizar el inventariado. Al mismo tiempo, se puso foco en mejorar las estructuras relacionales de almacenamiento del dato ya fuera con bases de datos especializadas o mediante la combinación optimizada de software y hardware.

Es el momento de parar un momento. Y centrarnos qué ha pasado en los últimos seis años. Y para muchos esto se resume en una palabra: Big Data. Fenómeno que marca un antes y un después. La progresiva digitalización de los procesos de negocio, la explosión en nuevos dispositivos y canales de interacción, la democratización del acceso a tecnología,… entre otros ha facilitado que se haya magnificado la creación de datos. En los últimos años hemos creado más datos que en toda la historia anterior de la humanidad. Y lo más interesante es que estos conjuntos de datos presentan una mayor complejidad (expresada de múltiples formas, pero frecuentemente en términos de volumen, velocidad y variedad).

Este nuevo escenario ha propiciado la emergencia de nuevas tecnologías. En primera instancia para el procesamiento y el almacenamiento del dato, y en segunda para su análisis. El mercado actual se ha enriquecido con tecnologías para procesamiento batch, procesamiento en streaming y NoSQL. Muchas de ellas estructuradas en componentes, plataformas y ecosistemas que compiten y colaboran al mismo tiempo. Y además nos hemos empezado a replantear las arquitecturas de datos: ¿es suficiente el data warehouse? ¿necesitamos cubrir escenarios batch y streaming al mismo tiempo? ¿es posible crear un repositorio para datos complejos? ¿y qué pasa entonces con el gobierno del dato?

Y no se trata de dominar simplemente estas tecnologías sino de transformarse en nuevo tipo de empresas: una organización orientada al dato. En la que el dato y los algoritmos se transforman en uno de los activos más relevantes para la gestión de la organización permeando todas sus capas desde el trato al cliente a la gestión de los empleados pasando por la eficiencia operacional.

Tenemos ya pistas por dónde irá ese futuro: algoritmos inteligentes formaran parte de productos y servicios automatizando decisiones y dando soporte ágil a nuestras decisiones. Machine learning, deep learning, sistemas cognitivos serán el pan de cada día de las organizaciones. Si a esto lo combinamos con Internet of Things, el futuro volverá a empujarnos a revisar nuestra arquitectura, ya no sólo a nivel de software sino también en hardware.

Y tendremos de resolver preguntas cruciales: ¿dónde estará la inteligencia de nuestra organización? (quizá mediante fog computing o edge analytics), ¿continuaran siendo válidos nuestros algoritmos de machine learning una vez que nuestros competidores, usuarios y empleados saben que los usamos para entenderlos? ¿cuándo tendremos GPU computing y ordenadores cuánticos a nuestra disposición para potenciar nuestras capacidades de análisis?

Sin duda alguna el futuro depara retos muy interesantes para las organizaciones que deben, sí o sí, preguntarse cómo van a apalancarse en los datos y los algoritmos para competir mejor. Tendremos de estar atentos a tantos avances para no quedar fuera de juego.

Checklist para advanced analytics

Ya sabemos que la palabra de moda es Analytics (ya sea como machine learning, artificial inteligence o deep learning). Aquellas empresas que no están generando estas capacidades dejarán de ser competitivas (lo dice todo el mundo Gartner, IDC, Harvard Business School, MIT,…). Podemos discutir (o no) si, se creemos en esto o si debemos creerlo con matices (no es la discusión de hoy).

Hoy estoy de retrospectiva.

Desde TDWI (en 2009!), se preparó una lista  – checklist lo llamaban – para advanced analytics que toda persona interesada en el tema debía (según ellos) echar un vistazo (como os podéis imaginar el enlace ya no existe o al menos yo no lo he encontrado). Creo que es interesante recuperar el tema. Veamos la lista:

  1. Uso de advanced analytics para descubrir relaciones y anticipar el futuro.
  2. Escalar la integración de datos para aumentar el alcance de volúmenes de datos a analizar.
  3. Identificar que reporting y analytics tiene diferentes objetivos y necesidades.
  4. Distinguir entre data warehouse, data mart y bases de datos analíticas.
  5. Diseñar una arquitectura de data warehouse que encaje con el análisis.
  6. Preparar los datos para cumplir las necesidades del método de análisis escogido.
  7. Preservar la riqueza de los datos, dado que en ella están ocultas los patrones buscados.
  8. Mejorar los datos después de trabajar con ellos, no antes. Es decir, incorporar los resultados a los datos.
  9. Aplicar el análisis al BI y al DW.

Algunos encontrarán esta lista obvia (de sentido común, dirán otros). Lo interesante de esta lista es que con unas ligeras modificaciones la adaptamos al contexto actual.

  1. Uso de machine learning y deep learning para descubrir relaciones y anticipar el futuro.
  2. Escalar la ingestión de datos para aumentar el alcance de datos complejos (big data) a analizar.
  3. Identificar que reporting y analytics tiene diferentes objetivos y necesidades.
  4. Distinguir entre big data, data lakedata warehousedata mart y bases de datos analíticas.
  5. Diseñar una arquitectura de data warehouse y/o big data que encaje con el análisis.
  6. Preparar los datos para cumplir las necesidades del método de análisis escogido.
  7. Preservar la riqueza de los datos, dado que en ella están ocultas los patrones buscados.
  8. Mejorar los datos después de trabajar con ellos, no antes. Es decir, incorporar los resultados a los datos.
  9. Aplicar el análisis al BI, DW y al Big Data.

Está claro que detrás de esta lista muy simple hay muchos detalles complicados. Como, por ejemplo, el punto 4 puede llegar a ser realmente interesante. Preguntas como: ¿es necesario desplegar una arquitectura ad-hoc, es suficiente con una out-of-the-box -que haremos evolucionar- y/o hacemos uso de recurso de cloud computing?

En todo caso, es interesante ver que esta lista sigue bastante vigente.