Ir al contenido principal

Dataflows, Recipes y Data Prep

La preparación de datos para hacer análisis es fundamental y es una tarea en la que se emplea bastante tiempo. Einstein Analytics (EA) es una herramienta de análisis que incluye herramientas para la preparación de datos. Las dos principales son:
  • Dataflows. Permiten crear flujos de transformaciones que resultan en 1 o más datasets.
  • Recipes. Permite crear 1 dataset combinando datos y haciendo pequeñas transformaciones.
La imagen tiene un atributo ALT vacío; su nombre de archivo es image-4.png
No son "herramientas ETL" como tales pero conociéndolas a fondo permiten llegar al nivel suficiente para que el dato esté preparado para ser representando en un dashboard de EA.

Trabajando con Dataflows y Recipes: ¿pero dónde están los joins?

La imagen tiene un atributo ALT vacío; su nombre de archivo es image.png

Antes de trabajar con EA, yo había estado trabajando con herramientas ETL. Y cuando empecé a trabajar con EA y vi la parte de preparación de datos, me quedé muy decepcionada, porque había muy pocas trasnformaciones.

Lo primero que eché en falta a la hora de preparar los datos en EA con dataflows (¡y recipes!!!) fue la falta de poder combinarlos mediante joins 😲😱. Solo se podían unir los datos mediante transformaciones llamadas "augment", que hacen justamente lo que su nombre indica. ¡Pero nada tiene que ver con un join! Hay que leer muy bien la documentación para saber al detalle el uso (cosa que es fundamental). Cuando entiendes cómo funciona un augment es cuando puedes empezar a combinar los datos.

El que no haya habido la posibilidad de preparar datos mediante joins es algo que me ha limitado bastante en varias ocasiones.


¿Dataflows o recipes?

La herramienta de generar recipes siempre ha sido más limitada (genera un único dataset, tiene menos transformaciones...). Por eso siempre he acabado trabajando con dataflows. Pueden parecer aparatosos pero en realidad son muy prácticos y permiten hacer bastantes cosas.

La imagen tiene un atributo ALT vacío; su nombre de archivo es dataflow.png

Con el tiempo, el conocimiento y la ayuda de muchas personas en la comunidad, he llegado a hacer grandes transformaciones con los dataflows.

Pero también me he dado cuenta de que los dataflows y las recipes NO son herramientas ETL, aunque te pueden llegar a facilitar muchas cosas. EA es una herramienta de análisis (y de IA: "augmented BI"). Pero si trabajas con gran cantidad de datos que requieran de limpieza o de grandes transformaciones para poderlos analizar, lo mejor es construir una "plataforma de datos" (Data Customer Platform) previa al análisis.


Nueva herramienta de preparación de datos: Data Prep

En la release Summer '19 apareció una gran novedad: los joins (agosto de 2019). A mí lo que me sorprendió es que este cambio apareciese en la herramienta de recipes y no como transformación en los datataflows. Esto quería decir que se estaba apostando por esta herramienta (recipes) y que podría ser que los dataflows perdieran peso.

La herramienta de recipes pasó a llamarse "Data Prep" en la summer '19.

Además, en esta keynote del pasado Dreamforce (aproximadamente en el minuto 36), se puede ver la siguiente imagen:

Así pues, parece que en breve veremos nuevos grandes cambios en Data Prep.


Edición posterior

14-04-2020 En este artículo Rikke nos explica las primeras novedades de este nuevo editor que estará disponible como Beta en la release Summer '20 y con toda su funcionalidad en la Summer '21.


Comentarios