top of page

ETL vs La Preparación de Datos

  • Foto del escritor: PLD Expert
    PLD Expert
  • 3 jul 2019
  • 6 Min. de lectura

Las tecnologías de extracción, transformación y carga (ETL), administradas exclusivamente por TI, han sido hasta hace poco la herramienta principal utilizada para combinar datos de múltiples fuentes y por lo tanto, proporcionar la capacidad de impulsar decisiones importantes de negocios para las organizaciones. Pero, con la llegada de la preparación de datos de autoservicio, los usuarios empresariales y los expertos en la materia pueden encontrar soluciones por su cuenta.


"En algunas organizaciones, se espera que cada ingeniero de datos / recurso de TI apoye a más de cientos de usuarios comerciales o expertos, creando un cuello de botella que puede retrasar la llegada de información empresarial crítica", dijo Farnaz Erfan, ¿Significa eso que ETL está quedando obsoleto? ¿O hay casos de uso para ambos? Erfan habló sobre las similitudes y diferencias entre ETL y la preparación de datos en una entrevista reciente de DATAVERSITY®.


Similitudes

Hay mucha personas que asumen que ETL y la preparación de datos son lo mismo porque conceptualmente son muy similares, y ambos resuelven el mismo problema. Los datos sin el formato esperado, nunca estarán listos para el análisis o el aprendizaje automático, y ambas herramientas transforman los datos en una forma que los acerca más a ser una fuente única de verdad para usos como el análisis o el aprendizaje automático,


Diferencias

Donde ETL y la preparación de datos difieren es en la complejidad del paradigma, el tipo de preparación requerida y el usuario, y estas diferencias determinan el tipo de casos de uso.


1. El Usuario

Las herramientas ETL se crearon hace más de 25 años para los usuarios técnicos de TI, y las herramientas de preparación de datos están orientadas a los usuarios comerciales modernos. "Eso podría ser un analista, un gerente de operaciones de ventas, un gerente de marketing, muchas personas diferentes dentro de la línea de negocios pueden usar estas herramientas", comentó Erfan.

Los proveedores que ofrecen herramientas de preparación de datos tienden a seguir una forma visual de presentación de datos, similar a una hoja de cálculo de Excel, donde los usuarios pueden ver los datos en el centro de su área de trabajo. Esto permite a los usuarios no técnicos investigar problemas de calidad de datos , preparar datos, validarlos y ver cómo cambian los valores de los datos a medida que se aplican diferentes reglas o condiciones.


2. El paradigma

ETL se basa en un conjunto predeterminado de reglas y flujos de trabajo, los problemas potenciales, como errores ortográficos o caracteres adicionales, deben anticiparse de antemano para que las reglas sobre cómo tratar esos problemas puedan incorporarse en el flujo de trabajo de extremo a extremo. A la inversa, una herramienta de preparación de datos que utiliza algoritmos incorporados es capaz de descubrir e investigar los datos a medida que avanza a través del flujo de trabajo. "Por ejemplo, los algoritmos basados ​​en el aprendizaje automático o el procesamiento del lenguaje natural pueden reconocer cosas que se escriben de manera diferente pero que realmente son lo mismo".

Dio el ejemplo de una ciudad llamada “San Louis ", y cómo se puede ingresar de varias maneras, o puede haber varias ciudades con el mismo nombre escrito de manera diferente. En un flujo de trabajo de ETL, las reglas para encontrar cada variación particular deben programarse con anticipación, y las variaciones no programadas se omiten. Una herramienta de preparación de datos puede encontrar diferencias de ortografía sin ayuda, para que el usuario no tenga que anticipar cada variación posible. La herramienta puede solicitar una decisión sobre cada variación diferente en el nombre de esta ciudad, lo que brinda la oportunidad de mejorar los datos antes de que se usen, dijo.

"Eso es un gran cambio en términos de la calidad de los datos que salen de ella, así como el aumento de la velocidad con la que puedo obtener a través de mis datos". "Contraste eso con una herramienta ETL que requiere que el usuario predetermine las reglas que deben aplicarse y adivine de qué manera podrían haberse escrito".


3. Complejidad de los datos

Erfan, que comenzó su carrera en el espacio tradicional de gestión de datos / ETL, dijo que la mayor parte del enfoque de ETL sigue siendo en las fuentes de datos relacionales, porque sus puntos fuertes se encuentran en la carga masiva y la transformación de tablas y fuentes de datos relacionales, así como con CRM, Salesforce, y aplicaciones de marketing.

La preparación de datos sigue siendo sólida tanto en el aspecto relacional como en los tipos de datos más complejos, como JSON o XML, donde hay estructuras de datos anidadas. Una herramienta de preparación de datos aplana los datos en un formato tabular, regresando a ese paradigma de Excel más fácil de entender por parte de los usuarios no técnicos. "Puede ver claramente el contenido completo de los datos para prepararlo para el análisis, en lugar de tratar de entenderlo en una estructura anidada", dijo.


Beneficios de las herramientas de preparación de datos

El espacio ETL requiere estándares y una estructura bien definida, o un modelo multidimensional para su publicación. Los cambios en la estructura de datos requieren un enfoque de "volver a empezar" para incorporar transformaciones, y los datos deben volver a publicarse, lo que resulta en un proceso mucho más largo. A la inversa, al utilizar una solución de preparación de datos se puede procesar los datos en su totalidad. Los algoritmos de aprendizaje automático manejan más datos de forma libre y, por lo tanto, las iteraciones se pueden hacer rápidamente, lo que permite un proceso más ágil. "En lugar de tomar meses para hacer, se pueden hacer en días", dijo.

El mayor beneficio para la preparación de datos desde la perspectiva de Erfan es no tener un cuello de botella en TI. En cambio, la carga de crear y preparar activos de datos para toda la organización se puede compartir con los usuarios finales al proporcionarles las herramientas y la capacidad de hacerlo por su cuenta. Los equipos de negocios ya han estado haciendo visualizaciones y usando paneles de control por su cuenta. "¿Por qué no podrían también preparar los datos para el análisis por sí mismos sin esperar a TI?"


Pasos para el éxito

Para algunas empresas, un grupo pequeño o una sola persona expresa la necesidad de una solución de preparación de datos. En otros, surge de un proceso de democratización de datos en toda la organización. De cualquier manera, dijo, el primer paso es que la organización defina la “madurez” de acuerdo con sus propios objetivos a largo plazo.


Las preguntas iniciales apropiadas para ese proceso podrían ser:

¿Cuáles son los pasos hacia la madurez?

¿A dónde quieres llevar tu preparación de datos?

¿Los usuarios se limitarán a un grupo pequeño o la colaboración es más importante?


El siguiente paso hacia la madurez es la automatización. Las preguntas para esta fase pueden ser:

¿Se mantendrán todas las cargas de trabajo de preparación de datos por solicitud?

¿La preparación de datos se mantendrá dentro de un pequeño número de usuarios o se ampliará para ofrecer activos de datos certificados en toda la organización que otras personas puedan usar?

¿Cómo se integrará la preparación de datos con el catálogo de datos y las herramientas de BI existentes?


La intersección: donde ETL cumple con la preparación de datos

Erfan cree que ETL está en un punto de cambio. Las soluciones de preparación de datos están interrumpiendo el mercado, pero, al mismo tiempo, "las compañías de ETL y BI también están agregando la preparación de datos porque esa es una necesidad que ven en el mercado", dijo.Hay muchas situaciones en las que una solución ETL sigue siendo la mejor opción, especialmente para casos de uso donde miles de millones de registros de datos se transforman y se cargan de forma masiva en almacenes de datos y casos de uso donde los trabajos deben ejecutarse automáticamente todos los días sin ningún cambio en el esquema de los datos. "Las cosas que son predecibles y repetibles pasan por el flujo de trabajo de ETL".

Un área de intersección es entre ETL y las herramientas de visualización. Un catálogo integrado, por ejemplo, dentro de la plataforma es importante, es donde los activos de datos certificados pueden estar disponibles para los equipos de negocios. "Se necesita el ETL, pero también las herramientas de visualización de datos". Las herramientas de preparación de datos en general, pueden llenar el vacío entre ETL y las herramientas de visualización, atendiendo las necesidades de investigación y preparación de datos de los usuarios comerciales fuera de TI.




Fuente: Dataversity

Comments


bottom of page