Apache Airflow
Apache Airflow icon

Apache Airflow

Apache Airflow

Plataforma open-source de orquestación de workflows orientados a procesos batch, donde los flujos se definen como código en Python mediante DAGs y se ejecutan con un scheduler y ejecutores configurables; incluye interfaz web para observabilidad, trazabilidad y depuración (estado y logs), y soporta despliegues típicos con scheduler, webserver, base de datos de metadatos y repositorio/carpeta de DAGs, con opciones de despliegue vía Docker y Helm en Kubernetes e integraciones mediante paquetes providers.

descripcion

Apache Airflow es una plataforma open-source para desarrollar, programar (scheduling) y monitorizar flujos de trabajo (workflows) orientados principalmente a procesos por lotes (batch). Los workflows se definen como cf3digo en Python (DAGs), y se operan mediante un scheduler y una interfaz web para observabilidad y depuracif3n.

aplicacion profesional

Sirve para orquestar procesos de datos y automatizacif3n operativa en entornos empresariales: definicif3n de pipelines (ETL/ELT), coordinacif3n de tareas de MLOps y procesos batch con dependencias, ejecucif3n de trabajos sobre mfaltiples backends (p. ej., Kubernetes, Celery, integraciones cloud) y monitorizacif3n de ejecuciones con trazabilidad (estado, logs y UI). En despliegues tedpicos, requiere como mednimo scheduler, webserver, una carpeta de DAGs y una base de datos de metadatos; el mecanismo de ejecucif3n de tareas se configura mediante "executors" intercambiables. Dispone de imagen Docker oficial y Helm Chart oficial para despliegues en Kubernetes, y un ecosistema de paquetes "providers" con integraciones con servicios de terceros.

precio

El software Apache Airflow (core) es gratuito (open-source) bajo licencia Apache 2.0. Los costes provienen del despliegue y operacif3n (infraestructura, base de datos, observabilidad, soporte). Servicios gestionados de terceros (p. ej., clouds) tienen precios propios (no disponibles en la web oficial de Airflow).

puntos a favor

  • Definicif3n de workflows como cf3digo en Python (DAGs), facilitando versionado y revisif3n (Git).
  • UI web para monitorizacif3n, gestif3n y depuracif3n de ejecuciones (estados y logs).
  • Arquitectura modular y extensible: operadores, plugins y "providers" para integraciones con un amplio ecosistema.
  • Escalabilidad mediante distintos executors (p. ej., KubernetesExecutor, CeleryExecutor) segfan necesidades de ejecucif3n.
  • Artefactos de despliegue mantenidos por la comunidad: imagen Docker oficial y Helm Chart oficial para Kubernetes.
  • Ecosistema de proveedores versionados independientemente del core, facilitando evolucif3n y compatibilidad de integraciones.

puntos en contra

  • Requiere componentes operativos mednimos (scheduler, webserver, base de datos de metadatos y gestif3n de DAGs), lo que incrementa complejidad frente a soluciones totalmente gestionadas.
  • La calidad/alcance de integraciones depende de los "providers" (muchos son comunitarios) y su mantenimiento puede variar segfan el proveedor.
  • Para un entorno "production-grade" se necesita configuracif3n adicional me1s alle1 de un sandbox/quick start (seguridad, escalado, actualizaciones, observabilidad).