Vista previa de Dagster

Dagster es una plataforma de orquestación de datos de nueva generación diseñada para ingenieros, analistas y científicos de datos que buscan profesionalizar su infraestructura. A diferencia de los sistemas tradicionales, se centra en activos de datos como tablas y modelos de ML, permitiendo definir dependencias reales y estados finales. Es ideal para equipos que utilizan Python y requieren alta testabilidad, linaje detallado y observabilidad en flujos de trabajo complejos de ETL, ELT e IA.

Gratis / Free
Desde 0/Hasta 100

Análisis de Tendencia

Evolución del interés y popularidad en el mercado.

1007550250
may 25
ago 25
nov 25
feb 26
may 26

Qué y para quién es

Dagster es una plataforma de orquestación de datos de nueva generación diseñada para el desarrollo, producción y observación de flujos de trabajo de datos. A diferencia de los orquestadores tradicionales basados en tareas (como Airflow), Dagster se centra en los activos de datos (tablas, archivos, modelos de ML). Está dirigido a ingenieros de datos, analistas y científicos de datos dentro de empresas que buscan profesionalizar su infraestructura de datos, priorizando la testabilidad, el linaje de datos y la capacidad de ejecución local.

Principal ventaja profesional

Su enfoque "Asset-Centric" (centrado en activos). Permite definir el estado final deseado de los datos y sus dependencias, facilitando un linaje claro y una detección de errores mucho más rápida que en sistemas basados simplemente en una secuencia de tareas inconexas.

Para quién no es

No es adecuado para equipos que no utilicen Python como lenguaje principal o para empresas con flujos de trabajo extremadamente simples (donde un simple cron job sea suficiente). También puede ser rechazado por departamentos que busquen herramientas estrictamente no-code o que no estén dispuestos a asumir la curva de aprendizaje de un modelo de programación declarativo.

Funcionalidades clave

  • Orquestación basada en activos: Define dependencias entre conjuntos de datos reales, no solo entre scripts.
  • Entorno de desarrollo local (Dagster UI): Interfaz web potente para visualizar, ejecutar y depurar pipelines localmente antes del despliegue.
  • Declarative Scheduling: Los activos se actualizan automáticamente basándose en políticas de "frescura" de datos.
  • Observabilidad y Linaje: Seguimiento detallado de cómo se transforma el dato desde el origen hasta el destino final.
  • Pruebas y tipado: Facilita la creación de tests unitarios para los pipelines de datos, algo complejo en otros orquestadores.
  • Catálogo de datos integrado: Permite buscar y entender el estado de cada tabla o modelo generado.

Precios

Dagster ofrece un modelo híbrido entre código abierto y servicios gestionados bajo la marca Dagster+.

  • Versión Gratuita (Open Source): Completa y bajo licencia Apache 2.0. Permite el uso total de la herramienta pero requiere que la empresa gestione su propia infraestructura (Kubernetes, Docker, etc.).
  • Solo Plan: ~10$ al mes (7.5k créditos incluidos). Ideal para proyectos individuales o validaciones técnicas iniciales.
  • Starter Plan: ~100$ al mes (30k créditos incluidos). Incluye control de acceso basado en roles (RBAC) y búsqueda en catálogo.
  • Pro / Enterprise: Precio bajo presupuesto. Ofrece despliegues ilimitados, soporte personalizado via Slack, cumplimiento de SLAs y seguridad avanzada (SAML, auditorías). Nota: El sistema de créditos se basa en la ejecución de opeciones y materialización de activos ($0.03 por crédito excedente).

Perfil del usuario

  • Empresas: Scale-ups tecnológicas, departamentos de datos en corporaciones con stacks modernos (Modern Data Stack) y empresas con fuertes necesidades de IA/ML.
  • Perfiles: Data Engineers, Analytics Engineers, ML Ops y Arquitectos de Datos.

Nivel técnico requerido

  • Uso: Alto. Requiere dominio fluido de Python y conceptos de bases de datos/ETL.
  • Instalación/Configuración: Medio-Alto (para la versión OSS se requiere conocimiento de Docker, Kubernetes o despliegue en nubes como AWS/GCP).
  • Competencias necesarias: Desarrollo de software (Git, CI/CD), SQL y manejo de APIs.

Ejemplos de uso profesional

  • Ciclo ELT/ETL: Coordinación de la ingesta de datos desde SaaS (Fivetran/Airbyte) hacia almacenes de datos (Snowflake/BigQuery) y transformaciones posteriores con dbt.
  • Entrenamiento de Modelos ML: Orquestar el re-entrenamiento de modelos de IA asegurando que las características (features) de entrada estén actualizadas.
  • Reporting y BI: Asegurar que los cuadros de mando en herramientas como Looker o PowerBI reflejen datos válidos y alertar automáticamente si un activo crítico no se ha actualizado.

Uso y distribución

  • Versión web: Panel de control centralizado (Cloud o auto-alojado).
  • Versión escritorio: Herramienta visual Dagster UI (antes Dagit) para ejecución local.
  • CLI: Interfaz de línea de comandos completa para gestión y despliegue.
  • Librerías: Paquete Python disponible vía PyPI (pip install dagster).

Open source

El núcleo de Dagster es Open Source (Apache License 2.0). Todo el código necesario para orquestar y visualizar pipelines está disponible en su repositorio oficial de GitHub.

Integraciones

  • Facilidad de integración: Media (requiere código Python para configurar los conectores).
  • API propia: Dispone de una API de GraphQL muy robusta para interactuar con el orquestador de forma programática.
  • Integraciones nativas: Amplio ecosistema que incluye:
    • Almacenamiento: Snowflake, BigQuery, Redshift, Databricks.
    • Transformación: dbt (integración de primer nivel con linaje a nivel de columna).
    • Ingesta: Fivetran, Airbyte.
    • Infraestructura: Kubernetes, Docker, AWS (S3, Lambda, ECS), GCP, Azure.

Notas finales

Información legal e infracción

La versión Dagster+ (Cloud) opera bajo términos de servicio de SaaS estándar con opciones para cumplimiento de SOC2 Type II, HIPAA y cifrado AES-256 en reposo. El código abierto es libre para uso comercial sin coste de licencia.

Otros

Es importante destacar que Dagster está desplazando a Airflow en muchas organizaciones modernas debido a que soluciona problemas de "deuda técnica" en los pipelines, permitiendo que el código de orquestación sea parte del ciclo de vida del desarrollo de software (pruebas unitarias y entornos de stagging reales).

Para más información:

Foto de Francisco Naranjo, autor de look4.tools
Francisco Naranjo.Ayudo a implantar IA y automatización en marketing y ventas >>

Análizo herramientasa y las comparto junto al equipo de YOU+:

  • Profesionales en transformación digital
  • Modelos de IA y agentes autónomos
  • Herramientas automatización con acceso a fuentes de información contrastada.

Más en mi perfil de Linkedin