Onyx Enterprise AI Search

Onyx es una plataforma de búsqueda empresarial de código abierto diseñada para unificar el acceso a la información interna de una compañía. Permite a equipos y empresas consultar documentos, mensajes y datos dispersos en herramientas como Slack, Google Drive, Notion y GitHub mediante una interfaz de chat potenciada por IA. Es ideal para organizaciones que necesitan centralizar su conocimiento privado manteniendo la soberanía de los datos mediante el auto-alojamiento seguro.
Análisis de Tendencia
Evolución del interés y popularidad en el mercado.
Qué y para quién es
Onyx es una plataforma de búsqueda empresarial de código abierto (anteriormente conocida como Danswer) diseñada para unificar el acceso a toda la información interna de una compañía. Funciona como un punto de entrada único donde los empleados pueden consultar documentos, mensajes y datos dispersos en múltiples aplicaciones (Slack, Google Drive, Notion, GitHub, etc.) a través de una interfaz de chat potenciada por Inteligencia Artificial (RAG - Retrieval-Augmented Generation). Está dirigida a empresas que manejan grandes volúmenes de documentación y equipos que pierden tiempo saltando entre herramientas para encontrar información específica.
Principal ventaja profesional
La capacidad de mantener la soberanía de los datos a través del auto-alojamiento (on-premise), permitiendo que los empleados realicen consultas en lenguaje natural sobre el conocimiento privado de la empresa sin que la información sensible salga de los servidores corporativos.
Para quién no es
No es para microempresas con flujos de información centralizados en una sola herramienta, ni para equipos que no cuenten con capacidad técnica para el despliegue de infraestructuras (en su versión open source). Tampoco es prioritario para sectores donde la información no sea digital o esté altamente desestructurada sin ningún tipo de repositorio previo.
funcionalidades clave
- Conectores integrados: Más de 40 integraciones nativas con herramientas como Confluence, Jira, Slack, Salesforce y Google Drive.
- Búsqueda Híbrida y RAG: Combina búsqueda semántica con palabras clave tradicionales para minimizar alucinaciones de la IA.
- Agentes de IA personalizados: Creación de asistentes específicos con instrucciones y fuentes de datos limitadas a departamentos concretos.
- Búsqueda Web controlada: Capacidad de enriquecer respuestas internas con información de internet de forma segura.
- Multitenancy y RBAC: Control de acceso basado en roles que hereda los permisos originales de los documentos de origen.
- Cuadros de mando y analítica: Visualización de las consultas más frecuentes y áreas donde falta documentación.
Precios
- Versión Community: Gratuita y Open Source (Apache 2.0). Incluye conectores, búsqueda interna, chat y agentes.
- Business ($20/usuario/mes): Incluye funciones avanzadas como RBAC, herencia de permisos, historial de consultas para administradores y cifrado de secretos.
- Enterprise (Precio personalizado): Orientado a grandes despliegues con SSO/SAML, marca blanca personalizada, SLA dedicado y soporte prioritario.
Perfil del usuario
- Empresas tecnológicas: Para gestionar documentación técnica, repositorios de código y wikis internas.
- Departamentos de Soporte y Customer Success: Para hallar respuestas rápidas a incidencias basadas en casos previos.
- Equipos de Operaciones y RRHH: Centralización de políticas internas, manuales de bienvenida y procedimientos operativos (SOPs).
- Firmas Legales y Consultoras: Búsqueda rápida en archivos históricos y proyectos pasados.
Nivel técnico requerido
- Para uso diario: Nivel usuario básico (interfaz de chat similar a ChatGPT).
- Para instalación y configuración: Nivel técnico medio-alto. Requiere conocimientos de Docker y despliegue de servicios en servidores o nube.
- Mantenimiento: Necesita supervisión del departamento de IT o DevOps para la gestión de contenedores y actualización de conectores API.
- Conocimientos necesarios: Familiaridad con conceptos de RAG, gestión de claves API y configuración de modelos de lenguaje (LLMs).
Ejemplos de uso profesional
- Onboarding de empleados: Un nuevo trabajador pregunta "¿Cuál es la política de teletrabajo?" y la herramienta extrae la respuesta del PDF alojado en Google Drive.
- Soporte Técnico: Un agente busca por error de código y Onyx localiza la solución en un hilo de Slack de hace dos años o en un issue de GitHub.
- Ventas y Preventas: Consultar rápidamente precios o especificaciones técnicas de contratos pasados almacenados en Salesforce o Notion.
Uso y distribución
- Versión web: Interfaz principal accesible desde cualquier navegador.
- Versión escritorio: Accesible mediante navegador web o integrada en flujos de trabajo locales.
- Slack Bot: Integración directa para responder preguntas dentro de los canales de Slack.
- Auto-alojamiento: Disponible vía Docker para despliegues privados.
Open source
Onyx es un proyecto de código abierto con licencia Apache 2.0, permitiendo la auditoría del código y la personalización total de la herramienta.
Integraciones
- Facilidad de integración: Nivel medio (requiere configuración de tokens y permisos en las herramientas de origen).
- API propia: Dispone de una API REST completa para que desarrolladores creen flujos personalizados.
- Servidor MCP: Compatible con protocolos de conexión para ampliar las capacidades de los agentes.
- Conexiones nativas: Soporta más de 40 herramientas incluyendo Microsoft Teams, Gmail, Dropbox, HubSpot y Zendesk.
Notas finales
información legal, licencias, contratos
- La versión gratuita se distribuye bajo Apache License 2.0.
- Las versiones de pago requieren licencia comercial gestionada por Onyx AI, Inc.
- Los datos indexados se mantienen en la infraestructura del cliente (en modo self-hosted), cumpliendo normativas de privacidad como GDPR si se configura correctamente.
Para más información:
- Sitio web oficial: https://onyx.app
- Precios: https://onyx.app/pricing
- Documentación técnica: https://docs.onyx.app
- Github: https://github.com/danswer-ai/danswer
Esta evaluación técnica analiza Onyx (anteriormente Danswer), una plataforma de búsqueda empresarial de código abierto que utiliza arquitectura RAG (Retrieval-Augmented Generation) para unificar el conocimiento corporativo disperso.
Aplicación profesional
- Tipos de empresa: Ideal para organizaciones tecnológicas, consultoras, sectores legales y departamentos de atención al cliente con grandes silos de información (Slack, Drive, Notion, GitHub). Especialmente valioso para empresas en sectores regulados que exigen soberanía de datos.
- Presupuesto:
- Open Source: Gratuito (licencia MIT/Apache 2.0), orientado a equipos con capacidad de autogestión.
- Business: ~20$ - 25$ por usuario/mes (incluye soporte de permisos complejos y RBAC).
- Enterprise: Personalizado (SLA, despliegues a gran escala, marca blanca).
- Puntos clave: Sustituye la búsqueda tradicional de palabras clave por respuestas directas citando fuentes internas, reduciendo drásticamente el tiempo de "búsqueda de documentos".
Madurez digital requerida
- Usuarios: Nivel básico. La interacción es mediante un chat similar a ChatGPT.
- Equipo IT/Empresa: Nivel medio-alto. Se requiere capacidad para gestionar contenedores (Docker/Kubernetes) y configuración de modelos de lenguaje (LLMs) ya sean comerciales (OpenAI) o locales (Ollama/vLLM).
Plan orientativo de implantación
Pasos necesarios y estimaciones
- Tiempo estimado: De 1 a 4 semanas para una puesta en marcha funcional.
- Fase 1: Evaluación e Infraestructura (Semana 1): Definición de dónde se alojará (Azure, AWS, On-premise). Preparación del entorno Docker/Kubernetes.
- Fase 2: Conexión e Indexación (Semana 2): Configuración de conectores (más de 40 nativos). Onyx debe realizar la "ingesta" inicial (chunking y embedding) de los documentos.
- Fase 3: Prueba de Concepto (Semana 3): Selección de un departamento piloto (ej. Soporte Técnico) para validar la precisión de las respuestas y la herencia de permisos.
- Fase 4: Despliegue y Ajuste (Semana 4): Refinamiento de prompts, configuración de agentes específicos por departamento y formación final.
Necesidades de formación del equipo
- Administradores: Configuración de herramientas de origen (tokens API), gestión de la base de datos vectorial y monitorización de costes de LLM.
- Usuarios finales: Formación en ingeniería de prompts básica para obtener mejores respuestas del asistente.
Perfiles necesarios
- Técnicos: Ingeniero de DevOps o Administrador de Sistemas para el despliegue.
- Internos: "Curadores de contenido" (líderes de departamento) para validar que la IA no alucine con documentación obsoleta.
Retorno de la inversión (ROI)
- Tiempos: El ROI suele alcanzarse en menos de 12 meses gracias al ahorro en licencias de herramientas propietarias (como Glean o Elasticsearch Enterprise) y la recuperación de horas productivas de los empleados.
- KPIs: Reducción del tiempo de resolución de tickets (MTTR), disminución de consultas repetitivas a RRHH/Operaciones y precisión de las respuestas generadas (medida por el feedback de los usuarios en la plataforma).
Otros
- Soberanía de Datos: A diferencia de otras soluciones cloud, Onyx permite despliegues air-gapped (sin conexión a internet) utilizando modelos locales, lo que garantiza que el conocimiento de la empresa nunca salga de su infraestructura.
- Arquitectura: Utiliza Vespa como motor de búsqueda subyacente, lo que permite una escalabilidad eficiente incluso con millones de documentos.
Princiaples recomendaciones
- Evaluar el modelo de despliegue antes de la implementación: el uso de la versión "Cloud" implica una transferencia internacional de datos a EE. UU., mientras que el "Self-hosted" (auto-alojado) permite mantener el control total en servidores propios o de la UE.
- Desactivar la telemetría anónima que viene activada por defecto en las configuraciones de despliegue para evitar el envío de métricas de uso a los servidores del fabricante.
- Firmar un Acuerdo de Encargado de Tratamiento (DPA) con Onyx si se opta por la versión Cloud o si se requiere soporte técnico que implique acceso a datos.
Ley de Inteligencia Artificial (AI Act)
- Clasificación de riesgo: Generalmente bajo/específico, al ser un sistema de búsqueda y asistencia interna (RAG). Sin embargo, si se utiliza para la toma de decisiones en RRHH o evaluación de empleados, podría subir a "Alto Riesgo".
- Transparencia: Es imperativo informar a los empleados de que están interactuando con una IA y clarificar que las respuestas provienen de una síntesis de documentos internos procesada algorítmicamente.
- Supervisión humana: Se debe establecer un protocolo donde las respuestas de la IA en procesos críticos sean validadas por personal cualificado.
Privacidad y protección de datos
- Responsabilidades: La empresa española actúa como Responsable del Tratamiento. Onyx (DanswerAI, Inc.) actúa como Encargado del Tratamiento solo en servicios Cloud.
- Ubicación de los datos: En la modalidad Cloud, los datos se alojan habitualmente en infraestructuras de AWS en regiones de EE. UU. En la modalidad Self-hosted, la ubicación depende de la infraestructura elegida por la empresa (recomendado UE para cumplimiento simplificado).
- Transferencia internacional: La empresa matriz tiene sede en San Francisco, EE. UU. El uso de la versión Cloud requiere verificar la adhesión del proveedor al marco de privacidad de datos (Data Privacy Framework) o el uso de Cláusulas Contractuales Tipo.
- Derechos ARCO: La herramienta permite la gestión de permisos (RBAC), lo que facilita el cumplimiento del derecho de acceso y supresión, aunque la empresa debe asegurar que la eliminación de un dato en la fuente original (ej. Slack) se sincronice correctamente en el índice de Onyx.
Propiedad intelectual
- Propiedad de datos: Los datos de entrada (documentos, mensajes) pertenecen íntegramente a la empresa cliente.
- Propiedad del resultado: Según el modelo de negocio y el Derecho español, los resultados generados puramente por IA no suelen tener derechos de autor, pero los derechos de explotación sobre el procesamiento pertenecen a la empresa usuario.
- Licenciamiento: El núcleo del código es MIT (anteriormente Apache 2.0), pero las carpetas "/ee" (Enterprise Edition) están bajo una licencia propietaria de Onyx que prohíbe su uso comercial sin pago de licencia.
Usos y prohibiciones
- Usos prohibidos: No se permite el uso del software para actividades ilegales, generación de contenido malicioso o intentar realizar ingeniería inversa sobre las funcionalidades protegidas (Enterprise).
- Usos admitidos: Búsqueda empresarial, análisis de documentos internos, integración de flujos de trabajo mediante agentes de IA y automatización de consultas de soporte.
Seguridad y certificaciones
- Seguridad: Ofrece cifrado de secretos, aislamiento de datos y soporte para SSO/SAML en versiones de pago.
- Certificaciones: El fabricante declara cumplimiento con SOC 2 Type II y está diseñado para facilitar el cumplimiento de GDPR/RGPD en despliegues locales.
Otros
- Herencia de permisos: Una funcionalidad clave para el cumplimiento es que Onyx puede heredar los permisos de los documentos originales (ej. solo quien ve el PDF en Drive puede verlo en el chat), lo cual es crítico para la seguridad de la información confidencial.