Ollama
Ollama icon

Ollama

Ollama

Ejecuta y opera modelos de lenguaje y de embeddings en entornos locales (on-device/on-premise) y, opcionalmente, mediante ejecución en la nube del propio proveedor, con interfaz CLI, API HTTP y aplicaciones de escritorio. Permite descargar y gestionar modelos desde una biblioteca pública, exponer endpoints para chat/generación y embeddings orientados a integración programática (automatización, RAG, agentes) y crear modelos personalizados mediante "Modelfiles" para definir base model, parámetros y plantillas de inferencia.

descripcion

Ollama es una plataforma para ejecutar y operar modelos de lenguaje (LLMs) y modelos de embeddings tanto en local (on‑device/on‑premise) como mediante modelos alojados en la nube de Ollama, ofreciendo CLI, API HTTP y aplicaciones de escritorio. Permite descargar, ejecutar y gestionar modelos (públicos) desde su biblioteca, además de crear y compartir modelos personalizados mediante "Modelfiles". La API se expone por defecto en el host local y está orientada a integración programática (automatización, RAG, agentes y tooling).

aplicacion profesional

Sirve para desplegar capacidades de IA generativa en entornos profesionales con control operacional (local u opcionalmente cloud): (1) Integración vía API HTTP para generación (completions), chat y embeddings (p. ej. /api/chat y /api/embed) en pipelines internos, backends, bots y herramientas de productividad; (2) Casos de uso de RAG/gestión documental: generación de embeddings para indexación y búsqueda semántica con modelos recomendados (p. ej. embeddinggemma) y posterior recuperación; (3) Ejecución local/offline para escenarios con restricciones de datos (air‑gapped) y reducción de dependencia de terceros; (4) Operación y ciclo de vida de modelos: pull/update de modelos, listing/ps, y construcción de modelos personalizados con Modelfile (definición de base model, parámetros de inferencia, plantillas, system prompt, adapters LoRA, etc.); (5) Integración con herramientas de coding/agents mediante comandos como "ollama launch" (configura y ejecuta integraciones con herramientas de desarrollo usando modelos locales o cloud), útil para habilitar flujos de trabajo de ingeniería (asistentes de código, sesiones extendidas, etc.).

precio

Según la página pública de precios: Free $0 (incluye uso local ilimitado; acceso a modelos cloud con "light usage"), Pro $20/mes y Max $100/mes (planes con más concurrencia/uso cloud y capacidad de modelos privados y colaboradores). La ejecución de modelos en hardware propio se indica como "always unlimited"; los límites aplican a modelos cloud y varían por plan. Planes team/enterprise: no disponibles públicamente ("coming soon").

puntos a favor

  • Ejecución local/offline posible; por defecto el servicio API se sirve en localhost (127.0.0.1:11434) y puede operar en entornos air‑gapped (cloud opcional).
  • API HTTP documentada para chat y embeddings; base URL local por defecto http://localhost:11434/api y base URL cloud https://ollama.com/api.
  • Capacidades de embeddings (endpoint /api/embed) con soporte batch y vectores normalizados; aplicable a búsqueda semántica y RAG.
  • Mecanismo formal para personalización y empaquetado de modelos mediante Modelfile (FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, etc.).
  • Proyecto principal "ollama/ollama" con licencia MIT (según repositorio GitHub) y ecosistema amplio de integraciones/herramientas alrededor de CLI/API.
  • Oferta cloud con planes Free/Pro/Max para ejecución en infraestructura de datacenter, con límites de concurrencia/uso por plan.
  • Comando "ollama launch" (Ollama v0.15+) para configurar y ejecutar integraciones de herramientas de coding con modelos locales o cloud, reduciendo fricción de configuración.

puntos en contra

  • La API "no está estrictamente versionada" (según documentación), lo que puede exigir mayor disciplina de pruebas/regresión en integraciones empresariales.
  • Límites de uso y concurrencia para modelos cloud no se publican numéricamente en la página de precios; se describen de forma cualitativa por plan (Free/Pro/Max).
  • La licencia del componente "app"/GUI puede no estar claramente documentada en el repositorio principal MIT (hay discusión pública en GitHub sobre ambigüedad de licencia de la app, separada del repo).
  • Riesgo operacional si se expone la API más allá de localhost: la documentación indica que el bind por defecto es 127.0.0.1 y que se puede cambiar con OLLAMA_HOST; una exposición incorrecta puede aumentar superficie de ataque y requiere controles de red/proxy/autenticación a nivel de entorno.
  • Requisitos de hardware pueden ser elevados para ciertos modelos/contextos (p. ej. recomendaciones de VRAM alta para contextos grandes en escenarios de coding), lo que puede impactar TCO en despliegues locales.