
Ollama

Ejecuta y opera modelos de lenguaje y de embeddings en entornos locales (on-device/on-premise) y, opcionalmente, mediante ejecución en la nube del propio proveedor, con interfaz CLI, API HTTP y aplicaciones de escritorio. Permite descargar y gestionar modelos desde una biblioteca pública, exponer endpoints para chat/generación y embeddings orientados a integración programática (automatización, RAG, agentes) y crear modelos personalizados mediante "Modelfiles" para definir base model, parámetros y plantillas de inferencia.
descripcion
Ollama es una plataforma para ejecutar y operar modelos de lenguaje (LLMs) y modelos de embeddings tanto en local (on‑device/on‑premise) como mediante modelos alojados en la nube de Ollama, ofreciendo CLI, API HTTP y aplicaciones de escritorio. Permite descargar, ejecutar y gestionar modelos (públicos) desde su biblioteca, además de crear y compartir modelos personalizados mediante "Modelfiles". La API se expone por defecto en el host local y está orientada a integración programática (automatización, RAG, agentes y tooling).
aplicacion profesional
Sirve para desplegar capacidades de IA generativa en entornos profesionales con control operacional (local u opcionalmente cloud): (1) Integración vía API HTTP para generación (completions), chat y embeddings (p. ej. /api/chat y /api/embed) en pipelines internos, backends, bots y herramientas de productividad; (2) Casos de uso de RAG/gestión documental: generación de embeddings para indexación y búsqueda semántica con modelos recomendados (p. ej. embeddinggemma) y posterior recuperación; (3) Ejecución local/offline para escenarios con restricciones de datos (air‑gapped) y reducción de dependencia de terceros; (4) Operación y ciclo de vida de modelos: pull/update de modelos, listing/ps, y construcción de modelos personalizados con Modelfile (definición de base model, parámetros de inferencia, plantillas, system prompt, adapters LoRA, etc.); (5) Integración con herramientas de coding/agents mediante comandos como "ollama launch" (configura y ejecuta integraciones con herramientas de desarrollo usando modelos locales o cloud), útil para habilitar flujos de trabajo de ingeniería (asistentes de código, sesiones extendidas, etc.).
precio
Según la página pública de precios: Free $0 (incluye uso local ilimitado; acceso a modelos cloud con "light usage"), Pro $20/mes y Max $100/mes (planes con más concurrencia/uso cloud y capacidad de modelos privados y colaboradores). La ejecución de modelos en hardware propio se indica como "always unlimited"; los límites aplican a modelos cloud y varían por plan. Planes team/enterprise: no disponibles públicamente ("coming soon").
puntos a favor
- Ejecución local/offline posible; por defecto el servicio API se sirve en localhost (127.0.0.1:11434) y puede operar en entornos air‑gapped (cloud opcional).
- API HTTP documentada para chat y embeddings; base URL local por defecto http://localhost:11434/api y base URL cloud https://ollama.com/api.
- Capacidades de embeddings (endpoint /api/embed) con soporte batch y vectores normalizados; aplicable a búsqueda semántica y RAG.
- Mecanismo formal para personalización y empaquetado de modelos mediante Modelfile (FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, etc.).
- Proyecto principal "ollama/ollama" con licencia MIT (según repositorio GitHub) y ecosistema amplio de integraciones/herramientas alrededor de CLI/API.
- Oferta cloud con planes Free/Pro/Max para ejecución en infraestructura de datacenter, con límites de concurrencia/uso por plan.
- Comando "ollama launch" (Ollama v0.15+) para configurar y ejecutar integraciones de herramientas de coding con modelos locales o cloud, reduciendo fricción de configuración.
puntos en contra
- La API "no está estrictamente versionada" (según documentación), lo que puede exigir mayor disciplina de pruebas/regresión en integraciones empresariales.
- Límites de uso y concurrencia para modelos cloud no se publican numéricamente en la página de precios; se describen de forma cualitativa por plan (Free/Pro/Max).
- La licencia del componente "app"/GUI puede no estar claramente documentada en el repositorio principal MIT (hay discusión pública en GitHub sobre ambigüedad de licencia de la app, separada del repo).
- Riesgo operacional si se expone la API más allá de localhost: la documentación indica que el bind por defecto es 127.0.0.1 y que se puede cambiar con OLLAMA_HOST; una exposición incorrecta puede aumentar superficie de ataque y requiere controles de red/proxy/autenticación a nivel de entorno.
- Requisitos de hardware pueden ser elevados para ciertos modelos/contextos (p. ej. recomendaciones de VRAM alta para contextos grandes en escenarios de coding), lo que puede impactar TCO en despliegues locales.
enlaces oficiales
- https://ollama.com/
- https://ollama.com/pricing
- https://ollama.com/blog/launch
- https://docs.ollama.com/
- https://docs.ollama.com/api/introduction
- https://docs.ollama.com/api/chat
- https://docs.ollama.com/api/embed
- https://docs.ollama.com/capabilities/embeddings
- https://docs.ollama.com/modelfile
- https://docs.ollama.com/faq
- https://github.com/ollama/ollama