Ollama

Ejecuta y opera modelos de lenguaje y de embeddings en entornos locales (on-device/on-premise) y, opcionalmente, mediante ejecución en la nube del propio proveedor, con interfaz CLI, API HTTP y aplicaciones de escritorio. Permite descargar y gestionar modelos desde una biblioteca pública, exponer endpoints para chat/generación y embeddings orientados a integración programática (automatización, RAG, agentes) y crear modelos personalizados mediante "Modelfiles" para definir base model, parámetros y plantillas de inferencia.

Sitio web

Agentes Autónomos

Aplicaciones de Escritorio

Desarrollo de Software

Full Code

Generadores de Texto con IA

RAG (Retrieval augmented generation)

Sistemas e Infraestructura IT

Software en la nube (SaaS)

descripcion

Ollama es una plataforma para ejecutar y operar modelos de lenguaje (LLMs) y modelos de embeddings tanto en local (on‑device/on‑premise) como mediante modelos alojados en la nube de Ollama, ofreciendo CLI, API HTTP y aplicaciones de escritorio. Permite descargar, ejecutar y gestionar modelos (públicos) desde su biblioteca, además de crear y compartir modelos personalizados mediante "Modelfiles". La API se expone por defecto en el host local y está orientada a integración programática (automatización, RAG, agentes y tooling).

aplicacion profesional

Sirve para desplegar capacidades de IA generativa en entornos profesionales con control operacional (local u opcionalmente cloud): (1) Integración vía API HTTP para generación (completions), chat y embeddings (p. ej. /api/chat y /api/embed) en pipelines internos, backends, bots y herramientas de productividad; (2) Casos de uso de RAG/gestión documental: generación de embeddings para indexación y búsqueda semántica con modelos recomendados (p. ej. embeddinggemma) y posterior recuperación; (3) Ejecución local/offline para escenarios con restricciones de datos (air‑gapped) y reducción de dependencia de terceros; (4) Operación y ciclo de vida de modelos: pull/update de modelos, listing/ps, y construcción de modelos personalizados con Modelfile (definición de base model, parámetros de inferencia, plantillas, system prompt, adapters LoRA, etc.); (5) Integración con herramientas de coding/agents mediante comandos como "ollama launch" (configura y ejecuta integraciones con herramientas de desarrollo usando modelos locales o cloud), útil para habilitar flujos de trabajo de ingeniería (asistentes de código, sesiones extendidas, etc.).

precio

Según la página pública de precios: Free $0 (incluye uso local ilimitado; acceso a modelos cloud con "light usage"), Pro $20/mes y Max $100/mes (planes con más concurrencia/uso cloud y capacidad de modelos privados y colaboradores). La ejecución de modelos en hardware propio se indica como "always unlimited"; los límites aplican a modelos cloud y varían por plan. Planes team/enterprise: no disponibles públicamente ("coming soon").

puntos a favor

Ejecución local/offline posible; por defecto el servicio API se sirve en localhost (127.0.0.1:11434) y puede operar en entornos air‑gapped (cloud opcional).
API HTTP documentada para chat y embeddings; base URL local por defecto http://localhost:11434/api y base URL cloud https://ollama.com/api.
Capacidades de embeddings (endpoint /api/embed) con soporte batch y vectores normalizados; aplicable a búsqueda semántica y RAG.
Mecanismo formal para personalización y empaquetado de modelos mediante Modelfile (FROM, PARAMETER, TEMPLATE, SYSTEM, ADAPTER, LICENSE, etc.).
Proyecto principal "ollama/ollama" con licencia MIT (según repositorio GitHub) y ecosistema amplio de integraciones/herramientas alrededor de CLI/API.
Oferta cloud con planes Free/Pro/Max para ejecución en infraestructura de datacenter, con límites de concurrencia/uso por plan.
Comando "ollama launch" (Ollama v0.15+) para configurar y ejecutar integraciones de herramientas de coding con modelos locales o cloud, reduciendo fricción de configuración.

puntos en contra

La API "no está estrictamente versionada" (según documentación), lo que puede exigir mayor disciplina de pruebas/regresión en integraciones empresariales.
Límites de uso y concurrencia para modelos cloud no se publican numéricamente en la página de precios; se describen de forma cualitativa por plan (Free/Pro/Max).
La licencia del componente "app"/GUI puede no estar claramente documentada en el repositorio principal MIT (hay discusión pública en GitHub sobre ambigüedad de licencia de la app, separada del repo).
Riesgo operacional si se expone la API más allá de localhost: la documentación indica que el bind por defecto es 127.0.0.1 y que se puede cambiar con OLLAMA_HOST; una exposición incorrecta puede aumentar superficie de ataque y requiere controles de red/proxy/autenticación a nivel de entorno.
Requisitos de hardware pueden ser elevados para ciertos modelos/contextos (p. ej. recomendaciones de VRAM alta para contextos grandes en escenarios de coding), lo que puede impactar TCO en despliegues locales.

enlaces oficiales

otros enlaces interes

https://github.com/ollama/ollama/issues/11634

Volver a todas las herramientas