PDF Vector

Plataforma y API unificada para procesar documentos (PDF, Word, Excel e imágenes) orientada a convertirlos en texto limpio en Markdown, extraer datos estructurados mediante campos personalizados, habilitar preguntas y respuestas sobre documentos y soportar búsqueda/obtención de literatura académica para integraciones en flujos de automatización y sistemas basados en LLM (p. ej., RAG).

Sitio web

Automatización de Procesos

Conectividad API

Conectividad MCP

Desarrollo de Software

RAG (Retrieval augmented generation)

Servidor MCP

Software en la nube (SaaS)

descripcion

PDF Vector es una plataforma/API unificada para el procesamiento de documentos (PDF, Word, Excel e imágenes) orientada a transformar archivos en texto limpio (Markdown), extraer datos estructurados mediante campos personalizados, realizar Q&A sobre documentos y ejecutar búsqueda/obtención de literatura académica en múltiples fuentes. Está pensada para integrarse en flujos de automatización y sistemas basados en LLM (p. ej., RAG).

aplicacion profesional

1) Ingesta y normalización de documentos a Markdown para indexación, archivo y procesos posteriores de NLP/LLM. 2) Extracción estructurada (campos definidos) para automatizar procesos de back-office (facturas, contratos, formularios, informes). 3) Document Q&A para asistentes internos ("document chat") y soporte a analistas. 4) Listado/extracción de imágenes embebidas en documentos para clasificación o evidencia. 5) Integración en pipelines de RAG/semantic search y automatización vía API/SDK. 6) Investigación: búsqueda y "fetch" de papers usando IDs (p. ej., DOI) y búsqueda en fuentes como PubMed, Semantic Scholar, arXiv, Google Scholar, ERIC, Europe PMC y OpenAlex (según su web).

precio

Dispone de plan Free (0 USD) con 100 créditos (requiere tarjeta) y planes de suscripción: Basic 23 USD/mes (3.000 créditos), Pro 89 USD/mes (100.000 créditos), Enterprise 457 USD/mes (500.000 créditos). Ofrece modalidad anual con descuento (facturación anual).

puntos a favor

API unificada para múltiples tipos de documento (PDF/Word/Excel/Imagen) y operaciones (parse, ask, extract).
SDK (TypeScript) y ejemplos disponibles para acelerar la integración.
Incluye servidor MCP para conectarse con herramientas de asistentes/entornos compatibles.
Capacidades específicas para documentos de negocio (p. ej., invoice, ID).
Funcionalidad adicional de "academic search/fetch" para literatura académica.
Política pública de retención temporal (caché ~24h) y declaración de no uso para entrenamiento.
Transparencia sobre proveedores terceros usados para procesamiento (AWS Textract, Azure Document Intelligence, Datalab/Marker, Mistral AI, Jina AI).

puntos en contra

La documentación pública no se pudo validar completamente en el análisis porque el endpoint de "API Docs" abre un recurso tipo "scalar" que no devolvió contenido en la captura (posible bloqueo/limitación del navegador de análisis).
Los Términos indican que no debe usarse para procesar información confidencial/sensible/personal sin la autorización adecuada; requiere due diligence adicional en entornos regulados.
La política de caché/retención temporal de hasta 24 horas puede no encajar con requisitos de borrado inmediato o "no retention".

enlaces oficiales

otros enlaces interes

Volver a todas las herramientas