
PDF Vector

Plataforma y API unificada para procesar documentos (PDF, Word, Excel e imágenes) orientada a convertirlos en texto limpio en Markdown, extraer datos estructurados mediante campos personalizados, habilitar preguntas y respuestas sobre documentos y soportar búsqueda/obtención de literatura académica para integraciones en flujos de automatización y sistemas basados en LLM (p. ej., RAG).
descripcion
PDF Vector es una plataforma/API unificada para el procesamiento de documentos (PDF, Word, Excel e imágenes) orientada a transformar archivos en texto limpio (Markdown), extraer datos estructurados mediante campos personalizados, realizar Q&A sobre documentos y ejecutar búsqueda/obtención de literatura académica en múltiples fuentes. Está pensada para integrarse en flujos de automatización y sistemas basados en LLM (p. ej., RAG).
aplicacion profesional
1) Ingesta y normalización de documentos a Markdown para indexación, archivo y procesos posteriores de NLP/LLM. 2) Extracción estructurada (campos definidos) para automatizar procesos de back-office (facturas, contratos, formularios, informes). 3) Document Q&A para asistentes internos ("document chat") y soporte a analistas. 4) Listado/extracción de imágenes embebidas en documentos para clasificación o evidencia. 5) Integración en pipelines de RAG/semantic search y automatización vía API/SDK. 6) Investigación: búsqueda y "fetch" de papers usando IDs (p. ej., DOI) y búsqueda en fuentes como PubMed, Semantic Scholar, arXiv, Google Scholar, ERIC, Europe PMC y OpenAlex (según su web).
precio
Dispone de plan Free (0 USD) con 100 créditos (requiere tarjeta) y planes de suscripción: Basic 23 USD/mes (3.000 créditos), Pro 89 USD/mes (100.000 créditos), Enterprise 457 USD/mes (500.000 créditos). Ofrece modalidad anual con descuento (facturación anual).
puntos a favor
- API unificada para múltiples tipos de documento (PDF/Word/Excel/Imagen) y operaciones (parse, ask, extract).
- SDK (TypeScript) y ejemplos disponibles para acelerar la integración.
- Incluye servidor MCP para conectarse con herramientas de asistentes/entornos compatibles.
- Capacidades específicas para documentos de negocio (p. ej., invoice, ID).
- Funcionalidad adicional de "academic search/fetch" para literatura académica.
- Política pública de retención temporal (caché ~24h) y declaración de no uso para entrenamiento.
- Transparencia sobre proveedores terceros usados para procesamiento (AWS Textract, Azure Document Intelligence, Datalab/Marker, Mistral AI, Jina AI).
puntos en contra
- La documentación pública no se pudo validar completamente en el análisis porque el endpoint de "API Docs" abre un recurso tipo "scalar" que no devolvió contenido en la captura (posible bloqueo/limitación del navegador de análisis).
- Los Términos indican que no debe usarse para procesar información confidencial/sensible/personal sin la autorización adecuada; requiere due diligence adicional en entornos regulados.
- La política de caché/retención temporal de hasta 24 horas puede no encajar con requisitos de borrado inmediato o "no retention".