Vista previa de Bullshit benchmark

Herramienta técnica de evaluación diseñada para ingenieros de IA y responsables de QA que necesitan medir la capacidad de los modelos de lenguaje para detectar y rechazar premisas falsas o instrucciones sin sentido. Permite validar la fiabilidad de los LLM en entornos críticos como finanzas, medicina y legal, cuantificando el riesgo de alucinaciones mediante métricas de honestidad y pensamiento crítico frente a prompts absurdos pero plausibles.

Gratis / Free
Desde 0/Hasta 0

Qué y para quién es

Bullshit-benchmark (BullshitBench) es una herramienta de evaluación técnica diseñada para medir la capacidad de los modelos de lenguaje (LLM) para detectar y rechazar prompts sin sentido o basados en premisas falsas. A diferencia de los benchmarks tradicionales que miden precisión o conocimiento, este recurso evalúa la "honestidad" y el pensamiento crítico de la IA frente a instrucciones absurdas pero que suenan plausibles. Está dirigido a ingenieros de IA, arquitectos de soluciones, responsables de calidad (QA) y departamentos de innovación que necesitan validar la fiabilidad de los modelos antes de integrarlos en procesos de negocio donde una alucinación o una respuesta afirmativa a un error podría tener consecuencias críticas.

Principal ventaja profesional

Permite cuantificar el riesgo de alucinación y la robustez de un modelo mediante una métrica de "Pushback" (rechazo), identificando qué modelos aceptan premisas erróneas como válidas y cuáles son capaces de corregir al usuario de forma profesional.

Para quién no es

No es adecuado para perfiles de marketing o usuarios finales que buscan una comparativa de creatividad o velocidad. Tampoco es para empresas que utilizan la IA únicamente para tareas generativas abiertas donde la veracidad exacta es secundaria a la fluidez del lenguaje.

Funcionalidades clave

  • Evaluación de categorías críticas: Incluye 100 prompts de "nonsense" distribuidos en 5 dominios profesionales: software (40), finanzas (15), legal (15), médico (15) y física (15).
  • Clasificación de respuestas: Categoriza los resultados en tres niveles: Clear Pushback (rechazo claro), Partial Challenge (objeción parcial) y Accepted Nonsense (aceptación del error).
  • Panel de Jueces (Multi-judge): Utiliza un sistema de arbitraje compuesto por modelos de alto nivel (como Claude 3.5 Sonnet o GPT-4o) para calificar las respuestas de los modelos evaluados de forma imparcial.
  • Herramientas de visualización: Genera gráficos comparativos de rendimiento por fecha de lanzamiento del modelo, coste, cantidad de parámetros y técnicas de "engaño" utilizadas.
  • Análisis de razonamiento (Chain of Thought): Permite comparar si los modelos que "piensan más" (usando más tokens de razonamiento) son realmente mejores detectando errores lógicos.

Precios

La herramienta es un recurso de código abierto (Open Source).

  • Versión gratuita: Repositorio completo bajo licencia MIT, permitiendo su uso, modificación y distribución sin coste.
  • Costes asociados: El usuario debe asumir los costes de las API de los modelos que desee evaluar (generalmente vía OpenRouter o OpenAI) y el coste de los modelos que actúan como "jueces" durante la ejecución del benchmark.

Perfil del usuario

Empresas tecnológicas, consultoras de IA y departamentos de desarrollo de software que integran LLMs en productos finales.

  • Ingenieros de Machine Learning y ML Ops.
  • Responsables de cumplimiento y ética de IA.
  • Desarrolladores de aplicaciones RAG (Retrieval-Augmented Generation).
  • Analistas de datos y QA especializados en IA.

Nivel técnico requerido

  • Para su uso: Medio. Requiere familiaridad con la interpretación de métricas de LLM y el funcionamiento de modelos de lenguaje.
  • Instalación/Configuración: Alto. Es necesario manejo de terminal (CLI), Python, gestión de entornos virtuales y configuración de claves API.
  • Conocimientos necesarios: Manejo de archivos JSON de configuración, ejecución de scripts de Shell y comprensión de los sistemas de tarificación por tokens de las APIs de IA.

Ejemplos de uso profesional

  • Selección de modelos para soporte técnico: Evaluar qué modelo evita dar instrucciones falsas de reparación ante síntomas imposibles reportados por clientes.
  • Validación de sistemas legales/médicos: Comprobar si la IA rechaza citar leyes inexistentes o procedimientos médicos absurdos.
  • Auditoría de seguridad de IA: Testear la resistencia del modelo ante ataques de ingeniería social o inyección de prompts basados en lógica técnica falsa.

Uso y distribución

  • CLI: Herramienta basada principalmente en línea de comandos para la recolección de datos y ejecución de grados.
  • Versión Web: Incluye un visor de resultados interactivo (Viewer) que puede ejecutarse localmente o consultarse en la página del proyecto para ver resultados pre-calculados de modelos comerciales.
  • Código local: Repositorio en Python para ejecución en servidores propios o estaciones de trabajo.

Open source

Distribuido bajo licencia MIT, lo que permite una integración total en entornos corporativos privados.

Integraciones

  • API propia: Se integra de forma nativa con OpenRouter para acceder a más de 80 modelos y con OpenAI API.
  • Facilidad de integración: Code-heavy. Requiere entorno Python 3.x y configuración de variables de entorno (API Keys).
  • Escalabilidad: El motor de recolección permite gestionar concurrencia y límites de tasa (rate limits) para ejecuciones de gran volumen (más de 30.000 consultas).

Notas finales

información legal, licencias, contratos

El proyecto está protegido por la Licencia MIT, una de las más permisivas, permitiendo el uso comercial sin restricciones siempre que se mantenga el aviso de copyright. La propiedad intelectual de las preguntas recae en el autor del benchmark, pero su uso es libre para evaluación interna.

Para más información:

Foto de Francisco Naranjo, autor de look4.tools
Francisco Naranjo.Ayudo a implantar IA y automatización en marketing y ventas >>

Análizo herramientasa y las comparto junto al equipo de YOU+:

  • Profesionales en transformación digital
  • Modelos de IA y agentes autónomos
  • Herramientas automatización con acceso a fuentes de información contrastada.

Más en mi perfil de Linkedin