BullshitBench v2

Benchmark open-source que evalúa si modelos de IA detectan prompts sin sentido, los cuestionan explícitamente y evitan responder con confianza basándose en supuestos inválidos; ejecuta un proceso reproducible con datasets versionados y panel de jueces, automatiza la ejecución end to end y publica resultados en un visor web tipo leaderboard para comparar modelos por fecha, dominio e impacto del razonamiento.

Visitar sitio oficial

Categorías relacionadas

Analista de Datos

Colección de Datasets

Conectividad API

Desarrollo de Software

descripcion

aplicacion profesional

Sirve para (1) evaluar y comparar modelos/variantes (incluyendo ajustes de razonamiento) según su capacidad de "pushback" ante premisas erróneas; (2) apoyar la selección de modelo y pruebas de calidad antes de despliegue en asistentes corporativos (soporte interno, RAG, helpdesk, copilots) donde alucinar o aceptar premisas falsas es un riesgo; (3) instrumentar un proceso reproducible de recogida y juzgado con panel de jueces y datasets versionados (v1/v2) y publicación de resultados.

precio

Gratuito (open-source, licencia MIT). No hay planes de pago publicados. El coste operativo depende de las llamadas a APIs de proveedores/modelos (p.ej., OpenRouter y opcionalmente OpenAI según el routing configurado).

puntos a favor

Métrica/criterios explícitos de evaluación: Clear Pushback, Partial Challenge, Accepted Nonsense.
Dataset v2 ampliado (100 prompts) con cobertura por dominios (software, finance, legal, medical, physics) y técnicas de nonsense.
Visor público para análisis comparativo (tendencias por fecha, por dominio, impacto de "thinking").
Automatización end-to-end vía scripts y publicación de datasets.

puntos en contra

Dependencia de proveedores externos y claves API para ejecutar el benchmark.
La evaluación se basa en un panel de jueces-modelo y una agregación definida por el proyecto, lo que puede introducir sesgos metodológicos según la configuración.
El alcance está acotado a prompts "nonsense" y no sustituye benchmarks de factualidad, seguridad, robustez o performance general.

enlaces oficiales

otros enlaces interes

https://github.com/petergpt/bullshit-benchmark/blob/main/README.md

Volver al listado completo