BullshitBench v2

Benchmark open-source que evalúa si modelos de IA detectan prompts sin sentido, los cuestionan explícitamente y evitan responder con confianza basándose en supuestos inválidos; ejecuta un proceso reproducible con datasets versionados y panel de jueces, automatiza la ejecución end to end y publica resultados en un visor web tipo leaderboard para comparar modelos por fecha, dominio e impacto del razonamiento.
Categorías relacionadas
descripcion
Benchmark open-source que evalúa si modelos de IA detectan prompts sin sentido, los cuestionan explícitamente y evitan responder con confianza basándose en supuestos inválidos; publica resultados en un visor web tipo leaderboard para comparar modelos.
aplicacion profesional
Sirve para (1) evaluar y comparar modelos/variantes (incluyendo ajustes de razonamiento) según su capacidad de "pushback" ante premisas erróneas; (2) apoyar la selección de modelo y pruebas de calidad antes de despliegue en asistentes corporativos (soporte interno, RAG, helpdesk, copilots) donde alucinar o aceptar premisas falsas es un riesgo; (3) instrumentar un proceso reproducible de recogida y juzgado con panel de jueces y datasets versionados (v1/v2) y publicación de resultados.
precio
Gratuito (open-source, licencia MIT). No hay planes de pago publicados. El coste operativo depende de las llamadas a APIs de proveedores/modelos (p.ej., OpenRouter y opcionalmente OpenAI según el routing configurado).
puntos a favor
- Métrica/criterios explícitos de evaluación: Clear Pushback, Partial Challenge, Accepted Nonsense.
- Dataset v2 ampliado (100 prompts) con cobertura por dominios (software, finance, legal, medical, physics) y técnicas de nonsense.
- Visor público para análisis comparativo (tendencias por fecha, por dominio, impacto de "thinking").
- Automatización end-to-end vía scripts y publicación de datasets.
puntos en contra
- Dependencia de proveedores externos y claves API para ejecutar el benchmark.
- La evaluación se basa en un panel de jueces-modelo y una agregación definida por el proyecto, lo que puede introducir sesgos metodológicos según la configuración.
- El alcance está acotado a prompts "nonsense" y no sustituye benchmarks de factualidad, seguridad, robustez o performance general.
enlaces oficiales
- https://github.com/petergpt/bullshit-benchmark
- https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
- https://github.com/petergpt/bullshit-benchmark/blob/main/CHANGELOG.md
- https://github.com/petergpt/bullshit-benchmark/blob/main/LICENSE
- https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
