BullshitBench v2

BullshitBench v2

BullshitBench v2

Benchmark open-source que evalúa si modelos de IA detectan prompts sin sentido, los cuestionan explícitamente y evitan responder con confianza basándose en supuestos inválidos; ejecuta un proceso reproducible con datasets versionados y panel de jueces, automatiza la ejecución end to end y publica resultados en un visor web tipo leaderboard para comparar modelos por fecha, dominio e impacto del razonamiento.

Categorías relacionadas

descripcion

Benchmark open-source que evalúa si modelos de IA detectan prompts sin sentido, los cuestionan explícitamente y evitan responder con confianza basándose en supuestos inválidos; publica resultados en un visor web tipo leaderboard para comparar modelos.

aplicacion profesional

Sirve para (1) evaluar y comparar modelos/variantes (incluyendo ajustes de razonamiento) según su capacidad de "pushback" ante premisas erróneas; (2) apoyar la selección de modelo y pruebas de calidad antes de despliegue en asistentes corporativos (soporte interno, RAG, helpdesk, copilots) donde alucinar o aceptar premisas falsas es un riesgo; (3) instrumentar un proceso reproducible de recogida y juzgado con panel de jueces y datasets versionados (v1/v2) y publicación de resultados.

precio

Gratuito (open-source, licencia MIT). No hay planes de pago publicados. El coste operativo depende de las llamadas a APIs de proveedores/modelos (p.ej., OpenRouter y opcionalmente OpenAI según el routing configurado).

puntos a favor

  • Métrica/criterios explícitos de evaluación: Clear Pushback, Partial Challenge, Accepted Nonsense.
  • Dataset v2 ampliado (100 prompts) con cobertura por dominios (software, finance, legal, medical, physics) y técnicas de nonsense.
  • Visor público para análisis comparativo (tendencias por fecha, por dominio, impacto de "thinking").
  • Automatización end-to-end vía scripts y publicación de datasets.

puntos en contra

  • Dependencia de proveedores externos y claves API para ejecutar el benchmark.
  • La evaluación se basa en un panel de jueces-modelo y una agregación definida por el proyecto, lo que puede introducir sesgos metodológicos según la configuración.
  • El alcance está acotado a prompts "nonsense" y no sustituye benchmarks de factualidad, seguridad, robustez o performance general.