medimos, en abierto.
Dos reglas valen para todo lo de esta página. Los datos y el código son públicos, así que puedes comprobar el claim en vez de fiarte. Y el caveat va antes del titular, nunca después, aunque vaya en nuestra contra. Ese es el sentido entero de hacerlo en abierto.
Los estudios.
Un build en verde no es una feature correcta
En 210 ejecuciones, la salida del agente pasaba el build pero estaba genuinamente mal ~40% de las veces. Con los criterios por delante, eso ha bajado hacia cero. El benchmark de verificación.
leer → experimento · exploratorioLos agentes necesitan un runtime, no un modelo más grande
Una maratón de recuperación de cuatro episodios. Claude Code con prompt y con skill se ha quedado en el 66%; un modelo más grande no ha cerrado la brecha; un runtime de recuperación gobernado ha llegado al 100%. Y el matiz: un harness de reintentos casero también ha recuperado.
leer →Cómo lo etiquetamos.
- Benchmark: un estudio con muestra real y comparación controlada. El claim pretende sostenerse.
- Experimento: exploratorio, a menudo con controles n=1. Direccional, no prueba. Etiquetado para que lo leas así.
- Cada estudio enlaza su repositorio abierto: datos, harness y la lista exacta de lo que se puede y no se puede decir.