[+] · research · medido, en abierto

medimos, en abierto.

Las afirmaciones sobre agentes de código IA son baratas. Estas no. Cada estudio sale con sus datos, su harness y su límite de claim, los caveats por delante. Unos son benchmarks rigurosos. Otros son experimentos exploratorios. Cada uno dice cuál es.

Dos reglas valen para todo lo de esta página. Los datos y el código son públicos, así que puedes comprobar el claim en vez de fiarte. Y el caveat va antes del titular, nunca después, aunque vaya en nuestra contra. Ese es el sentido entero de hacerlo en abierto.

Los estudios.

benchmark · n=120/210

Un build en verde no es una feature correcta

En 210 ejecuciones, la salida del agente pasaba el build pero estaba genuinamente mal ~40% de las veces. Con los criterios por delante, eso ha bajado hacia cero. El benchmark de verificación.

leer → experimento · exploratorio

Los agentes necesitan un runtime, no un modelo más grande

Una maratón de recuperación de cuatro episodios. Claude Code con prompt y con skill se ha quedado en el 66%; un modelo más grande no ha cerrado la brecha; un runtime de recuperación gobernado ha llegado al 100%. Y el matiz: un harness de reintentos casero también ha recuperado.

leer →

Cómo lo etiquetamos.

Benchmark: un estudio con muestra real y comparación controlada. El claim pretende sostenerse.
Experimento: exploratorio, a menudo con controles n=1. Direccional, no prueba. Etiquetado para que lo leas así.
Cada estudio enlaza su repositorio abierto: datos, harness y la lista exacta de lo que se puede y no se puede decir.