medimos, en abierto.

Las afirmaciones sobre agentes de código IA son baratas. Estas no. Cada estudio sale con sus datos, su harness y su límite de claim, los caveats por delante. Unos son benchmarks rigurosos. Otros son experimentos exploratorios. Cada uno dice cuál es.

Dos reglas valen para todo lo de esta página. Los datos y el código son públicos, así que puedes comprobar el claim en vez de fiarte. Y el caveat va antes del titular, nunca después, aunque vaya en nuestra contra. Ese es el sentido entero de hacerlo en abierto.

Los estudios.

Cómo lo etiquetamos.

  • Benchmark: un estudio con muestra real y comparación controlada. El claim pretende sostenerse.
  • Experimento: exploratorio, a menudo con controles n=1. Direccional, no prueba. Etiquetado para que lo leas así.
  • Cada estudio enlaza su repositorio abierto: datos, harness y la lista exacta de lo que se puede y no se puede decir.