PaellaDoc vs Conductor: revisar tus agentes, o verificarlos

Los dos corren agentes de código en paralelo en tu Mac, en worktrees aislados, con los modelos que ya pagas. En eso coinciden. La diferencia es un solo paso: cuando un agente termina, ¿quién decide que está hecho, tu ojo en el diff o un gate que ejecuta el código?

Qué hace Conductor

Conductor, de Melty Labs, es una app de Mac que corre Claude Code, Codex y Cursor en paralelo, cada uno en su worktree aislado. Ves de un vistazo qué está haciendo cada uno, revisas los diffs y mergeas lo que quieres. Añade checkpoints para volver atrás, spotlight testing para sincronizar cambios a tu repo principal, y un modo multi-modelo para lanzar dos modelos al mismo prompt y comparar.

Hay que dárselo: es gratis (traes tu suscripción), está pulido, y el flujo de revisión diff-first está muy bien hecho. Para un dev que quiere abrir varios agentes y revisar lo que sacan, Conductor está pensado justo para eso y da gusto usarlo.

Qué hace PaellaDoc

PaellaDoc también corre los agentes en local, en worktrees aislados, agnóstico de modelo, con tu propia suscripción. Eso lo compartimos con Conductor, y conviene decirlo claro. Tres cosas cambian:

Lleva una metodología de producto embebida, no es solo un lanzador de agentes, y es extensible vía un SDK abierto. El trabajo se vuelve artefactos .paella de primera clase, versionados, un PRD, épicas, user stories, criterios de aceptación, que puedes comparar y diffear. Haces producto, no solo código.
“Hecho” lo decide un gate de ejecución: el código corre contra esos criterios de aceptación, y un build en verde no cuenta.
Hay un modo no-coder que construye un producto entero a partir de una descripción, para alguien que no puede revisar un diff.

La diferencia que importa: revisar vs. verificar

Dos loops lado a lado. Conductor: el agente saca un diff, lo lees, mergeas, decides mirando. PaellaDoc: el agente saca un diff, un gate lo ejecuta contra tus criterios de aceptación, y luego está hecho, el gate decide ejecutando.

El loop de Conductor es diff-first: el agente saca cambios, tú los lees, mergeas. Te hace un revisor más rápido y mejor equipado. El de PaellaDoc es verify-first: el agente saca cambios, un gate los ejecuta contra criterios que el agente no escribió, y solo entonces está hecho.

Y esto no es cuestión de gustos. Lo medimos. En 210 ejecuciones, lo que sacaba el agente pasaba el build pero estaba mal de verdad un 40% de las veces, y hasta el mejor modelo frontier fallaba una tarea difícil dos de cada tres veces, en ejecuciones distintas cada vez. Un build en verde no es una feature correcta. Leer un diff que “se ve bien” es la misma trampa: parecer bien y estar bien son dos cosas distintas, y en un agente no-determinista no cierras ese hueco a ojo.

El spotlight testing de Conductor ayuda aquí, te deja sincronizar los cambios y probarlos. Pero eso eres tú lanzando los tests a mano, cuando te acuerdas, en las ejecuciones que decides mirar. El gate corre los criterios en cada cambio, siempre, lo estés mirando o no.

Código, o producto

Esta es la diferencia más grande, y es fácil pasarla por alto. Conductor opera sobre código: agentes, diffs, worktrees, merges. Es muy bueno moviendo código, y no pretende ser más, que es parte de por qué es tan limpio.

PaellaDoc opera sobre producto. La unidad no es un diff, es un artefacto de producto: un PRD, una épica, una user story, sus criterios de aceptación, cada uno un fichero .paella de verdad, versionado, portable y comparable. Puedes diffear tu spec de producto como Conductor diffea código, y comparar dos enfoques a nivel de intención, no solo de líneas cambiadas.

Y todo es extensible vía un SDK abierto: la comunidad crea y comparte packs de cuatro tipos: method packs para la propia metodología, stack packs para tu stack técnico, design packs para theming y design tokens, y validator packs para los gates que comprueban el trabajo. Nada de esto tiene equivalente en una herramienta que opera sobre diffs.

Así que la línea es esta. Conductor te hace más rápido produciendo código, y el producto es lo que te acuerdes de mantener coherente encima. PaellaDoc te hace construir el producto, con los agentes y el código por debajo.

No da por hecho que estás delante del Mac

Conductor es una app delante de la que te sientas: vigilas los agentes y revisas los diffs. PaellaDoc afloja las dos suposiciones.

Apúntalo a un repo que ya tienes y hace un reverse intake: lee el código existente y reconstruye el contexto de producto alrededor, así que no te quedas atado a greenfield. Y lo manejas desde Telegram: arrancas trabajo, miras un gate, apruebas un paso, desde el móvil, lejos de la máquina. Con el modo no-coder encima, son tres formas de llegar más allá de “un dev delante de un Mac”, que es justo para quien Conductor está hecho, y bien hecho.

Un repo, o todos

Conductor corre agentes dentro de un repo. Esa es la unidad: un repo, sus worktrees, sus diffs.

En la era de la IA no tienes un repo, tienes cien, repartidos por tu máquina, la mitad a medio terminar. PaellaDoc te los abre y te los ordena: todos los proyectos en un sitio, etiquetables, con su estado a la vista, los agentes, los gates, por dónde va cada uno. Es una sala de control de todos tus proyectos, no un lanzador dentro de uno.

Por qué esto importa más si no sabes leer código

Todo el flujo de Conductor gira en torno a leer el diff. Es el diseño correcto para un dev. Es el diseño equivocado para alguien que no sabe leer código.

Un no-coder no tiene diff que revisar, o más bien, el diff no le dice nada. Conductor no sirve a esa persona, porque su núcleo es la revisión humana. El modo no-coder de PaellaDoc está hecho justo para ella: el gate es la revisión que no puede hacer por sí misma.

Lo que compartimos, para que sea justo

Los dos son locales, en tu Mac. Los dos son agnósticos de modelo (Claude, Codex y más). Los dos usan tu propia suscripción en vez de cobrarte por token. Los dos aíslan el trabajo en worktrees de git. Si lo que quieres son agentes en paralelo con una UX de revisión limpia, Conductor lo hace bien, y es gratis, que es difícil de discutir.

Lado a lado

	Conductor	PaellaDoc
Local, en tu Mac	Sí	Sí
Agentes en paralelo en worktrees	Sí	Sí
Agnóstico de modelo, tu suscripción	Sí	Sí
Trabaja sobre	Código (diffs, merges)	Producto (PRD, US, AC como artefactos `.paella`)
Decide “hecho”	Revisas tú el diff	Gate de ejecución vs. criterios
Packs extensibles vía SDK abierto	No	Method, stack, design, validator packs
Reverse intake (reconstruir contexto de producto de un repo existente)	No	Sí
Manejarlo en remoto (Telegram)	No	Sí
Gestiona todos tus proyectos (centro de control, etiquetas)	No (por repo)	Sí
Para no-coders	No (diff-first)	Sí (modo no-coder)
Pulido, UX de revisión	Por delante	Más temprano

Para quién es cada uno

Si eres un dev que quiere correr varios agentes a la vez y revisar tú sus diffs, con una UX limpia y pulida, Conductor está hecho para eso, y es gratis. Difícil de mejorar en ese trabajo.

Si quieres que “hecho” lo decida ejecutar el código contra unos criterios en vez de tu ojo, o necesitas que alguien que no sabe programar saque un producto entero, ahí es donde PaellaDoc es distinto.

No es mejor, ni intenta ser Conductor. Conductor es una herramienta enfocada para correr agentes y revisar su código, gratis y bien hecha. PaellaDoc es el sistema alrededor del trabajo: el producto, el gate, los packs, todos tus repos, y la gente que no sabe leer un diff. Trabajos distintos, y uno de los dos sigue funcionando cuando no hay nadie que revise.