Methode
Der Zwei-Phasen-Review-Workflow
Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 4 Min.
Der Zwei-Phasen-Review-Workflow teilt das Review in eine Maschinen- und eine Menschen-Phase: automatisierte Verifikation pro Änderung zuerst – Typen, Tests, Grenzen, Soll-Abgleich, erzwungen in der CI –, dann menschliches Review auf dem vorgeprüften Diff, fokussiert auf Architektur und Business-Logik. Maschinen übernehmen die entscheidbaren Fragen; Menschen behalten das Urteil und die Merge-Entscheidung.
Inhalt
Warum eine Phase nicht mehr funktioniert
Review war eine einzige Tätigkeit, weil eine Person beide Jobs tragen konnte: Korrektheit prüfen und Qualität beurteilen. KI-Volumen hat diese Jobs auseinandergerissen: Telemetrie über 10.000+ Entwickler zeigt bei KI-intensiven Teams ~98 % mehr gemergte PRs bei +91 % Review-Zeit, und laut Sonar empfinden 38 % das Review von KI-Code als aufwendiger. Wenn dieselben knappen Minuten Stil-Nits, Typfehler, Scope-Checks und Architektur-Urteil tragen müssen, verdrängt die mechanische Arbeit das Urteil – also genau den Teil, für den Menschen gebraucht wurden.
JetBrains’ Engineering-Blog formuliert den Fix unverblümt: maschinell fangbare Fehler gar nicht erst ins menschliche Review schicken. Der Zwei-Phasen-Workflow ist dieses Prinzip, systematisiert.
Phase 1: die maschinelle Vorprüfung
Phase 1 läuft bei jedem Push, als Required Status Check – nichts erreicht einen Menschen, das hier durchfällt:
- Deterministische Gates. Formatierung, Lint, Typen, Build und die Testsuite – inklusive vor dem Run geschriebener Tests, damit das generierende Modell nicht seinen eigenen Richter verfasst hat.
- Grenzprüfung. Der Diff gegen die deklarierten Auftragsgrenzen – Dateien und Verhalten, die sich nicht ändern dürfen. Änderungen außerhalb lassen die Phase scheitern.
- Soll-Abgleich. Der Soll-Ist-Abgleich gegen die Akzeptanzkriterien des Auftrags, mit festgehaltenem Ergebnis.
- Optional: KI-Pre-Review als Hypothesenfilter. Ein KI-Reviewer markiert wahrscheinliche Probleme im Diff. Cloudflares Orchestrierung zeigt, dass das im großen Maßstab trägt – als Screening-Schicht, deren Output Menschen bewerten, nie als Verdikt.
Phase 2: das menschliche Review, aufgewertet
Der Reviewer bekommt den Diff plus die Phase-1-Ergebnisse: was geprüft wurde, was bestand, was übersprungen wurde. Der Job wandelt sich vom Absichts-Rekonstruieren zum Urteilen – ist das der richtige Ansatz, passt es zur Architektur, sollte es das überhaupt geben. Die saubere Aufteilung:
| Aspekt | Phase 1 – Maschine | Phase 2 – Mensch |
|---|---|---|
| Formatierung, Lint, Typen, Build | Erzwungenes Gate | Sieht es nie |
| Testergebnisse (inkl. vorab geschriebener Tests) | Erzwungenes Gate | Liest die Zusammenfassung |
| Scope vs. deklarierte Grenzen | Erzwungenes Gate | Beurteilt die Absicht erlaubter Änderungen |
| Akzeptanzkriterien (Soll-Abgleich) | Geprüft + festgehalten | Stichprobe auf dem Protokoll |
| Bug-Hypothesen (KI-Review) | Screent + filtert | Entscheidet über Markiertes |
| Architektur & System-Passung | — | Kernjob |
| Business-Logik-Plausibilität | — | Kernjob |
| Merge-Entscheidung | Nie | Immer – mit Belegen vor Augen |
Grenzen und typische Fehler
- Alibi-Automatisierung. Ein grünes Phase-1-Badge ist ein Input für das Review, kein Ersatz. Werden Freigaben reflexhaft, ist der Workflow leise gescheitert.
- Lautes Pre-Review. Ein KI-Reviewer, der ständig Alarm schlägt, trainiert das Team, Phase 1 komplett zu ignorieren. Auf Präzision statt Vollständigkeit tunen; die Autorität tragen die deterministischen Gates.
- Keine schriftliche Absicht. Ohne Auftragsvorgabe schrumpft Phase 1 auf Stil und Tests – echter Wert, aber die stärksten Prüfungen (Grenzen, Kriterien) brauchen ein schriftliches Soll.
- Phase 1 als optional behandeln. Eine Vorprüfung, die sich unter Termindruck überspringen lässt, wird übersprungen – Required Status Checks gibt es aus gutem Grund.
Wo Reality Graph ansetzt
Reality Graph ist eine strukturierte Phase 1 mit Auftragsbezug: Grenzen und Akzeptanzkriterien vor dem Run definiert, der Diff danach dagegen geprüft, Validierung, die das Modell nicht verfasst hat, und ein Prüfbericht als Übergabe-Artefakt in Phase 2 – das fehlende Stück zwischen generischen CI-Checks und dem menschlichen Reviewer, eingebettet in den Verifikations-Loop.
Der Zwei-Phasen-Workflow liefert
- Menschliche Review-Minuten für Urteil statt Mechanik
- Ein konsistentes Maschinen-Gate auf jeder einzelnen Änderung
- Reviewer, die vorgeprüfte Diffs mit Belegen lesen
- Skalierung: Phase 1 wächst mit der CI, nicht mit Headcount
Er leistet nicht
- Ersatz der menschlichen Merge-Entscheidung – nie
- Wirkung als Alibi – grüne Badges sind Inputs, keine Verdikte
- Volle Stärke ohne schriftliche Auftragsabsicht
- Bindung an einen bestimmten KI-Reviewer oder Anbieter
Wenn diese Grenzen zu eurem Team passen:
FAQ
- Wie sieht ein effizienter Review-Workflow für KI-Code aus?
- Zwei Phasen mit verschiedenen Jobs: Phase eins ist maschinelle Verifikation pro Änderung – Formatierung, Typen, Tests, Grenz- und Soll-Prüfung, optional ein KI-Pre-Review als Hypothesenfilter – erzwungen als Required Status Check. Phase zwei ist menschliches Review auf dem vorgeprüften Diff, fokussiert auf Architektur, Business-Logik und die Fragen, die keine Checkliste stellen kann. Die Merge-Entscheidung trifft immer ein Mensch.
- Was gehört in die Maschinen-Phase, was bleibt menschlich?
- Alles Entscheidbare gehört der Maschine: Stil, Typen, Testergebnisse, Scope gegen deklarierte Grenzen, Kriterien aus der Auftragsvorgabe. Alles Urteilende bleibt menschlich: Ist das der richtige Ansatz, passt es ins System, ist die Absicht selbst sinnvoll. Die Trennlinie ist Entscheidbarkeit, nicht Schwierigkeit.
- Ist ein KI-Reviewer dasselbe wie eine maschinelle Vorprüfung?
- Er ist eine Zutat, nicht die Phase selbst. Ein KI-Reviewer erzeugt Hypothesen über Probleme – nützlich, um mechanisches Rauschen zu räumen, aber er weiß nicht, was die Änderung leisten sollte. Ihre Autorität bezieht die Vorprüfung aus deterministischen Gates (Tests, Typen, Grenzen, Soll-Abgleich); der KI-Reviewer ergänzt Breite, gefiltert über eine menschlich gesetzte Signalschwelle.
- Bremst ein Pflicht-Pre-Check das Mergen nicht aus?
- Er verlagert Warten von Menschen auf Maschinen. Die Vorprüfung läuft in CI-Minuten bei jedem Push; der menschliche Reviewer – die knappe Ressource – bekommt Änderungen, die die mechanische Ebene schon bestanden haben. Cloudflares Engineering-Team beschreibt genau diese Ökonomie im großen Maßstab: orchestriertes automatisches Review, damit menschliche Aufmerksamkeit dort landet, wo sie das Ergebnis ändert.
- Woran scheitert dieser Workflow am häufigsten?
- An Alibi-Automatisierung: Die Vorprüfung existiert, also lesen Menschen nicht mehr – oder die Vorprüfung ist so laut, dass alle lernen, sie zu ignorieren. Beides sind Kalibrierungsfehler. Das Phase-1-Signal muss präzise bleiben (JetBrains' Rat gilt: IDE-fangbare Fehler gar nicht erst ins Review schicken), und Phase 2 muss echtes Review bleiben statt Stempel auf grünem Häkchen.
- Braucht es dafür eine Auftragsvorgabe?
- Der Workflow verbessert Review auch ohne – aber seine stärkste Prüfung, der Abgleich gegen deklarierte Absicht und Grenzen, braucht einen schriftlichen Auftrag. Fünf Minuten Vorgabe pro Run machen den Unterschied zwischen „die Tests sind grün“ und „das ist nachweislich die beauftragte Änderung“.
Weiterlesen
Quellen
- Cloudflare Engineering – Orchestrating AI code review at scale (2026, englisch)
- JetBrains – Stop sending IDE-catchable AI code errors to review (2026, englisch)
- Augment Code – KI-Code-Review in der CI/CD-Pipeline aufsetzen (2026, englisch)
- Faros-AI-Telemetrie (10.000+ Entwickler): ~98 % mehr gemergte PRs, Review-Zeit +91 % (2026, englisch)
- Sonar – State of Code Developer Survey: 38 % empfinden KI-Code-Review als aufwendiger (2026, englisch)