Wie sieht ein effizienter Review-Workflow für KI-Code aus?

Zwei Phasen mit verschiedenen Jobs: Phase eins ist maschinelle Verifikation pro Änderung – Formatierung, Typen, Tests, Grenz- und Soll-Prüfung, optional ein KI-Pre-Review als Hypothesenfilter – erzwungen als Required Status Check. Phase zwei ist menschliches Review auf dem vorgeprüften Diff, fokussiert auf Architektur, Business-Logik und die Fragen, die keine Checkliste stellen kann. Die Merge-Entscheidung trifft immer ein Mensch.

Was gehört in die Maschinen-Phase, was bleibt menschlich?

Alles Entscheidbare gehört der Maschine: Stil, Typen, Testergebnisse, Scope gegen deklarierte Grenzen, Kriterien aus der Auftragsvorgabe. Alles Urteilende bleibt menschlich: Ist das der richtige Ansatz, passt es ins System, ist die Absicht selbst sinnvoll. Die Trennlinie ist Entscheidbarkeit, nicht Schwierigkeit.

Ist ein KI-Reviewer dasselbe wie eine maschinelle Vorprüfung?

Er ist eine Zutat, nicht die Phase selbst. Ein KI-Reviewer erzeugt Hypothesen über Probleme – nützlich, um mechanisches Rauschen zu räumen, aber er weiß nicht, was die Änderung leisten sollte. Ihre Autorität bezieht die Vorprüfung aus deterministischen Gates (Tests, Typen, Grenzen, Soll-Abgleich); der KI-Reviewer ergänzt Breite, gefiltert über eine menschlich gesetzte Signalschwelle.

Bremst ein Pflicht-Pre-Check das Mergen nicht aus?

Er verlagert Warten von Menschen auf Maschinen. Die Vorprüfung läuft in CI-Minuten bei jedem Push; der menschliche Reviewer – die knappe Ressource – bekommt Änderungen, die die mechanische Ebene schon bestanden haben. Cloudflares Engineering-Team beschreibt genau diese Ökonomie im großen Maßstab: orchestriertes automatisches Review, damit menschliche Aufmerksamkeit dort landet, wo sie das Ergebnis ändert.

Woran scheitert dieser Workflow am häufigsten?

An Alibi-Automatisierung: Die Vorprüfung existiert, also lesen Menschen nicht mehr – oder die Vorprüfung ist so laut, dass alle lernen, sie zu ignorieren. Beides sind Kalibrierungsfehler. Das Phase-1-Signal muss präzise bleiben (JetBrains' Rat gilt: IDE-fangbare Fehler gar nicht erst ins Review schicken), und Phase 2 muss echtes Review bleiben statt Stempel auf grünem Häkchen.

Braucht es dafür eine Auftragsvorgabe?

Der Workflow verbessert Review auch ohne – aber seine stärkste Prüfung, der Abgleich gegen deklarierte Absicht und Grenzen, braucht einen schriftlichen Auftrag. Fünf Minuten Vorgabe pro Run machen den Unterschied zwischen „die Tests sind grün“ und „das ist nachweislich die beauftragte Änderung“.

Methode

Der Zwei-Phasen-Review-Workflow

Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 4 Min.

Der Zwei-Phasen-Review-Workflow teilt das Review in eine Maschinen- und eine Menschen-Phase: automatisierte Verifikation pro Änderung zuerst – Typen, Tests, Grenzen, Soll-Abgleich, erzwungen in der CI –, dann menschliches Review auf dem vorgeprüften Diff, fokussiert auf Architektur und Business-Logik. Maschinen übernehmen die entscheidbaren Fragen; Menschen behalten das Urteil und die Merge-Entscheidung.

Inhalt

Warum eine Phase nicht mehr funktioniert

Review war eine einzige Tätigkeit, weil eine Person beide Jobs tragen konnte: Korrektheit prüfen und Qualität beurteilen. KI-Volumen hat diese Jobs auseinandergerissen: Telemetrie über 10.000+ Entwickler zeigt bei KI-intensiven Teams ~98 % mehr gemergte PRs bei +91 % Review-Zeit, und laut Sonar empfinden 38 % das Review von KI-Code als aufwendiger. Wenn dieselben knappen Minuten Stil-Nits, Typfehler, Scope-Checks und Architektur-Urteil tragen müssen, verdrängt die mechanische Arbeit das Urteil – also genau den Teil, für den Menschen gebraucht wurden.

JetBrains’ Engineering-Blog formuliert den Fix unverblümt: maschinell fangbare Fehler gar nicht erst ins menschliche Review schicken. Der Zwei-Phasen-Workflow ist dieses Prinzip, systematisiert.

Phase 1: die maschinelle Vorprüfung

Phase 1 läuft bei jedem Push, als Required Status Check – nichts erreicht einen Menschen, das hier durchfällt:

Deterministische Gates. Formatierung, Lint, Typen, Build und die Testsuite – inklusive vor dem Run geschriebener Tests, damit das generierende Modell nicht seinen eigenen Richter verfasst hat.
Grenzprüfung. Der Diff gegen die deklarierten Auftragsgrenzen – Dateien und Verhalten, die sich nicht ändern dürfen. Änderungen außerhalb lassen die Phase scheitern.
Soll-Abgleich. Der Soll-Ist-Abgleich gegen die Akzeptanzkriterien des Auftrags, mit festgehaltenem Ergebnis.
Optional: KI-Pre-Review als Hypothesenfilter. Ein KI-Reviewer markiert wahrscheinliche Probleme im Diff. Cloudflares Orchestrierung zeigt, dass das im großen Maßstab trägt – als Screening-Schicht, deren Output Menschen bewerten, nie als Verdikt.

Phase 2: das menschliche Review, aufgewertet

Der Reviewer bekommt den Diff plus die Phase-1-Ergebnisse: was geprüft wurde, was bestand, was übersprungen wurde. Der Job wandelt sich vom Absichts-Rekonstruieren zum Urteilen – ist das der richtige Ansatz, passt es zur Architektur, sollte es das überhaupt geben. Die saubere Aufteilung:

Aspekt	Phase 1 – Maschine	Phase 2 – Mensch
Formatierung, Lint, Typen, Build	Erzwungenes Gate	Sieht es nie
Testergebnisse (inkl. vorab geschriebener Tests)	Erzwungenes Gate	Liest die Zusammenfassung
Scope vs. deklarierte Grenzen	Erzwungenes Gate	Beurteilt die Absicht erlaubter Änderungen
Akzeptanzkriterien (Soll-Abgleich)	Geprüft + festgehalten	Stichprobe auf dem Protokoll
Bug-Hypothesen (KI-Review)	Screent + filtert	Entscheidet über Markiertes
Architektur & System-Passung	—	Kernjob
Business-Logik-Plausibilität	—	Kernjob
Merge-Entscheidung	Nie	Immer – mit Belegen vor Augen

Was in die Maschinen-Phase gehört und was menschlich bleibt: Die Trennlinie ist Entscheidbarkeit – alles Ja/Nein-Beantwortbare geht in Phase 1, alles Urteilende bleibt in Phase 2.

Grenzen und typische Fehler

Alibi-Automatisierung. Ein grünes Phase-1-Badge ist ein Input für das Review, kein Ersatz. Werden Freigaben reflexhaft, ist der Workflow leise gescheitert.
Lautes Pre-Review. Ein KI-Reviewer, der ständig Alarm schlägt, trainiert das Team, Phase 1 komplett zu ignorieren. Auf Präzision statt Vollständigkeit tunen; die Autorität tragen die deterministischen Gates.
Keine schriftliche Absicht. Ohne Auftragsvorgabe schrumpft Phase 1 auf Stil und Tests – echter Wert, aber die stärksten Prüfungen (Grenzen, Kriterien) brauchen ein schriftliches Soll.
Phase 1 als optional behandeln. Eine Vorprüfung, die sich unter Termindruck überspringen lässt, wird übersprungen – Required Status Checks gibt es aus gutem Grund.

Wo Reality Graph ansetzt

Reality Graph ist eine strukturierte Phase 1 mit Auftragsbezug: Grenzen und Akzeptanzkriterien vor dem Run definiert, der Diff danach dagegen geprüft, Validierung, die das Modell nicht verfasst hat, und ein Prüfbericht als Übergabe-Artefakt in Phase 2 – das fehlende Stück zwischen generischen CI-Checks und dem menschlichen Reviewer, eingebettet in den Verifikations-Loop.

Der Zwei-Phasen-Workflow liefert

Menschliche Review-Minuten für Urteil statt Mechanik
Ein konsistentes Maschinen-Gate auf jeder einzelnen Änderung
Reviewer, die vorgeprüfte Diffs mit Belegen lesen
Skalierung: Phase 1 wächst mit der CI, nicht mit Headcount

Er leistet nicht

Ersatz der menschlichen Merge-Entscheidung – nie
Wirkung als Alibi – grüne Badges sind Inputs, keine Verdikte
Volle Stärke ohne schriftliche Auftragsabsicht
Bindung an einen bestimmten KI-Reviewer oder Anbieter

Wenn diese Grenzen zu eurem Team passen:

Early Access sichern So funktioniert es

FAQ

Wie sieht ein effizienter Review-Workflow für KI-Code aus?: Zwei Phasen mit verschiedenen Jobs: Phase eins ist maschinelle Verifikation pro Änderung – Formatierung, Typen, Tests, Grenz- und Soll-Prüfung, optional ein KI-Pre-Review als Hypothesenfilter – erzwungen als Required Status Check. Phase zwei ist menschliches Review auf dem vorgeprüften Diff, fokussiert auf Architektur, Business-Logik und die Fragen, die keine Checkliste stellen kann. Die Merge-Entscheidung trifft immer ein Mensch.
Was gehört in die Maschinen-Phase, was bleibt menschlich?: Alles Entscheidbare gehört der Maschine: Stil, Typen, Testergebnisse, Scope gegen deklarierte Grenzen, Kriterien aus der Auftragsvorgabe. Alles Urteilende bleibt menschlich: Ist das der richtige Ansatz, passt es ins System, ist die Absicht selbst sinnvoll. Die Trennlinie ist Entscheidbarkeit, nicht Schwierigkeit.
Ist ein KI-Reviewer dasselbe wie eine maschinelle Vorprüfung?: Er ist eine Zutat, nicht die Phase selbst. Ein KI-Reviewer erzeugt Hypothesen über Probleme – nützlich, um mechanisches Rauschen zu räumen, aber er weiß nicht, was die Änderung leisten sollte. Ihre Autorität bezieht die Vorprüfung aus deterministischen Gates (Tests, Typen, Grenzen, Soll-Abgleich); der KI-Reviewer ergänzt Breite, gefiltert über eine menschlich gesetzte Signalschwelle.
Bremst ein Pflicht-Pre-Check das Mergen nicht aus?: Er verlagert Warten von Menschen auf Maschinen. Die Vorprüfung läuft in CI-Minuten bei jedem Push; der menschliche Reviewer – die knappe Ressource – bekommt Änderungen, die die mechanische Ebene schon bestanden haben. Cloudflares Engineering-Team beschreibt genau diese Ökonomie im großen Maßstab: orchestriertes automatisches Review, damit menschliche Aufmerksamkeit dort landet, wo sie das Ergebnis ändert.
Woran scheitert dieser Workflow am häufigsten?: An Alibi-Automatisierung: Die Vorprüfung existiert, also lesen Menschen nicht mehr – oder die Vorprüfung ist so laut, dass alle lernen, sie zu ignorieren. Beides sind Kalibrierungsfehler. Das Phase-1-Signal muss präzise bleiben (JetBrains' Rat gilt: IDE-fangbare Fehler gar nicht erst ins Review schicken), und Phase 2 muss echtes Review bleiben statt Stempel auf grünem Häkchen.
Braucht es dafür eine Auftragsvorgabe?: Der Workflow verbessert Review auch ohne – aber seine stärkste Prüfung, der Abgleich gegen deklarierte Absicht und Grenzen, braucht einen schriftlichen Auftrag. Fünf Minuten Vorgabe pro Run machen den Unterschied zwischen „die Tests sind grün“ und „das ist nachweislich die beauftragte Änderung“.

Weiterlesen

MethodeKI-Session-ÜbergabeSessions vergessen – Kompaktierung verwirft Details, neue Sessions starten kalt. Stand, Entscheidungen und offene Prüfpunkte in ein persistentes Übergabe-Artefakt schreiben: Methode, Vorlage, Grenzen.KonzeptDie Verification Gap96 % misstrauen KI-Code, nur 48 % prüfen ihn immer: alle Kernzahlen hinter der Verification Gap aus Sonars Umfrage 2026 – belegt, tabelliert, eingeordnet.Alle ArtikelDie ganze Sammlung – 30 belegte, datierte Guides zur Prüfung von KI-generiertem Code.