Zum Inhalt springen

Konzept

Verification Debt im KI-Coding

Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 5 Min.

Verification Debt ist die wachsende Lücke zwischen dem Tempo, in dem KI-Coding-Tools Code erzeugen, und der Fähigkeit eines Teams, diesen Code zuverlässig zu prüfen — Review, Abgleich mit dem Auftrag, Tests, Belege — bevor er gemergt wird. Wie technische Schulden verzinst sie sich: Jede ungeprüfte Änderung wird zum Fundament der nächsten.

Inhalt

Warum der Begriff gerade überall auftaucht

2025 war für die meisten Teams das Jahr, in dem KI-gestütztes Coding vom Experiment zum Alltag wurde. Generieren wurde billig — Prüfen nicht. Der Begriff „Verification Debt“ verbreitete sich in der Entwickler-Community und erreichte die Breite, als AWS-CTO Werner Vogels ihn im Dezember 2025 auf der AWS re:Invent verwendete (Bericht: ITPro). Etwa zeitgleich hat Sonars State-of-Code-Umfrage unter mehr als 1.100 Entwicklern die Lücke vermessen:

96 %

der Entwickler vertrauen nicht voll darauf, dass KI-generierter Code funktional korrekt ist.

Sonar, State of Code Survey

48 %

geben an, ihren KI-Code vor dem Commit immer zu prüfen — kaum die Hälfte.

Sonar, State of Code Survey

19 %

länger brauchten erfahrene Open-Source-Entwickler mit KI-Unterstützung in METRs randomisierter Studie — bei gefühlt höherem Tempo.

METR, RCT (2025)

Dieselbe Sonar-Studie: 38 % der Entwickler empfinden den Review von KI-generiertem Code als aufwendiger als den von Kollegen-Code, und 53 % haben erlebt, dass KI Code produziert, der korrekt aussieht, aber nicht zuverlässig ist. Diese Kombination — fast universelles Misstrauen, halbherzige Prüfung, steigender Review-Aufwand — ist Verification Debt beim Entstehen.

Was Verification Debt ist — und was nicht

Verification Debt ist ein Mengenproblem: Code fließt schneller in die Codebasis, als das Team ihn prüfen kann. Es ist keine Aussage über die Qualität von KI-Code. Selbst wenn neun von zehn generierten Änderungen richtig wären — ein Team, das nicht sagen kann, welche neun, trägt die Schuld für alle zehn.

Schema, keine Messdaten: Die Generierung steigt steil, die Prüfkapazität kaum — die wachsende Lücke ist Verification Debt.

Von technischen Schulden unterscheidet sie sich darin, wie sie sich zeigt. Technische Schulden erzeugen spürbare Reibung. Verification Debt erzeugt das Gegenteil: Alles sieht fertig aus. Sie erzeugt falsches Vertrauen statt sichtbarer Reibung — deshalb fällt sie erst auf, wenn sie teuer wird.

Verwandt, aber nicht identisch: Comprehension Debt— der O’Reilly-Begriff für Code, den niemand im Team mehr wirklich versteht. Comprehension Debt fragt „verstehen wir diesen Code?“; Verification Debt fragt „hat irgendjemand diese Änderung gegen das geprüft, was wir bauen wollten?“. Ein Team kann seine Codebasis verstehen und trotzdem täglich ungeprüft mergen.

Wie Verification Debt entsteht

Fünf Mechanismen richten den größten Schaden an:

  • Generierung überholt die Review-Kapazität. Ein Entwickler mit KI-Tool erzeugt mehr geänderte Zeilen pro Tag, als ein Senior kritisch auditieren kann.
  • Große Diffs verleiten zum Überfliegen. KI-Pull-Requests sind tendenziell groß und plausibel — genau die Art Änderung, die Menschen überfliegen statt prüfen.
  • Der Generator benotet die eigene Arbeit. Wenn dasselbe Modell den Code schreibt, die Tests schreibt und die Änderung zusammenfasst, gibt es im ganzen Kreislauf keine unabhängige Prüfung.
  • Der Auftrag fehlt beim Review. Reviewer sehen, was sich geändert hat — aber nicht die Grenzen, die die Änderung einhalten sollte. Die Frage „ist das überhaupt die richtige Änderung?“ wird nie gestellt.
  • Prüf-Belege gehören niemandem. Was getestet wurde, was übersprungen wurde, was unsicher blieb — das steht, wenn überhaupt, im Chat-Verlauf. Für den Reviewer unsichtbar, in einer Woche verschwunden.

Wie man Verification Debt im eigenen Team misst

Eine Standardmetrik gibt es noch nicht — ehrlich messen lässt sich heute nur richtungsweisend, mit Signalen, die jedes Team schon hat:

  • Generierungs-zu-Prüfungs-Verhältnis: gemergte geänderte Zeilen pro Woche vs. tatsächlich investierte Review-Zeit. Hat sich die Generierung verdoppelt, die Review-Zeit aber nicht, ist die Differenz Schuld.
  • Review-Tiefe im Trend: substanzielle Review-Kommentare pro 100 geänderte Zeilen. Fällt die Kurve, während das KI-Volumen steigt, werden Reviews dünner.
  • Quote ungeprüfter Merges: Anteil KI-gestützter Änderungen, die ohne menschlich verifizierte Test-Belege gemergt werden.
  • „Sah richtig aus, war es nicht“-Vorfälle: Defekte, die auf Änderungen zurückgehen, die den Review passiert haben. Sonar: 53 % der Entwickler kennen genau diesen Fehlermodus.
  • Nacharbeitsquote: wie oft KI-gestützte Änderungen binnen 30 Tagen revertiert, gehotfixt oder neu geschrieben werden.

Nichts davon braucht neues Tooling — eine Tabelle und eine ehrliche Retro pro Monat machen den Trend sichtbar.

Wie Teams Verification Debt abbauen

Teams, die das gut lösen, ändern nicht die Review-Härte, sondern das, was beim Review ankommt:

  • Auftrag vor dem Run definieren — Scope, betroffene Dateien und ein Validierungsplan, festgehalten bevor die KI etwas erzeugt. Dann gibt es etwas Konkretes, wogegen geprüft wird.
  • Diffs klein halten — eine prüfbare Änderung schlägt eine beeindruckende.
  • Generierung und Prüfung trennen — das Modell, das die Änderung geschrieben hat, darf nicht das Einzige sein, das sie geprüft hat.
  • Belege pro Änderung verlangen — was getestet wurde, was nicht, was offen ist: an der Änderung selbst, nicht im Chat-Verlauf.
  • Menschliches Freigabe-Gate behalten — kein Auto-Commit; ein Mensch übernimmt die Änderung, mit den Belegen vor Augen.
  • Lokal bleiben, wo Code sensibel ist — Prüfung darf nicht voraussetzen, dass Quellcode zu einem weiteren Cloud-Dienst hochgeladen wird.

Wo Reality Graph ansetzt

Reality Graph ist eine lokale Verifikationsschicht, die neben den KI-Coding-Tools arbeitet, die ein Team ohnehin nutzt — Claude Code, Cursor, GitHub Copilot und vergleichbare. Sie setzt die Praktiken oben als Workflow um: Auftragsgrenzen und Kontext vor dem Run, sichtbare Validierung und ein Prüfbericht danach, dazwischen ein menschliches Freigabe-Gate. Aktuell in privater Beta; Early Access ist für eine kleine Gruppe von Teams offen.

Was es macht

  • Auftrag, Scope und Validierungsplan vor dem KI-Run strukturieren
  • Quellcode bleibt in eurer Umgebung — lokal by design
  • Prüfbarer Bericht pro Run: Auftrag, Änderungen, Validierung, offene Punkte
  • Menschliches Freigabe-Gate — advisory by default, kein Auto-Commit

Was es nicht macht

  • Claude Code, Cursor oder Copilot ersetzen — es arbeitet daneben
  • Selbst Code schreiben oder committen
  • Benchmark-Zahlen oder garantierte Einsparungen behaupten — keine öffentlichen Claims ohne verlinkte Belege
  • Eure Reviewer, Tests oder CI ersetzen — es liefert ihnen besseren Input

FAQ

Was ist Verification Debt im KI-Coding?
Verification Debt (sinngemäß: Prüfschuld) ist die wachsende Lücke zwischen dem Tempo, in dem KI-Coding-Tools Code erzeugen, und der Fähigkeit eines Teams, diesen Code zuverlässig zu prüfen — Review, Abgleich mit dem ursprünglichen Auftrag, Tests, Belege — bevor er gemergt wird. Jede ungeprüft übernommene Änderung erhöht die Schuld.
Worin unterscheidet sich Verification Debt von technischen Schulden?
Technische Schulden machen sich bemerkbar: langsame Builds, verfilzte Module, gefürchtete Dateien. Verification Debt ist leiser — der Code sieht fertig aus und funktioniert oft, was falsches Vertrauen erzeugt. Die Kosten zeigen sich später, wenn ungeprüfte Änderungen zur Grundlage weiterer Änderungen werden und niemand mehr sagen kann, was eigentlich geprüft wurde.
Warum skaliert manueller Code Review nicht mit KI-Coding?
Weil die Generierung schneller geworden ist, der Review aber nicht. Ein einzelner Entwickler mit KI-Tool erzeugt mehr geänderte Zeilen pro Tag, als ein Senior kritisch auditieren kann — und große KI-Pull-Requests verleiten zum Überfliegen statt zum Prüfen. Mehr Reviewer helfen weniger, als das zu ändern, was beim Review ankommt: kleinere Diffs, expliziter Auftrag, Belege über das bereits Validierte.
Wie prüft man KI-generierten Code vor dem Merge?
Praktisch: den Auftrag und seine Grenzen vor dem Run festhalten, den Diff klein halten, die Änderung gegen den formulierten Auftrag prüfen (nicht nur isoliert auf Korrektheit), Validierung nutzen, die das generierende Modell nicht selbst geschrieben hat, und verlangen, dass jede Änderung mit Belegen ankommt — was getestet wurde, was nicht, was offen ist. Ein Mensch bleibt das letzte Gate.
Bedeutet Verification Debt, dass Teams weniger KI einsetzen sollten?
Nicht unbedingt. Es bedeutet, dass die Prüfkapazität mit dem Generierungstempo mitwachsen muss. Teams, die KI-Coding mit expliziten Auftragsgrenzen, unabhängiger Validierung und Belegen pro Änderung kombinieren, können schnell generieren und trotzdem wissen, was sie ausliefern. Die Schuld entsteht durch übersprungene Prüfung, nicht durch KI-Einsatz.
Woher stammt der Begriff Verification Debt?
Der Begriff ist 2025 in der Entwickler-Community entstanden, als KI-gestütztes Coding zum Alltag wurde. Breite Aufmerksamkeit bekam er, als AWS-CTO Werner Vogels ihn im Dezember 2025 auf der AWS re:Invent verwendete; Studien wie Sonars State-of-Code-Umfrage haben die Lücke, die er beschreibt, mit Zahlen unterlegt.

Weiterlesen

Quellen

Die Beta verfolgen – oder testen, sobald sie öffnet?

Early Access anfragen