Wie formuliert man Aufträge an KI-Coding-Tools, damit das Ergebnis prüfbar ist?

Den Prompt vor dem Run in vier Teile kompilieren: ein Zielsatz, explizite Grenzen (welche Dateien und welches Verhalten der Agent nicht anfassen darf), drei bis sieben Akzeptanzkriterien als Ja/Nein-Fragen und ein Validierungsplan, der benennt, welche Checks zählen. Der Prompt darf gesprächig bleiben – die Vorgabe ist das Artefakt, gegen das das Ergebnis verifiziert wird.

Was macht ein Akzeptanzkriterium „prüfbar“?

Es lässt sich ohne Diskussion mit Ja oder Nein beantworten. Praktisch heißt das: Adjektive durch Zahlen ersetzen („schnell“ wird zu „p95 unter 200 ms“), die Unglückspfade ausdrücklich benennen (leere Eingaben, Duplikate, fehlende Berechtigungen) und jedes Kriterium an beobachtbares Verhalten binden statt an Implementierungsdetails.

Muss es Given-When-Then sein?

Nein. Given-When-Then ist das strukturierteste Format und bildet direkt auf Tests ab – ein guter Default für verhaltenslastige Aufgaben. Eine schlichte Checkliste aus Ja/Nein-Kriterien ist genauso prüfbar und schneller geschrieben. Das Format ist Geschmackssache; entscheidbar sein muss jede Zeile.

Ist das nicht zu viel Aufwand für kleine Aufgaben?

Die Form skaliert nach unten. Ein Einzeiler-Fix braucht einen Einzeiler als Ziel, eine Grenze und ein Kriterium – dreißig Sekunden, kein Dokument. Faustregel: Die Vorgabe sollte kürzer sein als der Diff, den sie regiert. Ist sie es nicht, ist überspezifiziert oder die Aufgabe zu groß für einen Run.

Warum nicht einfach bessere Prompts schreiben?

Weil Prompts verschwinden und Vorgaben bleiben. Ein Prompt ist eine Anweisung an das Modell; eine Vorgabe ist die Referenz für alle nach dem Modell – den Verifikationsschritt, den Reviewer, die Revision und dich selbst in drei Monaten. Die Forschung zu Delegation Contracts für Coding-Agenten zeigt: Nachprüfbarkeit hängt genau an diesem persistenten Protokoll dessen, was beauftragt und erlaubt war.

Was passiert nach dem Run mit der Vorgabe?

Sie wird zum Input des Soll-Ist-Abgleichs: Der Diff wird Kriterium für Kriterium verglichen, Änderungen außerhalb der Grenzen werden als Befund sichtbar, und das Ergebnis wird bei der Änderung festgehalten. Ohne diesen Abgleich ist die Vorgabe Dokumentations-Theater – schreib sie, weil dagegen geprüft wird.

Methode

Prüfbare Vorgaben für KI-Agenten

Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 4 Min.

Eine prüfbare Vorgabe übersetzt einen Prompt in einen Auftrag, gegen den sich das Ergebnis verifizieren lässt: ein Ziel, explizite Grenzen, Akzeptanzkriterien als Ja/Nein-Fragen und ein Validierungsplan. Der Prompt instruiert das Modell; die Vorgabe überlebt ihn – als Referenz für Verifikation, Review und alle, die die Änderung später anfassen.

Inhalt

Warum ein Prompt keine Vorgabe ist

Akzeptanzkriterien wurden für Menschen erfunden. Eine Produktmanagerin schrieb sie, ein Entwickler interpretierte sie, eine Testerin prüfte das Ergebnis – und den Spielraum zwischen vager Formulierung und richtigem Verhalten haben Menschen absorbiert, die Rückfragen stellen konnten. Ein KI-Agent absorbiert keinen Spielraum: er baut ihn – wörtlich, selbstbewusst und ohne die Reibung einer Nachfrage.

Das zweite Problem ist die Haltbarkeit. Der Prompt, der die Absicht trug, ist zur Review-Zeit verschwunden – weshalb Reviewer von KI-Änderungen die Anforderungen aus dem Diff rekonstruieren. Die Forschung zu Delegation Contracts für Coding-Agenten fasst Nachprüfbarkeit in genau vier Fragen: Was war beauftragt, was durfte der Agent, was kam zurück, welche Belege stützen es. Die Vorgabe ist das Artefakt, das die ersten beiden Fragen vor dem Run beantwortet – und danach den Soll-Ist-Abgleich füttert.

Die vier Bausteine eines prüfbaren Auftrags

Ziel – ein Satz. Was nach dem Run wahr sein muss, das vorher nicht wahr war. Braucht das Ziel drei Sätze, sind es vermutlich zwei Aufgaben.
Grenzen – der Berechtigungsrahmen. Welche Dateien sich ändern dürfen, welche nicht, welches Verhalten tabu ist. Grenzen machen aus Scope Creep eine Feststellung statt einer Diskussion.
Akzeptanzkriterien – 3 bis 7 Ja/Nein-Fragen. Jede ohne Diskussion entscheidbar. Diesen Teil geht die Verifikation später Zeile für Zeile durch.
Validierungsplan – welche Checks zählen. Tests (idealerweise vor dem Run geschrieben), Typen, Lint, Build und jeder manuelle Check, der sich nicht automatisieren lässt – vorab benannt, damit „hat bestanden“ eine definierte Bedeutung hat.

Einen gesprächigen Prompt in diese Form zu kompilieren dauert Minuten und sieht so aus:

auftragskompilierung.md

Beispiel – keine echten Run-Daten

PROMPT (was man natürlich tippen würde)
"Die Rate-Limiting-Antworten verwirren die Clients, kannst du die
429er hilfreicher machen?"

KOMPILIERTE VORGABE (wogegen der Run verifiziert wird)
Ziel:      429-Antworten tragen einen korrekten Retry-After-Header
Grenzen:   nur api/middleware/* · Rate-Limit-Schwellen unverändert
Kriterien: [1] Retry-After bei jeder 429-Antwort vorhanden
           [2] Wert = Rest des Fensters in Sekunden (±1 s)
           [3] leere/fehlerhafte Client-IDs bekommen 429, nicht 500
           [4] 2xx- und übrige 4xx-Pfade byte-identisch zu vorher
Validierung: Unit-Tests (vorab geschrieben) · Typen · Lint · Build
             manuell: Header hinter dem CDN sichtbar (Staging)

Regeln, die Kriterien prüfbar machen

Adjektive durch Zahlen ersetzen. „Schnell“ wird zu „p95 unter 200 ms“; „hilfreiche Fehlermeldung“ wird zu „Meldung nennt Feld und Limit“. Ein Adjektiv ist eine Einladung an das Modell, selbst zu entscheiden, was gemeint war.
Unglückspfade benennen. Leere Eingaben, Duplikate, fehlende Berechtigungen, Timeouts. Bleiben sie ungenannt, erfindet der Agent seine eigene Policy – und seine selbstgeschriebenen Tests bestätigen genau diese Erfindung.
Kriterien an Verhalten binden, nicht an Implementierung. „Nutzt einen Token Bucket“ altert schlecht und verbietet bessere Lösungen; „erlaubt 100 Requests pro Minute pro Client“ ist die eigentliche Anforderung.
Das leichteste Format wählen, das entscheidbar bleibt. Given-When-Then bildet direkt auf Tests ab und passt zu verhaltenslastiger Arbeit; eine schlichte Checkliste ist schneller und genauso prüfbar. Format ist Geschmack – Entscheidbarkeit ist die Anforderung.

Grenzen und typische Fehler

Kleine Aufgaben überspezifizieren. Die Form skaliert auf drei Zeilen herunter. Eine Vorgabe, die länger ist als ihr Diff, ist ein Warnsignal – Aufgabe teilen oder Vorgabe kürzen.
Spezifizieren ohne Abgleichen. Eine Vorgabe, gegen die niemand prüft, ist Dokumentations-Theater. Der Abgleich danach ist der Grund, sie zu schreiben.
Vollständigkeit erwarten. Die Vorgabe verifiziert, woran gedacht wurde. Absicht vollständig zu formalisieren bleibt ein offenes Forschungsproblem – die Methode verkleinert die Lücke, sie schließt sie nicht.
Das Modell seine eigenen Kriterien schreiben lassen – ungelesen. Mit KI entwerfen ist fein; den Entwurf ungeprüft übernehmen stellt genau die Zirkularität wieder her, die die Vorgabe brechen soll.

Wo Reality Graph ansetzt

Bei Reality Graph ist diese Kompilierung die Eingangstür jedes Runs: Aufträge entstehen mit Ziel, Grenzen, Kriterien und Validierungsplan, der Run wird danach im Verifikations-Loop dagegen geprüft, und das Ergebnis landet in einem Prüfbericht. Die Methode funktioniert auch mit einer Textdatei – das Tool nimmt die Disziplin-Steuer heraus.

Eine prüfbare Vorgabe liefert

Ein persistentes Protokoll dessen, was beauftragt und erlaubt war
Kriterien, die eine Verifikation mechanisch abarbeiten kann
Unglückspfade, die du entschieden hast – nicht das Modell
Eine Referenz, die Prompt und Session überlebt

Sie leistet nicht

Garantie, dass die Absicht selbst vollständig oder klug war
Zwang zu Given-When-Then oder einem festen Format
Nutzen ohne den anschließenden Abgleich
Ersatz für Tests – sie definiert, welche Tests zählen

Wenn diese Grenzen zu eurem Team passen:

Early Access sichern So funktioniert es

FAQ

Wie formuliert man Aufträge an KI-Coding-Tools, damit das Ergebnis prüfbar ist?: Den Prompt vor dem Run in vier Teile kompilieren: ein Zielsatz, explizite Grenzen (welche Dateien und welches Verhalten der Agent nicht anfassen darf), drei bis sieben Akzeptanzkriterien als Ja/Nein-Fragen und ein Validierungsplan, der benennt, welche Checks zählen. Der Prompt darf gesprächig bleiben – die Vorgabe ist das Artefakt, gegen das das Ergebnis verifiziert wird.
Was macht ein Akzeptanzkriterium „prüfbar“?: Es lässt sich ohne Diskussion mit Ja oder Nein beantworten. Praktisch heißt das: Adjektive durch Zahlen ersetzen („schnell“ wird zu „p95 unter 200 ms“), die Unglückspfade ausdrücklich benennen (leere Eingaben, Duplikate, fehlende Berechtigungen) und jedes Kriterium an beobachtbares Verhalten binden statt an Implementierungsdetails.
Muss es Given-When-Then sein?: Nein. Given-When-Then ist das strukturierteste Format und bildet direkt auf Tests ab – ein guter Default für verhaltenslastige Aufgaben. Eine schlichte Checkliste aus Ja/Nein-Kriterien ist genauso prüfbar und schneller geschrieben. Das Format ist Geschmackssache; entscheidbar sein muss jede Zeile.
Ist das nicht zu viel Aufwand für kleine Aufgaben?: Die Form skaliert nach unten. Ein Einzeiler-Fix braucht einen Einzeiler als Ziel, eine Grenze und ein Kriterium – dreißig Sekunden, kein Dokument. Faustregel: Die Vorgabe sollte kürzer sein als der Diff, den sie regiert. Ist sie es nicht, ist überspezifiziert oder die Aufgabe zu groß für einen Run.
Warum nicht einfach bessere Prompts schreiben?: Weil Prompts verschwinden und Vorgaben bleiben. Ein Prompt ist eine Anweisung an das Modell; eine Vorgabe ist die Referenz für alle nach dem Modell – den Verifikationsschritt, den Reviewer, die Revision und dich selbst in drei Monaten. Die Forschung zu Delegation Contracts für Coding-Agenten zeigt: Nachprüfbarkeit hängt genau an diesem persistenten Protokoll dessen, was beauftragt und erlaubt war.
Was passiert nach dem Run mit der Vorgabe?: Sie wird zum Input des Soll-Ist-Abgleichs: Der Diff wird Kriterium für Kriterium verglichen, Änderungen außerhalb der Grenzen werden als Befund sichtbar, und das Ergebnis wird bei der Änderung festgehalten. Ohne diesen Abgleich ist die Vorgabe Dokumentations-Theater – schreib sie, weil dagegen geprüft wird.

Weiterlesen

MethodeVerification Debt messenVier Kennzahlen aus Git- und PR-Daten – Generierungs-zu-Prüfungs-Verhältnis, Review-Tiefe, Quote ungeprüfter Merges, 14-Tage-Churn – mit Formeln, Start-Schwellen und Rechenbeispiel.MethodeSpec-Driven DevelopmentErst Soll, dann Code: Wie SDD mit KI-Agenten funktioniert, was Spec Kit und Kiro wirklich leisten und welche ehrlichen Grenzen Praktiker berichten – und warum Specs trotzdem Verifikation brauchen.Alle ArtikelDie ganze Sammlung – 30 belegte, datierte Guides zur Prüfung von KI-generiertem Code.