Was ist Spec-Driven Development und wie funktioniert es mit KI-Agenten?

Spec-Driven Development (SDD) ist eine Methodik, bei der eine schriftliche Spezifikation – Anforderungen, Designentscheidungen, Aufgabenzerlegung – entsteht und abgestimmt wird, bevor ein KI-Agent Code erzeugt; die Spezifikation bleibt während der Umsetzung die verbindliche Referenz. Tools wie GitHub Spec Kit und AWS Kiro gießen das in explizite Phasen, sodass der Agent einen abgestimmten Plan ausführt, statt aus einem Prompt zu improvisieren.

Was unterscheidet SDD von prüfbaren Auftrags-Vorgaben?

Gleiche Philosophie, andere Gewichtsklasse. Eine prüfbare Vorgabe ist ein leichtes Pro-Run-Artefakt – Ziel, Grenzen, Kriterien – in Minuten geschrieben. SDD formalisiert den ganzen Feature-Lebenszyklus mit mehrstufigen Dokumenten und Tooling. Beim Bugfix gewinnt die leichte Form; beim Greenfield-Feature über viele Runs zahlt sich die SDD-Struktur aus.

Ersetzt Spec-Driven Development Tests?

Nein. Die Spezifikation definiert, was gelten muss; Tests sind ein Weg, es zu prüfen. SDD-Tools erzeugen Aufgabenlisten, die üblicherweise Tests einschließen – aber eine Spezifikation, gegen die niemand validiert, bleibt ein Plan und kein Nachweis. Der Verifikationsschritt ist eigene Arbeit, egal welches Tool die Spezifikation geschrieben hat.

Lohnt sich SDD für kleine Teams?

Selektiv. Die dokumentierten Erfolge liegen bei größeren Features und Greenfield-Arbeit – AWS berichtet Fälle, in denen 40-Stunden-Features mit unter 8 Stunden menschlicher Zeit landeten, wenn sie spec-first entstanden. Bei kleinen Fixes berichten Praktiker durchgängig, dass der Overhead den Nutzen übersteigt; selbst das Fowler-Team nennt die Methode für einen kleinen Bug „viel zu wortreich“. Die Zeremonie an die Aufgabengröße anpassen.

Was sind die Hauptkritikpunkte an SDD?

Drei kehren in Praxisberichten wieder: Der Dokumenten-Overhead erdrückt kleine Aufgaben, Agenten folgen ihren eigenen Spezifikationen nicht zuverlässig („der Agent hat am Ende nicht alle Anweisungen befolgt“), und mehrere Markdown-Dateien zu reviewen kann mehr Arbeit sein als der Code selbst. Keiner dieser Punkte erledigt die Idee – sie sprechen für richtiges Dosieren und für eine Verifikation unabhängig von der Spec-Pipeline.

Welches SDD-Tool sollten wir zuerst ausprobieren?

Für den Community-Standard: GitHub Spec Kit – Open Source, arbeitet neben 30+ Agenten inklusive Claude Code und Cursor. Für die integrierte IDE-Erfahrung: AWS Kiro mit dem Requirements-Design-Tasks-Fluss. Wer vor allem verifizierbare Einzel-Runs braucht statt Feature-Planung: mit leichten prüfbaren Vorgaben starten und dort in SDD hineinwachsen, wo die Aufgabengröße es rechtfertigt.

Methode

Spec-Driven Development

Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 4 Min.

Spec-Driven Development (SDD) schreibt die Spezifikation zuerst – Anforderungen, Design, Aufgabenzerlegung – und lässt KI-Agenten dagegen implementieren, mit der Spezifikation als lebender Referenz. Es ist die strukturierte Antwort auf das Drift-Problem des Vibe Codings, getragen von Tools wie GitHub Spec Kit und AWS Kiro – am stärksten bei großen Features, am schwersten bei kleinen Fixes.

Inhalt

Woher SDD kommt

SDD entstand 2025 als direkte Gegenbewegung zum Prompt-und-Hoffnung-Coding: Agenten erzeugen plausiblen Code, der von der Absicht wegdriftet, APIs erfindet und mit wachsendem Projekt zerfällt. Der vorgeschlagene Fix ist altmodisch und radikal zugleich – vor der Generierung eine schriftliche Spezifikation abstimmen und sie während der Umsetzung verbindlich halten. 2026 liefert jedes große Tool-Ökosystem eine SDD-Variante; GitHubs Spec Kit allein hat die 90.000-Sterne-Marke überschritten und unterstützt 30+ Coding-Agenten.

Die Bewegung bestätigt, was diese Seite von der Verifikationsseite her argumentiert: Das fehlende Artefakt im KI-Coding ist die schriftliche Absicht. SDD baut dieses Artefakt auf Feature-Ebene; prüfbare Vorgaben bauen es auf Run-Ebene. In der Mitte treffen sich die Philosophien.

Wie der Workflow konkret aussieht

Requirements. Was das Feature leisten muss, als User Stories mit Akzeptanzkriterien – in Kiros Fluss die erste von drei Gate-Phasen, im Spec Kit der /specify-Schritt.
Design. Architekturentscheidungen, Datenmodelle, Schnittstellen – abgestimmt, bevor Code existiert, damit der Agent Entscheidungen erbt statt sie still zu treffen.
Tasks. Das Design in kleine, geordnete, einzeln reviewbare Arbeitspakete zerlegt – die Einheit, die ein Agent ausführt.
Implementierung gegen die Spezifikation. Der Agent codiert Task für Task; Menschen reviewen gegen die abgestimmten Dokumente, statt Absicht aus Diffs zu rekonstruieren.

Wo die Methode passt, ist der berichtete Nutzen erheblich: GitHub beschreibt interne Teams mit rund einer Größenordnung weniger „von vorn generieren“-Zyklen, und AWS dokumentiert Kundenfälle, in denen 40-Stunden-Features mit unter 8 Stunden menschlicher Zeit landeten, wenn sie spec-first entstanden.

Das Tooling, ehrlich verglichen

	GitHub Spec Kit	AWS Kiro	Leichte Pro-Run-Vorgabe
Form	Open-Source-CLI + Templates, agent-agnostisch (30+ Agenten).	Agentische IDE mit Gate-Fluss Requirements → Design → Tasks.	Wenige Zeilen pro Run: Ziel, Grenzen, Kriterien.
Am stärksten bei	Feature-Arbeit über gemischte Toolchains; Community-Momentum.	Geführter, integrierter Fluss – das klarste mentale Modell der drei.	Bugfixes und Einzel-Run-Aufgaben; null Setup.
Am schwächsten bei	Kleinen Fixes – die Zeremonie erdrückt die Änderung.	Wortfülle: Praktiker nennen es „viel zu verbos für einen kleinen Bug“.	Mehr-Run-Features – kein Design-Gedächtnis zwischen Runs.
Verifikations-Story	Die Spezifikation definiert den Plan; das Ergebnis dagegen zu prüfen bleibt eure Arbeit.	Ebenso – die Phasen gaten die Planung, nicht die Prüfung nach dem Run.	Fließt direkt in den Soll-Ist-Abgleich.

Spec Kit, Kiro und leichte Pro-Run-Vorgaben lösen dasselbe Problem in verschiedenen Gewichtsklassen – die richtige Wahl hängt an der Aufgabengröße, nicht an der Ideologie.

Ehrliche Grenzen – von Leuten, die es benutzt haben

Agenten gehorchen ihren eigenen Spezifikationen nicht zuverlässig. Die Fowler-Team-Analyse hält fest: Trotz aller Templates und Checklisten „hat der Agent am Ende nicht alle Anweisungen befolgt“ – ein geschriebener Plan ist kein erzwungener Plan.
Dokumenten-Review kann Code-Review übersteigen. Mehrere Praktiker berichten, sie würden lieber den Code reviewen als drei Markdown-Dateien darüber. SDD verlagert Aufwand nach vorn; es beseitigt ihn nicht.
Spezifikationen altern. Eine ungepflegte Spezifikation wird zu selbstbewusst falscher Dokumentation – schlimmer als keine, weil sie verbindlich aussieht.
SDD plant vorwärts; es prüft nicht rückwärts. Der Workflow gated, was gebaut wird – aber die Frage „entspricht der gemergte Code wirklich der Spezifikation?“ braucht weiterhin einen unabhängigen Soll-Ist-Abgleich – gerade wegen des ersten Punkts oben.

Wo Reality Graph ansetzt

SDD und Reality Graph greifen dieselbe Lücke von entgegengesetzten Enden an: SDD macht die Absicht vor der Generierung explizit, Reality Graph verifiziert das Ergebnis danach gegen die Absicht – mit Grenzprüfung, Validierung, die das Modell nicht verfasst hat, und einem Prüfbericht pro Run. Teams mit Spec Kit oder Kiro bringen exzellente Solls mit; die Verifikation schließt die Schleife, die diese Tools offen lassen.

SDD liefert

Abgestimmte Anforderungen und Design vor der Generierung
Größenordnung weniger Von-vorn-Zyklen (GitHubs interne Berichte)
Reviewbare Arbeitspakete statt monolithischer Diffs
Eine gemeinsame Referenz für Menschen und Agenten

Es leistet nicht

Gehorsam der Agenten – Runs brauchen weiterhin Verifikation
Nutzen bei kleinen Fixes – Zeremonie richtig dosieren
Selbstpflege – Spezifikationen altern ohne Betreuung
Ersatz für Tests, Review oder ein menschliches Merge-Gate

Wenn diese Grenzen zu eurem Team passen:

Early Access sichern So funktioniert es

FAQ

Was ist Spec-Driven Development und wie funktioniert es mit KI-Agenten?: Spec-Driven Development (SDD) ist eine Methodik, bei der eine schriftliche Spezifikation – Anforderungen, Designentscheidungen, Aufgabenzerlegung – entsteht und abgestimmt wird, bevor ein KI-Agent Code erzeugt; die Spezifikation bleibt während der Umsetzung die verbindliche Referenz. Tools wie GitHub Spec Kit und AWS Kiro gießen das in explizite Phasen, sodass der Agent einen abgestimmten Plan ausführt, statt aus einem Prompt zu improvisieren.
Was unterscheidet SDD von prüfbaren Auftrags-Vorgaben?: Gleiche Philosophie, andere Gewichtsklasse. Eine prüfbare Vorgabe ist ein leichtes Pro-Run-Artefakt – Ziel, Grenzen, Kriterien – in Minuten geschrieben. SDD formalisiert den ganzen Feature-Lebenszyklus mit mehrstufigen Dokumenten und Tooling. Beim Bugfix gewinnt die leichte Form; beim Greenfield-Feature über viele Runs zahlt sich die SDD-Struktur aus.
Ersetzt Spec-Driven Development Tests?: Nein. Die Spezifikation definiert, was gelten muss; Tests sind ein Weg, es zu prüfen. SDD-Tools erzeugen Aufgabenlisten, die üblicherweise Tests einschließen – aber eine Spezifikation, gegen die niemand validiert, bleibt ein Plan und kein Nachweis. Der Verifikationsschritt ist eigene Arbeit, egal welches Tool die Spezifikation geschrieben hat.
Lohnt sich SDD für kleine Teams?: Selektiv. Die dokumentierten Erfolge liegen bei größeren Features und Greenfield-Arbeit – AWS berichtet Fälle, in denen 40-Stunden-Features mit unter 8 Stunden menschlicher Zeit landeten, wenn sie spec-first entstanden. Bei kleinen Fixes berichten Praktiker durchgängig, dass der Overhead den Nutzen übersteigt; selbst das Fowler-Team nennt die Methode für einen kleinen Bug „viel zu wortreich“. Die Zeremonie an die Aufgabengröße anpassen.
Was sind die Hauptkritikpunkte an SDD?: Drei kehren in Praxisberichten wieder: Der Dokumenten-Overhead erdrückt kleine Aufgaben, Agenten folgen ihren eigenen Spezifikationen nicht zuverlässig („der Agent hat am Ende nicht alle Anweisungen befolgt“), und mehrere Markdown-Dateien zu reviewen kann mehr Arbeit sein als der Code selbst. Keiner dieser Punkte erledigt die Idee – sie sprechen für richtiges Dosieren und für eine Verifikation unabhängig von der Spec-Pipeline.
Welches SDD-Tool sollten wir zuerst ausprobieren?: Für den Community-Standard: GitHub Spec Kit – Open Source, arbeitet neben 30+ Agenten inklusive Claude Code und Cursor. Für die integrierte IDE-Erfahrung: AWS Kiro mit dem Requirements-Design-Tasks-Fluss. Wer vor allem verifizierbare Einzel-Runs braucht statt Feature-Planung: mit leichten prüfbaren Vorgaben starten und dort in SDD hineinwachsen, wo die Aufgabengröße es rechtfertigt.

Weiterlesen

MethodeZwei-Phasen-ReviewMaschinelle Vorprüfung zuerst, menschliches Architektur-Review danach: Was in welche Phase gehört, wie das Maschinen-Gate präzise bleibt – und warum der Merge immer menschlich entschieden wird.MethodeKI-Session-ÜbergabeSessions vergessen – Kompaktierung verwirft Details, neue Sessions starten kalt. Stand, Entscheidungen und offene Prüfpunkte in ein persistentes Übergabe-Artefakt schreiben: Methode, Vorlage, Grenzen.Alle ArtikelDie ganze Sammlung – 30 belegte, datierte Guides zur Prüfung von KI-generiertem Code.