Zum Inhalt springen

Local-first

Lokales LLM fürs Code-Review

Zuletzt aktualisiert: 2026-07-02Lesezeit ca. 4 Min.

Lokales LLM-Code-Review ist ab etwa 8 GB VRAM machbar und wird bei 24 GB ernsthaft – dort laufen quantisierte 32B-Klasse-Coder-Modelle (Stand: Juli 2026). Der ehrliche Tausch: Spitzen-Einsicht gegen eine harte Datengrenze – kein Code verlässt die Maschine. Was das kleinere Modell über seine Klasse hebt, ist Struktur: ein schriftlicher Auftrag als Review-Referenz plus die deterministische Schicht, die offline nichts verliert.

Inhalt

Warum Teams das überhaupt tun

Die Motivation ist die Datengrenze, nicht der Benchmark. Ein lokales Modell heißt: Der Review-Schritt fügt eurer Jurisdiktions-Analyse keinen Anbieter hinzu, keinen Eintrag in der Übertragungspfad-Karte und keine Kosten pro Anfrage, die mit dem KI-Volumen skalieren. Die BSI/ANSSI-Grundlinie – generierten Output prüfen – gilt identisch; lokales Review ist ein Weg, diese Prüfung dort zu fahren, wo der Code nicht reisen darf.

Die Hardware-Stufen, ehrlich beschriftet

StufeTypische HardwareModell-KlasseWelches Review sie trägt
Einstieg8–12 GB VRAM (RTX 3060/4060) oder 16 GB Apple Silicon7–8B-Coder (z. B. Qwen 2.5 Coder 7B, Q4)Fokussiertes Diff-Review, Zusammenfassungen, Offensichtliche-Bugs-Durchgänge
Mitte16 GB VRAM oder 32 GB Unified Memory14B-Klasse (Q4)Solides Einzeldatei- und Klein-Diff-Review mit klaren Aufträgen
Ernsthaft24 GB VRAM (RTX 3090/4090) oder 48 GB+ Unified32B-Klasse (z. B. Qwen3 32B, Q4)Eine echte zweite Meinung zu typischen PRs; Multi-File in Kontextgrenzen
Team-Server48 GB+ VRAM oder Multi-GPU32–70B-Klasse, größerer KontextGemeinsamer Review-Endpoint für die Pre-Commit-Hooks eines Teams
Lokale Code-Review-Hardware-Stufen, Stand Juli 2026 – Modell-Empfehlungen altern quartalsweise (beim Setup ein aktuelles Leaderboard prüfen); die Sizing-Logik ist stabil: größtes Coder-Modell, das euer VRAM bei Q4 mit brauchbarem Tempo fährt.

Zwei Setup-Notizen, die Enttäuschung sparen: Q4-quantisierte Modelle sind der Arbeitsstandard (etwa ein Viertel des FP16-Speichers bei geringem Qualitätsverlust), und Ollama bringt ein Modell in Minuten hinter eine OpenAI-kompatible API – die Laufzeitumgebung ist seit Jahren gelöst; euer Tag geht in den Workflow darum herum. Aktuelle Modell-Empfehlungen pro Stufe pflegen Community-VRAM-Guides.

Was ein kleines Modell über seine Klasse hebt

  1. Ein schriftlicher Auftrag als Referenz. Die schwerste Review-Frage – was sollte diese Änderung tun? – beantwortet der Auftrag, statt dass das Modell rät. Umfangs- und Kriterien-Checks sind genau die fokussierte Arbeit, die kleinere Modelle gut können.
  2. Die deterministische Schicht zuerst. Typen, Tests, Linter, Build – null Qualitätsverlust offline, null VRAM. Das Modell sieht nur, was sie überlebt hat.
  3. Kleine, fokussierte Diffs. Lokale Kontextfenster sind die bindende Grenze; Review pro Änderung statt pro Branch, und die Grenze bindet meist nicht mehr.

So gerahmt ist das Modell die Glasur: Referenz und deterministische Checks tragen die Qualitätslast, das LLM legt urteilsförmige Befunde obendrauf. Deshalb zählt der ehrliche Vergleich mit Frontier-Modellen – die bei Langkontext und Architektur-Reasoning klar vorn bleiben – in diesem Setup weniger, als rohe Benchmarks nahelegen.

Die ehrlichen Grenzen

Ein lokales 32B-Modell ist kein Frontier-Modell: Multi-File-Reasoning in der Tiefe, subtile übergreifende Implikationen und seltene Stacks sprechen für die großen Cloud-Modelle, und kein Quantisierungs-Trick ändert das (Stand: Juli 2026). Auch der Durchsatz ist real – ein gemeinsamer Team-Server braucht Dimensionierung, und ein Laptop-Setup reviewt eine Änderung nach der anderen. Die Entscheidungsregel aus dem Guide zur lokalen KI-Code-Prüfung gilt: lokal, wo die Datengrenze bindet, stärkere Modelle, wo nicht – pro Repository, nicht aus Ideologie.

Wo Reality Graph ansetzt

Reality Graph ist die Struktur-Seite dieser Seite: local-first by design liefert es den schriftlichen Auftrag, die Änderung-gegen-Auftrag-Verifikation und den Prüfbericht, die ein bescheidenes lokales Modell weit nützlicher machen als seine Größe – und der ganze Loop bleibt in eurer Umgebung, passend zum Grund, warum ihr lokal gewählt habt. Es liefert kein LLM mit und verlangt kein bestimmtes Modell; es macht verifizierbar, was auch immer ihr fahrt.

Dieser Guide gibt euch

  • Vier Hardware-Stufen mit ehrlichen Fähigkeits-Labels
  • Die Struktur, die kleine Modelle über ihre Klasse hebt
  • Einen Setup-Pfad, der bei Consumer-Hardware beginnt
  • Die Entscheidungsregel: lokal, wo die Grenze bindet

Er gibt euch nicht

  • Frontier-Qualität aus einem 7B – die Lücke ist real
  • Zeitlose Modell-Empfehlungen – beim Setup ein Leaderboard prüfen
  • Ein Datenschutz-Urteil – lokal hilft, Hygiene gilt trotzdem
  • Einen Grund, deterministische Checks zu überspringen – sie tragen die Grundlast

Wenn diese Grenzen zu eurem Team passen:

FAQ

Kann man Code-Prüfung mit einem lokalen LLM betreiben – und welche Hardware braucht man?
Ja, auf drei realistischen Stufen (Stand Juli 2026): 8–12 GB VRAM fahren 7–8B-Coder-Modelle – brauchbar für fokussiertes Review auf Diff-Ebene; 16 GB fahren die 14B-Klasse komfortabel; 24 GB (RTX-3090/4090-Territorium) fahren quantisierte 32B-Klasse-Modelle wie Qwen3 32B – dort fühlt sich lokales Review nach einer ernsthaften zweiten Meinung an. Unter 8 GB ist das ehrliche Setup: deterministische Checks plus ein sehr kleines Modell für Zusammenfassungen. Nur-RAM funktioniert, ist aber so langsam, dass es die Nutzung verändert.
Welche Modelle lohnen sich fürs lokale Code-Review?
Die Qwen-Coder-Familie war 2026 die konsistente Empfehlung über alle Größen in Community-Tests – Qwen 2.5 Coder 7B auf der Einstiegsstufe, die Qwen3-Generation bei 14B und 32B darüber. Der praktische Rat altert absichtlich schnell: Prüft in der Setup-Woche ein aktuelles Leaderboard, denn die Bestes-lokales-Modell-Antwort hat sich etwa quartalsweise geändert. Was sich nicht ändert, ist die Sizing-Logik: das größte Coder-Modell, das euer VRAM bei Q4-Quantisierung mit brauchbarem Tempo fährt.
Wie schwer ist das Setup wirklich?
Die Laufzeitumgebung ist der leichte Teil: Ollama (oder llama.cpp direkt) serviert ein quantisiertes Modell mit OpenAI-kompatibler API in Minuten, und die meisten Tools mit konfigurierbarem Endpoint können darauf zeigen. Die echte Arbeit ist der Workflow darum herum – entscheiden, was das Modell reviewt, die Anbindung an Pre-Commit oder CI, und Prompts samt Kontextgrößen in dem halten, was ein lokales Modell gut verkraftet. Plant einen Tag für eine nützliche Pipeline, keine Stunde.
Wie viel schlechter ist ein lokales Modell als ein Frontier-Modell, ehrlich?
Merklich, und die Lücke hängt an der Aufgabe. Bei fokussiertem Diff-Review mit klaren Anweisungen fängt ein lokales 32B-Coder-Modell einen soliden Anteil dessen, was zählt. Bei Langkontext-Reasoning über viele Dateien, subtilen Architektur-Implikationen und exotischen Stacks bleiben Frontier-Modelle klar vorn (Stand Juli 2026). Die ehrliche Rahmung: Lokales Review tauscht Spitzen-Einsicht gegen eine harte Datengrenze – ein Tausch, der richtig ist, wo der Code nicht reisen darf, und falsch, wo er darf.
Was trägt die Qualitätslast, wenn das Modell kleiner ist?
Struktur. Ein kleineres Modell, das gegen einen schriftlichen Auftrag mit Grenzen und Akzeptanzkriterien reviewt, schlägt seine Gewichtsklasse – weil der schwerste Teil, nämlich zu wissen, was die Änderung tun sollte, ihm übergeben statt von ihm geraten wird. Dazu die deterministische Schicht (Typen, Tests, Linter, Build), die offline null Qualität verliert – und das lokale Setup deckt mehr ab, als seine Benchmark-Werte nahelegen. Das Modell ist die Glasur; Referenz und deterministische Checks sind der Kuchen.
Wann ist lokales LLM-Review die falsche Wahl?
Wenn euch nichts von stärkeren Optionen abhält: Erlauben eure Richtlinien Cloud-Verarbeitung für den fraglichen Code, fängt ein Frontier-Modell oder ein guter Cloud-Reviewer pro Run mehr. Lokales Review verdient seinen Platz, wo die Datengrenze die Randbedingung ist – Kundencode, regulierte Repositories, Air-Gapped-Umgebungen – oder als immer verfügbare Basisschicht ohne Kosten pro Anfrage. Es aus Ideologie statt aus Randbedingungen zu wählen endet meist in stiller Nichtnutzung.

Weiterlesen

Quellen

Die Beta verfolgen – oder testen, sobald sie öffnet?

Early Access anfragen