Unser lokaler KI-Coding-Stack: Qwen3.6-35B auf vLLM — die echten Zahlen
21. Juni 2026 · jproxx
Unser Entwicklungsteam arbeitet mit einem Sprachmodell, das vollständig auf eigener Hardware läuft — im eigenen Netz, ohne externe Schnittstelle. Wir nutzen es als Programmier-Assistenten: zum Schreiben, Erklären und Überarbeiten von Quellcode. Dieser Beitrag beschreibt den Aufbau und zeigt echte Messwerte aus dem laufenden Betrieb.
Warum lokal
Drei Gründe sprechen für den Eigenbetrieb. Erstens bleibt der Quellcode im eigenen Netz — nichts wird an einen externen Dienst gesendet. Zweitens setzen wir auf ein Modell mit offenen Gewichten, das wir selbst betreiben, prüfen und versionieren können, statt auf eine Schnittstelle, die pro Anfrage abrechnet und sich jederzeit ändern kann. Drittens sind die Kosten planbar: eigene Hardware statt nutzungsbasierter Abrechnung.
Der Stack
Wir betreiben Qwen3.6-35B-A3B in der speichersparenden FP8-Variante — ein Mixture-of-Experts-Modell, von dessen 35 Milliarden Parametern pro Anfrage nur etwa 3 Milliarden aktiv sind. Das liefert die Qualität eines großen Modells bei der Geschwindigkeit und dem Energiebedarf eines deutlich kleineren und macht den Betrieb auf einem einzelnen GPU-Server wirtschaftlich.
Ausgeliefert wird das Modell über vLLM, einen quelloffenen Inferenz-Server. Drei Bausteine sorgen für flüssiges Arbeiten:
- 256.000 Tokens Kontextfenster — groß genug, um ganze Quelltext-Dateien oder Spezifikationen am Stück zu verarbeiten.
- Speculative Decoding mit einem schlanken Draft-Modell (Methode „DFlash”): Ein kleines Modell schlägt mehrere Tokens auf einmal vor, das große Modell bestätigt sie in einem Schritt — das spart Rechenschritte.
- Prefix-Caching: Wiederkehrende Teile einer Anfrage werden aus dem Zwischenspeicher bedient statt neu berechnet.
Die Zahlen aus dem Betrieb
Echte Messwerte aus dem vLLM-Server, eine zusammenhängende Sitzung. Die Akzeptanz fällt über die Draft-Positionen erwartungsgemäß ab — genau daraus ergibt sich der Geschwindigkeitsgewinn.
Drei Beobachtungen aus einer zusammenhängenden Arbeitssitzung:
- Durchsatz rund 30 Tokens pro Sekunde für eine laufende Anfrage — schneller, als ein Mensch mitlesen kann, und damit komfortabel für interaktives Arbeiten.
- Über 93 Prozent Prefix-Cache-Trefferquote: Wiederkehrende Eingabe-Tokens kommen aus dem Zwischenspeicher statt aus einer Neuberechnung.
- Rund 2,5 bestätigte Tokens je Modellschritt durch Speculative Decoding; die Akzeptanz fällt über die Draft-Positionen ab (0,64 / 0,47 / 0,37) — genau dieser Effekt erzeugt den Geschwindigkeitsgewinn.
Dabei lag die Auslastung des GPU-Speicher-Caches durchgehend bei nur 2 bis 7 Prozent — es bleibt also reichlich Reserve, um mehrere Anfragen parallel zu bedienen. Auf einem einzelnen GPU-Server reicht das für einen vollständig interaktiven Programmier-Assistenten, ohne dass dafür Daten das eigene Netz verlassen.