Kleine Sprachmodelle im Praxistest – Teil 8

Update: Erste Eindrücke zu Qwen 3.6

Nachdem ich im letzten Teil meiner Testreihe ein eher ernüchterndes Fazit zu den Qwen-Modellen gezogen hatte, gibt es eine neue Entwicklung: Qwen 3.6 ist veröffentlicht worden. Da ich die Diskrepanz zwischen den hohen Benchmark-Scores und meinem praktischen Empfinden immer noch rätselhaft finde, habe ich mich entschieden, die neue Version ebenfalls durch den Wolf zu drehen.

Performance und Modellvarianten: Wo steht Qwen wirklich?

In meinen Tests kamen vor allem zwei Varianten zum Einsatz: die 35b-a3b und die 27b. Hier zeigt sich ein interessanter Gegensatz zwischen Geschwindigkeit und Qualität:

Die 35b-a3b Variante liefert mit über 20 tok/s eine solide Performance, obwohl das Modell in meinem Setup nur teilweise auf der GPU läuft. Man muss dies jedoch relativieren: Während 20 tok/s absolut okay sind, wirkt die Variante im direkten Vergleich zur Gemma-4-26b überraschend langsam.

Die 27b Version hingegen ist qualitativ die bessere Wahl, allerdings um den Preis einer deutlich geringeren Geschwindigkeit. Hier kommt es teils zu sehr langen Denkphasen (Reasoning), was den Workflow spürbar ausbremst. Ein positiver Punkt für beide: Die Denkphase sieht subjektiv deutlich aufgeräumter und strukturierter aus als in den älteren Versionen.

Die Gemma-Alternative: Speed vs. Thinking

Parallel dazu habe ich ein Experiment mit gemma-4-26b-a4 instruct mlx gewagt – und zwar ganz bewusst ohne Thinking-Mode. Das Ergebnis ist extrem spannend: Die Qualität der Antworten sinkt nur geringfügig im Vergleich zur Thinking-Variante (GGUF), aber die Geschwindigkeit ist spürbar höher. Für den produktiven Einsatz, bei dem man nicht auf jede einzelne „Denkpause“ warten möchte, scheint dies ein hervorragender Trade-off zu sein.

Coding: Das „Show-off“-Phänomen vs. C++ Realität

Beim Programmieren liefert Qwen 3.6 Ergebnisse, die einen fast an eine optische Täuschung glauben lassen – je nachdem, welche Sprache man wählt.

Im Web-Bereich (HTML/JavaScript/CSS) glänzt das Modell regelrecht: Die Implementierungen sind nicht nur funktional, sondern fast schon extravagant. Vier Gewinnt wurde mit Animationen und verschiedenen Schwierigkeitsstufen geliefert; Breakout kam sogar mit Explosionseffekten daher. Auch ein Versuch mit Pacman war ganz cool und funktionierte grundsätzlich (auch wenn das Spieltempo viel zu hoch eingestellt war). Man fragt sich hier: Ist das echte Intelligenz oder eine Art „Show-off“, um in modernen Coding-Benchmarks, die oft auf Web-Technologien basieren, zu glänzen?

Der Absturz erfolgt jedoch bei C++: Sobald ich den Bereich des Web-Codings verlasse und mich in Richtung C++ bewege, sinkt das Niveau massiv. Besonders bei modernen Standards wie C++23 oder spezifischen Features wie mdspan zeigt sich das Modell überfordert. Der Gipfel der Halluzination war die Erfindung eines std::union. Wer C++ kennt, weiß: Es gibt zwar das Keyword union, aber ein std::union im Standard-Namespace existiert schlichtweg nicht.

Hier wird deutlich: Während Qwen 3.6 in Web-Apps beeindruckt, bleibt Gemma 4-31b in der anspruchsvollen C++ Programmierung weiterhin deutlich überlegen. Es drängt sich die Vermutung auf, dass Gemma 4 auf einem neueren Trainingsstand ist, da es die aktuellen C++23 Features wesentlich präziser und korrekter beherrscht.

Logik und Textverständnis: Alte Baustellen

Trotz des Versionssprungs scheinen die grundlegenden Schwachpunkte aus Version 3.5 weiterhin zu existieren. In einem Test mit der „Inge-Wenzel-Story“ waren die Ergebnisse erneut enttäuschend. Es zeigen sich merkwürdige Inkonsistenzen die auf ein mangelndes Sprachgefühl oder Logikfehler hindeuten. Es ist zwar vielleicht nicht ganz so schlimm wie bei der 3.5, aber es ist auch nicht wirklich besser. Hier ein kleiner Auszug:

1974 war sie hier gewesen. Mit ihm. Mit den Worten: „Wir kommen wieder, wenn wir Zeit haben.“ Sie hatten nie Zeit. Stattdessen hatte sie Karriere gemacht, eine Wohnung gemietet, ein Leben gebaut, das sicher, aber kalt war. Jetzt, mit sechseinhalb Jahren, mit einem Herzen, das leise klopfte wie ein Vogel im Käfig, und mit dem Wissen, dass Zeit keine Garantie, sondern ein Geschenk ist, war sie zurück. Nicht für ihn. Für sich.

(Hervorhebung in fett durch den Autor.)

Integration in den Zed Editor

Auch bei der Tool-Integration gibt es Licht und Schatten:

Als Agent: In der rechten Seitenleiste von Zed funktioniert die Interaktion mit Qwen 3.6 absolut okay.
Im Editor: Beim direkten Arbeiten im Code-Fenster setzt das Modell die Beginn- und Ende-Marker für Code-Blöcke falsch, was das effiziente Einfügen von Code-Snippets erschwert.

Fazit

Qwen 3.6 ist ein faszinierendes, aber widersprüchliches Modell. Die Geschwindigkeit der a3b-Variante ist akzeptabel, und die Web-Coding-Ergebnisse sind optisch beeindruckend. Doch sobald man tiefer in die Softwareentwicklung (C++23) oder in komplexe logische Textaufgaben eintaucht, bröckelt die Fassade.

Die Tendenz aus dem letzten Teil bleibt daher bestehen: Für anspruchsvolle Logik und präzises C++-Coding ist Gemma 4 mein Favorit. Besonders die MLX-Variante der 26b-Version ohne Thinking-Mode bietet derzeit ein extrem attraktives Verhältnis aus Tempo und Intelligenz. Qwen 3.6 hingegen scheint ein Spezialist für „beeindruckende erste Ergebnisse“ im Web-Bereich zu sein, lässt aber bei der Tiefe und Korrektheit in anderen Disziplinen noch zu wünschen übrig.

← Previous
Kleine Sprachmodelle im Praxistest – Teil 7