Kleine Sprachmodelle im Praxistest – Teil 7
Gemma 4 und Qwen3.5
Wer lokale Sprachmodelle (LLMs) betreibt, weiß: Die Theorie der Benchmarks und die Realität auf der eigenen Hardware sind oft zwei völlig verschiedene Welten. In der neuesten Folge meiner Testreihe habe ich zwei aktuelle Schwergewichte gegeneinander antreten lassen: Die ganz neue Gemma 4-Familie (in den Varianten 31b, 26b-a4b und dem kleinen e4b-it) und zum Vergleich Qwen in der Version Qwen3.5-27b. Letzteres belegt aktuell den Top-Platz im Leaderboard von Artificial Analysis in der Kategorie "small": https://artificialanalysis.ai/leaderboards/models?size=small. Das Setup besteht wie in den vorangegangen Teilen aus einem Apple M2 Max mit 32 GB RAM, LM Studio und dem Editor Zed. Anders als in den letzten Teilen habe ich diesmal den Thinking-Mode zugelassen.
Ein Experiment im Experiment: Dieser Blog-Artikel wurde unter direkter Zuhilfenahme von Gemma 4 aus rohen Stichpunkten formuliert. Dabei kam es zu einem fast schon philosophischen Moment: Während ich den Text über die Performance von Gemma 4 editierte, „vergaß“ das Modell kurzzeitig seine eigene Existenz und tat so, als sei Gemma 2 die neueste Version. Ein kleiner Identitäts-Glitch am Rande, aber ein Highlight für die Authentizität.
Der Hardware-Flaschenhals: Wenn der VRAM knapp wird
Wer Modelle der 30b-Klasse auf einem Mac mit 32 GB Unified Memory nutzt, bewegt sich im Grenzbereich. Zwar wird bei Apple Silicon aus dem Unified Memory nach Bedarf der GPU VRAM zugewiesen, allerdings ist unter macOS hier standardmäßig vorgesehen, dass maximal zwei Drittel des RAM als VRAM genutzt werden. Bei Gemma-4-31b ist das extrem knapp. Es kam in meinen Tests vor, dass LM Studio abstürzte und dabei das ganze System einfror, wenn die Grenze von 21 GB erreicht wurde. Es handelt sich hier aber um kein hartes Limit. Man kann macOS per Kommandozeile gestatten, auch mehr VRAM zu nutzen. Da es sich, wie schon geschrieben, um Unified Memory handelt, gibt es hier keine wirkliche physikalische Grenze, sondern es wurde vielmehr sozusagen vorsichtshalber eine Schranke eingezogen, um zu verhindern, dass zu wenig "normales" RAM zur Verfügung steht. In unserem Fall ist das aber kontraproduktiv.
Mein Tipp für Macs mit 32 GB RAM
Um dem Modell mehr „Luft“ zu geben, muss man das iogpu.wired_limit manuell erhöhen. Mit diesem Terminal-Befehl erlaubt man der GPU, einen definierten Anteil des Arbeitsspeichers zu nutzen, was dann auch mehr als zwei Drittel sein kann. Mit z.B. 28 GB kommt man für Gemma-4-31b schon weiter, jedenfalls wenn das Kontext-Window nicht zu groß wird.
sudo sysctl iogpu.wired_limit_mb=28672
2. Speed-Check: Von Blitzschnell bis fast unbenutzbar
Die Performance-Unterschiede sind dramatisch und hängen stark von der Kontextlänge ab:
- Gemma-4-26b-a4b: Bei kurzem Kontext kann sie noch über 50 tok/s, bricht aber bei längeren Aufgaben auf 10 tok/s ein.
- Gemma-4-31b: Ein Schwergewicht. Kurzer bis mittlerer Kontext bringt ca. 8 tok/s, bei komplexen Aufgaben sinkt die Rate auf unter 3 tok/s – das ist im produktiven Einsatz kaum noch tragbar.
- Gemma-4-e4b-it (8 Bit): Mit ca. 40 tok/s (ohne Thinking-Mode) eine gute Wahl, wenn Akku, Zeit oder Speicher knapp sind.
- Qwen 3.5-27b: Bewegt sich konstant im langsamen Bereich. Wer den „Reasoning“-Modus aktiviert, braucht viel Geduld.
Interessanterweise „denken“ sowohl Gemma 4 als auch Qwen intern auf Englisch, unabhängig davon, in welcher Sprache die Frage gestellt wurde. Bei Magistral (dem Reasoning-Modell von Mistral aus dem letzten Herbst) ist das anders, dort denkt das Modell in der Sprache, in der die Anfrage gestellt wurde.
3. Ease of Use & Integration
Hier gewinnt Gemma. Gemma 4 funktioniert quasi Out-of-the-box. Die Anbindung an den Zed Editor über die lokale API von LM Studio läuft stabil.
Bei Qwen3.5-27b ist das Erlebnis mühsamer. Man ist zwingend darauf angewiesen, die Parameter (z. B. Repeat Penalty) exakt so zu setzen, wie sie auf der Modell-Seite für das jeweilige Szenario angegeben sind. Wer das ignoriert, riskiert, dass sich das Modell schon im „Thinking Mode“ in Endlosschleifen verrennt.
4. Coding-Performance
Im Coding-Test zeigte sich eine klare Hierarchie. Ich ließ die Modelle HTML5-Games (Breakout, Snake, Tic-Tac-Toe) erstellen und wiederholte die C++-Tests aus den vorangegangenen Teilen.
- Gemma 4 (alle Versionen): Lieferte fehlerfreie, „self-contained“ HTML-Dateien. Selbst das kleine e4b-it konnte in Breakout in einem zweiten Schritt noch Extras einbauen. Dabei kam es zwar dann doch zu Fehlern, die aber in späteren Iterationen ebenfalls mit Hilfe von Gemma 4 auch wieder behoben werden konnten.
- Gemma 4-31b ließ ich dann noch einen Sudoku-Generator erst als C++-Programm und dann als Webseite schreiben, was ebenfalls fehlerfrei im ersten Anlauf gelang. Die Geschwindigkeit lag dabei bei etwa 8 tok/s.
- Qwen3.5-27b: Lieferte bei Breakout einen Logikfehler: Bestimmte Bricks am rechten Rand waren unerreichbar, was einen Sieg unmöglich machte.
- Das Highlight: Das kleine Gemma-4-e4b-it konnte den Fehler in Qwens Code nicht nur finden, sondern korrekt vorrechnen, warum das Problem bestand (eine Spalte Blöcke zu viel). Da Rechnen für LLMs traditionell schwierig ist, war dies ein beeindruckender Moment.
Bei den C++-Aufgaben aus den vorherigen Teilen waren die großen Gemma-Modelle souverän; das kleine e4b-it war hier schwächer, konnte aber einfache Fehler (z. B. bei Tic-Tac-Toe gegen Computer) in einem zweiten Durchgang selbst korrigieren.
5. Wissen, Logik und die „Halluzinations-Falle“
Um die Modelle zu testen, wiederholte ich die Szenarien aus den vorherigen Teilen:
Der Wikipedia-Check (Richard von Weizsäcker)
Gemma-4-31b glänzte hier: Sie fand präzise Informationen (z. B. die Ermordung von Fritz von Weizsäcker) ohne Halluzinationen. Das ist sozusagen der klassische "Nadel-im-Heuhaufen"-Test, denn dass Fritz von Weizsäcker ermordet wurde, ergibt sich nur aus einem Quellenverweis, der sich ziemlich am Ende des Wikipedia-Artikels versteckt. Die meisten Modelle finden das nicht. Qwen (und auch das zum Vergleich herangezogene Reasoning-Modell Magistral aus dem letzten Herbst) scheiterten dagegen unerwarteterweise schon komplett an der Frage nach Richard von Weizsäckers Ehrenbürgerschaften.
Lokales Wissen & Geografie
- Frankfurt Nordend: Bei der schon in den vergangenen Teilen genutzten Frage nach Sehenswürdigkeiten im Frankfurter Nordend lieferte Gemma-4-31b die bisher beste Antwort aller getesteten Modelle. Von den 8 genannten Orten waren alle existent und weitgehend korrekt beschrieben. Auch wenn 3 Orte genannt wurden, die nicht direkt im Nordend sind (z.B. der Grüneburgpark), war die qualitative Beschreibung der Atmosphäre des Nordends gut gelungen.
- Furtwangen: Bei der Frage nach Sehenswürdigkeiten in Furtwangen im Schwarzwald zeigten sich Schwächen. Die 26b-Variante erfand ein „Robert-Musil-Haus“, die 31b-Variante behauptete fälschlicherweise, man könne von dort das Kinzigtal sehen. Beide verweisen jedoch korrekt auf das Deutsche Uhrenmuseum als Highlight. Qwen erfindet noch einen nicht existierenden Schlossberg hinzu.
- Die Heggesheim-Falle: Ich fragte nach Sehenswürdigkeiten in einer nicht existenten „Dr.-Heusinger-Siedlung in Frankfurt-Heggesheim“.
- Qwen 3.5 verrennt sich und erfindet zahlreiche Details über die Siedlung und den Dr. Heusinger, nach dem die Siedlung vermeintlich benannt wurde.
- Gemma 31b/26b schreiben, dass es sich um eine reine Wohnsiedlung handelt. Falls sie denn tatsächlich vorhanden wäre, könnte man das ja fast noch als zumindest plausibel durchgehen lassen...
- Gemma-4-e4b-it ist hier am ehrlichsten: Es erkennt, dass es die Information nicht hat, und verweist auf eine Websuche.
- Selbst das zum Vergleich herangezogene ChatGPT (mit Online-Suche) korrigierte den Ort lediglich stillschweigend nach Heddernheim, ohne die Existenz der Siedlung direkt zu hinterfragen.
Logik-Rätsel & Vision
Beim klassischen Logik-Rätsel („Linda liest ein Buch, Paul spielt Schach. Was macht Anna?“) scheiterte das kleine e4b-it. Im Vision-Test war Gemma-4-31b beeindruckend und ordnete beispielsweise ein Foto der Kirche in Winterswijk anhand des Architekturstils korrekt regional ein. Qwen hingegen verlor sich bereits in der Denkphase in einer Schleife.

Fazit: Benchmark-Gaming vs. Realität
Wenn man sich Online-Indices wie Artificial Analysis ansieht, schneidet Qwen oft gleich auf oder sogar besser als Gemma ab. Meine (zugegebenermaßen ein Stück weit subjektiven) Tests kommen zu einem anderen Ergebnis: Qwen ist spürbar schlechter. Es macht mehr Fehler beim Programmieren und halluziniert spürbar mehr.
Ich habe den Verdacht, dass die Qwen-Modelle gezielt auf Benchmarks optimiert wurden, die jedenfalls für meinen persönlichen realen Alltag leider nicht repräsentativ sind. Qwen wird bei mir aus der Auswahl fliegen.
Mein Ranking für den Mac:
- Gemma 4-31b: Mein neuer Favorit für Tiefe, Logik und Vision (wenn man den VRAM-Trick kennt).
- Gemma 4-26b-a4b: Eine gute Balance aus Geschwindigkeit und Intelligenz.
- Gemma 4-e4b-it: Überraschend stark für die Größe – ideal für schnelle Aufgaben, bei knappem Speicher oder Akkubetrieb.
- Mistral 3.2: Bleibt im Einsatz, vor allem wegen der guten Qualität bei der Generierung deutschsprachiger Texte.
Gemma 4 ist gegenüber dem bisherigen Stand eine deutliche Verbesserung für lokale Modelle auf Mac-Hardware!
-
← Previous
Luft im Schlauch zum Druckkopf (Canon)