Spontan, wild und Kuchen!

Kleine Sprachmodelle im Praxistest – Teil 7

Gemma 4 und Qwen3.5

Wer lokale Sprachmodelle (LLMs) betreibt, weiß: Die Theorie der Benchmarks und die Realität auf der eigenen Hardware sind oft zwei völlig verschiedene Welten. In der neuesten Folge meiner Testreihe habe ich zwei aktuelle Schwergewichte gegeneinander antreten lassen: Die ganz neue Gemma 4-Familie (in den Varianten 31b, 26b-a4b und dem kleinen e4b-it) und zum Vergleich Qwen in der Version Qwen3.5-27b. Letzteres belegt aktuell den Top-Platz im Leaderboard von Artificial Analysis in der Kategorie "small": https://artificialanalysis.ai/leaderboards/models?size=small. Das Setup besteht wie in den vorangegangen Teilen aus einem Apple M2 Max mit 32 GB RAM, LM Studio und dem Editor Zed. Anders als in den letzten Teilen habe ich diesmal den Thinking-Mode zugelassen.

Ein Experiment im Experiment: Dieser Blog-Artikel wurde unter direkter Zuhilfenahme von Gemma 4 aus rohen Stichpunkten formuliert. Dabei kam es zu einem fast schon philosophischen Moment: Während ich den Text über die Performance von Gemma 4 editierte, „vergaß“ das Modell kurzzeitig seine eigene Existenz und tat so, als sei Gemma 2 die neueste Version. Ein kleiner Identitäts-Glitch am Rande, aber ein Highlight für die Authentizität.

Der Hardware-Flaschenhals: Wenn der VRAM knapp wird

Wer Modelle der 30b-Klasse auf einem Mac mit 32 GB Unified Memory nutzt, bewegt sich im Grenzbereich. Zwar wird bei Apple Silicon aus dem Unified Memory nach Bedarf der GPU VRAM zugewiesen, allerdings ist unter macOS hier standardmäßig vorgesehen, dass maximal zwei Drittel des RAM als VRAM genutzt werden. Bei Gemma-4-31b ist das extrem knapp. Es kam in meinen Tests vor, dass LM Studio abstürzte und dabei das ganze System einfror, wenn die Grenze von 21 GB erreicht wurde. Es handelt sich hier aber um kein hartes Limit. Man kann macOS per Kommandozeile gestatten, auch mehr VRAM zu nutzen. Da es sich, wie schon geschrieben, um Unified Memory handelt, gibt es hier keine wirkliche physikalische Grenze, sondern es wurde vielmehr sozusagen vorsichtshalber eine Schranke eingezogen, um zu verhindern, dass zu wenig "normales" RAM zur Verfügung steht. In unserem Fall ist das aber kontraproduktiv.

Mein Tipp für Macs mit 32 GB RAM Um dem Modell mehr „Luft“ zu geben, muss man das iogpu.wired_limit manuell erhöhen. Mit diesem Terminal-Befehl erlaubt man der GPU, einen definierten Anteil des Arbeitsspeichers zu nutzen, was dann auch mehr als zwei Drittel sein kann. Mit z.B. 28 GB kommt man für Gemma-4-31b schon weiter, jedenfalls wenn das Kontext-Window nicht zu groß wird.

sudo sysctl iogpu.wired_limit_mb=28672

2. Speed-Check: Von Blitzschnell bis fast unbenutzbar

Die Performance-Unterschiede sind dramatisch und hängen stark von der Kontextlänge ab:

Interessanterweise „denken“ sowohl Gemma 4 als auch Qwen intern auf Englisch, unabhängig davon, in welcher Sprache die Frage gestellt wurde. Bei Magistral (dem Reasoning-Modell von Mistral aus dem letzten Herbst) ist das anders, dort denkt das Modell in der Sprache, in der die Anfrage gestellt wurde.

3. Ease of Use & Integration

Hier gewinnt Gemma. Gemma 4 funktioniert quasi Out-of-the-box. Die Anbindung an den Zed Editor über die lokale API von LM Studio läuft stabil.

Bei Qwen3.5-27b ist das Erlebnis mühsamer. Man ist zwingend darauf angewiesen, die Parameter (z. B. Repeat Penalty) exakt so zu setzen, wie sie auf der Modell-Seite für das jeweilige Szenario angegeben sind. Wer das ignoriert, riskiert, dass sich das Modell schon im „Thinking Mode“ in Endlosschleifen verrennt.

4. Coding-Performance

Im Coding-Test zeigte sich eine klare Hierarchie. Ich ließ die Modelle HTML5-Games (Breakout, Snake, Tic-Tac-Toe) erstellen und wiederholte die C++-Tests aus den vorangegangenen Teilen.

Bei den C++-Aufgaben aus den vorherigen Teilen waren die großen Gemma-Modelle souverän; das kleine e4b-it war hier schwächer, konnte aber einfache Fehler (z. B. bei Tic-Tac-Toe gegen Computer) in einem zweiten Durchgang selbst korrigieren.

5. Wissen, Logik und die „Halluzinations-Falle“

Um die Modelle zu testen, wiederholte ich die Szenarien aus den vorherigen Teilen:

Der Wikipedia-Check (Richard von Weizsäcker)

Gemma-4-31b glänzte hier: Sie fand präzise Informationen (z. B. die Ermordung von Fritz von Weizsäcker) ohne Halluzinationen. Das ist sozusagen der klassische "Nadel-im-Heuhaufen"-Test, denn dass Fritz von Weizsäcker ermordet wurde, ergibt sich nur aus einem Quellenverweis, der sich ziemlich am Ende des Wikipedia-Artikels versteckt. Die meisten Modelle finden das nicht. Qwen (und auch das zum Vergleich herangezogene Reasoning-Modell Magistral aus dem letzten Herbst) scheiterten dagegen unerwarteterweise schon komplett an der Frage nach Richard von Weizsäckers Ehrenbürgerschaften.

Lokales Wissen & Geografie

Logik-Rätsel & Vision

Beim klassischen Logik-Rätsel („Linda liest ein Buch, Paul spielt Schach. Was macht Anna?“) scheiterte das kleine e4b-it. Im Vision-Test war Gemma-4-31b beeindruckend und ordnete beispielsweise ein Foto der Kirche in Winterswijk anhand des Architekturstils korrekt regional ein. Qwen hingegen verlor sich bereits in der Denkphase in einer Schleife.

Kirche in Winterswijk

Fazit: Benchmark-Gaming vs. Realität

Wenn man sich Online-Indices wie Artificial Analysis ansieht, schneidet Qwen oft gleich auf oder sogar besser als Gemma ab. Meine (zugegebenermaßen ein Stück weit subjektiven) Tests kommen zu einem anderen Ergebnis: Qwen ist spürbar schlechter. Es macht mehr Fehler beim Programmieren und halluziniert spürbar mehr.

Ich habe den Verdacht, dass die Qwen-Modelle gezielt auf Benchmarks optimiert wurden, die jedenfalls für meinen persönlichen realen Alltag leider nicht repräsentativ sind. Qwen wird bei mir aus der Auswahl fliegen.

Mein Ranking für den Mac:

  1. Gemma 4-31b: Mein neuer Favorit für Tiefe, Logik und Vision (wenn man den VRAM-Trick kennt).
  2. Gemma 4-26b-a4b: Eine gute Balance aus Geschwindigkeit und Intelligenz.
  3. Gemma 4-e4b-it: Überraschend stark für die Größe – ideal für schnelle Aufgaben, bei knappem Speicher oder Akkubetrieb.
  4. Mistral 3.2: Bleibt im Einsatz, vor allem wegen der guten Qualität bei der Generierung deutschsprachiger Texte.

Gemma 4 ist gegenüber dem bisherigen Stand eine deutliche Verbesserung für lokale Modelle auf Mac-Hardware!