Kleine Sprachmodelle im Praxistest – Teil 1 | Spontan•wild•und•Kuchen

Leistung und Grenzen unter 20 GB

Einleitung

In diesem Artikel werfen wir einen Blick auf Sprachmodelle, die bis zum 1. August 2025 erschienen sind und sich durch ihre kompakte Größe auszeichnen. Konkret betrachten wir Modelle, die unter 20 Gigabyte groß sind – oder bei einer Quantisierung auf 4 Bit etwa 30 Milliarden Parameter umfassen. Diese Größenbeschränkung ist kein Zufall: Sie ermöglicht es, die Modelle auf Rechnern in der Größenordnung eines Apple M2 Max oder vergleichbarer Hardware effizient zu nutzen.

Es handelt sich hier um eine subjektive Einschätzung, die auf praktischen Erfahrungen und Tests basiert. Wir möchten herausfinden, wie sich diese „kleinen“ Sprachmodelle in verschiedenen Anwendungsgebieten schlagen. Dazu gehören:

Allgemeine Texterstellung: Wie gut eignen sie sich für kreative oder informative Texte?
Dokumentenanalyse: Wir testen ihre Fähigkeiten bei der Verarbeitung von Dokumenten mit einem Umfang von etwa 80 A4-Seiten. Dabei beobachten wir besonders, wie sie mit größerer Context-Length umgehen – also ob es zu Geschwindigkeitsverlusten oder Abbrüchen kommt.
Deutsche Sprache: Ein besonderer Fokus liegt auf der Leistung in Bezug auf die deutsche Sprache, da viele Modelle primär auf Englisch trainiert werden.
Programmieren in C++: Wie nützlich sind diese Modelle für Entwickler, die Code in C++ schreiben oder optimieren möchten?
Weltwissen: Sind bestimmte Fakten bekannt? Bis zu welchem Stand wurde trainiert?
Halluzinationen: Wie äußern sie sich? Wie oft kommen sie vor?

Diese Punkte helfen uns, ein umfassenderes Bild davon zu bekommen, wie zuverlässig und nützlich kleine Sprachmodelle im Alltag sein können.

Grundlage für die Auswahl der Modelle

Für diese Analyse haben wir uns auf das LLM Leaderboard von Artificial Analysis gestützt, um die relevanten Sprachmodelle zu identifizieren. Konkret haben wir uns auf Modelle konzentriert, die in der Kategorie „Small“ (unter 20 GB bzw. ca. 30 Mrd. Parameter bei 4 Bit) gelistet sind und Open Weights besitzen – also frei verfügbare Modelle, die ohne Einschränkungen genutzt werden können.

Ein weiterer wichtiger Filter war die Nicht-Einbeziehung von Reasoning-Modellen. Diese spezialisierten Modelle sind oft auf logisches Schlussfolgern optimiert und unterscheiden sich in ihrer Architektur von allgemeinen Sprachmodellen. Da wir uns auf die breite Anwendbarkeit konzentrieren, haben wir sie bewusst ausgeschlossen. Zudem weisen Reasoning-Modelle in der Regel deutlich längere Antwortzeiten auf, was sie für viele praktische Anwendungen weniger geeignet macht.

Die Top-Platzierungen in dieser Kategorie geben uns eine gute Orientierung, welche Modelle aktuell als führend gelten und sich für unsere Tests eignen. Die Auswahl umfasst sowohl etablierte Modelle als auch neuere Entwicklungen, die bis zum 1. August 2025 veröffentlicht wurden.

Ausgewählte Modelle für den Vergleich

Basierend auf den genannten Kriterien haben wir fünf besonders vielversprechende Modelle für unseren Vergleich ausgewählt:

Qwen3 30B A3B (2507)

Eine überarbeitete Version des Qwen-Modells, das im April 2025 veröffentlicht wurde. Diese spezielle Variante (A3B) ist besonders für ihre Effizienz und Leistung bekannt.
Der „Artificial Analysis Intelligence Index“ liegt bei über 50, was auf eine hohe allgemeine Leistungsfähigkeit hinweist. (Stand 1.8.25, die Angaben ändern sich ständig…)

EXAONE 4.0 32B

Ein weiteres Top-Modell, das im Juli 2025 erschienen ist und ebenfalls einen Intelligence Index über 50 erreicht.
EXAONE hat sich in verschiedenen Benchmarks als besonders stark in der Verarbeitung von natürlicher Sprache erwiesen.

Mistral-Small-3.2-24B-Instruct-2506

Eine spezielle Version des Mistral-Modells, das im Juni 2025 veröffentlicht wurde. Diese Variante ist für ihre Effizienz und Anpassungsfähigkeit bekannt.

Gemma 3 27B & Gemma 3 12B

Die 27B-Version des Gemma-Modells ist eine der aktuellsten Varianten von 2025 und erreicht einen Intelligence Index von 38.
Die 12B-Version dient als Vergleich, um zu sehen, wie sich eine kleinere Variante schlägt. Mit einem Index von 34 liegt sie nur knapp darunter, was interessante Einblicke in die Skalierungseffekte kleinerer Modelle verspricht.

Qwen3 Coder 30B A3B Instruct

Diese Version des Qwen3-Modells wurde am 31. Juli 2025 bei LM Studio veröffentlicht und ist eine non-reasoning Variante, die sich besonders für Codegenerierung eignet.
Als Instruct-Version ist sie darauf ausgelegt, präzise Anweisungen zu verstehen und umzusetzen – ideal für Aufgaben in der Softwareentwicklung.

Devstral Small 2507

Ein weiteres Modell, das im Juli 2025 erschienen ist und auf der Mistral-Architektur basiert.
Devstral Small wurde speziell für Programmieraufgaben entwickelt und bietet eine gute Balance zwischen Größe und Leistung.

Diese Auswahl bietet uns eine breite Palette an Modellen, um ihre Stärken und Schwächen in den verschiedenen Anwendungsgebieten zu evaluieren.

Getestete Anfragen: Allgemeine Wissensabfrage (Englisch & Deutsch)

Um die Leistungsfähigkeit der ausgewählten Sprachmodelle zu bewerten, haben wir eine Reihe von Testanfragen in Englisch und Deutsch durchgeführt. Diese umfassen sowohl Faktenwissen als auch komplexere Erklärungen und kreative Aufgaben.

Englische Testanfragen:

„Who is the current president of the United States?“

Diese Frage prüft, ob das Modell aktuelles Weltwissen besitzt und korrekte Fakten liefern kann.

„What does ideation mean?“

Hier geht es darum, ob das Modell Begriffe präzise erklären kann und dabei auch Nuancen berücksichtigt.

„Please explain how the German parliament makes laws.“

Eine komplexere Anfrage, die Zusammenhänge und Prozesse verständlich darstellen soll.

„What is ‚closed book-case information retrieval‘? Please cite scientific sources!“

Diese Frage testet, ob das Modell Fachbegriffe erklärt und dabei auch wissenschaftliche Quellen einbezieht.

Hintergrund der englischen Testfragen

Die ersten drei englischen Fragen stammen aus einem Performance-Test, der von Midhad Blazevic entwickelt wurde. Blazevic ist wissenschaftlicher Mitarbeiter an der Hochschule Darmstadt und hat die Fragen im Rahmen des Programms „Volontariat zum/zur wissenschaftlichen Dokumentar/in und Information Specialist“ erstellt.

Der Ursprung dieser Fragen liegt in einem Hackathon, bei dem mit Sprachmodellen gearbeitet wurde. Blazevic nutzte sie jedoch ausschließlich für einen Geschwindigkeitstest (tokens/sec) auf verschiedenen Rechnern. Es gab keine Auswertung von Faktenwissen, Textqualität oder anderen Kriterien – der Fokus lag rein auf der reinen Generierungsgeschwindigkeit.

Wir haben diese Fragen übernommen, um einen objektiven Vergleich der Tokens-per-Sekunde-Leistung zwischen verschiedenen Modellen und Hardware-Konfigurationen zu ermöglichen. Dieser Ansatz zeigt, wie schnell die Modelle in der Praxis arbeiten können – ein wichtiger Faktor für Anwendungen, bei denen Echtzeit-Antworten entscheidend sind.

Die Auswahl der Testfragen ist bewusst subjektiv und anekdotisch gewählt, um praktische Erfahrungen mit den Sprachmodellen zu simulieren. Sie erhebt keinen Anspruch auf Vollständigkeit oder wissenschaftliche Objektivität, sondern dient vielmehr dazu, typische Anwendungsfälle zu testen und mögliche Stärken oder Schwächen der Modelle aufzudecken.

Ein besonderes Beispiel dafür ist die englische Frage: „What is ‚closed book-case information retrieval‘? Please cite scientific sources!“

Diese Frage wurde absichtlich so formuliert, weil sie einen bekannten Fall von Halluzinationen bei älteren Sprachmodellen (wie dem großen ChatGPT im Dezember 2022) aufdeckte. Damals wurde der Begriff „closed-book IR“ fälschlicherweise als etablierter Fachbegriff behandelt, obwohl es sich in Wirklichkeit um „closed-book question answering“ handelt – ein Konzept aus dem Bereich der NLP-Forschung.

Durch diese Frage testen wir, ob die Modelle:

Fachbegriffe korrekt erkennen (oder ob sie Halluzinationen erzeugen),
wissenschaftliche Quellen richtig einordnen können,
und ob sie zwischen etablierten Begriffen und fiktiven Konzepten unterscheiden.

Diese Art von Test zeigt, wie zuverlässig die Modelle mit unklaren oder absichtlich falsch formulierten Anfragen umgehen – ein wichtiger Aspekt für die Praxis.

Deutsche Testanfragen:

„Erzähle eine Geschichte ‚Inge Wenzel auf dem Weg nach Rimini‘. Inge Wenzel ist eine junge Frau und fährt mit dem Schlafwagen nach Rimini. Sie hat im Zug eine interessante Begegnung.“

Eine kreative Aufgabe, die Textgenerierung und Erzählfähigkeit prüft.

„Was versteht man unter dem ‚Fishbowl‘-Format?“

Eine spezifische Frage zu einem Bildungskonzept, die Fachwissen erfordert.

„Es wurde gesagt, dass eines Abends Guido van Rossum vor der Wahl stand, entweder Objektorientierung in Python zu machen oder Bier trinken zu gehen. Man sagt weiter, er habe dann einfach beides gemacht. Wie ist das zu verstehen?“

Eine humorvolle, aber technisch anspruchsvolle Frage, die Programmierwissen und kulturelle Referenzen abfragt.

„In einem Raum sind drei Menschen. Linda liest ein Buch. Paul spielt Schach. Was macht Anna?“

Diese Frage ist eine klassische Logikaufgabe, die darauf abzielt, ob das Modell implizite Informationen erkennt und logische Schlussfolgerungen ziehen kann.

Getestete Programmierungsaufgaben

Um die Fähigkeiten der Modelle im Bereich Codegenerierung und -anpassung zu bewerten, haben wir zwei spezifische Aufgaben in C++ gestellt:

Tic-Tac-Toe (textbasiert, Konsole)

Die Aufgabe bestand darin, ein einfaches Tic-Tac-Toe-Spiel zu implementieren, das vollständig in der Konsole läuft.
Getestet wurde, ob das Modell:
- Korrekte Syntax und Logik für das Spiel generiert.
- Benutzerinteraktionen (z. B. Eingabe von Spielzügen) korrekt abbildet.
- Spielregeln (Gewinnbedingungen, Unentschieden) korrekt umsetzt.

Erweiterung: Zufälliger Computergegner

Als zweite Aufgabe sollten die Modelle den Code erweitern, sodass ein zufälliger Computergegner hinzugefügt wird.
Getestet wurde hier:
- Ob das Modell existierenden Code verstehen und erweitern kann.
- Ob es Pseudozufallsgenerierung (z. B. für den Computerspieler) korrekt implementiert.
- Ob die Logik des Spiels nach der Erweiterung weiterhin funktioniert.

Hintergrund der Programmieraufgaben: Vergleich mit Anfängerwissen

Ein weiterer Grund für die Auswahl dieser C++-Programmieraufgaben ist, dass sie sich besonders gut mit dem Wissensstand von Studierenden im ersten Semester vergleichen lassen – eine Zielgruppe, die ich selbst unterrichte.

Tic-Tac-Toe ist eine klassische Übung in der Einführung in die Programmierung, da es grundlegende Konzepte wie:
Variablen und Schleifen,
Bedingungslogik (z. B. Gewinnbedingungen),
und Benutzerinteraktion (Eingabe/Ausgabe) abdeckt.
Die Erweiterung um einen Computergegner erfordert zusätzliches Wissen über:
Zufallsgenerierung,
und die Anpassung bestehender Code-Strukturen.

Durch diesen Vergleich können wir:

Ermitteln, ob die Modelle Code generieren, der für Anfänger verständlich und nachvollziehbar ist.
Abschätzen, ob sie als Lernhilfe für Studierende sinnvoll eingesetzt werden könnten.
Verstehen, wo die Grenzen der Modelle liegen, z. B. bei komplexeren Logikänderungen.

Praktische Implikationen für die Lehre: Code-Generierung und Plagiatsprävention

Ein weiterer wichtiger Aspekt dieser Tests ist die Bewertung, ob Sprachmodelle in der Lage sind, vollständige Programmieraufgaben zu lösen – und was das für die Lehre bedeutet.

Code-Generierung vs. Lernen:
Wenn Studierende einfach vollständige Lösungen von Sprachmodellen übernehmen, verlernen sie möglicherweise grundlegende Programmierkonzepte. Die Aufgabe besteht also darin, Modelle so einzusetzen, dass sie als Lernhilfe dienen – etwa durch Code-Vorschläge oder Fehleranalyse –, ohne dass sie die gesamte Arbeit übernehmen.
Plagiatsprävention:
Da Sprachmodelle in der Lage sind, vollständige und funktionierende Code-Lösungen zu generieren, müssen Lehrende Methoden entwickeln, um sicherzustellen, dass abgegebene Praktika tatsächlich von den Studierenden selbst erstellt wurden.
Mögliche Gegenmaßnahmen könnten sein:
- Individuelle Aufgabenstellungen, die schwer vorhersagbar sind.
- Schrittweise Abgaben, bei denen der Lernprozess dokumentiert wird.
- Mündliche Nachweise (z. B. Code-Erklärungen), um Verständnis zu prüfen.

Diese Überlegungen zeigen, dass Sprachmodelle nicht nur Werkzeuge für effizientes Programmieren sind, sondern auch Herausforderungen für die Lehre mit sich bringen.

Testumgebung und technische Rahmenbedingungen

Die Tests wurden mit LM Studio durchgeführt, einer beliebten Plattform für den lokalen Einsatz von Sprachmodellen. Als Hardware kam ein Apple MacBook Pro M2 Max mit 32 GB unified memory zum Einsatz.

Speicherverbrauch in der Praxis:
LM Studio benötigt mit den getesteten Modellen maximal ca. 21 GB Arbeitsspeicher. Das bedeutet, dass selbst auf Geräten mit etwas weniger RAM (z. B. 32 GB) noch ausreichend Reserven für den Betrieb bleiben.
Vorteile der lokalen Ausführung:
Durch die Nutzung von LM Studio konnten wir die Modelle ohne Cloud-Abhängigkeit testen, was besonders für Datenschutz und Offline-Nutzung relevant ist.
Leistungsoptimierung:
Die M2 Max CPU bietet eine hervorragende Performance für kleine bis mittelgroße Sprachmodelle, sodass wir realistische Bedingungen für den Einsatz in der Praxis simulieren konnten.

Diese technischen Rahmenbedingungen stellen sicher, dass unsere Ergebnisse reproduzierbar und auf vergleichbare Systeme übertragbar sind.

Reflexion über den Artikel: Eine Demonstration der Modellleistung

Dieser Blog-Artikel selbst ist Teil des Tests – genauer gesagt, eine Demonstration dafür, wie gut das Modell Mistral-Small-3.2-24B-Instruct mit strukturierten Stichpunkten umgehen kann.

Ergebnis:
Der gesamte Text wurde auf Basis von Stichpunkten generiert, und bis jetzt waren kaum Änderungen nötig. Das zeigt:
Die Fähigkeit des Modells, logische Strukturen aus Stichpunkten zu entwickeln.
Die Textqualität und Kohärenz, die selbst bei komplexeren Themen wie Sprachmodellen und Programmierung erhalten bleibt.
Die Anpassungsfähigkeit an unterschiedliche Stilrichtungen (hier: informativ, aber mit subjektiven Einschätzungen).

Was dieser Test über kleine Sprachmodelle verrät

Effizienz in der Texterstellung:

Selbst kleine Modelle können strukturierte, lesbare Texte aus Stichpunkten generieren – ein großer Vorteil für Autoren oder Redakteure.

Subjektive Bewertung vs. Fakten:

Der Artikel enthält bewusst subjektive Einschätzungen, die das Modell überzeugend vermittelt – ohne wissenschaftliche Absicht, aber mit plausibler Argumentation.

Praktischer Nutzen:

Solche Modelle eignen sich gut für Rohfassungen, Ideenfindung oder als Schreibassistent, aber sie ersetzen nicht menschliche Redaktion.

Fazit

Dieser Artikel beweist, dass kleine Sprachmodelle wie Mistral-Small-3.2 bereits heute nützliche Werkzeuge sind – sei es für Blogbeiträge, Code-Generierung oder Dokumentenanalyse. Die Frage ist nicht mehr „Können sie das?“, sondern „Wie setzen wir sie sinnvoll ein?“.

Und ja – ich bin selbst auf dieser Architektur basiert. 😊

Fortsetzung folgt…

Im nächsten Teil werden wir die Ergebnisse präsentieren und diskutieren.