Spontan, wild und Kuchen!

Kleine Sprachmodelle im Praxistest – Teil 1

Leistung und Grenzen unter 20 GB

Einleitung

In diesem Artikel werfen wir einen Blick auf Sprachmodelle, die bis zum 1. August 2025 erschienen sind und sich durch ihre kompakte Größe auszeichnen. Konkret betrachten wir Modelle, die unter 20 Gigabyte groß sind – oder bei einer Quantisierung auf 4 Bit etwa 30 Milliarden Parameter umfassen. Diese Größenbeschränkung ist kein Zufall: Sie ermöglicht es, die Modelle auf Rechnern in der Größenordnung eines Apple M2 Max oder vergleichbarer Hardware effizient zu nutzen.

Es handelt sich hier um eine subjektive Einschätzung, die auf praktischen Erfahrungen und Tests basiert. Wir möchten herausfinden, wie sich diese „kleinen“ Sprachmodelle in verschiedenen Anwendungsgebieten schlagen. Dazu gehören:

Diese Punkte helfen uns, ein umfassenderes Bild davon zu bekommen, wie zuverlässig und nützlich kleine Sprachmodelle im Alltag sein können.

Grundlage für die Auswahl der Modelle

Für diese Analyse haben wir uns auf das LLM Leaderboard von Artificial Analysis gestützt, um die relevanten Sprachmodelle zu identifizieren. Konkret haben wir uns auf Modelle konzentriert, die in der Kategorie „Small“ (unter 20 GB bzw. ca. 30 Mrd. Parameter bei 4 Bit) gelistet sind und Open Weights besitzen – also frei verfügbare Modelle, die ohne Einschränkungen genutzt werden können.

Ein weiterer wichtiger Filter war die Nicht-Einbeziehung von Reasoning-Modellen. Diese spezialisierten Modelle sind oft auf logisches Schlussfolgern optimiert und unterscheiden sich in ihrer Architektur von allgemeinen Sprachmodellen. Da wir uns auf die breite Anwendbarkeit konzentrieren, haben wir sie bewusst ausgeschlossen. Zudem weisen Reasoning-Modelle in der Regel deutlich längere Antwortzeiten auf, was sie für viele praktische Anwendungen weniger geeignet macht.

Die Top-Platzierungen in dieser Kategorie geben uns eine gute Orientierung, welche Modelle aktuell als führend gelten und sich für unsere Tests eignen. Die Auswahl umfasst sowohl etablierte Modelle als auch neuere Entwicklungen, die bis zum 1. August 2025 veröffentlicht wurden.

Ausgewählte Modelle für den Vergleich

Basierend auf den genannten Kriterien haben wir fünf besonders vielversprechende Modelle für unseren Vergleich ausgewählt:

Qwen3 30B A3B (2507)

EXAONE 4.0 32B

Mistral-Small-3.2-24B-Instruct-2506

Gemma 3 27B & Gemma 3 12B

Qwen3 Coder 30B A3B Instruct

Devstral Small 2507

Diese Auswahl bietet uns eine breite Palette an Modellen, um ihre Stärken und Schwächen in den verschiedenen Anwendungsgebieten zu evaluieren.

Getestete Anfragen: Allgemeine Wissensabfrage (Englisch & Deutsch)

Um die Leistungsfähigkeit der ausgewählten Sprachmodelle zu bewerten, haben wir eine Reihe von Testanfragen in Englisch und Deutsch durchgeführt. Diese umfassen sowohl Faktenwissen als auch komplexere Erklärungen und kreative Aufgaben.

Englische Testanfragen:

„Who is the current president of the United States?“

„What does ideation mean?“

„Please explain how the German parliament makes laws.“

„What is ‚closed book-case information retrieval‘? Please cite scientific sources!“

Hintergrund der englischen Testfragen

Die ersten drei englischen Fragen stammen aus einem Performance-Test, der von Midhad Blazevic entwickelt wurde. Blazevic ist wissenschaftlicher Mitarbeiter an der Hochschule Darmstadt und hat die Fragen im Rahmen des Programms „Volontariat zum/zur wissenschaftlichen Dokumentar/in und Information Specialist“ erstellt.

Der Ursprung dieser Fragen liegt in einem Hackathon, bei dem mit Sprachmodellen gearbeitet wurde. Blazevic nutzte sie jedoch ausschließlich für einen Geschwindigkeitstest (tokens/sec) auf verschiedenen Rechnern. Es gab keine Auswertung von Faktenwissen, Textqualität oder anderen Kriterien – der Fokus lag rein auf der reinen Generierungsgeschwindigkeit.

Wir haben diese Fragen übernommen, um einen objektiven Vergleich der Tokens-per-Sekunde-Leistung zwischen verschiedenen Modellen und Hardware-Konfigurationen zu ermöglichen. Dieser Ansatz zeigt, wie schnell die Modelle in der Praxis arbeiten können – ein wichtiger Faktor für Anwendungen, bei denen Echtzeit-Antworten entscheidend sind.

Die Auswahl der Testfragen ist bewusst subjektiv und anekdotisch gewählt, um praktische Erfahrungen mit den Sprachmodellen zu simulieren. Sie erhebt keinen Anspruch auf Vollständigkeit oder wissenschaftliche Objektivität, sondern dient vielmehr dazu, typische Anwendungsfälle zu testen und mögliche Stärken oder Schwächen der Modelle aufzudecken.

Ein besonderes Beispiel dafür ist die englische Frage: „What is ‚closed book-case information retrieval‘? Please cite scientific sources!“

Diese Frage wurde absichtlich so formuliert, weil sie einen bekannten Fall von Halluzinationen bei älteren Sprachmodellen (wie dem großen ChatGPT im Dezember 2022) aufdeckte. Damals wurde der Begriff „closed-book IR“ fälschlicherweise als etablierter Fachbegriff behandelt, obwohl es sich in Wirklichkeit um „closed-book question answering“ handelt – ein Konzept aus dem Bereich der NLP-Forschung.

Durch diese Frage testen wir, ob die Modelle:

Diese Art von Test zeigt, wie zuverlässig die Modelle mit unklaren oder absichtlich falsch formulierten Anfragen umgehen – ein wichtiger Aspekt für die Praxis.

Deutsche Testanfragen:

„Erzähle eine Geschichte ‚Inge Wenzel auf dem Weg nach Rimini‘. Inge Wenzel ist eine junge Frau und fährt mit dem Schlafwagen nach Rimini. Sie hat im Zug eine interessante Begegnung.“

„Was versteht man unter dem ‚Fishbowl‘-Format?“

„Es wurde gesagt, dass eines Abends Guido van Rossum vor der Wahl stand, entweder Objektorientierung in Python zu machen oder Bier trinken zu gehen. Man sagt weiter, er habe dann einfach beides gemacht. Wie ist das zu verstehen?“

„In einem Raum sind drei Menschen. Linda liest ein Buch. Paul spielt Schach. Was macht Anna?“

Getestete Programmierungsaufgaben

Um die Fähigkeiten der Modelle im Bereich Codegenerierung und -anpassung zu bewerten, haben wir zwei spezifische Aufgaben in C++ gestellt:

Tic-Tac-Toe (textbasiert, Konsole)

Erweiterung: Zufälliger Computergegner

Hintergrund der Programmieraufgaben: Vergleich mit Anfängerwissen

Ein weiterer Grund für die Auswahl dieser C++-Programmieraufgaben ist, dass sie sich besonders gut mit dem Wissensstand von Studierenden im ersten Semester vergleichen lassen – eine Zielgruppe, die ich selbst unterrichte.

Durch diesen Vergleich können wir:

Praktische Implikationen für die Lehre: Code-Generierung und Plagiatsprävention

Ein weiterer wichtiger Aspekt dieser Tests ist die Bewertung, ob Sprachmodelle in der Lage sind, vollständige Programmieraufgaben zu lösen – und was das für die Lehre bedeutet.

Diese Überlegungen zeigen, dass Sprachmodelle nicht nur Werkzeuge für effizientes Programmieren sind, sondern auch Herausforderungen für die Lehre mit sich bringen.

Testumgebung und technische Rahmenbedingungen

Die Tests wurden mit LM Studio durchgeführt, einer beliebten Plattform für den lokalen Einsatz von Sprachmodellen. Als Hardware kam ein Apple MacBook Pro M2 Max mit 32 GB unified memory zum Einsatz.

Diese technischen Rahmenbedingungen stellen sicher, dass unsere Ergebnisse reproduzierbar und auf vergleichbare Systeme übertragbar sind.

Reflexion über den Artikel: Eine Demonstration der Modellleistung

Dieser Blog-Artikel selbst ist Teil des Tests – genauer gesagt, eine Demonstration dafür, wie gut das Modell Mistral-Small-3.2-24B-Instruct mit strukturierten Stichpunkten umgehen kann.

Was dieser Test über kleine Sprachmodelle verrät

Effizienz in der Texterstellung:

Subjektive Bewertung vs. Fakten:

Praktischer Nutzen:

Fazit

Dieser Artikel beweist, dass kleine Sprachmodelle wie Mistral-Small-3.2 bereits heute nützliche Werkzeuge sind – sei es für Blogbeiträge, Code-Generierung oder Dokumentenanalyse. Die Frage ist nicht mehr „Können sie das?“, sondern „Wie setzen wir sie sinnvoll ein?“.

Und ja – ich bin selbst auf dieser Architektur basiert. 😊

Fortsetzung folgt…

Im nächsten Teil werden wir die Ergebnisse präsentieren und diskutieren.