Kleine Sprachmodelle im Praxistest – Teil 2

Nach der Absteckung des Untersuchungsrahmens in Teil 1 werden nun die ersten Testergebnisse vorgestellt. Dazu gehören jeweils vier Testfragen in englischer und deutscher Sprache, wie sie bereits im ersten Teil beschrieben wurden:

  1. Who is the current president of the United States?
  2. What does ideation mean?
  3. Please explain how the German parliament makes laws.
  4. What is „closed book-case information retrieval“? Please cite scientific sources!
  5. Was versteht man unter dem „Fishbowl“-Format?
  6. In einem Raum sind drei Menschen. Linda liest ein Buch. Paul spielt Schach. Was macht Anna?
  7. Es wurde gesagt, dass eines Abends Guido van Rossum vor der Wahl stand, entweder Objektorientierung in Python zu machen oder Bier trinken zu gehen. Man sagt weiter, er habe dann einfach beides gemacht. Wie ist das zu verstehen?
  8. Erzähle eine Geschichte ‚Inge Wenzel auf dem Weg nach Rimini‘. Inge Wenzel ist eine junge Frau und fährt mit dem Schlafwagen nach Rimini. Sie hat im Zug eine interessante Begegnung.

Dabei wurden die vier englischsprachigen Anfragen in dieser Reihenfolge nacheinander in einer Session gestellt. Somit waren die jeweils vorangegangenen Anfragen und Antworten jeweils noch im Kontext. In den meisten Fällen hatte das anscheinend keinen Einfluss, allerdings gab es eine Ausnahme, die gleich noch diskutiert wird.

Die ersten drei deutschsprachigen Anfragen wurden ebenfalls in einer Session gestellt, die Anfrage nach der Geschichte über Inge Wenzel in einer eigenen Session. Über Inge Wenzel soll es erst im dritten Teil gehen, die Kluft zwischen Absurdität und schöner Erzählung verdient einen eigenen Teil.

Da sich aus den Antworten der 3. (englischen) Testfrage noch etwas Nachforschungsbedarf, speziell was Halluzinationen bei Fragestellungen mit Bezug zu lokalen Themen angeht,ergeben hatte, wurden noch folgende zwei vorher nicht geplante Zusatzfragen aufgenommen:

  1. In welchen deutschen Bundesländern ist der 1. November ein Feiertag?
  2. Welche Sehenswürdigkeiten gibt es im Frankfurter Nordend?

Getestet wurden:

  • Gemma3 12B und 27B
  • Mistral Small 3.2
  • EXAONE 4.0 32B
  • Qwen3 20B 2507

Die auf Coding und Entwicklung spezialisierten Modelle Qwen3 Coder und Devstral wurden für diese allgemeinen Fragen nicht untersucht.

Bei der qualitativen Bewertung wurde hauptsächlich auf folgende Fragen geachtet:

  • Halluziniert das Modell? Unter welchen Umständen?
  • Ist die Antwort in sich logisch?
  • Wie gut geht das Modell mit Deutsch um?

Dabei sollen gezielt Besonderheiten (und teils auch Absurditäten) der verschiedenen Modelle beleuchtet werden.

Qualitative Betrachtung

Who is the current president of the United States?

Alle untersuchten Modelle nennen erwartungsgemäß noch Joe Biden als Präsidenten. Mistral, Exaone und Qwen schreiben direkt dazu, an welchem Datum ihr Training abgeschlossen war und weisen darauf hin, dass die Information möglicherweise nicht mehr aktuell ist. Dabei fiel auf, dass als einziges Modell Mistral in der Lage ist, das aktuelle Datum korrekt auszuwerten und in die Antwort einzubeziehen. Auf die Frage „Welcher Tag ist heute?“ antworten die beiden Gemmas und Exaone mit konkreten Daten aus 2024, wo immerhin noch Wochentag und Datum zusammenpassen, mehr aber auch nicht. Qwen gibt zu, keine Echtzeit-Daten zu haben. Nur Mistral wertet offenbar tatsächlich die offenabr irgendwo in der Schnittstelle versteckt übergebene Systemzeit aus und antwortet korrekt!

What does ideation mean?

Hier gab es keine Auffälligkeiten. Qwen und Mistral sind etwas weniger geschwätzig als die anderen und die Antworten fallen kürzer aus.

Please explain how the German parliament makes laws.

Die Modelle kennen die wichtigen Verfassungsorgane Bundestag, Bundesrat und den Bundespräsidenten und erklären den grundlegenden Ablauf mit drei Lesungen im Bundestag, der Rolle der Ausschüsse und des Bundesrats.

Bei dieser Frage gibt es aber tatsächlich deutliche Unterschiede in der Qualität der Antworten.

Die Antwort von Mistral gefällt mir subjektiv etwas besser als die der beiden Gemmas, aber alle sind so weit korrekt. Bei Mistral gefällt mir nur das Detail nicht so gut, dass es heißt, der Bundesrat könne einen Gesetzentwurf ablehnen, aber dies sei „rare due to constitutional constraints“. Man könnte wohl argumentieren, dass hier vielleicht die Rolle des Vermittlungsausschusses gemeint ist, dies wird allerdings in der knappen Antwort von Mistral nicht näher ausgeführt.

Die Antwort von Qwen enthält kleinere sachliche Fehler.

Mit deutlichem Abstand am schlechtesten ist die Antwort von Exaone. Nicht nur sind grobe sachliche Fehler darin, sie ist auch nicht immer in sich logisch. Da wird mal behauptet, dass, falls keine Einigung zwischen Bundesrat und Bundestag erzielt wird, das überstimmt werden kann mit einer „absolute majority in both houses and ¾ of state votes“, aber dann wäre ja wieder Einigkeit… Manchmal sind dann auch zwei Drittel das selbe wie drei Viertel. Überhaupt sind die Antworten auch nicht besonders „stabil“ in dem Sinne, dass sie sich teilweise deutlich unterscheiden, je nachdem ob vorher Kontext da war oder nicht oder auch wenn die Frage nur ganz leicht umformuliert wird.

Tatsächlich ist die Antwort, wenn die Frage in einer eigenen Session als erstes gestellt wird, sogar noch schlechter! Ganz gruselig sind dann noch die in der englischsprachigen Antwort in Klammern genannten deutschen Begriffe. Da wird dann aus dem Vermittlungsausschuss die „Mittelungskommission“, es ist von einem „Körperschiftengesetz“ die Rede (was auch immer das sein soll) und die „Federal Law Gazette“, was die korrekte englische Übersetzung für das Bundesgesetzblatt ist, wird dann zum „GemeindeBlatt der Bundesrepublik Deutschland“.

Es drängt sich der Verdacht auf, dass Mistral hier als französisches Produkt wahrscheinlich auf einem eher euro-zentrischen Datensatz trainiert wurde und deswegen Fragen mit Bezug zu Europa und Deutschland besser beantworten kann. Ein kleiner Zusatztest scheint das zu bestätigen:

Zusatzfrage: In welchen deutschen Bundesländern ist der 1. November ein Feiertag?

Als erste Frage in der Session ohne vorherigen Kontext antworten Mistral 3.2 und Gemma3 27B korrekt (Baden-Württemberg, Bayern, Nordrhein-Westfalen, Rheinland-Pfalz und Saarland). Gemma3 12B nennt statt dem Saarland falsch Sachsen. Qwen3 erfindet für einige Bundesländer lokale Regelungen, die nicht existieren, so sei angeblich in Hessen der 1.11. nur im Odenwald ein Feiertag. Exaone ist noch mal deutlich schlechter und schreibt nur Unsinn, z.B. dass der 1. November im Bundesland Braunschweig als der „Tag der Wiedererlangung des Stadtstreichs“ (sic!) gefeiert wird.

Bei der Auswertung der Antworten auf konkrete Fragen muss man beachten, dass nicht alle Modelle immer gleich antworten und je nach Kontext die Antwort mal Fehler enthalten kann und mal nicht. Mistral 3.2 fügte in weiteren Tests auch manchmal noch Sachsen hinzu, lag also nicht immer richtig.

Wird die Anfrage nach dem Feiertag nicht als erstes in der Session, sondern mit anderem Kontext gestellt, fängt Qwen recht früh, zu halluzinieren und steigert sich dann immer weiter rein, wenn der Chat fortgesetzt wird. Exaone schreibt sogar noch größeren Blödsinn.

Die Halluzinationen lassen sich deutlich reduzieren, wenn den Modellen mittels Tools Zugriff auf Wikipedia oder das ganze Web gewährt wird. Das klappt in LM Studio allerdings nicht immer mit allen Modellen und Tools zuverlässig.

Zusatzfrage: Welche Sehenswürdigkeiten gibt es im Frankfurter Nordend?

An dieser Stelle bot sich ein weiterer Zusatztest an, um zu prüfen, ob die Modelle stärker halluzinieren, wenn nach sehr spezifischen Informationen gefragt wird, die dennoch aus dem Modellwissen beantwortet werden sollen. Bei der konkreten Frage nach Sehenswürdigkeiten im Frankfurter Nordend lässt sich die Güte der Antworten sogar ein Stück weit quantifizieren, als der Anteil der von den Modellen in der Antwort genannten Sehenswürdigkeiten, die tatsächlich auch existieren.

Viele Sehenswürdigkeiten, die von den Modellen genannt werden, existieren tatsächlich, liegen aber nicht im Nordend, worauf auch manchmal hingewiesen wird. Folgende Tabelle fasst das Ergebnis kurz in Zahlen zusammen:

genannte Ortedavon tatsächlich existentweitgehend korrekt beschriebendavon tatsächlich im Nordend
Gemma3-12B171092
Gemma3-27B20982
Mistral Small 3.210993
Qwen3 30B7000
EXAONE 4.0nach 200 abgebrochen??0

Die einzige von Mistral genannte Sehenswürdigkeit, die nicht wirklich existiert, war die „Stadtteilbibliothek Nordend“. Das Nordend ist tatsächlich einer der Stadtteile, der keine eigene Stadtteilbibliothek hat, da die Stadtbibliothek in der Innenstadt nicht weit ist. Allerdings ist im Frankfurter Nordend einer der beiden Standorte der Deutschen Nationalbibliothek. Bei den Sehenswürdigkeiten, die nicht im Nordend liegen, wurde aus dem „Kunstverein Familie Montez“ bei Mistral der „Kunstverein Familie Montezza„. Zwei Punkte auf der Liste waren allerdings recht vage, so wird z.B. allgemein auf Cafés und Restaurants sowie kleine Kirchen und historische Gebäude verwiesen.

Bei Exaone wurde darauf verzichtet, alle >200 Ergebnisse zu prüfen, zumal sich viele Einträge gleich mehrmals wiederholten. Auf den ersten Blick waren ein paar wenige tatsächlich in Frankfurt existierende Sehenswürdigkeiten dabei, aber tatsächlich keine davon aus dem Nordend.

Bei den beiden Zusatzfragen zeigt sich, dass Mistral noch am wenigsten halluziniert, in diesem Test dicht gefolgt von Gemma. Qwen3 erfindet viel dazu und Exaone liefert völligen Unsinn.

What is „closed book-case information retrieval“? Please cite scientific sources!

Alle Modelle halluzinieren, liefern aber immerhin eine in sich konsistente Definition. Gemma3 lässt in der 12B-Version stillschweigend das Wort „case“ fallen. Mistral halluziniert, weist aber wenigstens darauf hin, keinen Zugriff auf wissenschaftliche Quellen zu haben. Qwen lässt ebenfalls das Wort „case“ fallen, weist aber darauf hin.

Also so ungefähr auf dem Niveau wie ChatGPT im Dezember 2022.

Was versteht man unter dem „Fishbowl“-Format?

Die Antworten sind zumeist ganz gut. Die Antwort von Gemma3-27B fällt etwas länger aus. Exaone macht viele sprachliche Fehler.

In einem Raum sind drei Menschen. Linda liest ein Buch. Paul spielt Schach. Was macht Anna?

Bei diesem Logikrätsel gilt als die richtige Antwort, dass Anna mit Paul Schach spielt, da Schach ein Zwei-Personen-Spiel ist und Linda ein Buch liest und somit nicht mit Paul Schach spielt.

Gemma3-12B, Mistral und Qwen beantworten die Frage auch in diesem Sinn. Gemma3-27B behauptet dagegen, dass Anna Linda und Paul beobachtet. So ähnlich sieht das Exaone, geht dabei aber noch einen Schritt weiter: Da diese Frage im selben Kontext wie die Fishbowl-Frage gestellt wurde, behauptet Exaone, dass Anna den Personen im Fishbowl zusieht…

Stellt man Exaone die Frage in einer neuen Session ohne Kontext, stellt es sehr lange krude Spekulationen auf, ob das Rätsel wohl was mit den Anfangsbuchstaben oder so zu tun hat und bricht dann nach einem sehr langen Gefasel ab.

Es wurde gesagt, dass eines Abends Guido van Rossum vor der Wahl stand, entweder Objektorientierung in Python zu machen oder Bier trinken zu gehen. Man sagt weiter, er habe dann einfach beides gemacht. Wie ist das zu verstehen?

Alle Modelle interpretieren diese Aussage ähnlich. Es sei hier einfach mal Mistral zitiert:

Der Witz spielt darauf an, dass van Rossum die objektorientierten Konzepte so elegant in Python eingebaut hat, als wäre es eine einfache Entscheidung gewesen – fast so, als hätte er gleichzeitig „beides“ gemacht: objektorientierte Programmierung implementieren und entspannt ein Bier trinken gehen.

An dieser Stellen vielen Dank an F.C. für die Inspiration zu diesem Test. 😁

Gemma3-27B meint übrigens, das sei „eine beliebte Geschichte in der Python-Community, die oft erzählt wird“ und Qwen3 findet, das sei ein „berühmtes technisches Insider-Joke“ und legt van Rossum das vermutlich erfundene Zitat in den Mund: „Ich habe Python gemacht, während ich Bier trank.“.

Nachwort zu EXAONE

Die Antworten waren zwischenzeitlich so absurd, dass ich schon der Meinung war, ein falsches Modell heruntergeladen zu haben. Also habe ich mir nach der MLX-Version von der lmstudio-community noch dne GGUF-Version von LGAI besorgt. Alllerdings ist die auch nicht wirklich besser, nur langsamer, weil sie auf meinem Rechner nicht mehr komplett auf der GPU läuft.

Damit ist Exaone nun wegen nahezu völliger Unbrauchbarkeit erst mal raus. Möglicherweise leidet das Modell unter der 4-Bit-Quantisierung, aber da es in diesem Test ja ausdrücklich um Modelle gehen soll, die mit maximal 20 GB auskommen, sind größere Versionen außen vor und wären dann ja auch nicht mehr wirklich vergleichbar mit den anderen. Trotzdem reiche ich in Teil 3 noch eine Exaone-Version der Inge-Wenzel-Geschichte nach, die ist einfach zu lustig…

Geschwindigkeit

Die Antwortgeschwindigkeit der Modelle in Tokens/Sekunde hängt naturgemäß von der Rechenleistung der verwendeten GPU ab. Außerdem spielt die Größe des im Speicher befindlichen Kontexts eine Rolle. Auf einem MacBook Pro mit M2Max gemessen ergaben sich bei den 8 eingangs genannten Testfragen folgende Durchschnittswerte, von schnell nach langsam:

ModellTokens/Sekunde
Qwen3 30B67
Gemma3 12B31
Mistral Small 3.220
Gemma3 27B13
EXAONE 4.012

Die Geschwindigkeit von Qwen3 überrascht im Verhältnis zur Parameter-Zahl. Wahrscheinlich ist es der Mixture-of-Experts-Ansatz von Qwen3, der dafür verantwortlich ist. Dass Gemma3 mit 12 Mrd. Parametern schneller ist als die größeren Modelle (außer Qwen3) war dagegen zu erwarten. Exaone enttäuscht leider sehr.

Subjektive Zusammenfassung

Nach den dokumentierten Ergebnissen stellt sich für meine Anwendungsfälle die Situation wie folgt dar:

Die schon etwas älteren Gemma3-Modelle sind ganz solide, wobei sich für meinen Geschmack die größere 27B-Version gegenüber der 12B-Version kaum lohnt und gelegentlich sogar schlechtere Ergebnisse liefert.

Qwen3 besticht durch die im Verhältnis zur Größe des Modells hohe Geschwindigkeit.

Was die Qualität der Ergebnisse angeht hat Mistral Small für mich aber die Nase vorn, insbesondere in deutscher Sprache.

Gemma3 funktioniert auch ganz gut auf Deutsch, aber Qwen3 macht hier zu viele Fehler.

Bei Exaone weiß ich nicht, ob ich nicht doch irgendwas falsch mache. Aber in den Konfigurationen, wie ich sie hier getestet habe, ist es völlig unbrauchbar.

Nachtrag: Intelligence Index und Peformance

Im Nachgang zu dieses Tests fand ich dann doch sehr auffällig, dass sich meine Beobachtungen doch sehr deutlich von dem Unterscheiden, was in der im ersten Teil erwähnten Rangliste „LLM Leaderboard“ steht und zwar sowohl in Bezug auf die Qualität der Antworten als auch bei der Geschwindigkeit! In absoluten Zahlen wäre die Tokens/Sekunde-Angabe natürlich sowieso nicht zu vergleichen, aber ich hätte schon erwartet, dass die Abstände in etwa gleich bleiben. Nach den Angaben aus dem Leaderboard hätte aber Mistral Small das mit deutlichem Vorsprung schnellste Modell sein sollen, mit einem Vorsprung auf Qwen von fast 75%, gefolgt von Exaone. Gemma 27B sollte laut Leaderboard angeblich weniger als ein Drittel der Geschwindigkeit von Mistral erreichen. Woher diese Abweichung kommt, ist ohne tiefere Nachforschung schwer nachzuvollziehen. Sofern die Unterschiede – selbst in der relativen Rangfolge – nur wegen unterschiedlicher Konfigurationen zustande kommen, verlieren allgemeine Angaben doch sehr an Aussagekraft und man kommt nicht mehr um eigene Tests für den eigenen Anwendungsfall herum.

Ähnliches gilt sinngemäß für die inhaltliche Qualität der Antworten. In Anbetracht der Ergebnisse meiner eigenen Tests erscheint es unverständlich, dass laut des „Intelligence Index“, der eine Zusammensetzung mehrerer anderer Benchmarks ist, Exaone einen deutlichen Vorsprung auf Mistral haben soll, während es sich in meinen Tests als komplett unbrauchbar erwiesen hat. Hier könnte man möglicherweise noch argumentieren, dass die deutschsprachigen Tests Exaone benachteiligen, aber die englischsprachigen Antworten sind ebenfalls schlecht und wenn Modellwissen gefragt ist voller faktischer Fehler. Als einen weiteren kleinen Test habe ich Exaone und zum Vergleich Qwen (was ja bei deutschen Anfragen auch nicht ganz so gut war) nach dem politischen System in Irland gefragt („Tell me about the political system in Ireland and the election process.„) und wieder kam von Exaone viel Stuss, von Qwen dagegen ordentliche Antworten.

Fortsetzung folgt…

Im nächsten Teil begleiten wir Inge Wenzel auf ihrem Weg nach Rimini.