Warum Modelle für maschinelles Lernen in neuen Umgebungen versagen können - und was wir dagegen tun können
Modelle des maschinellen Lernens haben viele Bewunderer, vor allem wegen ihrer Fähigkeit, riesige Datensätze zu durchforsten und äußerst präzise Ergebnisse zu liefern. Aber sie sind nicht unbesiegbar. Ganz im Gegenteil, wie jüngste Erkenntnisse von MIT-Wissenschaftlern zeigen. Sie entdeckten eine Schwachstelle in der sonst so robusten Rüstung der besten Modelle: Sie sind nicht in der Lage, ihre Glaubwürdigkeit von einer Situation auf die andere zu übertragen.
Man sollte meinen, dass eine hohe Genauigkeit ein Beweis für die Verallgemeinerbarkeit ist. Doch die Forscher des MIT sehen das anders. Marzyeh Ghassemi, eine außerordentliche Professorin an der MIT-Abteilung für Elektrotechnik und Informatik, weist darauf hin, dass ein Modell, das in einem Kontext ein Superstar sein mag, in einem anderen für bis zu 75% der Datensätze abstürzen kann. Sie rät zur Vorsicht, wenn man sich beim Einsatz von Modellen in realen Szenarien blind auf durchschnittliche Leistungskennzahlen verlässt.
Wenn Modelle scheitern und was darunter liegt
Eine erhellende Papier die das Team auf der Konferenz NeurIPS (Neural Information Processing Systems) 2025 vorstellte, zeigt, wie tief dieses Problem reicht. Im Wesentlichen fanden sie heraus, dass Modelle, die ursprünglich für die Diagnose von Krankheiten in einem Krankenhaus anhand von Röntgenaufnahmen der Brust trainiert wurden, in einem anderen Krankenhaus miserable Leistungen erbringen können. Der Haken an der Sache? Die aggregierten Statistiken übersehen diese Diskrepanz weitgehend und verschleiern die schlechte Leistung bei bestimmten Patientengruppen, z. B. bei Patienten mit bestimmten Erkrankungen wie Pleuraerkrankungen oder vergrößertem Kardiomediastinum.
Ein Hauptproblem, das die Forscher feststellten, war das Vorhandensein von Scheinkorrelationen, d. h. von Beziehungen, die während der Ausbildung gelernt wurden, sich aber nicht auf neue Umgebungen übertragen lassen. Wird ein solcher Zusammenhang aufgedeckt, kann dies weitreichende, wenn nicht gar katastrophale Folgen haben. So können Bildgebungsmodelle beispielsweise bestimmte Markierungen auf Röntgenbildern eines Krankenhauses mit einer Krankheit in Verbindung bringen, aber dieselbe Krankheit in den Scans eines anderen Krankenhauses, wo die Markierung fehlt, nicht erkennen. Diese falschen Zusammenhänge zu verlernen, ist sicherlich eine Herausforderung.
Löcher in traditionellen Überzeugungen und ein Blick in die Zukunft
Die gängige Meinung war, dass Modelle, die in einem Bereich sehr gut abschnitten, auch in einem anderen Bereich gut abschneiden würden. Diese Prämisse, die als “Genauigkeit auf der Linie” bezeichnet wird, wurde durch die Untersuchungen des MIT-Teams zu Fall gebracht. Die Arbeit des Teams zeigte, dass Modelle, die in einem Kontext die besten Ergebnisse erzielten, in einem anderen Kontext die schlechtesten sein konnten.
Die Forscher haben diese Situation mit einem neuartigen Algorithmus namens OODSelect gemeistert, der von einem MIT-Postdoc Olawale Salaudeen. Bei dieser Technik werden Tausende von Modellen, die mit Daten trainiert wurden, überprüft und dann mit anderen Daten erneut getestet. Der Algorithmus wirft ein Schlaglicht auf die Modelle, die in der ursprünglichen Umgebung bewundernswert abschnitten, aber in einer neuen Umgebung deutlich versagten.
Wie geht es weiter? Das Team hat seinen Code und die identifizierten Teilmengen bereits anderen zur Verfügung gestellt und hofft, dass die Community für maschinelles Lernen OODSelect annehmen wird. Auf diese Weise können Unternehmen, die auf Bereiche stoßen, in denen ihre Modelle unterdurchschnittlich abschneiden, den Kurs korrigieren, indem sie gezielte Schritte zur Verbesserung dieser spezifischen Bereiche unternehmen.
“Wir hoffen, dass der veröffentlichte Code und die OODSelect-Teilmengen als Brücke dienen”, schreiben die Forscher und weisen damit auf ihr Bestreben hin, Benchmarks und Modelle zu erstellen, die sich mit den negativen Auswirkungen falscher Korrelationen auseinandersetzen.
Um diese Diskussion im Detail zu verfolgen, lesen Sie den Originalartikel von MIT News: Warum es wichtig ist, sich von übermäßig aggregierten Metriken des maschinellen Lernens zu lösen.