Kategorien: Nachrichten

Warum Modelle für maschinelles Lernen in neuen Umgebungen versagen können - und was wir dagegen tun können

Machine learning models have their fair share of admirers, mostly for their ability to dig into colossal datasets and churn out highly accurate results. But they’re not invincible. Quite the contrary, according to recent findings from MIT scientists. They uncovered a chink in the otherwise resilient armor of top-rated models – a failure to carry their credibility from one situation to another.

Man sollte meinen, dass eine hohe Genauigkeit ein Beweis für die Verallgemeinerbarkeit ist. Doch die Forscher des MIT sehen das anders. Marzyeh Ghassemi, eine außerordentliche Professorin an der MIT-Abteilung für Elektrotechnik und Informatik, weist darauf hin, dass ein Modell, das in einem Kontext ein Superstar sein mag, in einem anderen für bis zu 75% der Datensätze abstürzen kann. Sie rät zur Vorsicht, wenn man sich beim Einsatz von Modellen in realen Szenarien blind auf durchschnittliche Leistungskennzahlen verlässt.

Wenn Modelle scheitern und was darunter liegt

Eine erhellende Papier die das Team auf der Konferenz NeurIPS (Neural Information Processing Systems) 2025 vorstellte, zeigt, wie tief dieses Problem reicht. Im Wesentlichen fanden sie heraus, dass Modelle, die ursprünglich für die Diagnose von Krankheiten in einem Krankenhaus anhand von Röntgenaufnahmen der Brust trainiert wurden, in einem anderen Krankenhaus miserable Leistungen erbringen können. Der Haken an der Sache? Die aggregierten Statistiken übersehen diese Diskrepanz weitgehend und verschleiern die schlechte Leistung bei bestimmten Patientengruppen, z. B. bei Patienten mit bestimmten Erkrankungen wie Pleuraerkrankungen oder vergrößertem Kardiomediastinum.

Ein Hauptproblem, das die Forscher feststellten, war das Vorhandensein von Scheinkorrelationen, d. h. von Beziehungen, die während der Ausbildung gelernt wurden, sich aber nicht auf neue Umgebungen übertragen lassen. Wird ein solcher Zusammenhang aufgedeckt, kann dies weitreichende, wenn nicht gar katastrophale Folgen haben. So können Bildgebungsmodelle beispielsweise bestimmte Markierungen auf Röntgenbildern eines Krankenhauses mit einer Krankheit in Verbindung bringen, aber dieselbe Krankheit in den Scans eines anderen Krankenhauses, wo die Markierung fehlt, nicht erkennen. Diese falschen Zusammenhänge zu verlernen, ist sicherlich eine Herausforderung.

Löcher in traditionellen Überzeugungen und ein Blick in die Zukunft

The conventional wisdom held was that if models ranked highly in one setting, they would equally shine in another. This premise, referred to as “accuracy-on-the-line,” met its downfall at the hands of the MIT team’s investigations. Their work showed that models that were crowned in one context could in fact be the laggards in another.

Die Forscher haben diese Situation mit einem neuartigen Algorithmus namens OODSelect gemeistert, der von einem MIT-Postdoc Olawale Salaudeen. Bei dieser Technik werden Tausende von Modellen, die mit Daten trainiert wurden, überprüft und dann mit anderen Daten erneut getestet. Der Algorithmus wirft ein Schlaglicht auf die Modelle, die in der ursprünglichen Umgebung bewundernswert abschnitten, aber in einer neuen Umgebung deutlich versagten.

What’s the way forward? The team has already put forth their code and the identified subsets for others to use, hoping that the machine learning community will embrace OODSelect. This way, organizations that stumble upon areas where their models are underperforming can course-correct by taking targeted steps to improve those specific areas.

“Wir hoffen, dass der veröffentlichte Code und die OODSelect-Teilmengen als Brücke dienen”, schreiben die Forscher und weisen damit auf ihr Bestreben hin, Benchmarks und Modelle zu erstellen, die sich mit den negativen Auswirkungen falscher Korrelationen auseinandersetzen.

Um diese Diskussion im Detail zu verfolgen, lesen Sie den Originalartikel von MIT News: Warum es wichtig ist, sich von übermäßig aggregierten Metriken des maschinellen Lernens zu lösen.

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.