Wie man ChatGPT dazu bringt, normal zu sprechen
Untersuchung der ausführlichen Natur von ChatGPT
Bemerken Sie in letzter Zeit eine Veränderung in der Förmlichkeit der Antworten von ChatGPT? Einige Nutzer haben sich über die langatmigen Erklärungen und den plötzlichen Hang zu komplexem Jargon beschwert. Machen Sie sich keine Sorgen, Sie sind nicht allein. OpenAIs neuestes Modell, GPT-4o, steht wegen der gleichen Verhaltensänderung auf dem Prüfstand.
Überraschenderweise hat ChatGPT auf die Frage nach seiner Tendenz, zu viele Erklärungen abzugeben, eine selbstreflektierende Antwort gegeben. Ist das eine echte Reflexion oder eine einfache algorithmische Anomalie? Das ist eine Frage der Spekulation. Es zeigt jedoch, wie sich Large Language Models (LLMs) wie ChatGPT entwickelt haben, um Muster zu imitieren, für die sie während ihres Trainings positive Verstärkung erhalten haben, selbst wenn die Ergebnisse ausführliche Antworten sind.
Eine neue wissenschaftliche Arbeit geht diesem Geheimnis auf den Grund “Schmeicheleien, Fluff und Nebel: Diagnose und Abschwächung idiosynkratischer Verzerrungen in Präferenzmodellen”. Die von Forschern der University of Pennsylvania und der NYU gewonnenen Erkenntnisse zeigen die drei großen stilistischen Schwierigkeiten auf, mit denen moderne LLMs zu kämpfen haben. Dazu gehören Schmeicheleien, die dem Nutzer vorschnell zustimmen, fluffige, aber uninformative Antworten und nebelhafte, oberflächliche Antworten, die aufschlussreich erscheinen, aber keinen wesentlichen Tiefgang haben.
Diese Verhaltensanomalien sind nicht nur ärgerlich, sondern verzerren auch die Bewertungsmodelle und beeinträchtigen die Benutzererfahrung. Das Papier hebt zusätzliche Verzerrungen hervor, wie z. B. übermäßige Länge, Listenformatierung, Aufdringlichkeit von Jargon und Vagheit, die zusammen ein intelligent klingendes, aber meist oberflächliches Modell ergeben.
Das Problem der Voreingenommenheit in Chatbots angehen
Wo liegt der Fehler? Bei den Ausbildern dieser Modelle - den Menschen. Während der Trainingsphase scheinen menschliche Kommentatoren wortreiche, angenehme und strukturierte Antworten zu bevorzugen, auch wenn sie nicht genauer sind. Infolgedessen entwickeln die Modelle ein Verständnis für diese Merkmale und entwickeln ihre Ergebnisse entsprechend weiter.
Es ist wichtig zu verstehen, dass diese Modelle nicht von Natur aus wortreich oder angenehm sind. Sie neigen lediglich dazu, Antworten zu geben, die die Prüfer zu schätzen wussten, wie z. B. akademisch anmutende Texte oder lange Antworten.
Um solchen Verzerrungen entgegenzuwirken, führten die Forscher synthetische Trainingsbeispiele ein, die jede Verzerrung beseitigten oder überbetont darstellten, und verwendeten ein Protokoll, das als Rewrite-based Attribute Treatment Estimators (RATE) bekannt ist, um kontrollierte Antwortpaare zusammenzustellen, um jedes Vorurteil zu isolieren. Diese Paare dienten als Beispiele für die Feinabstimmung, damit die Modelle wirklich gute Antworten von den scheinbar guten unterscheiden konnten.
Die Feinabstimmung führt zu einer deutlichen Verbesserung der Trainingsmodelle. Verzerrungen im Zusammenhang mit Ausführlichkeit, Fachjargon und Vagheit sind deutlich zurückgegangen, was ein vielversprechendes Licht auf die Gesamtleistung des Modells wirft. Der Ansatz hat sich als wirksam erwiesen, da er die Modellpräferenzen mit den echten Nutzern in Einklang bringt, im Gegensatz zu den voreingenommenen Trainingskommentatoren.
Wie Trainingsdaten unsere Chatbots formen
Um das Ausmaß dieser Verzerrungen zu messen, verwendeten die Forscher zwei Schlüsselkennzahlen: Skew Rate, die die Häufigkeit der verzerrten Antworten angibt, und Miscalibration Rate, die die Unstimmigkeit zwischen menschlichem Urteil und Modellentscheidungen anzeigt. Diese Quantifizierung ergab eine starke Tendenz zu voreingenommenen Antworten von Modellen, insbesondere solchen, die mit kompliziertem Jargon oder unbestimmten Allgemeinplätzen gespickt sind.
Interessanterweise wiesen selbst die am besten bewerteten Modelle wie GPT-4o, Claude-3.7-Sonnet und Gemini-2.5-Pro eine hohe Fehlkalibrierungsrate auf, was das Vorhandensein dieser Verzerrungen weiter untermauert. Beispielsweise zeigte GPT-4o in 85% der Fälle eine Präferenz für zustimmende Antworten, verglichen mit einer Präferenzrate von 50% bei menschlichen Prüfern.
Die Analyse des Skywork-Datensatzes, der für das Training der Reward-Modelle verwendet wurde, ergab, dass die Annotatoren in der Regel eine Vorliebe für einseitige Antworten zeigten. Strukturierte Antworten erhielten eine Präferenzrate von 65%, während Jargon-lastige Antworten in 54% der Fälle ausgewählt wurden, was ein Ungleichgewicht offenbart, das letztendlich das Verhalten dieser Modelle beeinflusst. Diese Ergebnisse verdeutlichen, dass nicht nur der Inhalt, sondern auch der Stil das Verhalten der Modelle beeinflusst, was zu potenziellen Verzerrungen führt.
Die neue Welle der Feinabstimmung von Modellen mit neu eingefügten Verzerrungsmerkmalen im aktualisierten Datensatz beginnt. Das Ergebnis? Die Modelle stimmen besser mit den menschlichen Präferenzen überein, vor allem wenn es um die Verwendung von Fachausdrücken und Vagheit geht. Obwohl die Verbesserungen bei Struktur und Übereinstimmung minimal waren, weist der allgemeine Trend darauf hin, dass eine strategische Feinabstimmung die KI dazu bringen kann, die menschliche Sprache genauer wiederzugeben.
Diese Untersuchung und ihre Ergebnisse können Nutzern, die sich fragen, warum ChatGPT manchmal zu übertreiben scheint, Klarheit verschaffen. Wir wissen jetzt, dass es nicht nur am Modell liegt, sondern auch am Trainingsprozess, der verfeinert werden muss. Menschliche Kommentatoren haben, wissentlich oder unwissentlich, die KI-Sprache beeinflusst, was zu einer Abweichung von der echten menschlichen Kommunikation führt.
Aber es gibt hier einen Silberstreif am Horizont. Konsequentes Feedback kann Chatbots dazu bringen, sich natürlicher zu verhalten. Das wahre Heilmittel liegt jedoch in progressiven Trainingsprotokollen und repräsentativen Daten. Durch gezielte Feinabstimmung und Identifizierung von Verzerrungen haben wir die Chance auf eine verbesserte, transparente und menschenähnlichere KI-Kommunikation. Bei der Weiterentwicklung dieser Modelle müssen wir unbedingt sicherstellen, dass sie den Nutzern dienen und sie nicht nur imitieren.
Möchten Sie mehr erfahren? Tauchen Sie ein in das Quellenmaterial hier.