Kategorien: Nachrichten

Auf dem Weg zur Realität: Ein neuer Weg zum Benchmarking von KI in der realen Welt

Im dynamischen Universum der künstlichen Intelligenz versuchen die Forscher ständig, das leistungsfähigste große Sprachmodell (LLM) zu entwickeln. Traditionell findet dieser Wettlauf meist in den strukturierten Umgebungen von Labors statt. Dank einer von Inclusion AI und der Ant Group ins Leben gerufenen Gemeinschaftsinitiative erhält dieser typische Ansatz jedoch eine neue Perspektive.

Diese Forscher haben ein einzigartiges Benchmarking-Konzept entwickelt, das treffend den Namen Inklusion Arenadas die Leistung von LLMs auf der Grundlage ihrer Funktionen in realen, praktischen Anwendungen bewertet. Dies ist eine unkonventionelle Abkehr von der Bewertung von Modellen ausschließlich auf der Grundlage ihrer Leistung in vorbereiteten, bereinigten Testumgebungen.

Der Umfang und die Reichweite der Inclusion Arena gehen über die üblichen Benchmarking-Standards hinaus. Sie nutzt Leistungsdaten von KI-Tools, die derzeit von normalen Nutzern verwendet werden, und berücksichtigt dabei echte Nutzerinteraktionen in Live-Anwendungen. Auf diese Weise bietet sie uns ein weitaus genaueres, transparenteres und praktischeres Verständnis dafür, wie diese KI-Modelle in der realen Welt tatsächlich funktionieren.

Why is this important, you may ask? Traditional benchmarks are often unreflective of an AI model’s true potential and capability when met with unpredictable, human-generated input. The Inclusion Arena, however, provides a reliable snapshot of the model’s behavior in production environments; thereby giving developers, researchers, and businesses a more lucid idea of a model’s reliability and performance when dealing with real, high-pressure scenarios.

But it’s not just about having the most massive or fastest model. In the real world, LLMs need to be context-aware, fair, and robust apart from just being accurate. Factors like trust, safety, and utility are also crucial considerations. This approach proposed by Inclusion AI facilitates the measurement of these aspects in a significant manner and encourages more responsible and user-centric development within the industry.

Dieser Perspektivwechsel könnte den KI-Sektor, wie wir ihn kennen, möglicherweise verändern. Indem sie die Art und Weise, wie KI bewertet wird, problematisieren, fordern Inclusion AI und Ant Group die Branche auf, über rein akademische Metriken hinauszublicken. Der Fokus wird nun angemessenerweise auf die Auswirkungen verlagert, die KI in realen Situationen haben kann. Dies könnte dazu führen, dass sich die Art und Weise, wie solche Modelle getestet, trainiert, feinabgestimmt und schließlich eingesetzt werden, ändert.

If you’re intrigued by the revolutionary Inclusion Arena and want to learn how it’s reshaping the AI benchmarking landscape, you can always explore further! You can read the detailed article on VentureBeat: https://venturebeat.com/ai/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production/

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.