{"id":6810,"date":"2025-08-20T01:07:40","date_gmt":"2025-08-19T23:07:40","guid":{"rendered":"https:\/\/aitrends.center\/racing-toward-reality-a-new-way-to-benchmark-ai-in-the-real-world\/"},"modified":"2025-08-20T01:07:40","modified_gmt":"2025-08-19T23:07:40","slug":"racing-towards-reality-ein-neuer-weg-zum-benchmarking-von-ki-in-der-realen-welt","status":"publish","type":"post","link":"https:\/\/aitrendscenter.eu\/de\/racing-toward-reality-a-new-way-to-benchmark-ai-in-the-real-world\/","title":{"rendered":"Auf dem Weg zur Realit\u00e4t: Ein neuer Weg zum Benchmarking von KI in der realen Welt"},"content":{"rendered":"<p>Im dynamischen Universum der k\u00fcnstlichen Intelligenz versuchen die Forscher st\u00e4ndig, das leistungsf\u00e4higste gro\u00dfe Sprachmodell (LLM) zu entwickeln. Traditionell findet dieser Wettlauf meist in den strukturierten Umgebungen von Labors statt. Dank einer von Inclusion AI und der Ant Group ins Leben gerufenen Gemeinschaftsinitiative erh\u00e4lt dieser typische Ansatz jedoch eine neue Perspektive.<\/p>\n<p>Diese Forscher haben ein einzigartiges Benchmarking-Konzept entwickelt, das treffend den Namen <strong>Inklusion Arena<\/strong>das die Leistung von LLMs auf der Grundlage ihrer Funktionen in realen, praktischen Anwendungen bewertet. Dies ist eine unkonventionelle Abkehr von der Bewertung von Modellen ausschlie\u00dflich auf der Grundlage ihrer Leistung in vorbereiteten, bereinigten Testumgebungen.<\/p>\n<p>Der Umfang und die Reichweite der Inclusion Arena gehen \u00fcber die \u00fcblichen Benchmarking-Standards hinaus. Sie nutzt Leistungsdaten von KI-Tools, die derzeit von normalen Nutzern verwendet werden, und ber\u00fccksichtigt dabei echte Nutzerinteraktionen in Live-Anwendungen. Auf diese Weise bietet sie uns ein weitaus genaueres, transparenteres und praktischeres Verst\u00e4ndnis daf\u00fcr, wie diese KI-Modelle in der realen Welt tats\u00e4chlich funktionieren.<\/p>\n<p>Warum ist das wichtig, werden Sie sich fragen? Herk\u00f6mmliche Benchmarks spiegeln oft nicht das wahre Potenzial und die F\u00e4higkeiten eines KI-Modells wider, wenn es mit unvorhersehbaren, von Menschen erzeugten Eingaben konfrontiert wird. Die Inclusion Arena hingegen liefert eine zuverl\u00e4ssige Momentaufnahme des Modellverhaltens in Produktionsumgebungen und vermittelt Entwicklern, Forschern und Unternehmen eine klarere Vorstellung von der Zuverl\u00e4ssigkeit und Leistung eines Modells, wenn es um reale Szenarien mit hohem Druck geht.<\/p>\n<p>Aber es geht nicht nur darum, das massivste oder schnellste Modell zu haben. In der realen Welt m\u00fcssen LLMs nicht nur genau sein, sondern auch kontextbewusst, fair und robust. Faktoren wie Vertrauen, Sicherheit und Nutzen sind ebenfalls von entscheidender Bedeutung. Der von Inclusion AI vorgeschlagene Ansatz erleichtert die Messung dieser Aspekte in erheblichem Ma\u00dfe und f\u00f6rdert eine verantwortungsvollere und nutzerzentrierte Entwicklung in der Branche.<\/p>\n<p>Dieser Perspektivwechsel k\u00f6nnte den KI-Sektor, wie wir ihn kennen, m\u00f6glicherweise ver\u00e4ndern. Indem sie die Art und Weise, wie KI bewertet wird, problematisieren, fordern Inclusion AI und Ant Group die Branche auf, \u00fcber rein akademische Metriken hinauszublicken. Der Fokus wird nun angemessenerweise auf die Auswirkungen verlagert, die KI in realen Situationen haben kann. Dies k\u00f6nnte dazu f\u00fchren, dass sich die Art und Weise, wie solche Modelle getestet, trainiert, feinabgestimmt und schlie\u00dflich eingesetzt werden, \u00e4ndert.<\/p>\n<p>Wenn Sie von der revolution\u00e4ren Inclusion Arena fasziniert sind und erfahren m\u00f6chten, wie sie die KI-Benchmarking-Landschaft umgestaltet, k\u00f6nnen Sie sich jederzeit weiter informieren! Sie k\u00f6nnen den ausf\u00fchrlichen Artikel auf VentureBeat lesen: <a href=\"https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/\" target=\"_blank\" rel=\"noopener\">https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/<\/a><\/p>","protected":false},"excerpt":{"rendered":"<p>In the dynamic universe of artificial intelligence, researchers are constantly attempting to conceive the most proficient large language model (LLM). Traditionally, this race has mostly occurred within the structured settings of laboratories. However, this typical approach is getting a fresh perspective, thanks to a collaborative initiative launched by Inclusion AI and Ant Group. These researchers have crafted a unique benchmarking blueprint, aptly named the Inclusion Arena, that evaluates the performance of LLMs based on their functions within real-world, practical applications. This is an unconventional departure from assessing models solely on their performance within pre-prepared, sanitized testing arenas. The scale and [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":6811,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[47],"tags":[],"class_list":["post-6810","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-news","post--single"],"_links":{"self":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/6810","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/comments?post=6810"}],"version-history":[{"count":0,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/6810\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media\/6811"}],"wp:attachment":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media?parent=6810"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/categories?post=6810"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/tags?post=6810"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}