Cohere behauptet, dass sein neues Aya Vision AI-Modell erstklassig ist

Cohere For AI, die gemeinnützige Forschungseinrichtung von Cohere, einem AI-Startup, veröffentlichte diese Woche ein multimodales 'offenes' KI-Modell namens Aya Vision, von dem die Forschungseinrichtung behauptete, dass es erstklassig sei.

Aya Vision kann Aufgaben wie das Schreiben von Bildunterschriften, das Beantworten von Fragen zu Fotos, das Übersetzen von Texten und das Generieren von Zusammenfassungen in 23 großen Sprachen ausführen. Cohere, das auch Aya Vision kostenlos über WhatsApp zur Verfügung stellt, nannte es 'einen bedeutenden Schritt, um technische Durchbrüche weltweit zugänglich zu machen'.

'Obwohl die KI bedeutende Fortschritte gemacht hat, gibt es immer noch eine große Kluft in der Leistungsfähigkeit von Modellen in verschiedenen Sprachen - eine Kluft, die bei multimodalen Aufgaben, die sowohl Text als auch Bilder umfassen, noch deutlicher wird', schrieb Cohere in einem Blog-Beitrag. 'Aya Vision zielt darauf ab, diese Kluft explizit zu schließen.'

Aya Vision gibt es in zwei Varianten: Aya Vision 32B und Aya Vision 8B. Das anspruchsvollere der beiden, Aya Vision 32B, setzt 'eine neue Grenze', wie Cohere sagte, und übertrifft Modelle in doppelter Größe, einschließlich Meta's Llama-3.2 90B Vision, bei bestimmten visuellen Verstehensbenchmarks. Aya Vision 8B schneidet laut Cohere bei einigen Bewertungen besser ab als Modelle, die zehnmal so groß sind.

Beide Modelle sind über die KI-Entwicklungsplattform Hugging Face unter einer Creative Commons 4.0-Lizenz mit einem Zusatz zur akzeptablen Nutzung von Cohere erhältlich. Sie dürfen nicht für kommerzielle Anwendungen verwendet werden.

Cohere gab an, dass Aya Vision mit einem 'vielfältigen Pool' an englischen Datensätzen trainiert wurde, die von der Forschungseinrichtung übersetzt und zur Erstellung synthetischer Annotationen verwendet wurden. Annotationen, auch bekannt als Tags oder Labels, helfen Modellen, Daten während des Schulungsprozesses zu verstehen und zu interpretieren.

Cohere's Aya Vision-Modell kann eine Reihe von visuellen Verständnisaufgaben ausführen. Bildnachweis: Cohere

Der Einsatz synthetischer Annotationen von Cohere - das heißt, Annotationen, die von KI generiert werden - ist im Trend. Trotz seiner potenziellen Nachteile nutzen Konkurrenten wie OpenAI zunehmend synthetische Daten, um Modelle zu trainieren, da der Pool an realen Daten erschöpft ist. Das Marktforschungsunternehmen Gartner schätzt, dass im letzten Jahr 60% der für KI- und Analyseprojekte verwendeten Daten synthetisch erzeugt wurden.

Nach Angaben von Cohere ermöglichte das Training von Aya Vision mit synthetischen Annotationen der Forschungseinrichtung die Verwendung weniger Ressourcen bei gleichzeitiger Erzielung einer wettbewerbsfähigen Leistung.

'Dies zeigt unseren kritischen Fokus auf Effizienz und [das Erreichen von] mehr mit weniger Berechnung', schrieb Cohere in seinem Blog. 'Dies ermöglicht auch eine größere Unterstützung für die Forschungsgemeinschaft, die oft über begrenzten Zugang zu Berechnungsmitteln verfügt.'

Neben Aya Vision veröffentlichte Cohere auch einen neuen Benchmark-Satz, AyaVisionBench, der dazu dient, die Fähigkeiten eines Modells in 'Vision-Sprache'-Aufgaben wie der Identifizierung von Unterschieden zwischen zwei Bildern und der Konvertierung von Screenshots in Code zu prüfen.

Die KI-Branche steht nach Meinung einiger vor einer 'Evaluierungskrise', die eine Folge der Popularisierung von Benchmarks ist, die Aggregatewerte liefern, die nur schlecht mit der Leistungsfähigkeit auf Aufgaben korrelieren, die die meisten KI-Benutzer interessieren. Cohere behauptet, dass AyaVisionBench ein Schritt zur Behebung dieses Problems ist und ein 'breites und anspruchsvolles' Rahmenwerk für die Bewertung des interlingualen und multimodalen Verständnisses eines Modells bietet.

Mit etwas Glück ist das tatsächlich der Fall.

'[D]er Datensatz dient als robustes Benchmark zur Bewertung von Vision-Sprache-Modellen in mehrsprachigen und realen Umgebungen', schrieben Cohere-Forscher in einem Beitrag auf Hugging Face. 'Wir stellen diesen Auswertungssatz der Forschungsgemeinschaft zur Verfügung, um mehrsprachige multimodale Bewertungen voranzutreiben.'