
Google versucht, mit Gemini, seiner Flaggschiff-Suite von generativen KI-Modellen, Apps und Diensten, Wellen zu machen. Aber was ist Gemini? Wie können Sie es verwenden? Und wie schlägt es sich im Vergleich zu anderen generativen KI-Tools wie OpenAI's ChatGPT, Meta's Llama und Microsoft's Copilot? Um es einfacher zu machen, mit den neuesten Entwicklungen von Gemini Schritt zu halten, haben wir diesen praktischen Leitfaden zusammengestellt, den wir aktualisieren werden, sobald neue Gemini-Modelle, Funktionen und Neuigkeiten über Googles Pläne für Gemini veröffentlicht werden. Was ist Gemini? Gemini ist Googles lang erwartete, nachfolgende Generation von generativen KI-Modellen. Entwickelt von Googles KI-Forschungslabors DeepMind und Google Research, gibt es verschiedene Varianten von Gemini: Gemini Ultra, ein sehr großes Modell. Gemini Pro, ein großes Modell - allerdings kleiner als Ultra. Die neueste Version, Gemini 2.0 Pro, ist Googles aktuelles Flaggschiff. Gemini Flash, eine schnellere, \"destillierte\" Version von Pro. Gemini Flash-Lite, eine etwas kleinere und schnellere Version von Gemini Flash. Gemini Flash Thinking, ein Modell mit \"Denkfähigkeiten\". Gemini Nano, zwei kleine Modelle: Nano-1 und das etwas leistungsfähigere Nano-2, das offline ausgeführt werden soll. Alle Gemini-Modelle wurden darauf trainiert, nativ multimodal zu sein - das heißt, sie sind in der Lage, mehr als nur Text zu verarbeiten und zu analysieren. Google sagt, sie wurden auf eine Vielzahl von öffentlichen, proprietären und lizenzierten Audio-, Bild- und Videodateien sowie auf Code-Basis und Text in verschiedenen Sprachen vortrainiert und feinabgestimmt. Dies hebt Gemini von Modellen wie Googles eigenem LaMDA ab, das ausschließlich mit Textdaten trainiert wurde. LaMDA kann nichts über Text hinaus verstehen oder generieren (z. B. Aufsätze, E-Mails usw.), aber das ist nicht unbedingt der Fall bei Gemini-Modellen. So können beispielsweise die neuesten Versionen von Gemini Flash und Gemini Pro nativ Bilder und Audio neben Text ausgeben. Hier sei angemerkt, dass die Ethik und Gesetzlichkeit des Trainings von Modellen mit öffentlichen Daten in einigen Fällen ohne das Wissen oder die Zustimmung der Datenbesitzer unklar sind. Google verfügt über eine AI-Indemnitätsrichtlinie, um bestimmte Google Cloud-Kunden vor Klagen zu schützen, sollten sie mit ihnen konfrontiert werden, aber diese Richtlinie enthält Ausnahmen. Handeln Sie daher mit Vorsicht - insbesondere, wenn Sie beabsichtigen, Gemini kommerziell zu verwenden. Was ist der Unterschied zwischen den Gemini-Apps und Gemini-Modellen? Gemini ist separat von den Gemini-Apps im Web und auf Mobilgeräten (ehemals Bard). Die Gemini-Apps sind Clients, die mit verschiedenen Gemini-Modellen verbunden sind und eine Chatbot-ähnliche Benutzeroberfläche darüber legen. Denken Sie an sie als Frontends für Googles generative KI, ähnlich wie ChatGPT und Anthropics Claude-Familie von Apps. Gemini im Web ist hier zu finden. Auf Android ersetzt die Gemini-App die vorhandene Google Assistant-App. Und auf iOS dienen die Google- und Google-Suche-Apps als Gemini-Clients auf dieser Plattform. Auf Android können Benutzer eine Gemini-Overlay aufrufen, um Fragen zu dem auf ihrem Bildschirm angezeigten Inhalt (z. B. ein YouTube-Video) zu stellen. Durch Drücken und Halten der Ein-/Aus-Taste eines unterstützten Smartphones oder das Aussprechen von \"Hey Google\" wird das Overlay aufgerufen. Gemini-Apps können Bilder sowie Sprachbefehle und Text akzeptieren - einschließlich Dateien wie PDFs, die hochgeladen oder aus Google Drive importiert werden - und Bilder generieren. Wie zu erwarten ist, werden Gespräche mit Gemini-Apps auf dem Mobilgerät auf Gemini im Web übertragen und umgekehrt, wenn Sie in beiden Bereichen mit demselben Google-Konto angemeldet sind. Gemini Advanced Die Gemini-Apps sind nicht das einzige Mittel, um die Unterstützung der Gemini-Modelle bei Aufgaben in Anspruch zu nehmen. Allmählich kommen Gemini-geprägte Funktionen in gängige Google-Apps und -Dienste wie Gmail und Google Docs. Um die meisten davon nutzen zu können, benötigen Sie den Google One AI Premium Plan. Technisch gesehen ist der AI Premium Plan ein Teil von Google One und kostet 20 US-Dollar im Monat. Er bietet Zugang zu Gemini in Google Workspace-Apps wie Docs, Maps, Slides, Sheets, Drive und Meet. Er ermöglicht auch das, was Google Gemini Advanced nennt, was die anspruchsvolleren Gemini-Modelle des Unternehmens in die Gemini-Apps bringt. Gemini Advanced-Benutzer erhalten hier und da auch Extras, wie einen bevorzugten Zugriff auf neue Funktionen und Modelle; die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu bearbeiten; und erhöhte Grenzwerte für NotebookLM, Googles Tool, das PDFs in KI-generierte Podcasts umwandelt. Kürzlich hat Gemini Advanced ein Merkmal erhalten, das die Vorlieben der Benutzer speichert und es Gemini ermöglicht, sich auf alte Gespräche zu beziehen, um aktuelle Chats im Kontext zu verstehen. Eines der überzeugenderen Exklusivangebote von Gemini Advanced, Deep Research, nutzt Gemini-Modelle mit \"fortgeschrittenem Denken\", um detaillierte Berichte zu erstellen. Auf eine Anfrage hin (z. B. \"Wie sollte ich meine Küche neu gestalten?\"), entwickelt Deep Research einen mehrstufigen Forschungsplan und sucht im Web, um eine umfassende Antwort zu formulieren. Gemini in Gmail, Docs, Chrome, Dev-Tools und mehr In Gmail befindet sich Gemini in einem Seitenbereich, der E-Mails schreiben und Zusammenfassungen von Nachrichtensträngen erstellen kann. Den gleichen Bereich finden Sie in Docs, wo er beim Schreiben und Verfeinern von Inhalten sowie beim Brainstorming neuer Ideen hilft. Gemini in Slides erzeugt Folien und benutzerdefinierte Bilder. Und Gemini in Google Sheets erfasst und organisiert Daten, erstellt Tabellen und Formeln. Gemini ist in Google Maps, wo er Bewertungen über lokale Unternehmen zusammenfasst und Empfehlungen gibt, wie man einen Tag in einer fremden Stadt verbringen kann. Die Reichweite des Chatbots erstreckt sich auch auf Drive, wo er Dateien und Ordner zusammenfasst und schnelle Fakten zu einem Projekt angibt. Gemini kam kürzlich auch in Googles Chrome-Browser in Form eines KI-Schreibwerkzeugs. Es ermöglicht Ihnen, etwas völlig Neues zu schreiben oder vorhandenen Text neu zu formulieren; Google sagt, dass es die Webseite, auf der Sie sich befinden, berücksichtigen wird, um Empfehlungen zu machen. An anderer Stelle finden Sie Anzeichen von Gemini in Googles Datenbankprodukten, Cloud-Sicherheitstools und App-Entwicklungsplattformen (einschließlich Firebase und Project IDX), sowie in Apps wie Google Fotos (wo Gemini Suchanfragen in natürlicher Sprache behandelt), YouTube (wo er bei der Ideenfindung für Videos hilft) und Meet (wo er Untertitel übersetzt). Code Assist (ehemals Duet AI for Developers), Googles Suite von KI-gestützten Hilfsmitteln für Code-Vervollständigung und -Erzeugung, überträgt schwere Rechenlasten an Gemini. Dies gilt auch für Googles Sicherheitsprodukte, die auf Gemini basieren, wie Gemini in Threat Intelligence, das große Teile potenziell schädlichen Codes analysieren kann und es Benutzern ermöglicht, in natürlicher Sprache nach laufenden Bedrohungen oder Kompromittierungsindikatoren zu suchen. Gemini-Erweiterungen und Gems Gemini Advanced-Benutzer können Gems erstellen, benutzerdefinierte Chatbots auf Desktop und Mobilgeräten, die von Gemini-Modellen betrieben werden. Gems können aus natürlichsprachlichen Beschreibungen generiert werden - beispielsweise \"Du bist mein Lauftrainer. Gib mir einen täglichen Laufplan\" - und mit anderen Benutzern geteilt oder privat gehalten werden. Die Gemini-Apps können über sogenannte \"Gemini-Erweiterungen\" auf Google-Dienste zugreifen. Gemini integriert sich mit Drive, Gmail, YouTube und mehr, um auf Fragen wie \"Könntest du meine letzten drei E-Mails zusammenfassen?\" zu antworten. Gemini Live - vertiefte Sprachchats Eine Erfahrung namens Gemini Live ermöglicht es Benutzern, \"tiefgreifende\" Sprachchats mit Gemini zu führen. Sie ist in den Gemini-Apps auf Mobilgeräten und den Pixel Buds Pro 2 verfügbar, wo sie auch dann zugänglich ist, wenn Ihr Telefon gesperrt ist. Mit Gemini Live können Sie Gemini unterbrechen, während der Chatbot spricht, um eine erklärende Frage zu stellen, und er passt sich in Echtzeit an Ihre Sprechmuster an. Live soll auch als eine Art virtueller Coach dienen, der Ihnen hilft, für Veranstaltungen zu proben, Ideen zu entwickeln und so weiter. Beispielsweise kann Live vorschlagen, welche Fähigkeiten Sie in einem anstehenden Vorstellungsgespräch hervorheben sollten und Tipps zum öffentlichen Sprechen geben. Sie können unsere Bewertung von Gemini Live hier lesen. Gemini für Jugendliche Google bietet eine auf Jugendliche ausgerichtete Gemini-Erfahrung für Schüler an. Die auf Jugendliche ausgerichtete Gemini hat \"zusätzliche Richtlinien und Schutzmaßnahmen\", einschließlich eines speziellen Onboarding-Prozesses und einer KI-Literaturanleitung. Ansonsten ist sie nahezu identisch mit der Standard-Gemini-Erfahrung - bis hin zur \"double-check\"-Funktion, die das Web durchsucht, um zu sehen, ob die Antworten von Gemini korrekt sind. Was können die Gemini-Modelle tun? Da Gemini-Modelle multimodal sind, können sie eine Vielzahl von multimodalen Aufgaben ausführen, von der Transkription von Sprache bis zur Untertitelung von Bildern und Videos in Echtzeit. Viele dieser Fähigkeiten haben die Produktionsstufe erreicht, und Google verspricht noch viel mehr in naher Zukunft. Natürlich bietet Google keine Lösung für einige der zugrunde liegenden Probleme der generativen KI-Technologie heute, wie ihre kodierten Vorurteile und die Tendenz, Dinge zu erfinden (d. h. zu halluzinieren). Das tun auch seine Konkurrenten nicht, aber es ist etwas, das man im Auge behalten sollte, wenn man erwägt, Gemini zu verwenden oder dafür zu bezahlen. Die Fähigkeiten von Gemini Pro Google sagt, dass sein neuestes Pro-Modell, Gemini 2.0 Pro, in den Bereichen Codierung und komplexe Abfragen das beste ist. 2.0 Pro übertrifft seinen Vorgänger, Gemini 1.5 Pro, in Benchmarks, die Programmierung, Denken, Mathematik und faktische Genauigkeit messen. In Googles Vertex AI-Plattform können Entwickler Gemini Pro für spezifische Kontexte und Anwendungsfälle durch einen Feintuning- oder \"Anpassungs\"-Prozess anpassen. Pro (zusammen mit anderen Gemini-Modellen) kann beauftragt werden, Daten von Drittanbietern wie Moody's, Thomson Reuters, ZoomInfo und MSCI zu verwenden oder Informationen aus Unternehmensdatensätzen oder Google Search anstelle seines breiteren Wissensfonds zu beziehen. Gemini Pro kann auch an externe, Drittanbieter-APIs angeschlossen werden, um bestimmte Aktionen auszuführen, wie die Automatisierung eines Back-Office-Workflows. Die AI Studio-Plattform von Google bietet Vorlagen für die Erstellung strukturierter Chat-Prompts mit Pro. Entwickler können den kreativen Bereich des Modells steuern und Beispiele geben, um Ton und Stilanweisungen zu geben - und auch die Sicherheitseinstellungen von Pro abzustimmen. Gemini Flash ist leichtgewichtig, während Gemini Flash Thinking über Denkfähigkeiten verfügt Gemini 2.0 Flash, der Tools wie Google Search verwenden kann und mit externen APIs interagiert, übertrifft einige der größeren Gemini 1.5-Modelle in Benchmarks, die Programmierung und Bildanalyse messen. Ein Ableger von Gemini Pro, Flash ist klein und effizient - für schmale, hochfrequente generative KI-Workloads konzipiert. Google sagt, dass Flash besonders gut für Aufgaben wie Zusammenfassung und Chat-Apps, sowie Bild- und Videountertitelung und Datenextraktion aus langen Dokumenten und Tabellen geeignet ist. In der Zwischenzeit übertrifft Gemini 2.0 Flash-Lite, eine kompaktere Version von Flash, Gemini 1.5 Flash, läuft jedoch zum gleichen Preis und der gleichen Geschwindigkeit, so Google. Im vergangenen Dezember veröffentlichte Google eine \"denkende\" Version von Gemini 2.0 Flash, die \"Denkfähigkeiten\" hat. Das KI-Modell benötigt einige Sekunden, um ein Problem rückwärts zu durchdenken, bevor es eine Antwort gibt, was seine Zuverlässigkeit verbessern kann. Gemini Nano kann auf Ihrem Telefon laufen Gemini Nano ist eine winzige Version von Gemini, die effizient genug ist, um direkt auf (einigen) Geräten ausgeführt zu werden, anstatt die Aufgabe an einen Server zu senden. Bisher treibt Nano ein paar Funktionen auf dem Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 und Samsung Galaxy S24 an, darunter Zusammenfassung in Recorder und Smart Reply in Gboard. Die Recorder-App, mit der Benutzer einen Knopf drücken können, um Audio aufzunehmen und zu transkribieren, enthält eine von Gemini gesteuerte Zusammenfassung von aufgenommenen Gesprächen, Interviews, Präsentationen und anderen Audio-Snippets. Benutzer erhalten Zusammenfassungen, auch wenn sie keinen Empfang oder WLAN-Verbindung haben - und als Zeichen des Datenschutzes verlässt keine Daten ihr Telefon während des Prozesses. Nano ist auch in Gboard, Googles Tastaturersatz. Hier betreibt es den Smart Reply, der hilft, das nächste, was Sie sagen wollen, vorzuschlagen, wenn Sie in einer Messaging-App wie WhatsApp eine Konversation führen. Eine zukünftige Version von Android wird Nano nutzen, um Benutzer auf potenzielle Betrügereien während Anrufen hinzuweisen. Die neue Wetter-App auf Pixel-Telefonen verwendet Gemini Nano, um maßgeschneiderte Wetterberichte zu generieren. Und TalkBack, der Zugänglichkeitsdienst von Google, nutzt Nano, um Erklärungen von Objekten für sehbehinderte und blinde Benutzer zu erstellen. Gemini Ultra, bisher nicht verfügbar Über Gemini Ultra haben wir in den letzten Monaten nicht viel gehört. Das Modell ist nicht in den Gemini-Apps verfügbar und wird nicht auf der Gemini-API-Preisseite von Google aufgelistet. Das bedeutet jedoch nicht, dass Google Ultra irgendwann in der Zukunft zurückbringt. Wie viel kosten die Gemini-Modelle? Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash und 2.0 Flash-Lite sind über Googles Gemini-API für den Aufbau von Apps und Diensten verfügbar. Sie sind Pay-as-you-go. Hier sind die Grundtarife - ohne Zusatzoptionen - Stand Februar 225: Gemini 1.5 Pro: 1,25 USD pro 1 Million Eingabetokens (für Anfragen bis zu 128K Tokens) oder 2,50 USD pro 1 Million Eingabetokens (für Anfragen über 128K Tokens); 5 USD pro 1 Million Ausgabetokens (für Anfragen bis zu 128K Tokens) oder 10 USD pro 1 Million Ausgabetokens (für Anfragen über 128K Tokens) Gemini 1.5 Flash: 7,5 Cent pro 1 Million Eingabetokens (für Anfragen bis zu 128K Tokens), 15 Cent pro 1 Million Eingabetokens (für Anfragen über 128K Tokens), 30 Cent pro 1 Million Ausgabetokens (für Anfragen bis zu 128K Tokens), 60 Cent pro 1 Million Ausgabetokens (für Anfragen über 128K Tokens) Gemini 2.0 Flash: 10 Cent pro 1 Million Eingabetokens, 40 Cent pro 1 Million Ausgabetokens. Für Audio, 70 Cent pro 1 Million Eingabetokens. Gemini 2.0 Flash-Lite: 7,5 Cent pro 1 Million Eingabetokens, 30 Cent pro 1 Million Ausgabetokens. Tokens sind unterteilte Datenbits, wie die Silben \"fan\", \"tas\" und \"tic\" im Wort \"fantastisch\"