Skip to main content
On This Page
SBM blog CTA mobile 1

Drive growth and reduce costs with omnichannel business messaging

On This Page

Erforschung von OpenAIs GPT-4o und seine Anwendungen in wissensbasierten Bots

Gpt 4o cover image
May 14, 2024
Jerry Jeon
Software Engineer
On This Page
SBM blog CTA mobile 1

Drive growth and reduce costs with omnichannel business messaging

On This Page
SBM blog CTA mobile 1

Drive growth and reduce costs with omnichannel business messaging


Dieser Artikel wurde von GPT-4o übersetzt. Sie können den Originalartikel über diesen Link einsehen.

In den letzten Monaten wurden eine Reihe neuer großer Sprachmodelle (LLMs) veröffentlicht, von Claude 3 bis Llama 3. Diese Modelle haben sich erheblich verbessert und großes Interesse an den nächsten Schritten von OpenAI geweckt. Am 13. Mai 2024 kündigte OpenAI den GPT-4o an, der weithin als revolutionäre Veränderung gefeiert wird. Dieser Artikel untersucht, wie sich GPT-4o von früheren Modellen unterscheidet und was dies für wissensbasierte Bots bedeutet.

Einführung in GPT-4o

Das "o" in GPT-4o steht für "Omni", was "alles" oder "ganz" bedeutet. GPT-4o kann Text-, Audio- und Bildeingaben verarbeiten und ausgeben. Ich habe die Verbesserungen und Merkmale von GPT-4o zusammengefasst, wie sie im Demonstrationsvideo von OpenAI gezeigt werden.

Wesentliche Verbesserungen bei GPT-4o

Das vorherige Modell vor GPT-4o war GPT-4-turbo-2024-04-09, das am 9. April 2024 veröffentlicht wurde. Hier sind die von OpenAI eingeführten Verbesserungen im Vergleich zu den früheren Modellen:

  • Doppelt so schnell wie das letzte GPT-4
  • 50 % Kostenreduktion
  • Fünfmal höhere Rate-Limits im Vergleich zu GPT-4 Turbo
  • Unterstützung für Echtzeit-Video und -Audio

Neue Sprachinteraktion

Die ChatGPT-App bietet eine Schnittstelle namens Sprachmodus, die zuvor von den Nutzern verlangte, ihre Stimme einzugeben und auf eine Antwort zu warten. Jetzt werden die Antworten fast sofort in Echtzeit gegeben. Laut OpenAI beträgt die durchschnittliche Reaktionszeit etwa 320 Millisekunden, ähnlich wie die Reaktionszeiten von Menschen. Die Nutzer müssen nicht warten, bis GPT mit dem Sprechen fertig ist; sie können während der Antwort unterbrechen und interagieren. Das System ermöglicht auch die Ausdruck von Emotionen und die Erstellung vielfältiger Stimmen. Die Demo zeigte Befehle wie "sprich dramatischer" und "sprich in einem robotischen Ton".

Videofunktionen

Die Demo zeigte die Fähigkeit von GPT-4o, in Echtzeit bei der Lösung mathematischer Probleme auf Papier zu helfen und eine Codeanalyse durch Beobachtung eines Computerbildschirms live bereitzustellen.

Veröffentlichung der GPT-4o-API

OpenAI hat auch die Unterstützung für GPT-4o in seiner API angekündigt, laut der Community-Ankündigung. Die zuvor erwähnten Vorteile der doppelten Geschwindigkeit, der 50 % Kostenreduktion und der fünffachen Erhöhung der Rate-Limits sind direkt anwendbar. Obwohl diese Verbesserungen allen Nutzern zugutekommen, sind sie besonders bedeutend für API-Nutzer mit hohen Nutzungsraten.

Eine weitere bedeutende Änderung ist die Unterstützung von Audioeingaben. Früher war es für sprachbasierte Chatbots notwendig, STT (Speech-to-Text) Funktionen zu verwenden, um Text an die API zu senden. Jetzt kann Audio direkt an die API gesendet werden, was viel effizienter ist und die Übertragung von Geräuschen ermöglicht, die schwer in Text umzuwandeln sind. OpenAIs Ziel ist es, diese Funktion innerhalb weniger Wochen zu unterstützen, und ich freue mich sehr auf diese mit Spannung erwartete Ergänzung zur API.

Schlussfolgerungen und Zusammenfassung der Einführung von GPT-4o

GPT-4o stellt eine bedeutende Verbesserung gegenüber früheren Modellen in verschiedenen Aspekten dar. Obwohl einige Funktionen noch nicht veröffentlicht wurden, deuten die in der Demo gezeigten Funktionen auf eine revolutionäre Veränderung hin. Während die schnelle Einführung neuer Modelle die Position von OpenAI zu bedrohen schien, stellt diese Innovation sicher, dass OpenAI in Bezug auf Aufmerksamkeit und Funktionalität an der Spitze bleibt.

Die Audioeingabe- und Echtzeit-Konversationsfunktionen sind besonders beeindruckend. Die erfolgreiche Implementierung der Sprachkonversationsfunktionen von GPT-4o verdankt viel einer ausgezeichneten Benutzeroberfläche. Sam Altman erwähnte in seinem Blog, dass der neue Sprachmodus die beste Schnittstelle ist, die er verwendet hat, und betonte die Bedeutung der Benutzeroberfläche in der KI-Technologie.

Die Benutzeroberfläche wird oft übersehen, wenn Funktionen wie Chat oder Chatbots in Dienste integriert werden. Obwohl es ausreichend erscheinen mag, die API des KI-Modells zu verwenden, um Nachrichten zu liefern, erfordert der Aufbau einer guten Chat-Oberfläche erhebliche Ressourcen. Sendbird weiß das und bietet ausgezeichnete Chat-Oberflächen für GPT-4o, Llama 3 und Claude 3 Integrationen.

Anwendung von GPT-4o in wissensbasierten Bots

LLMs haben Einschränkungen, wie z.B. ein Wissensstichtag und die Unfähigkeit, auf private Informationen zuzugreifen. Um diese Einschränkungen zu überwinden, wurden wissensbasierte Bots entwickelt. Nutzer können spezifische Informationen in diese Bots in verschiedenen Formaten wie URLs, PDFs und CSV-Dateien einbringen.

In einem früheren Artikel, der die Leistung von Claude, GPT und Llama vergleicht, habe ich untersucht, welches LLM, einschließlich GPT-4-turbo, am besten geeignet ist, um wissensbasierte Bots zu strukturieren. Dieser Artikel kam zu dem Schluss, dass GPT-4-turbo die besten Leistungen in Bezug auf Genauigkeit und Prägnanz erbrachte.

Da GPT-4o eine Weiterentwicklung von GPT-4-turbo ist, erwartete ich, dass es auch herausragende Leistungen für wissensbasierte Bots zeigen würde. Als ich die gleichen Tests anwandte, waren die Ergebnisse wie erwartet und zeigten hervorragende Fähigkeiten bei der Beantwortung von Fragen.

Sehen wir uns ein Beispiel an. Ich habe eine PDF-Datei des Berichts "2022 Commuting in the USA" des US Census Bureau im Sendbird-Dashboard registriert und verschiedene Fragen gestellt.

Beachten Sie die qualitativ hochwertigen Antworten. Sie können die vollständige Liste der Fragen und Antworten auf meinem GitHub einsehen.

Wenn Sie die Ergebnisse selbst erleben möchten, ist das Erstellen und Testen Ihres eigenen Chatbots ein ausgezeichneter Ansatz. Sendbird bietet einen einfachen Prozess, um einen benutzerdefinierten KI-Chatbot zu erstellen, der in 5 schnellen Schritten und nur wenigen Minuten an Ihre spezifische Wissensbasis angepasst ist.

Geschwindigkeit: GPT-4-turbo vs. GPT-4o

Der Chatbot links verwendet GPT-4 turbo, und der rechts verwendet GPT-4o. Bei gleichzeitigen Anfragen derselben Fragen war ein deutlicher Unterschied in der Geschwindigkeit der Antwortgenerierung zu erkennen.

In meinem vorherigen Artikel Vergleich verschiedener LLM-Modelle erwähnte ich, dass die Schwächen von GPT-4 sein Preis und seine Geschwindigkeit waren, aber es scheint, dass diese in Bezug auf die Geschwindigkeit vollständig überwunden wurden.

Der erste benutzerdefinierte KI-Chatbot für Web und Mobile ohne Code, der GPT-4o unterstützt

Ihre Chatbot-Oberfläche ist entscheidend. Nutzer erwarten eine Chat-Erfahrung ähnlich wie bei WhatsApp und Telegram, auch wenn sie mit einem Chatbot sprechen. Beim Aufbau eines benutzerdefinierten KI-Chatbots ist es wichtig, einen Chatbot wie den von Sendbird zu berücksichtigen, der sowohl modernste LLMs wie GPT-4o als auch eine erstklassige Chat-Oberfläche bieten kann.

Um die Funktionalität von GPT-4o zu maximieren, sollten trendige und nützliche Chat-Funktionen enthalten sein:

  • Nachrichtenkarten zum Anzeigen von Produktbildern
  • Vorgeschlagene Antworten
  • Nachrichtenstatusquittungen für gesendete, zugestellte und gelesene Nachrichten
  • Eingabeanzeiger
  • Offline-Unterstützung

Integrieren Sie GPT-4o in nur wenigen Minuten in Ihre Website!

Sendbird kann Ihnen beim Aufbau eines GPT-4o unterstützten KI-Chatbots ohne Code helfen. Sie können Ihren Chatbot auch mit Ihren Inhalten trainieren, indem Sie URLs und Dateien über das Sendbird AI Chatbot-Dashboard verwenden.

Erstellen Sie noch heute Ihren ersten GPT-4o Chatbot!

Ebook Grow Mobile content offer background

Take customer relationships to the next level.

Ready for
the next level?