Explorando o GPT-4o da OpenAI e suas Aplicações em Bots Baseados em Conhecimento

May 14, 2024

Jerry Jeon

Software Engineer

On This Page

Introduction to GPT-4o

On This Page

Chatbot de IA da Sendbird

Documentação da Sendbird

Este artigo foi traduzido por GPT-4o. Você pode consultar o artigo original seguindo este link.

Nos últimos meses, uma série de novos modelos de linguagem de grande porte (LLM) foram lançados, desde Claude 3 até Llama 3. Esses modelos melhoraram significativamente, despertando grande interesse nos próximos passos da OpenAI. Em 13 de maio de 2024, a OpenAI anunciou o GPT-4o, amplamente aclamado como uma mudança revolucionária. Este artigo examina como o GPT-4o difere dos modelos anteriores e o que isso significa para os bots baseados em conhecimento.

Introdução ao GPT-4o

O "o" em GPT-4o representa "Omni", que significa "tudo" ou "inteiro". O GPT-4o pode processar entradas e saídas de texto, áudio e imagem. Resumi as melhorias e características do GPT-4o conforme reveladas no vídeo de demonstração da OpenAI.

Melhorias Principais no GPT-4o

O modelo anterior ao GPT-4o foi o GPT-4-turbo-2024-04-09, lançado em 9 de abril de 2024. Aqui estão as melhorias introduzidas pela OpenAI em comparação com os modelos anteriores:

Duas vezes mais rápido que o último GPT-4
Redução de custos de 50%
Limite de taxa cinco vezes maior em comparação com o GPT-4 Turbo
Suporte para vídeo e áudio em tempo real

Nova Interação por Voz

O aplicativo ChatGPT oferece uma interface chamada Modo de Voz, que anteriormente exigia que os usuários inserissem sua voz e aguardassem uma resposta. Agora, as respostas são fornecidas quase instantaneamente, em tempo real. Segundo a OpenAI, o tempo médio de resposta é de cerca de 320 milissegundos, semelhante aos tempos de reação humanos. Os usuários não precisam esperar até que o GPT termine de falar; eles podem interromper e interagir durante a resposta. O sistema também permite a expressão de emoções e a criação de vozes diversas. A demonstração apresentou comandos como "fale mais dramaticamente" e "fale com um tom robótico".

Recursos de Vídeo

A demonstração destacou a capacidade do GPT-4o de ajudar em tempo real na resolução de problemas matemáticos escritos em papel e fornecer análise de código observando uma tela de computador ao vivo.

Lançamento da API GPT-4o

A OpenAI também anunciou suporte para GPT-4o em sua API, conforme o anúncio da comunidade. Os benefícios previamente mencionados de ser duas vezes mais rápido, redução de custos de 50% e aumento de cinco vezes no limite de taxa são diretamente aplicáveis. Embora essas melhorias beneficiem todos os usuários, elas são particularmente significativas para usuários de API com altas taxas de uso.

Outra mudança significativa é o suporte para entrada de áudio. Anteriormente, para chatbots baseados em voz, era necessário usar recursos de STT (Speech-to-Text) para enviar texto para a API. Agora, o áudio pode ser enviado diretamente para a API, tornando-o muito mais eficiente e permitindo a transmissão de sons que são difíceis de converter em texto. O objetivo da OpenAI é suportar esse recurso em algumas semanas, e estou muito animado com essa adição altamente aguardada à API.

Conclusões e Resumo da Introdução do GPT-4o

O GPT-4o representa uma melhoria significativa em relação aos modelos anteriores em vários aspectos. Embora algumas funções ainda não tenham sido lançadas, as funcionalidades demonstradas no vídeo indicam uma mudança revolucionária. Enquanto a rápida introdução de novos modelos parecia ameaçar a posição da OpenAI, esta inovação garante que a OpenAI permaneça na vanguarda em termos de atenção e funcionalidade.

Os recursos de entrada de áudio e conversa em tempo real são particularmente impressionantes. A implementação bem-sucedida dos recursos de conversa por voz do GPT-4o deve muito a uma excelente interface de usuário. Sam Altman mencionou em seu blog que o novo modo de voz é a melhor interface que ele já usou, destacando a importância da interface na tecnologia de IA.

A interface é frequentemente negligenciada ao integrar recursos como chat ou chatbots em serviços. Embora possa parecer suficiente usar a API do modelo de IA para entregar mensagens, construir uma boa interface de chat requer recursos significativos. A Sendbird sabe disso e oferece excelentes interfaces de chat para integrações de GPT-4o, Llama 3 e Claude 3.

Aplicação do GPT-4o em Bots Baseados em Conhecimento

Os LLMs têm limitações, como um corte de conhecimento em uma data específica e a incapacidade de acessar informações privadas. Para superar essas limitações, foram desenvolvidos bots baseados em conhecimento. Os usuários podem ingerir informações específicas nesses bots em vários formatos, como URLs, PDFs e arquivos CSV.

Em um artigo anterior comparando o desempenho de Claude, GPT e Llama, explorei qual LLM, incluindo GPT-4-turbo, era mais adequado para estruturar bots baseados em conhecimento. Esse artigo concluiu que o GPT-4-turbo exibiu o melhor desempenho em termos de precisão e concisão.

Como o GPT-4o é um avanço em relação ao GPT-4-turbo, esperava-se que também demonstrasse um desempenho excelente para bots baseados em conhecimento. Ao aplicar os mesmos testes, os resultados foram como esperado, mostrando excelentes capacidades de resposta a perguntas.

Vamos dar uma olhada em um exemplo. Registrei um arquivo PDF do relatório "2022 Commuting in the USA" do U.S. Census Bureau no painel da Sendbird e fiz várias perguntas.

Observe a alta qualidade das respostas. Você pode conferir a lista completa de perguntas e respostas no meu GitHub.

Se você estiver interessado em experimentar os resultados por conta própria, criar e testar seu próprio chatbot é uma abordagem excelente. A Sendbird oferece um processo simples para criar um chatbot de IA personalizado adaptado à sua base de conhecimento específica em 5 etapas rápidas e apenas alguns minutos.

Velocidade: GPT-4-turbo vs. GPT-4o

O chatbot à esquerda usa GPT-4 turbo, e o à direita usa GPT-4o. Quando perguntados as mesmas questões simultaneamente, houve uma diferença notável na velocidade de geração de respostas.

No meu artigo anterior comparando vários modelos de LLM, mencionei que as fraquezas do GPT-4 eram seu preço e velocidade, mas parece que isso foi completamente superado em termos de velocidade.

O Primeiro Chatbot de IA Personalizado para Web e Mobile sem Código que Suporta GPT-4o

Sua interface de chatbot é crucial. Os usuários esperam uma experiência de chat semelhante ao WhatsApp e Telegram, mesmo quando falam com um chatbot. Ao construir um chatbot de IA personalizado, é importante considerar um chatbot como o da Sendbird que pode oferecer tanto LLMs de ponta como GPT-4o quanto uma interface de chat de classe mundial.

Para maximizar a funcionalidade do GPT-4o, os recursos de chat modernos e úteis devem incluir: