Explorando GPT-4o de OpenAI y sus Aplicaciones en Bots Basados en Conocimiento

Aug 27, 2024

Jerry Jeon

Software Engineer

On This Page

Introduction to GPT-4o

On This Page

Chatbot AI de Sendbird

Documentos de Sendbird

Este artículo ha sido traducido por GPT-4o. Puede consultar el artículo original siguiendo este enlace.

En los últimos meses, se han lanzado una serie de nuevos modelos de lenguaje grande (LLM), desde Claude 3 hasta Llama 3. Estos modelos han mejorado significativamente, generando gran interés en los próximos pasos de OpenAI. El 13 de mayo de 2024, OpenAI anunció GPT-4o, aclamado como un cambio revolucionario. Este artículo explora cómo GPT-4o se diferencia de los modelos anteriores y lo que esto significa para los bots basados en conocimiento.

Introducción a GPT-4o

La "o" en GPT-4o representa "Omni", que significa "todo" o "completo". GPT-4o puede procesar entradas y salidas de texto, audio e imagen. He resumido las mejoras y características de GPT-4o como se muestra en el video de demostración de OpenAI.

Mejoras Clave en GPT-4o

El modelo anterior a GPT-4o fue GPT-4-turbo-2024-04-09, lanzado el 9 de abril de 2024. Estas son las mejoras introducidas por OpenAI en comparación con los modelos anteriores:

El doble de rápido que el último GPT-4
Reducción de costos del 50%
Límites de tasa cinco veces mayores en comparación con GPT-4 Turbo
Soporte para video y audio en tiempo real

Nueva Interacción por Voz

La aplicación ChatGPT ofrece una interfaz llamada Modo de Voz, que anteriormente requería que los usuarios ingresaran su voz y esperaran una respuesta. Ahora, las respuestas se dan casi de inmediato en tiempo real. Según OpenAI, el tiempo de respuesta promedio es de aproximadamente 320 milisegundos, similar a los tiempos de respuesta humanos. Los usuarios no tienen que esperar a que GPT termine de hablar; pueden interrumpir e interactuar durante la respuesta. El sistema también permite la expresión de emociones y la creación de voces diversas. La demostración mostró comandos como "habla más dramáticamente" y "habla con un tono robótico".

Funciones de Video

La demostración mostró la capacidad de GPT-4o para ayudar en tiempo real en la resolución de problemas matemáticos en papel y proporcionar análisis de código observando una pantalla de computadora en vivo.

Lanzamiento de la API de GPT-4o

OpenAI también ha anunciado el soporte para GPT-4o en su API, según el anuncio de la comunidad. Los beneficios previamente mencionados de ser el doble de rápido, la reducción de costos del 50% y el aumento cinco veces en los límites de tasa son directamente aplicables. Aunque estas mejoras benefician a todos los usuarios, son particularmente significativas para los usuarios de la API con altas tasas de uso.

Otro cambio importante es el soporte para entradas de audio. Anteriormente, los chatbots basados en voz necesitaban usar funciones de STT (Speech-to-Text) para enviar texto a la API. Ahora, el audio se puede enviar directamente a la API, lo cual es mucho más eficiente y permite la transmisión de sonidos que son difíciles de convertir en texto. El objetivo de OpenAI es soportar esta función en unas pocas semanas, y estoy muy entusiasmado con esta esperada adición a la API.

Conclusiones y Resumen del Lanzamiento de GPT-4o

GPT-4o representa una mejora significativa sobre los modelos anteriores en varios aspectos. Aunque algunas funciones aún no se han lanzado, las características mostradas en la demostración sugieren un cambio revolucionario. Mientras que la rápida introducción de nuevos modelos parecía amenazar la posición de OpenAI, esta innovación asegura que OpenAI permanezca en la cima en términos de atención y funcionalidad.

Las funciones de entrada de audio y conversación en tiempo real son particularmente impresionantes. La implementación exitosa de las funciones de conversación por voz de GPT-4o debe mucho a una interfaz de usuario excelente. Sam Altman mencionó en su blog que el nuevo Modo de Voz es la mejor interfaz que ha utilizado, destacando la importancia de la interfaz de usuario en la tecnología de IA.

La interfaz de usuario a menudo se pasa por alto cuando se integran funciones como Chat o Chatbots en servicios. Aunque puede parecer suficiente utilizar la API del modelo de IA para entregar mensajes, construir una buena interfaz de chat requiere recursos significativos. Sendbird lo sabe y ofrece excelentes interfaces de chat para integraciones con GPT-4o, Llama 3 y Claude 3.

Aplicación de GPT-4o en Bots Basados en Conocimiento

Los LLM tienen limitaciones, como una fecha límite de conocimiento y la incapacidad de acceder a información privada. Para superar estas limitaciones, se han desarrollado bots basados en conocimiento. Los usuarios pueden introducir información específica en estos bots en varios formatos como URLs, PDFs y archivos CSV.

En un artículo anterior que compara el rendimiento de Claude, GPT y Llama, investigué cuál LLM, incluyendo GPT-4-turbo, era el más adecuado para estructurar bots basados en conocimiento. Este artículo concluyó que GPT-4-turbo ofrecía el mejor rendimiento en términos de precisión y concisión.

Dado que GPT-4o es una evolución de GPT-4-turbo, esperaba que también mostrara un rendimiento sobresaliente para los bots basados en conocimiento. Al aplicar las mismas pruebas, los resultados fueron como se esperaba, mostrando capacidades excelentes para responder preguntas.

Veamos un ejemplo. Registré un archivo PDF del informe "2022 Commuting in the USA" de la Oficina del Censo de EE.UU. en el tablero de Sendbird y planteé varias preguntas.

Note la alta calidad de las respuestas. Puede ver la lista completa de preguntas y respuestas en mi GitHub.

Si desea experimentar los resultados usted mismo, crear y probar su propio chatbot es un excelente enfoque. Sendbird ofrece un proceso simple para crear un chatbot de IA personalizado que se adapta a su base de conocimientos específica en 5 rápidos pasos y solo unos pocos minutos.

Velocidad: GPT-4-turbo vs. GPT-4o

El chatbot a la izquierda usa GPT-4 turbo, y el de la derecha usa GPT-4o. Con solicitudes simultáneas de las mismas preguntas, se notó una diferencia significativa en la velocidad de generación de respuestas.

En mi artículo anterior Comparación de diferentes modelos de LLM, mencioné que las debilidades de GPT-4 eran su precio y velocidad, pero parece que estas se han superado completamente en términos de velocidad.

El Primer Chatbot de IA Personalizado para Web y Móvil sin Código que Soporta GPT-4o

Su interfaz de chatbot es crucial. Los usuarios esperan una experiencia de chat similar a WhatsApp y Telegram, incluso cuando hablan con un chatbot. Al construir un chatbot de IA personalizado, es importante considerar un chatbot como el de Sendbird que puede ofrecer tanto LLM de vanguardia como GPT-4o y una interfaz de chat de clase mundial.

Para maximizar la funcionalidad de GPT-4o, las funciones de chat modernas y útiles deben incluir:

Tarjetas de mensaje para mostrar imágenes de productos
Respuestas sugeridas
Confirmaciones de estado de mensaje para mensajes enviados, entregados y leídos
Indicadores de escritura
Soporte sin conexión

¡Integra GPT-4o en tu Sitio Web en Solo Minutos!

Sendbird puede ayudarte a construir un chatbot de IA potenciado por GPT-4o sin código. También puedes entrenar tu chatbot con tu contenido utilizando URLs y archivos a través del tablero del chatbot de IA de Sendbird.