استكشاف GPT-4o من OpenAI وتطبيقاته في الروبوتات القائمة على المعرفة
تمت ترجمة هذه المقالة بواسطة GPT-4o. يمكنك الاطلاع على المقالة الأصلية عبر هذا الرابط.
في الأشهر القليلة الماضية، تم إصدار سلسلة من نماذج اللغة الكبيرة الجديدة (LLMs)، من Claude 3 إلى Llama 3. لقد تحسنت هذه النماذج بشكل كبير، مما أثار اهتمامًا كبيرًا بخطوات OpenAI المقبلة. في 13 مايو 2024، أعلنت OpenAI عن GPT-4o، الذي تم الإشادة به على نطاق واسع باعتباره تغييرًا ثوريًا. ستتناول هذه المقالة كيفية اختلاف GPT-4o عن النماذج السابقة وما يعنيه ذلك للروبوتات القائمة على المعرفة.
مقدمة عن GPT-4o
تشير "o" في GPT-4o إلى "Omni"، مما يعني "الكل" أو "الشامل". يمكن لـ GPT-4o معالجة مدخلات ومخرجات النص والصوت والصورة. لقد لخصت التحسينات والميزات التي تم الكشف عنها في فيديو العرض من OpenAI.
التحسينات الرئيسية في GPT-4o
كان النموذج السابق لـ GPT-4o هو GPT-4-turbo-2024-04-09، الذي تم إصداره في 9 أبريل 2024. فيما يلي التحسينات التي أدخلتها OpenAI مقارنة بالنماذج السابقة:
- ضعف سرعة GPT-4 الأخير
- تخفيض التكلفة بنسبة 50%
- حد أعلى للسرعة بمقدار خمس مرات مقارنة بـ GPT-4 Turbo
- دعم الفيديو والصوت في الوقت الفعلي
التفاعل الصوتي الجديد
يوفر تطبيق ChatGPT واجهة تُدعى وضع الصوت، والتي كانت تتطلب من المستخدمين سابقًا إدخال صوتهم والانتظار للحصول على استجابة. الآن، تُقدم الاستجابات بشكل شبه فوري، في الوقت الفعلي. وفقًا لـ OpenAI، يبلغ متوسط وقت الاستجابة حوالي 320 مللي ثانية، وهو مشابه لأوقات ردود الفعل البشرية. لا يتعين على المستخدمين الانتظار حتى ينتهي GPT من الحديث؛ يمكنهم المقاطعة والتفاعل أثناء الاستجابة. يسمح النظام أيضًا بالتعبير عن العواطف وإنشاء أصوات متنوعة. أظهر العرض أوامر مثل "تحدث بشكل أكثر درامية" و"تحدث بنبرة روبوتية".
ميزات الفيديو
سلط العرض الضوء على قدرة GPT-4o على المساعدة في حل المشكلات الرياضية المكتوبة على الورق في الوقت الفعلي وتقديم تحليل الكود من خلال مراقبة شاشة الكمبيوتر مباشرة.
إطلاق API لـ GPT-4o
كما أعلنت OpenAI عن دعم GPT-4o في API الخاصة بها، وفقًا لـ إعلان المجتمع. الفوائد التي ذكرت سابقًا، مثل السرعة المضاعفة، تخفيض التكلفة بنسبة 50%، وزيادة الحد الأقصى للسرعة بمقدار خمس مرات، تنطبق بشكل مباشر. بينما تعود هذه التحسينات بالفائدة على جميع المستخدمين، فإنها تكون ذات أهمية خاصة لمستخدمي API ذوي معدلات الاستخدام العالية.
تغيير كبير آخر هو دعم إدخال الصوت. سابقًا، كان من الضروري استخدام ميزات تحويل الصوت إلى نص (STT) لإرسال النص إلى API للروبوتات القائمة على الصوت. الآن، يمكن إرسال الصوت مباشرة إلى API، مما يجعله أكثر كفاءة ويمكنه نقل الأصوات التي يصعب تحويلها إلى نص. تهدف OpenAI إلى دعم هذه الميزة في غضون أسابيع قليلة، وأنا متحمس للغاية لهذه الإضافة المتوقعة إلى API.
استنتاجات ومراجعة تقديم GPT-4o
يمثل GPT-4o تحسنًا كبيرًا مقارنة بالنماذج السابقة في جوانب مختلفة. على الرغم من أن بعض الميزات لم يتم إصدارها بعد، فإن الوظائف التي تم عرضها في الفيديو تشير إلى تغيير ثوري. بينما بدا أن الإدخال السريع للنماذج الجديدة يهدد موقع OpenAI، فإن هذا الابتكار يضمن بقاء OpenAI في الصدارة من حيث الاهتمام والوظائف.
تعد ميزات إدخال الصوت والمحادثة في الوقت الفعلي مثيرة للإعجاب بشكل خاص. تعزى نجاحات تنفيذ ميزات المحادثة الصوتية في GPT-4o بشكل كبير إلى واجهة المستخدم الممتازة. ذكر سام ألتمان في مدونته أن وضع الصوت الجديد هو أفضل واجهة استخدمها على الإطلاق، مما يبرز أهمية الواجهة في تكنولوجيا الذكاء الاصطناعي.
غالبًا ما يتم التغاضي عن الواجهة عند دمج ميزات مثل الدردشة أو الروبوتات في الخدمات. على الرغم من أنه قد يبدو كافيًا استخدام API لنموذج الذكاء الاصطناعي لتوصيل الرسائل، فإن بناء واجهة دردشة جيدة يتطلب موارد كبيرة. تعرف Sendbird هذا وتقدم واجهات دردشة ممتازة لتكاملات GPT-4o، Llama 3، وClaude 3.
تطبيق GPT-4o في الروبوتات القائمة على المعرفة
لدى LLMs قيود، مثل قطع المعرفة إلى تاريخ محدد وعدم القدرة على الوصول إلى المعلومات الخاصة. للتغلب على هذه القيود، تم تطوير الروبوتات القائمة على المعرفة. يمكن للمستخدمين إدخال معلومات محددة إلى هذه الروبوتات بأشكال مختلفة، مثل عناوين URL وملفات PDF وملفات CSV.
في مقال سابق يقارن أداء Claude وGPT وLlama، استكشفت أي LLM كان الأنسب لبناء الروبوتات القائمة على المعرفة، بما في ذلك GPT-4-turbo. خلص المقال إلى أن GPT-4-turbo أظهر أفضل أداء من حيث الدقة والإيجاز.
نظرًا لأن GPT-4o هو تحسين على GPT-4-turbo، كنت أتوقع أن يظهر أيضًا أداءً ممتازًا للروبوتات القائمة على المعرفة. عند تطبيق نفس الاختبارات، كانت النتائج كما هو متوقع، حيث أظهرت قدرات ممتازة في الإجابة على الأسئلة.
دعونا نلقي نظرة على مثال. قمت بتسجيل ملف PDF من تقرير "التنقل في الولايات المتحدة لعام 2022" من مكتب التعداد الأمريكي في لوحة تحكم Sendbird وطرحت العديد من الأسئلة.
لاحظ الردود عالية الجودة. يمكنك الاطلاع على القائمة الكاملة للأسئلة والأجوبة على GitHub الخاص بي.
إذا كنت مهتمًا بتجربة النتائج بنفسك، فإن إنشاء واختبار روبوت الدردشة الخاص بك هو نهج ممتاز. تقدم Sendbird عملية بسيطة لإنشاء روبوت دردشة AI مخصص مناسب لقاعدة المعرفة الخاصة بك في 5 خطوات سريعة وعدة دقائق فقط.
السرعة: GPT-4-turbo مقابل GPT-4o
يستخدم روبوت الدردشة على اليسار GPT-4 turbo، بينما يستخدم الروبوت على اليمين GPT-4o. عند طرح نفس الأسئلة في الوقت نفسه، كان هناك فرق ملحوظ في سرعة توليد الردود.
في مقالي السابق الذي يقارن بين نماذج LLM المختلفة، ذكرت أن نقاط ضعف GPT-4 كانت السعر والسرعة، ولكن يبدو أن هذه المشكلات قد تم التغلب عليها تمامًا من حيث السرعة.
أول روبوت دردشة AI مخصص بدون كود للويب والجوال يدعم GPT-4o
واجهة روبوت الدردشة الخاصة بك أمر بالغ الأهمية. يتوقع المستخدمون تجربة دردشة مشابهة لـ WhatsApp وTelegram، حتى عند التحدث إلى روبوت الدردشة. عند بناء روبوت دردشة AI مخصص، من المهم النظر في روبوت دردشة مثل Sendbird الذي يمكنه تقديم كل من LLM المتطورة مثل GPT-4o وواجهة دردشة من الطراز العالمي UI Kit.
للاستفادة القصوى من وظائف GPT-4o، يجب أن تشمل الميزات الحديثة والمفيدة ميزات الدردشة التالية:
- بطاقات الرسائل لعرض صور المنتجات
- الردود المقترحة
- إيصالات حالة الرسائل للرسائل المرسلة والمستلمة والمقروءة
- مؤشرات الكتابة
- دعم غير متصل
دمج GPT-4o في موقعك الإلكتروني في دقائق!
يمكن لـ Sendbird مساعدتك في بناء روبوت دردشة AI مدعوم بـ GPT-4o بدون كود. يمكنك أيضًا تدريب روبوت الدردشة الخاص بك على المحتوى الخاص بك باستخدام عناوين URL والملفات من خلال لوحة تحكم روبوت دردشة AI من Sendbird.