تطرح OpenAI gpt-realtime لدفع تبنّي الذكاء الاصطناعي الصوتي على مستوى المؤسسات

أطلقت OpenAI gpt-realtime، وهو نموذج ذكاء اصطناعي لتحويل الكلام إلى كلام (speech-to-speech) صُمّم للالتزام الدقيق بالتعليمات والتحدّث بأصوات أكثر طبيعية وتعبيراً. يتوفر النموذج عبر واجهة برمجة تطبيقات الوقت الحقيقي (Realtime API) التي باتت الآن متاحة على نطاق عام، إلى جانب أصوات جديدة (Cedar وMarin) وتحسينات على الأصوات الحالية. وتقول OpenAI إنها قامت بتدريب النظام ومواءمته وفق سيناريوهات واقعية مثل دعم العملاء والدروس الخصوصية، فيما تُبرز العروض الأولية من T-Mobile وZillow وكلاء (Agents) قادرين على مساعدة المتسوقين والباحثين عن سكن في الوقت الحقيقي.

على المستوى التقني، يهدف gpt-realtime إلى فهمٍ أدق للمدخل الصوتي، بما في ذلك الإشارات غير اللفظية مثل الضحك والتنهّد. تفيد OpenAI بتحسّن الأداء على معايير القياس الداخلية والعامة (benchmarks)، وبقدرات أقوى على استدعاء الدوال (function calling) لاستخدام الأدوات. ولمساعدة المؤسسات على ربط الذكاء الاصطناعي الصوتي بتدفّقات العمل الحيّة، تدعم واجهة برمجة تطبيقات الوقت الحقيقي (Realtime API) الآن بروتوكول سياق النموذج (Model Context Protocol - MCP) للتكامل مع الأدوات، ومدخلات الصور لوصف بصري آني، وبروتوكول بدء الجلسة (SIP) لربط التطبيقات مباشرةً بأنظمة الهاتف. كما خفّضت OpenAI الأسعار بنسبة 20%، لتصبح 32 دولاراً لكل مليون رمز صوتي (tokens) للمدخلات و64 دولاراً لكل مليون رمز صوتي (tokens) للمخرجات. يدخل النموذج سوقاً مزدحماً، منافساً عروض ElevenLabs وSoundHound وHume وMistral وGoogle.

النقاط الرئيسية

gpt-realtime هو نموذج تحويل الكلام إلى كلام (speech-to-speech) يركّز على التزام أفضل بالتعليمات وأصوات أكثر طبيعية وتعبيراً.
باتت Realtime API متاحة على نطاق عام مع أصوات جديدة (Cedar، Marin) وميزات تشمل التكامل مع الأدوات عبر بروتوكول سياق النموذج (MCP)، ومدخلات الصور، وتكامل الهاتف عبر بروتوكول بدء الجلسة (SIP).
تفيد OpenAI بتحسّن الفهم السمعي (بما في ذلك نتائج أفضل على معايير القياس) وبموثوقية أعلى في استدعاء الدوال (function calling) لتلبية متطلبات تدفقات العمل الفعلية.
خفض الأسعار بنسبة 20%، لتصبح 32 دولاراً لكل مليون رمز صوتي (tokens) للمدخلات و64 دولاراً لكل مليون رمز صوتي (tokens) للمخرجات، تشجيعاً للاعتماد المؤسسي.
المنافسة محتدمة، مع تقدّم ElevenLabs وSoundHound وHume وMistral وGoogle في الذكاء الاصطناعي الصوتي ومتعدد الوسائط (multimodal AI).

في جملة واحدة

يجلب gpt-realtime من OpenAI كلاماً أكثر طبيعية والتزاماً أدق بالتعليمات إلى الذكاء الاصطناعي الصوتي المؤسسي، مدعوماً بميزات Realtime API الجديدة لتكامل الأدوات وأنظمة الهاتف. ومع أسعار أقل وقدرات أوسع، تستهدف OpenAI حالات استخدام مراكز الاتصالات والوكلاء (Agents) في سوق شديد التنافسية.

المصادر: 1