حرية – (20/2/2024)
أعلنت شركة “أوبن إيه آي”، مبتكرة برنامج “تشات جي بي تي” ومولد الصور “دال-إي” (DALL-E)، أداة جديدة أطلقت عليها اسم “سورا” (Sora) تستخدم لإنشاء مقاطع فيديو واقعية تصل مدتها إلى دقيقة واحدة بمجرد إدخال طلب نصي، وهو ابتكار كبير في مجال الذكاء الاصطناعي.
وأوضحت الشركة الناشئة المتحالفة مع “مايكروسوفت” أن هذه المنصة الجديدة التي تستند إلى أبحاث سابقة أُجريت على برنامجي “دال-إي” و”تشات جي بي تي” لا تزال قيد الاختبار، لكنها عرضت مع ذلك بعض مقاطع الفيديو وشرحت طريقة نشوئها.
وشرحت “أوبن إيه آي” على موقعها الإلكتروني أن البرنامج يستطيع إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة “مع الحفاظ على الجودة المرئية واحترام طلب المستخدم”.
وأضافت أنه في إمكان “سورا” إنشاء مشاهد معقدة تضم شخصيات عدة وأنواعاً محددة من الحركات وتفاصيل دقيقة، كما يتيح “سورا” إنشاء فيديو من صورة ثابتة أو توسيع مقاطع الفيديو الموجودة، بحسب الشركة.
ابتكارات “سورا”
وأشار رئيس “أوبن إيه آي” سام ألتمان، عبر شبكة “إكس” الاجتماعية، إلى أن الشركة ستتيح استخدام الأداة الجديدة لعدد محدود من مبتكري المحتوى في إطار مرحلة تجريبية.
كذلك دعا المستخدمين إلى تقديم مقترحات تتعلق بإنشاء مقاطع فيديو، ثم ما لبث بعد لحظات أن عرض أبرزها على المنصة.
ومن بين هذه المقاطع واحد يظهر فيها كلبان يتعاركان وسط الثلج في منطقة جبلية، ويظهر مقطع فيديو آخر حيواناً وهمياً يطير نصفه بطة ونصفه تنين في مشهد رائع لغروب الشمس، وعلى ظهره حيوان هامستر يرتدي ملابس رياضية.
وتشكل أداة “سورا” أساساً لـ “برامج قادرة على فهم ومحاكاة العالم الحقيقي”، بحسب الشركة الناشئة التي تأمل في أن تكون “خطوة مهمة في تحقيق الذكاء الاصطناعي العام”، وهو نظام شديد الاستقلالية تفوق قدراته ما يستطيعه البشر في معظم المهام المربحة اقتصادياً.
عيوب المنصة
ونبهت “أوبن إيه آي” إلى أن ثمة عيوباً في النموذج الحالي للمنصة، ومنها الالتباس بين اليسار واليمين أو عدم القدرة على الحفاظ على الاستمرارية البصرية طوال الفيديو.
وأوضحت الشركة أن شخصاً في مقطع فيديو “قد يأكل جزءاً من قطعة بسكويت، لكن آثار القضمة قد لا تظهر على قطعة البسكويت” في مشهد ثان من الفيديو.
وأكدت الشركة أن مسألة الأمن ستكون أساساً في ما يتعلق بهذه الأداة، مشيرة إلى أنها ستنظم عمليات محاكاة لتحديد حدود المنصة بصورة أفضل.
وأضافت “أوبن إيه آي”، “سنعمل على إشراك صناع السياسات والمعلمين والفنانين في مختلف أنحاء العالم لفهم مخاوفهم وتحديد حالات الاستخدام الإيجابي لهذه التكنولوجيا الجديدة”.
وسبق لمجموعات “ميتا” و”غوغل” و”رنواي إيه آي” أن عرضت نماذج عن تطبيقات مماثلة تسمى “text-to-video” (تحويل النصوص إلى مقاطع فيديو) تسعى إلى ابتكارها.