OpenAI دسترسی به هوش مصنوعی سورا (Sora) را فراهم کرد
دیشبِ، شرکت OpenAI نسخهی جدیدی از مدل هوش مصنوعی ساخت ویدیو خود با نام «Sora Turbo» را منتشر کرد. این نسخه از طریق یک وبسایت اختصاصی در اختیار مشترکین ChatGPT Plus و Pro قرار گرفته است. این مدل هوش مصنوعی میتواند از روی یک متن یا تصویر، ویدیوهایی با حداکثر زمان ۲۰ ثانیه و وضوح تصویر ۱۰۸۰p بسازد.
شرکت OpenAI اعلام کرده بود که Sora امروز برای مشترکین ChatGPT Plus و Pro در ایالات متحده و بسیاری از نقاط جهان در دسترس خواهد بود، اما هنوز در اروپا عرضه نشده است. با این حال بعد از معرفی، حتی مشترکین Plus که قصد استفاده از این ابزار را داشتند، با پیامی مواجه میشدند که میگفت «ثبتنامها به دلیل ترافیک سنگین، موقتاً غیرفعال است».
OpenAI به منظور احتیاط بیشتر، فعلاً توانایی Sora را برای تولید ویدیوهای حاوی انسان محدود کرده است. در زمان عرضه، آپلودهایی که شامل سوژههای انسانی باشند با محدودیتهایی مواجه میشوند، در حالی که OpenAI در حال بهبود سیستمهای جلوگیری از دیپفیک خود است. این پلتفرم همچنین محتوای مربوط به سوءاستفادهی جنسی از کودکان (CSAM) و دیپفیکهای جنسی را مسدود میکند. OpenAI میگوید که یک سیستم نظارتی فعال را حفظ میکند و آزمایشهایی را برای شناسایی سناریوهای بالقوهی سوءاستفاده، قبل از انتشار انجام داده است.
زمانی که OpenAI برای اولین بار در ماه فوریه از Sora رونمایی کرد، این هوش مصنوعی با کیفیت نسبتاً بالای ویدیوهای تولیدی خود، کارشناسان هوش مصنوعی را شگفتزده کرد. اما در ماههای اخیر، مدلهای مختلف سنتز ویدیو از رقبایی مانند Veo گوگل، Gen-3 Alpha رانوی، Kling، Minimax و مدلی جدید به نام Hunyuan Video، تا حدودی از درخشش عرضهی Sora کاستهاند. با این حال، عرضهی نهایی این مدل ویدیویی بهشدت موردانتظار، یک نقطهی عطف بزرگ برای OpenAI محسوب میشود. Sora به کاربران اجازه میدهد تا ویدیوهایی با نسبتهای تصویر مختلف بسازند و دارای قابلیتهایی برای ترکیب محتوای موجود با محتوای تولیدشده توسط هوش مصنوعی است. OpenAI میگوید که Sora Turbo درخواستهای تولید ویدیو را سریعتر از نسخهی تحقیقاتی که در فوریهی ۲۰۲۴ پیشنمایش شده بود، پردازش میکند.
مشترکین ChatGPT Plus (با هزینهی ۲۰ دلار در ماه) میتوانند تا ۵۰ ویدیو در ماه با وضوح ۴۸۰p بسازند، همچنین گزینهای برای تولید ویدیوهای کمتر با کیفیت ۷۲۰p وجود دارد. مشترکین Pro (با هزینهی ۲۰۰ دلار در ماه) از قابلیتهای گستردهتری از جمله گزینههای وضوح بالاتر و مدت زمان ویدیوی طولانیتر بهرهمند میشوند. OpenAI قصد دارد تا در اوایل سال ۲۰۲۵ سطوح قیمتگذاری ویژهای را معرفی کند. آنها همچنین ویژگی جدیدی به نام «Storyboard» را به نمایش گذاشتند که به کاربران اجازه میدهد تا یک ویدیو را با چندین عمل در هر فریم، بهصورت فریمبهفریم هدایت کنند.
تدابیر ایمنی و محدودیتها
علاوه بر این انتشار، OpenAI برای اولین بار «System Card» مربوط به Sora را نیز منتشر کرد. این کارت شامل جزئیات فنی دربارهی نحوهی کارکرد مدل و آزمایشهای ایمنی است که این شرکت پیش از این انتشار انجام داده است. Sora همچنین از تکنیک «توضیحنویسی مجدد» بهره میبرد، شبیه به آنچه در مدل تولید تصویر DALL-E 3 این شرکت دیده میشود، تا «توضیحات بسیار توصیفی برای دادههای آموزشی بصری ایجاد کند.» OpenAI مینویسد که این امر به Sora اجازه میدهد تا «دستورالعملهای متنی کاربر را در ویدیوی تولیدشده با دقت بیشتری دنبال کند.»
این شرکت محدودیتهای فنی در نسخهی فعلی را تأیید کرد. یکی از توسعهدهندگان در طول پخش زندهی اینترنتی گفت: «این نسخهی اولیهی Sora اشتباهاتی خواهد داشت و کامل نیست.» گزارشها حاکی از آن است که این مدل با شبیهسازیهای فیزیک و اقدامات پیچیده در مدت زمان طولانی مشکل دارد.
در گذشته، ما شاهد بودهایم که این نوع محدودیتها بر اساس ویدیوهای نمونهای هستند که برای آموزش مدلهای هوش مصنوعی استفاده شدهاند. این نسل فعلی از مدلهای سنتز ویدیوی هوش مصنوعی در تولید چیزهای واقعاً جدید با مشکل مواجه است، زیرا معماری زیربنایی در تبدیل مفاهیم موجود به ارائههای جدید عالی است، اما تاکنون معمولاً در خلاقیت واقعی شکست میخورد. با این حال، هنوز در مراحل اولیهی تولید ویدیو با هوش مصنوعی هستیم و این فناوری دائماً در حال پیشرفت است.
منبع: arstechnica