OpenAI دسترسی به هوش مصنوعی سورا (Sora) را فراهم کرد

یوسف اسفندیاری

۲۰ آذر ۱۴۰۳ | ۰۹:۰۰ زمان مورد نیاز برای مطالعه: ۴ دقیقه

دیشبِ، شرکت OpenAI نسخه‌ی جدیدی از مدل هوش مصنوعی ساخت ویدیو خود با نام «Sora Turbo» را منتشر کرد. این نسخه از طریق یک وبسایت اختصاصی در اختیار مشترکین ChatGPT Plus و Pro قرار گرفته است. این مدل هوش مصنوعی می‌تواند از روی یک متن یا تصویر، ویدیوهایی با حداکثر زمان ۲۰ ثانیه و وضوح تصویر 1080p بسازد.

شرکت OpenAI اعلام کرده بود که Sora امروز برای مشترکین ChatGPT Plus و Pro در ایالات متحده و بسیاری از نقاط جهان در دسترس خواهد بود، اما هنوز در اروپا عرضه نشده است. با این حال بعد از معرفی، حتی مشترکین Plus که قصد استفاده از این ابزار را داشتند، با پیامی مواجه می‌شدند که می‌گفت «ثبت‌نام‌ها به دلیل ترافیک سنگین، موقتاً غیرفعال است».

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

Stream Type LIVE

Remaining Time -:-

OpenAI به منظور احتیاط بیشتر، فعلاً توانایی Sora را برای تولید ویدیوهای حاوی انسان محدود کرده است. در زمان عرضه، آپلودهایی که شامل سوژه‌های انسانی باشند با محدودیت‌هایی مواجه می‌شوند، در حالی که OpenAI در حال بهبود سیستم‌های جلوگیری از دیپ‌فیک خود است. این پلتفرم همچنین محتوای مربوط به سوءاستفاده‌ی جنسی از کودکان (CSAM) و دیپ‌فیک‌های جنسی را مسدود می‌کند. OpenAI می‌گوید که یک سیستم نظارتی فعال را حفظ می‌کند و آزمایش‌هایی را برای شناسایی سناریوهای بالقوه‌ی سوءاستفاده، قبل از انتشار انجام داده است.

زمانی که OpenAI برای اولین بار در ماه فوریه از Sora رونمایی کرد، این هوش مصنوعی با کیفیت نسبتاً بالای ویدیوهای تولیدی خود، کارشناسان هوش مصنوعی را شگفت‌زده کرد. اما در ماه‌های اخیر، مدل‌های مختلف سنتز ویدیو از رقبایی مانند Veo گوگل، Gen-3 Alpha ران‌وی، Kling، Minimax و مدلی جدید به نام Hunyuan Video، تا حدودی از درخشش عرضه‌ی Sora کاسته‌اند. با این حال، عرضه‌ی نهایی این مدل ویدیویی به‌شدت موردانتظار، یک نقطه‌ی عطف بزرگ برای OpenAI محسوب می‌شود. Sora به کاربران اجازه می‌دهد تا ویدیوهایی با نسبت‌های تصویر مختلف بسازند و دارای قابلیت‌هایی برای ترکیب محتوای موجود با محتوای تولیدشده توسط هوش مصنوعی است. OpenAI می‌گوید که Sora Turbo درخواست‌های تولید ویدیو را سریع‌تر از نسخه‌ی تحقیقاتی که در فوریه‌ی ۲۰۲۴ پیش‌نمایش شده بود، پردازش می‌کند.

مشترکین ChatGPT Plus (با هزینه‌ی ۲۰ دلار در ماه) می‌توانند تا ۵۰ ویدیو در ماه با وضوح 480p بسازند، همچنین گزینه‌ای برای تولید ویدیوهای کمتر با کیفیت 720p وجود دارد. مشترکین Pro (با هزینه‌ی ۲۰۰ دلار در ماه) از قابلیت‌های گسترده‌تری از جمله گزینه‌های وضوح بالاتر و مدت زمان ویدیوی طولانی‌تر بهره‌مند می‌شوند. OpenAI قصد دارد تا در اوایل سال ۲۰۲۵ سطوح قیمت‌گذاری ویژه‌ای را معرفی کند. آن‌ها همچنین ویژگی جدیدی به نام «Storyboard» را به نمایش گذاشتند که به کاربران اجازه می‌دهد تا یک ویدیو را با چندین عمل در هر فریم، به‌صورت فریم‌به‌فریم هدایت کنند.

تدابیر ایمنی و محدودیت‌ها

علاوه بر این انتشار، OpenAI برای اولین بار «System Card» مربوط به Sora را نیز منتشر کرد. این کارت شامل جزئیات فنی درباره‌ی نحوه‌ی کارکرد مدل و آزمایش‌های ایمنی است که این شرکت پیش از این انتشار انجام داده است. Sora همچنین از تکنیک «توضیح‌نویسی مجدد» بهره می‌برد، شبیه به آن‌چه در مدل تولید تصویر DALL-E 3 این شرکت دیده می‌شود، تا «توضیحات بسیار توصیفی برای داده‌های آموزشی بصری ایجاد کند.» OpenAI می‌نویسد که این امر به Sora اجازه می‌دهد تا «دستورالعمل‌های متنی کاربر را در ویدیوی تولیدشده با دقت بیشتری دنبال کند.»

این شرکت محدودیت‌های فنی در نسخه‌ی فعلی را تأیید کرد. یکی از توسعه‌دهندگان در طول پخش زنده‌ی اینترنتی گفت: «این نسخه‌ی اولیه‌ی Sora اشتباهاتی خواهد داشت و کامل نیست.» گزارش‌ها حاکی از آن است که این مدل با شبیه‌سازی‌های فیزیک و اقدامات پیچیده در مدت زمان طولانی مشکل دارد.