هوش مصنوعی Imagen گوگل تبدیل متن به عکس را با دقت بالایی انجام می‌دهد

پدرام رازقی

۴ خرداد ۱۴۰۱ | ۱۳:۵۰ زمان مورد نیاز برای مطالعه: ۲ دقیقه

گوگل از هوش مصنوعی جدیدش رونمایی کرد که می‌تواند بر اساس متون دریافتی تصاویر مرتبط به آن را ایجاد کند. ایده‌ی این سیستم در واقع به این شکل است که کاربران با دادن نوشته‌ و متن به این هوش مصنوعی معادل تصویری آن را مشاهده خواهند کرد. گوگل بر این باور است که هوش مصنوعی Imagen، سطح عمیق و بی‌نظیری از درک زبان و واقع‌گرایی را به کاربران ارائه می‌دهد.

این عکس ۷۱۷ گیگاپیکسلی باکیفیت‌ترین عکس تهیه شده از آثار هنری است

این اولین باری نیست ما چنین هوش مصنوعی قدرتمندی را می‌بینیم. برای مثال هوش مصنوعی DALL-E 2 شرکت تحقیقاتی OpenAI که اخیراً نیز رونمایی شده، از چنین قابلیت فوق‌العاده‌ای بهره‌مند است. اما با این حال هوش مصنوعی Imagen گوگل سعی دارد تصاویر واقع بینانه‌تری را به کاربران نشان دهد. محققان این پروژه برای ارزیابی این هوش مصنوعی در مقابل سایر رقبای خود، بنچمارک جدیدی به نام Drawbench را ایجاد کردند. در این وب‌سایت 200 متن توسط هوش مصنوعی Imagen و دیگر شرکت‌ها به عکس تبدیل شد و از رأی‌دهندگان خواسته شد تا کیفیت و ارتباط هر تصویر با نوشته را مورد ارزیابی قرار دهند. این افراد اعلام کردند که دقت و صحت تصاویر ایجاد شده توسط Imagen بسیار واقعی‌تر و طبیعی‌تر از سایر مدل‌هاست.

شایان ذکر است که برخی نمونه‌های ایجاد شده توسط این هوش مصنوعی در وب‌‌سایت Imagen website قابل مشاهده است. با این حال، این نمونه‌ها به صورت گلچین انتخاب شده‌اند و ممکن است کیفیت تصاویر دیگر در حد این تصاویر نباشد. همچنین باید اشاره کنیم که مدل Imagen به‌صورت عمومی در دسترس کاربران قرار نگرفته، زیرا غول موتور جست‌وجو معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.

ماسک: ربات‌های انسان‌نما احتمالاً تا ۲۰۵۰ در هر خانه‌ای حضور خواهند داشت

محققان گوگل در رابطه با این هوش مصنوعی می‌گویند: «اگرچه این رویکرد باعث پیشرفت‌های سریع الگوریتمی در سال‌های اخیر شده، اما اطلاعاتی که از این طریق به دست می‌آیند حاوی طنزهای اجتماعی، نظرات افراطی و توهین‌آمیز یا شیو‌ه‌های دیگری هستند که موجب ناراحتی برخی از اقلیت‌ها خواهد شد. در حالی که بسیاری از این داده‌ها و اطلاعات از فیلترهای مختلفی عبور کردند تا محتواهای نامطلوب آنان پاک شود، ما از مجموعه داده LAION-400M هم استفاده کردیم که به داشتن طیف گسترده‌ای از محتوای نامناسب نظیر توهین‌های نژادپرستانه و کلیشه‌های مضر اجتماعی معروف است.»

بدین ترتیب این احتمال وجود دارد که هوش مصنوعی Imagen کلیشه‌ها و مفاهیم مضر اجتماعی را رمزگذاری کرده باشد و آن را در قالب تصاویر مختلف در معرض دید قرار دهد. باید دید در ادامه گوگل می‌تواند برخی از این مشکلات را حل کند یا نه. به نظر می‌رسد که تا رفع نشدن برخی از مشکلات این مدل، گوگل آن را به صورت عمومی منتشر نخواهد کرد.