OpenAI از مدل پیشرفته هوش مصنوعی O3 رونمایی کرد

یوسف اسفندیاری

۲۴ بهمن ۱۴۰۳ | ۱۷:۳۸ زمان مورد نیاز برای مطالعه: ۲ دقیقه

دیشب سم آلتمن، مدیر عامل OpenAI، از جدیدترین مدل‌های هوش مصنوعی «استدلالی» خود به نام‌های o3 و o3-mini پرده برداشت که بر اساس مدل‌های o1 که در اوایل سال جاری عرضه شده بودند، ساخته شده‌اند. این شرکت هنوز این مدل‌ها را منتشر نکرده است، اما این مدل‌ها را از امروز برای انجام آزمایش‌های ایمنی عمومی و دسترسی محققان در دسترس قرار خواهد داد.

این مدل‌ها از آنچه OpenAI «زنجیره تفکر خصوصی» می‌نامد استفاده می‌کنند؛ جایی که مدل برای بررسی گفت‌وگوی داخلی خود مکث می‌کند و قبل از پاسخ دادن، برنامه‌ریزی می‌کند، که می‌توان آن را «استدلال شبیه‌سازی‌شده» (SR) نامید – نوعی هوش مصنوعی که فراتر از مدل‌های زبانی بزرگ (LLM) ابتدایی عمل می‌کند. به گزارش The Information، این شرکت نام خانواده مدل‌ها را به جای «o2»، «o3» گذاشته است تا از درگیری‌های احتمالی علامت تجاری با ارائه‌دهنده خدمات مخابراتی بریتانیایی، O2، جلوگیری کند. آلتمن در جریان پخش زنده روز جمعه، به اشتباهات نام‌گذاری شرکت خود اذعان کرد و گفت: «در سنت باشکوه OpenAI که واقعاً در انتخاب نام بد عمل می‌کند، نام آن o3 خواهد بود.»

به گفته OpenAI، مدل o3 در بنچمارک ARC-AGI، یک بنچمارک استدلال بصری که از زمان ایجادش در سال ۲۰۱۹ شکست‌ناپذیر بوده است، به امتیاز بی‌سابقه‌ای دست یافته است. در سناریوهای با قدرت محاسباتی پایین، o3 امتیاز ۷۵.۷ درصد و در آزمایش‌های با قدرت محاسباتی بالا، به ۸۷.۵ درصد رسید که قابل مقایسه با عملکرد انسان در آستانه ۸۵ درصد است.

این مدل همچنین در GPQA Diamond که شامل سوالات زیست‌شناسی، فیزیک و شیمی در سطح تحصیلات تکمیلی است، به امتیاز ۸۷.۷ درصد دست یافت. مدل o3 در بنچمارک ریاضیات Frontier توسط EpochAI، ۲۵.۲ درصد از مسائل را حل کرد، در حالی که هیچ مدل دیگری از ۲ درصد فراتر نرفته است. رئیس بنیاد جایزه ARC در جریان پخش زنده گفت: «وقتی این نتایج را می‌بینم، باید دیدگاه خود را درباره‌ی آنچه هوش مصنوعی می‌تواند انجام دهد و چه توانایی‌هایی دارد، تغییر دهم.»

گونه o3-mini که در روز جمعه نیز معرفی شد، شامل ویژگی زمان تفکر تطبیقی است که سرعت‌های پردازش پایین، متوسط و بالا را ارائه می‌دهد. این شرکت بیان می‌کند که تنظیمات محاسباتی بالاتر نتایج بهتری به دست می‌دهند. OpenAI گزارش می‌دهد که o3-mini در بنچمارک Codeforces از مدل قبلی خود، o1، بهتر عمل می‌کند.

افزایش استدلال شبیه‌سازی‌شده

اعلام OpenAI در حالی صورت می‌گیرد که سایر شرکت‌ها نیز در حال توسعه مدل‌های SR خود هستند، از جمله گوگل که روز پنجشنبه از Gemini 2.0 Flash Thinking Experimental خبر داد. در ماه نوامبر، DeepSeek مدل DeepSeek-R1 را راه‌اندازی کرد، در حالی که تیم Qwen متعلق به Alibaba، مدل QwQ را منتشر کرد که آن را نخستین جایگزین «متن‌باز» برای o1 نامیدند.

این مدل‌های هوش مصنوعی جدید مبتنی بر LLMهای سنتی هستند، اما با یک تفاوت: آنها به منظور تولید نوعی فرآیند زنجیره تفکر تکراری تنظیم شده‌اند که می‌تواند نتایج خود را در نظر بگیرد و استدلال را به روشی تقریباً مبتنی بر جستجوی فراگیر شبیه‌سازی کند که می‌تواند در زمان استنتاج (اجرا) مقیاس‌پذیر باشد، به جای تمرکز بر بهبودها در طول آموزش مدل هوش مصنوعی، که اخیراً شاهد کاهش بازده بوده است. OpenAI ابتدا مدل‌های SR جدید را برای آزمایش در اختیار محققان ایمنی قرار خواهد داد. آلتمن گفت که این شرکت قصد دارد o3-mini را در اواخر ژانویه و o3 را مدت کوتاهی پس از آن عرضه کند.