OpenAI از مدل پیشرفته هوش مصنوعی O3 رونمایی کرد
دیشب سم آلتمن، مدیر عامل OpenAI، از جدیدترین مدلهای هوش مصنوعی «استدلالی» خود به نامهای o3 و o3-mini پرده برداشت که بر اساس مدلهای o1 که در اوایل سال جاری عرضه شده بودند، ساخته شدهاند. این شرکت هنوز این مدلها را منتشر نکرده است، اما این مدلها را از امروز برای انجام آزمایشهای ایمنی عمومی و دسترسی محققان در دسترس قرار خواهد داد.
این مدلها از آنچه OpenAI «زنجیره تفکر خصوصی» مینامد استفاده میکنند؛ جایی که مدل برای بررسی گفتوگوی داخلی خود مکث میکند و قبل از پاسخ دادن، برنامهریزی میکند، که میتوان آن را «استدلال شبیهسازیشده» (SR) نامید – نوعی هوش مصنوعی که فراتر از مدلهای زبانی بزرگ (LLM) ابتدایی عمل میکند. به گزارش The Information، این شرکت نام خانواده مدلها را به جای «o2»، «o3» گذاشته است تا از درگیریهای احتمالی علامت تجاری با ارائهدهنده خدمات مخابراتی بریتانیایی، O2، جلوگیری کند. آلتمن در جریان پخش زنده روز جمعه، به اشتباهات نامگذاری شرکت خود اذعان کرد و گفت: «در سنت باشکوه OpenAI که واقعاً در انتخاب نام بد عمل میکند، نام آن o3 خواهد بود.»
به گفته OpenAI، مدل o3 در بنچمارک ARC-AGI، یک بنچمارک استدلال بصری که از زمان ایجادش در سال ۲۰۱۹ شکستناپذیر بوده است، به امتیاز بیسابقهای دست یافته است. در سناریوهای با قدرت محاسباتی پایین، o3 امتیاز ۷۵.۷ درصد و در آزمایشهای با قدرت محاسباتی بالا، به ۸۷.۵ درصد رسید که قابل مقایسه با عملکرد انسان در آستانه ۸۵ درصد است.
این مدل همچنین در GPQA Diamond که شامل سوالات زیستشناسی، فیزیک و شیمی در سطح تحصیلات تکمیلی است، به امتیاز ۸۷.۷ درصد دست یافت. مدل o3 در بنچمارک ریاضیات Frontier توسط EpochAI، ۲۵.۲ درصد از مسائل را حل کرد، در حالی که هیچ مدل دیگری از ۲ درصد فراتر نرفته است. رئیس بنیاد جایزه ARC در جریان پخش زنده گفت: «وقتی این نتایج را میبینم، باید دیدگاه خود را دربارهی آنچه هوش مصنوعی میتواند انجام دهد و چه تواناییهایی دارد، تغییر دهم.»
گونه o3-mini که در روز جمعه نیز معرفی شد، شامل ویژگی زمان تفکر تطبیقی است که سرعتهای پردازش پایین، متوسط و بالا را ارائه میدهد. این شرکت بیان میکند که تنظیمات محاسباتی بالاتر نتایج بهتری به دست میدهند. OpenAI گزارش میدهد که o3-mini در بنچمارک Codeforces از مدل قبلی خود، o1، بهتر عمل میکند.
افزایش استدلال شبیهسازیشده
اعلام OpenAI در حالی صورت میگیرد که سایر شرکتها نیز در حال توسعه مدلهای SR خود هستند، از جمله گوگل که روز پنجشنبه از Gemini 2.0 Flash Thinking Experimental خبر داد. در ماه نوامبر، DeepSeek مدل DeepSeek-R1 را راهاندازی کرد، در حالی که تیم Qwen متعلق به Alibaba، مدل QwQ را منتشر کرد که آن را نخستین جایگزین «متنباز» برای o1 نامیدند.
این مدلهای هوش مصنوعی جدید مبتنی بر LLMهای سنتی هستند، اما با یک تفاوت: آنها به منظور تولید نوعی فرآیند زنجیره تفکر تکراری تنظیم شدهاند که میتواند نتایج خود را در نظر بگیرد و استدلال را به روشی تقریباً مبتنی بر جستجوی فراگیر شبیهسازی کند که میتواند در زمان استنتاج (اجرا) مقیاسپذیر باشد، به جای تمرکز بر بهبودها در طول آموزش مدل هوش مصنوعی، که اخیراً شاهد کاهش بازده بوده است. OpenAI ابتدا مدلهای SR جدید را برای آزمایش در اختیار محققان ایمنی قرار خواهد داد. آلتمن گفت که این شرکت قصد دارد o3-mini را در اواخر ژانویه و o3 را مدت کوتاهی پس از آن عرضه کند.
منبع: The Verge