چالش بزرگ هوش مصنوعی با معیار ریاضی جدید FrontierMath
سازمان تحقیقاتی Epoch AI بهتازگی از یک معیار ریاضی پیشرفته با نام FrontierMath رونمایی کرده که توجه زیادی به خود جلب کرده و سوالاتی درباره محدودیتهای مدلهای هوش مصنوعی به وجود آورده است. این معیار جدید که به منظور جلوگیری از دسترسی مستقیم شرکتهای هوش مصنوعی و پیشگیری از آموزش مدلها بر اساس آن به صورت محرمانه نگهداری میشود، شامل صدها مساله در سطح کارشناسان است.
برخلاف معیارهای سادهتر ریاضی که مدلهای هوش مصنوعی در آنها عملکرد بسیار خوبی دارند، نتایج FrontierMath نشان میدهد حتی مدلهای پیشرفتهای همچون GPT-4o (مدل پشتChatGPT)، Claude 3.5 Sonnet، o1-preview و Gemini 1.5 Pro با دقت کمتر از ۲ درصد در این مسائل دشوار روبهرو شدهاند.
این معیار به منظور ارزیابی واقعی توانایی مدلها در استدلال ریاضی طراحی شده و محدودیتهای جدی آنها را در حل مسائل پیچیده آشکار میسازد.
نتایج این پژوهش که در قالب مقالهای پیشانتشار منتشر شده حاکی از آن است که مدلهای هوش مصنوعی کنونی هنوز در حل مسائل سطح کارشناسی ریاضیات فاصله زیادی با توانایی واقعی دارند.
آزمایشی محرمانه برای سنجش استدلال هوش مصنوعی
FrontierMath به دلیل ماهیت خصوصی و انتشارنیافته خود از معیارهای قبلی هوش مصنوعی متمایز میشود. در حالی که اکثر مدلهای هوش مصنوعی بر اساس دادههای عمومی، شامل مجموعههای گستردهای از مسائل ریاضی، آموزش میبینند، تیم سازنده FrontierMath تصمیم گرفتهاند مسائل آن را محفوظ نگه دارند تا از «آلودگی دادهها» جلوگیری کنند.
در بسیاری از معیارهای موجود، مدلهای هوش مصنوعی ممکن است برخی از انواع مسائل را به خاطر بسپارند و به طور مصنوعی امتیازشان افزایش یابد. ماهیت محدود و محرمانه FrontierMath این خطر را کاهش و سنجشی واقعی از توانایی مدلهای هوش مصنوعی در حل مساله به دست میدهد.
این معیار با همکاری بیش از ۶۰ ریاضیدان از موسسات برجسته جهانی توسعه یافته و هر مساله به منظور دقت و وضوح از سوی متخصصان بازبینی شده است. حدود پنج درصد از مسائل نیاز به ویرایش داشتند که نرخی مشابهدیگر معیارهای بزرگ در حوزه یادگیری ماشین است. این فرایند بازبینی، تضمین میکند مسائل هم چالشبرانگیز و هم بدون ابهام باشند و برای آزمایشهای پیشرفته مناسب باشند.
ادغام چندین رشته با مسائل پیچیده
مسائل FrontierMath شامل رشتههای مختلفی از ریاضیات، از نظریه اعداد محاسباتی گرفته تا هندسه جبری انتزاعی، است. به گفته تیم سازنده، این مسائل به دلیل نیاز به دانش عمیق و تخصص فراوان، به طور ویژه چالشبرانگیز هستند. دو برنده مدال فیلدز، ترنس تائو و تیموتی گاورز، بخشهایی از مجموعه مسائل را بررسی کردهاند.
تائو معتقد است تنها کارشناسان یا دانشجویان دکتری پیشرفته قادر به حل این مسائل خواهند بود. او همچنین اشاره کرد حل این مسائل ممکن است به ترکیبی از تخصص انسانی، کمک هوش مصنوعی و ابزارهای محاسباتی کمکی نیاز داشته باشد.
طراحی سوالات FrontierMath نیز به گونهای است که از دادن پاسخهای تصادفی درست جلوگیری کند. هر سوال دارای پاسخهای عددی یا ریاضی پیچیدهای است که احتمال درستی تصادفی را به کمتر از یک درصد میرساند.
تمایز از مسابقات ریاضی سنتی
ریاضیدان اوان چن در یک پست وبلاگی اشاره کرده FrontierMath تفاوتهای چشمگیری با مسابقات سنتی ریاضی مانند المپیاد جهانی ریاضی (IMO) دارد. در حالی که مسائل IMO نیاز به خلاقیت و بینش دارند، پیچیدگیهای زیاد و دانش تخصصی را دربر نمیگیرند، FrontierMath علاوه بر نیاز به تفکر خلاق، بر دانش تخصصی و محاسبات پیچیده نیز متکی است. به گفته چن، روش FrontierMath به هوش مصنوعی امکان میدهد از قدرت محاسباتی بالای خود بهره ببرد و ظرفیت مدلها برای اجرای الگوریتمهای پیچیده را ارزیابی کند.
به این ترتیب، رویکرد FrontierMath مشابه مسابقات برنامهنویسی مانند Project Euler است که در آن چالشهای ریاضی همراه با وظایف الگوریتمی ارائه میشوند. به جای درخواست اثبات مفاهیم، FrontierMath به شرکتکنندگان اجازه میدهد الگوریتمها را در کد پیادهسازی کنند.
این روش به نقاط قوت هوش مصنوعی میپردازد که میتواند وظایف محاسباتی گسترده را بهسرعت انجام دهد، اما همچنین محدودیتهای مدلها را در استدلالهای پیچیده ریاضی آشکار میکند.
آینده معیارهای هوش مصنوعی در ارزیابی تواناییهای ریاضی
Epoch AI برنامه دارد تا FrontierMath را با مسائل جدید گسترش دهد و ارزیابیهای دورهای از مدلهای هوش مصنوعی در برابر این معیار انجام دهد. این سازمان امیدوار است با ارائه این ارزیابیهای مداوم، جامعه پژوهشی را در درک بهتر تواناییها و محدودیتهای هوش مصنوعی در مواجهه با مسائل چندرشتهای و پیچیده یاری کند.
در ماههای آینده، Epoch AI قصد دارد نمونهای از مسائل FrontierMath را منتشر کند تا محققان بتوانند مدلهای خود را آزمایش و تطبیق دهند.
این تلاش گامی به سوی ارزیابی دقیقتر تواناییهای ریاضی هوش مصنوعی و همچنین دعوتی برای صنعت است تا محدودیتهای موجود در تواناییهای یادگیری عمومی مدلهای هوش مصنوعی را به رسمیت بشناسد و بر آنها فائق آید.
FrontierMath با معیارهایی که با پیچیدگیهای حل مساله ریاضی در دنیای واقعی همخوانی دارند، نمایانگر مرزی جدید در ارزیابی هوش مصنوعی است.
منبع تجارت نیوز