علم و فناوری

آغاز عصر جدید هوش مصنوعی/ عرضه مدل‌های Qwen3 توسط علی‌بابا – تجارت نیوز

علی‌بابا مدل‌های هوش مصنوعی جدید Qwen3 را معرفی کرد که در برخی موارد از بهترین مدل‌های گوگل و OpenAI پیشی می‌گیرد.

به گزارش تجارت نیوز، علی‌بابا، یکی از بزرگ‌ترین شرکت‌های فناوری چین، روز دوشنبه از مجموعه جدیدی از مدل‌های هوش مصنوعی به نام Qwen3 رونمایی کرد. این مدل‌ها به ادعای این شرکت، توانایی رقابت و حتی پیشی‌گرفتن از بهترین مدل‌های موجود در بازار، از جمله مدل‌های OpenAI و گوگل را دارند. مدل‌های Qwen3 به زودی تحت مجوز «باز» قابل دانلود از پلتفرم‌های توسعه هوش مصنوعی مانند Hugging Face و GitHub خواهند بود. این مدل‌ها در اندازه‌های مختلف از 0.6 میلیارد تا 235 میلیارد پارامتر عرضه خواهند شد. پارامترها به طور تقریبی نشان‌دهنده توانایی‌های حل مسئله یک مدل می‌باشند و به‌طور کلی مدل‌هایی با پارامترهای بیشتر، عملکرد بهتری از خود نشان می‌دهند.

افزایش فشار بر آزمایشگاه‌های آمریکایی

ظهور مدل‌های جدیدی مانند Qwen3، فشار بیشتری بر روی آزمایشگاه‌های آمریکایی از جمله OpenAI ایجاد کرده است تا تکنولوژی‌های هوش مصنوعی قوی‌تری تحویل دهند. این موضوع باعث شده تا سیاست‌گذاران آمریکایی محدودیت‌هایی را برای کاهش توانایی شرکت‌های چینی در دسترسی به تراشه‌های لازم برای آموزش مدل‌های هوش مصنوعی اعمال کنند.

مدل‌های Qwen3 به نوعی «هیبرید» هستند، به این معنا که می‌توانند به آرامی و با تفکر به حل مسائل پیچیده بپردازند یا درخواست‌های ساده را به سرعت پاسخ دهند. تیم Qwen در یک پست وبلاگی عنوان کرده است: «ما به‌طور یکپارچه حالت‌های تفکر و غیرتفکر را ادغام کرده‌ایم و به کاربران این امکان را داده‌ایم که بودجه تفکر خود را کنترل کنند.» این طراحی به کاربران اجازه می‌دهد تا بودجه‌های خاص برای وظایف خود را به آسانی پیکربندی کنند.

معرفی ویژگی‌های جدید

مدل‌های Qwen3 از معماری «ترکیب کارشناسان» (MoE) بهره می‌برند که می‌تواند برای پاسخگویی به پرسش‌ها به‌صورت کارآمدتر عمل کند. معماری MoE وظایف را به زیر وظایف تقسیم کرده و آن‌ها را به مدل‌های «کارشناس» کوچکتر و تخصصی‌تر واگذار می‌کند. علی‌بابا اعلام کرده که مدل‌های Qwen3 از 119 زبان پشتیبانی می‌کنند و بر روی داده‌هایی نزدیک به 36 تریلیون توکن آموزش دیده‌اند. توکن‌ها به عنوان داده‌های خامی که یک مدل پردازش می‌کند، محسوب می‌شوند؛ به‌طور تقریبی، 1 میلیون توکن معادل 750,000 کلمه است.

مدل‌های Qwen3 با ترکیبی از کتاب‌های درسی، «زوج‌های سوال و جواب»، کدهای نمونه و داده‌های تولید شده توسط هوش مصنوعی آموزش دیده‌اند. علی‌بابا ادعا می‌کند که این بهبودها، قابلیت‌های Qwen3 را نسبت به نسخه قبلی آن، Qwen2، به طرز چشمگیری افزایش داده است. اگرچه هیچ‌یک از مدل‌های Qwen3 به‌طور کامل از مدل‌های اخیر OpenAI مانند o3 و o4-mini پیشی نمی‌گیرند، اما عملکرد خوبی از خود نشان می‌دهند.

رقابت با مدل‌های دیگر

مدل بزرگ‌ترین Qwen3، یعنی Qwen-3-235B-A22B، در پلتفرم برنامه‌نویسی Codeforces به‌طور جزئی از OpenAI’s o3-mini و Google’s Gemini 2.5 Pro پیشی گرفته است. همچنین، این مدل در نسخه جدید AIME، که یک معیار چالش‌برانگیز ریاضی است، و BFCL، که قابلیت «تفکر» یک مدل را مورد ارزیابی قرار می‌دهد، عملکرد بهتری نسبت به o3-mini دارد.

با این حال، Qwen-3-235B-A22B هنوز برای استفاده عمومی در دسترس نیست. بزرگ‌ترین مدل عمومی Qwen3، یعنی Qwen3-32B، همچنان با چندین مدل هوش مصنوعی دیگر رقابت می‌کند و در چندین آزمون، از جمله آزمون برنامه‌نویسی LiveCodeBench، از مدل o1 OpenAI پیشی می‌گیرد. علی‌بابا اعلام کرده که Qwen3 در قابلیت‌های فراخوانی ابزار، پیروی از دستورالعمل‌ها و کپی کردن فرمت‌های خاص داده‌های بسیار خوبی دارد.

توهین سرویستاو، هم‌بنیان‌گذار و مدیرعامل شرکت Baseten، که میزبان ابر هوش مصنوعی است، در این‌باره گفت: «مدل‌های Qwen3 به‌عنوان یک نقطه عطف در روند مدل‌های باز در حال پیشرفت در کنار سیستم‌های بسته مانند OpenAI محسوب می‌شوند. ایالات متحده در حال تقویت محدودیت‌های فروش تراشه به چین و خرید از چین است، اما مدل‌هایی مانند Qwen3 که در سطح جهانی و باز هستند، به‌طور حتم در داخل کشور مورد استفاده قرار خواهند گرفت.»

منبع تجارت نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا