مایکروسافت با معرفی مدل زبانی BitNet b1.58 2B4T نشان داده است که هوش مصنوعی میتواند با تنها ۴۰۰ مگابایت حافظه و بدون نیاز به کارت گرافیکهای قدرتمند، عملکرد بالایی ارائه دهد. این مدل بهگونهای طراحی شده است که کارایی استثنایی داشته باشد و از روشی به نام «کوانتیزاسیون سهتایی» استفاده میکند.
در این روش، هر وزن مدل تنها با سه مقدار مجزا (-1، 0، یا +1) نمایش داده میشود. این امر باعث میشود هر وزن فقط به ۱.۵۸ بیت حافظه نیاز داشته باشد، در حالی که مدلهای متداول از اعداد اعشاری ۱۶ یا ۳۲ بیتی برای ذخیره هر وزن استفاده میکنند. نتیجه این طراحی، کاهش چشمگیر مصرف حافظه و امکان اجرای مدل روی سختافزار استاندارد بدون نیاز به کارت گرافیکهای پیشرفته است.
مشخصات فنی و عملکرد مدل BitNet b1.58 2B4T
مدل BitNet b1.58 2B4T که توسط تیم تحقیقاتی مایکروسافت توسعه یافته است، شامل دو میلیارد پارامتر میباشد. این پارامترها به مدل امکان میدهند زبان را درک و تولید کند. برای جبران دقت پایین وزنها، این مدل روی مجموعه دادهای عظیم شامل چهار تریلیون توکن آموزش دیده است؛ حجمی معادل محتوای ۳۳ میلیون کتاب. این آموزش گسترده باعث شده BitNet در برخی موارد با مدلهای پیشرو مانند LLaMA 3.2 1B از متا، Gemma 3 1B از گوگل و Qwen 2.5 1.5B از علیبابا رقابت کند یا حتی از آنها پیشی بگیرد.
در آزمونهای معیار، BitNet b1.58 2B4T عملکردی قوی در طیف وسیعی از وظایف، از جمله مسائل ریاضی در سطح مدرسه و پرسشهایی که نیاز به استدلال منطقی دارند، از خود نشان داد. در برخی ارزیابیها، حتی از رقبای خود بهتر عمل کرد.
ویژگی منحصربهفرد: کارایی در مصرف حافظه و انرژی
آنچه BitNet را متمایز میکند، کارایی بینظیر آن در مصرف حافظه است. این مدل تنها به ۴۰۰ مگابایت حافظه نیاز دارد؛ کمتر از یکسوم مدلهای مشابه. به همین دلیل، میتوان آن را بهراحتی روی CPUهای استاندارد، از جمله تراشه M2 اپل، اجرا کرد؛ بدون نیاز به کارت گرافیکهای پیشرفته یا سختافزار خاص هوش مصنوعی.
این کارایی از طریق یک چارچوب نرمافزاری سفارشی به نام bitnet.cpp ممکن شده است. این چارچوب که بهطور ویژه برای بهرهبرداری از وزنهای سهتایی مدل بهینه شده، عملکرد سریع و سبکی را روی دستگاههای معمولی تضمین میکند. برخلاف کتابخانههای استاندارد هوش مصنوعی مانند Transformers، bitnet.cpp مزایای عملکردی بیشتری ارائه میدهد. این چارچوب که در گیتهاب دردسترس است، در حال حاضر برای CPUها بهینه شده، اما برنامههایی برای پشتیبانی از سایر انواع پردازنده در بهروزرسانیهای آینده وجود دارد.
رویکردی نوین در کاهش دقت مدلها
ایده کاهش دقت مدلها برای صرفهجویی در حافظه ایده جدیدی نیست و محققان مدتهاست که فشردهسازی مدلها را بررسی میکنند. با این حال، بیشتر تلاشهای گذشته شامل تبدیل مدلهای با دقت کامل پس از آموزش بود که اغلب به هزینه کاهش دقت تمام میشد. BitNet b1.58 2B4T رویکرد متفاوتی دارد: این مدل از ابتدا با استفاده از سه مقدار وزنی (-1، 0 و +1) آموزش داده شده است. این روش باعث شده بسیاری از افتهای عملکردی که در روشهای قبلی مشاهده میشد، حذف شوند.
این تغییر پیامدهای مهمی دارد. اجرای مدلهای بزرگ هوش مصنوعی معمولاً به سختافزار قدرتمند و انرژی زیادی نیاز دارد، عواملی که هزینهها و تأثیرات زیستمحیطی را افزایش میدهند. از آنجا که BitNet از محاسبات بسیار ساده (عمدتاً جمع بهجای ضرب) استفاده میکند، انرژی بسیار کمتری مصرف میشود.
محققان مایکروسافت تخمین زدهاند که این مدل ۸۵ تا ۹۶ درصد کمتر از مدلهای مشابه با دقت کامل انرژی مصرف میکند. این کار میتواند اجرای هوش مصنوعی پیشرفته روی دستگاههای شخصی را بدون نیاز به ابرکامپیوترهای ابری ممکن کند.
البته، BitNet b1.58 2B4T محدودیتهایی نیز دارد. در حال حاضر، تنها از سختافزار خاصی پشتیبانی میکند و به چارچوب bitnet.cpp نیاز دارد. همچنین پنجره متنی آن (مقدار متنی که میتواند بهطور همزمان پردازش کند) کوچکتر از پیشرفتهترین مدلها است.
محققان همچنان در حال بررسی علت عملکرد فوقالعاده این مدل با چنین معماری سادهای هستند. کارهای آینده شامل گسترش قابلیتهای مدل، از جمله پشتیبانی از زبانهای بیشتر و ورودیهای متنی طولانیتر است.