کاهش مصرف منابع در آموزش مدل‌های زبانی بزرگ از طریق بهینه‌سازی چندهدفه

2025/06/06 5:22 ب.ظ

رشد سریع مقیاس مدل‌های زبانی بزرگ (LLM) موجب افزایش بی‌سابقه هزینه‌های محاسباتی و اثرات زیست‌محیطی شده است. در این پژوهش، مسئله بهینه‌سازی چندهدفه در فرایند آموزش مدل‌های زبانی بزرگ بررسی می‌شود؛ به‌گونه‌ای که میان عملکرد مدل و مصرف منابع شامل زمان آموزش، انرژی، ساعت‌های پردازش GPU و ردپای کربن توازن برقرار شود. ما جدیدترین تکنیک‌ها، از جمله هرس مدل (Model Pruning)، کوانتیزه‌سازی (Quantization)، تقطیر دانش (Knowledge Distillation)، جست‌وجوی معماری عصبی (NAS) و تنظیم ابرپارامترها با استفاده از الگوریتم‌های تکاملی یا یادگیری تقویتی را از منظر مصالحه میان دقت یا مقدار خطا و بهره‌وری مرور و ارزیابی می‌کنیم.

با استفاده از داده‌های آزمایشی اخیر از بنچمارک‌های عمومی، مانند ریزتنظیم BERT روی وظایف GLUE و آموزش مدل‌های خانواده GPT، تحلیل می‌کنیم که هر یک از این روش‌ها چگونه مرز پارتو میان دقت و هزینه را شکل می‌دهند. برای مثال، نشان داده شده است که کوانتیزه‌سازی ایستای ۸ بیتی می‌تواند مصرف انرژی را حدود ۲۹ درصد کاهش دهد، در حالی که افت دقت آن ناچیز است. همچنین هرس ساختاریافته می‌تواند سرعت استنتاج را حدود ۶۳ درصد افزایش دهد، در حالی که کاهش دقت در آن اندک باقی می‌ماند. روش‌های پیشرفته‌تر فشرده‌سازی LLM نیز دستاوردهای بیشتری به همراه داشته‌اند؛ به‌طوری که یک روش بازپارامتردهی چندهدفه مبتنی بر shift-add توانسته است در مقایسه با مدل‌های کامل، بیش از ۸۰ درصد کاهش در مصرف حافظه و انرژی ایجاد کند.

در این مقاله، برای نمایش این مصالحه‌ها از نمودارهای پارتو در قالب دقت در برابر انرژی استفاده شده است. در مجموع، یافته‌ها نشان می‌دهند که جست‌وجوی چندهدفه، مانند بهینه‌سازی بیزی یا الگوریتم‌های ژنتیک، می‌تواند به‌صورت نظام‌مند پیکربندی‌هایی را شناسایی کند که روی جبهه بهینه پارتو قرار دارند و به متخصصان این امکان را می‌دهند که متناسب با محدودیت‌های خود، مناسب‌ترین مدل را انتخاب کنند. این مقاله نشان می‌دهد که در راستای اصول هوش مصنوعی سبز (Green AI)، فدا کردن بخشی محدود از دقت می‌تواند به افزایش چشمگیر بهره‌وری منجر شود. همچنین، پیشنهادهای عملی برای آموزش پایدارتر مدل‌های زبانی بزرگ ارائه می‌شود.

لینک مقاله:

https://civilica.com/doc/2280364/

دیدگاه تان را بنویسید

نظر خود را درباره این مقاله بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *