رشد سریع مقیاس مدلهای زبانی بزرگ (LLM) موجب افزایش بیسابقه هزینههای محاسباتی و اثرات زیستمحیطی شده است. در این پژوهش، مسئله بهینهسازی چندهدفه در فرایند آموزش مدلهای زبانی بزرگ بررسی میشود؛ بهگونهای که میان عملکرد مدل و مصرف منابع شامل زمان آموزش، انرژی، ساعتهای پردازش GPU و ردپای کربن توازن برقرار شود. ما جدیدترین تکنیکها، از جمله هرس مدل (Model Pruning)، کوانتیزهسازی (Quantization)، تقطیر دانش (Knowledge Distillation)، جستوجوی معماری عصبی (NAS) و تنظیم ابرپارامترها با استفاده از الگوریتمهای تکاملی یا یادگیری تقویتی را از منظر مصالحه میان دقت یا مقدار خطا و بهرهوری مرور و ارزیابی میکنیم.
با استفاده از دادههای آزمایشی اخیر از بنچمارکهای عمومی، مانند ریزتنظیم BERT روی وظایف GLUE و آموزش مدلهای خانواده GPT، تحلیل میکنیم که هر یک از این روشها چگونه مرز پارتو میان دقت و هزینه را شکل میدهند. برای مثال، نشان داده شده است که کوانتیزهسازی ایستای ۸ بیتی میتواند مصرف انرژی را حدود ۲۹ درصد کاهش دهد، در حالی که افت دقت آن ناچیز است. همچنین هرس ساختاریافته میتواند سرعت استنتاج را حدود ۶۳ درصد افزایش دهد، در حالی که کاهش دقت در آن اندک باقی میماند. روشهای پیشرفتهتر فشردهسازی LLM نیز دستاوردهای بیشتری به همراه داشتهاند؛ بهطوری که یک روش بازپارامتردهی چندهدفه مبتنی بر shift-add توانسته است در مقایسه با مدلهای کامل، بیش از ۸۰ درصد کاهش در مصرف حافظه و انرژی ایجاد کند.
در این مقاله، برای نمایش این مصالحهها از نمودارهای پارتو در قالب دقت در برابر انرژی استفاده شده است. در مجموع، یافتهها نشان میدهند که جستوجوی چندهدفه، مانند بهینهسازی بیزی یا الگوریتمهای ژنتیک، میتواند بهصورت نظاممند پیکربندیهایی را شناسایی کند که روی جبهه بهینه پارتو قرار دارند و به متخصصان این امکان را میدهند که متناسب با محدودیتهای خود، مناسبترین مدل را انتخاب کنند. این مقاله نشان میدهد که در راستای اصول هوش مصنوعی سبز (Green AI)، فدا کردن بخشی محدود از دقت میتواند به افزایش چشمگیر بهرهوری منجر شود. همچنین، پیشنهادهای عملی برای آموزش پایدارتر مدلهای زبانی بزرگ ارائه میشود.
لینک مقاله: