مدلهای زبانی بزرگ (LLMها) برای استقرار، به منابع بسیار زیادی نیاز دارند و معمولاً به حافظه و توان پردازشی بالایی وابستهاند. تخصیص ایستای منابع اغلب either باعث هدررفت منابع میشود یا پاسخگوی تقاضای واقعی نیست. در این پژوهش، یک چارچوب مفهومی پیشنهاد میکنیم که از یادگیری تقویتی (RL) و مهندسی نرمافزار خودتطبیق برای بهینهسازی مصرف منابع در استقرار مدلهای زبانی بزرگ استفاده میکند. در این چارچوب، یک عامل یادگیری تقویتی، شاخصهای سیستم مانند توان عملیاتی، تأخیر، و میزان استفاده از GPU و CPU را پایش میکند و اقداماتی مانند مقیاسدهی به تعداد نمونهها، تنظیم دقت مدل، یا تغییر اندازه دستهها (Batch Size) را انجام میدهد. سامانه از یک حلقه پایش–تحلیل–برنامهریزی–اجرا (MAPE-K) بهره میگیرد که در آن، پارامترهای پیکربندی پویا بهصورت برخط تنظیم میشوند تا توان عملیاتی بیشینه و هزینه کمینه شود. ما این رویکرد را با مثالهایی نشان میدهیم: مقیاسدهی خودکار مبتنی بر RL که حدود 40 تا 50 درصد استفاده بیشتر از GPU را نشان میدهد، و بهینهسازیهای تطبیقی در استنتاج مانند ذخیرهسازی کلید–مقدار (Key-Value Caching) که میتواند تا 4 برابر افزایش سرعت ایجاد کند. استقرارهای واقعی مدلهای زبانی بزرگ، چه در خدمات ابری و چه در محیطهای لبه (Edge)، با بارهای کاری بسیار متغیری روبهرو هستند و چارچوب پیشنهادی ما خود را با این تغییرات سازگار میکند. آزمایشها و گزارشهای صنعتی نشان میدهند که سازگاری مبتنی بر یادگیری تقویتی میتواند بهطور معناداری بهرهوری منابع و عملکرد سیستم را بهبود دهد.
لینک مقاله: