oLLM: تشغيل نماذج اللغات الكبيرة ذات السياق الواسع على وحدات معالجة الرسومات للمستهلكين

2025-09-23
oLLM: تشغيل نماذج اللغات الكبيرة ذات السياق الواسع على وحدات معالجة الرسومات للمستهلكين

oLLM هي مكتبة بايثون خفيفة الوزن تُمكّن من الاستدلال على نماذج اللغات الكبيرة ذات السياق الواسع مثل gpt-oss-20B و qwen3-next-80B على وحدات معالجة الرسومات للمستهلكين التي تحتوي على 8 جيجابايت من ذاكرة الوصول العشوائي (مثل Nvidia 3060 Ti بسعر 200 دولار)، مع معالجة ما يصل إلى 100000 سياق. يتم تحقيق ذلك بدون كمية، عن طريق تفريغ أوزان الطبقات وذاكرة التخزين المؤقت KV على محرك أقراص الحالة الثابتة (SSD) واستخدام تقنيات مثل FlashAttention-2 و MLPs المقطعة. تدعم oLLM نماذج LLMs متنوعة، وتوفر واجهة برمجة تطبيقات سهلة الاستخدام لمهام معالجة النصوص على نطاق واسع، مثل تحليل العقود، وتلخيص الأدبيات الطبية، ومعالجة ملفات السجلات الضخمة.

التطوير