oLLM: Ausführen von LLMs mit großem Kontext auf Consumer-GPUs

2025-09-23
oLLM: Ausführen von LLMs mit großem Kontext auf Consumer-GPUs

oLLM ist eine leichtgewichtige Python-Bibliothek, die die Inferenz von LLMs mit großem Kontext wie gpt-oss-20B und qwen3-next-80B auf Consumer-GPUs mit 8 GB VRAM (z. B. eine Nvidia 3060 Ti für 200 $) ermöglicht und bis zu 100.000 Kontexte verarbeitet. Dies wird ohne Quantisierung erreicht, indem Schichtgewichte und KV-Cache auf eine SSD ausgelagert und Techniken wie FlashAttention-2 und gechunkte MLPs verwendet werden. oLLM unterstützt verschiedene LLMs und bietet eine benutzerfreundliche API für Textverarbeitungsaufgaben im großen Maßstab, wie z. B. die Analyse von Verträgen, die Zusammenfassung medizinischer Literatur und die Verarbeitung großer Logdateien.

Entwicklung Ressourcenarm