Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

oLLM: Ausführen von LLMs mit großem Kontext auf Consumer-GPUs

2025-09-23

oLLM ist eine leichtgewichtige Python-Bibliothek, die die Inferenz von LLMs mit großem Kontext wie gpt-oss-20B und qwen3-next-80B auf Consumer-GPUs mit 8 GB VRAM (z. B. eine Nvidia 3060 Ti für 200 $) ermöglicht und bis zu 100.000 Kontexte verarbeitet. Dies wird ohne Quantisierung erreicht, indem Schichtgewichte und KV-Cache auf eine SSD ausgelagert und Techniken wie FlashAttention-2 und gechunkte MLPs verwendet werden. oLLM unterstützt verschiedene LLMs und bietet eine benutzerfreundliche API für Textverarbeitungsaufgaben im großen Maßstab, wie z. B. die Analyse von Verträgen, die Zusammenfassung medizinischer Literatur und die Verarbeitung großer Logdateien.

(github.com)

Entwicklung Ressourcenarm