oLLM: 소비자용 GPU에서 대규모 컨텍스트 LLM 실행

2025-09-23
oLLM: 소비자용 GPU에서 대규모 컨텍스트 LLM 실행

oLLM은 8GB VRAM이 장착된 소비자용 GPU(예: 200달러 상당의 Nvidia 3060 Ti)에서 gpt-oss-20B 및 qwen3-next-80B와 같은 대규모 컨텍스트 LLM의 추론을 가능하게 하는 경량 Python 라이브러리입니다. 최대 10만 개의 컨텍스트를 처리하며, 양자화 없이 레이어 가중치와 KV 캐시를 SSD에 오프로드하고 FlashAttention-2 및 청크화된 MLP와 같은 기술을 사용하여 구현됩니다. 다양한 LLM을 지원하며 계약 분석, 의료 문헌 요약, 대규모 로그 파일 처리 등 대규모 텍스트 처리 작업을 위한 사용자 친화적인 API를 제공합니다.

개발 저자원