oLLM: Ejecutando LLMs de Contexto Extenso en GPUs de Consumo

2025-09-23
oLLM: Ejecutando LLMs de Contexto Extenso en GPUs de Consumo

oLLM es una biblioteca Python ligera que permite la inferencia de LLMs de contexto extenso como gpt-oss-20B y qwen3-next-80B en GPUs de consumo con 8 GB de VRAM (por ejemplo, una Nvidia 3060 Ti de 200$), manejando hasta 100.000 contextos. Esto se logra sin cuantización, descargando pesos de capa y caché KV a SSD y empleando técnicas como FlashAttention-2 y MLPs segmentadas. Admite varios modelos de LLM y ofrece una API fácil de usar para tareas de procesamiento de texto a gran escala, como el análisis de contratos, el resumen de literatura médica y el procesamiento de archivos de registro masivos.

Desarrollo Inferencia de LLM