oLLM: Ejecutando LLMs de Contexto Extenso en GPUs de Consumo

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

oLLM: Ejecutando LLMs de Contexto Extenso en GPUs de Consumo

2025-09-23

oLLM es una biblioteca Python ligera que permite la inferencia de LLMs de contexto extenso como gpt-oss-20B y qwen3-next-80B en GPUs de consumo con 8 GB de VRAM (por ejemplo, una Nvidia 3060 Ti de 200$), manejando hasta 100.000 contextos. Esto se logra sin cuantización, descargando pesos de capa y caché KV a SSD y empleando técnicas como FlashAttention-2 y MLPs segmentadas. Admite varios modelos de LLM y ofrece una API fácil de usar para tareas de procesamiento de texto a gran escala, como el análisis de contratos, el resumen de literatura médica y el procesamiento de archivos de registro masivos.

(github.com)

Desarrollo Inferencia de LLM

WebKit de Apple: Una inmersión profunda en la participación en los estándares web

Las ventas de Tesla en Europa caen a pesar del auge del mercado de vehículos eléctricos