Appearance
Capítulo 2: Cálculo de VRAM
Modelo de Estimación de VRAM
Local Inference Calculator usa un modelo de estimación conservador que considera tres componentes principales:
- Parámetros del modelo
- Overhead del modelo
- KV Cache
Fórmula de Cálculo
Desglose Detallado
1. Memoria de Parámetros
python
# Cálculo básico
memoria_parametros = parámetros × bytes_por_parametro
# Ejemplos para un modelo de 7B:
# FP16: 7,000,000,000 × 2 = 14 GB
# INT4: 7,000,000,000 × 0.5 = 3.5 GB2. Overhead del Modelo
El overhead incluye:
- Buffers internos para cómputo
- Pesos cuantizados (metadatos adicionales)
- Estados de atención intermedios
- Memoria para operaciones de normalización
3. KV Cache
La cache de atención es crítica para el contexto:
python
# Fórmula simplificada
# KV Cache = 2 × batch_size × n_layers × n_heads × head_dim × bytes × seq_length
# Para modelo de 7B, contexto 8K, FP16:
# ~2 GB adicionalesEjemplo Práctico
bash
$ python main.py --model 7 --context 8192
Parámetros: 7B
Precisión: FP16
Contexto: 8192
============================================
DETALLE DE VRAM
============================================
• Parámetros: 14.00 GB
• Overhead: 2.80 GB
• KV Cache: 2.00 GB
============================================
TOTAL: 18.80 GB
Uso real (idle): ~17-18 GB
Uso real (peak): ~19-20 GBCuantización y VRAM
| Precisión | Bytes/Parámetro | 7B Model | 70B Model |
|---|---|---|---|
| FP32 | 4 | 28 GB | 280 GB |
| FP16 | 2 | 14 GB | 140 GB |
| INT8 | 1 | 7 GB | 70 GB |
| INT4 | 0.5 | 3.5 GB | 35 GB |
Estimaciones de Uso Real
La herramienta proporciona dos estimaciones:
- Idle VRAM: Memoria mínima cuando el modelo está cargado pero sin procesar
- Peak VRAM: Memoria máxima durante procesamiento activo
Configuración de Cálculo
Modo Producción vs Desarrollo
bash
# Modo desarrollo (menor footprint)
python main.py --model 7 --context 8192 --mode development
# Modo producción (más VRAM para throughput)
python main.py --model 7 --context 8192 --mode productionAsunciones del Cálculo
El cálculo asume:
batch_size = 1(procesamiento secuencial)- Sin LoRA adapters cargados
- Sin modelos de embedding separados
- Formato estándar del modelo
Variables de Entorno
bash
# Personalizar cálculos
LIC_BATCH_SIZE=4 python main.py --model 7Commits Relacionados
feat: VRAM calculation features added- Agrega lógica de cálculo de VRAMfix(models.py): Módulo de modelos permite valores arbitrários- Soporte para modelos genéricos
Siguiente Capítulo
En el Capítulo 3, exploraremos los modelos y formatos soportados.