Appearance
Capítulo 3: Modelos y Formatos
Modelos Soportados
Local Inference Calculator soporta una amplia variedad de modelos LLM, desde 0.5B hasta 670B parámetros.
Rangos de Modelos
| Tamaño | Capas Típicas | Ejemplos |
|---|---|---|
| 0.5B - 1B | 12-24 | Phi-3 Mini, Qwen-0.5B |
| 3B - 7B | 24-32 | LLaMA 7B, Mistral 7B, Qwen-1.8B |
| 13B - 30B | 40-48 | LLaMA 13B, LLaMA 30B |
| 70B+ | 80+ | LLaMA 70B, Qwen-72B, Mixtral 8x7B |
Familias de Modelos Soportados
- LLaMA (Meta)
- Mistral
- Qwen (Alibaba)
- Phi (Microsoft)
- DeepSeek
- Mixtral
- YI
- ** Gemma** (Google)
- Modelos de Ollama Library
Formatos de Modelo
El proyecto soporta múltiples formatos de archivo de modelo, cada uno con características de memoria específicas.
FP16 (Baseline)
Formato base con media precisión:
- Bytes por parámetro: 2
- Overhead: 1.0x (sin overhead adicional)
- Uso: Ideal para GPUs con VRAM abundante
GGUF (llama.cpp)
Formato optimizado para llama.cpp con estructura de metadatos:
- Bytes por parámetro: Variable (Q2_K a Q8_0)
- Overhead: 1.15x (+15%)
- Auto-detección: Extrae cuantización del nombre de archivo
bash
# Ejemplo de auto-detección
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096Niveles de cuantización GGUF:
- Q2_K, Q3_K, Q4_K, Q5_K, Q6_K, Q8_0
- F16, F32
EXL2 (ExLlama2)
Formato optimizado con layout de memoria eficiente:
- Bytes por parámetro: Variable
- Overhead: 1.05x (+5%, mínimo)
- Ventaja: Mejor rendimiento en GPUs NVIDIA
GPTQ
Formato de cuantización post-entrenamiento:
- Bytes por parámetro: Variable
- Overhead: 1.10x (+10%)
- Uso: Compatible con AutoGPTQ
AWQ (Activation-Aware Quantization)
Cuantización consciente de activación:
- Bytes por parámetro: Variable
- Overhead: 1.08x (+8%)
- Ventaja: Mejor calidad que GPTQ mismo nivel
Tabla Comparativa de Overhead
| Formato | Overhead | Mejor Para |
|---|---|---|
| FP16 | 1.00x | VRAM充足 |
| EXL2 | 1.05x | RTX 4090/3090 |
| AWQ | 1.08x | Calidad +VRAM limitada |
| GPTQ | 1.10x | AutoGPTQ |
| GGUF | 1.15x | llama.cpp |
Ejemplos de Uso
Especificar Formato
bash
# GGUF con INT4
python main.py --model 7 --context 8192 --format gguf --quantization int4
# EXL2
python main.py --model 13 --context 8192 --format exl2Auto-detección desde GGUF
bash
# Detecta Q4_K_M automáticamente
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096Cuantización
Niveles de Cuantización
| Precisión | Bytes/Parámetro | Reducción |
|---|---|---|
| FP32 | 4 | 0% |
| FP16 | 2 | 50% |
| INT8 | 1 | 75% |
| INT4 | 0.5 | 87.5% |
Impacto en Calidad
Nota: La degradación de calidad varía según el modelo y caso de uso. Para inferencia chat, INT4 es frecuentemente aceptable.
Commits Relacionados
feat: Add advanced inference configuration features (v0.2.0)- Soporte multi-formatofix(models.py): Módulo de modelos permite valores arbitrários- Modelos genéricos
Siguiente Capítulo
En el Capítulo 4, exploraremos la base de datos de GPUs soportadas.