Skip to content

Capítulo 3: Modelos y Formatos

Modelos Soportados

Local Inference Calculator soporta una amplia variedad de modelos LLM, desde 0.5B hasta 670B parámetros.

Rangos de Modelos

TamañoCapas TípicasEjemplos
0.5B - 1B12-24Phi-3 Mini, Qwen-0.5B
3B - 7B24-32LLaMA 7B, Mistral 7B, Qwen-1.8B
13B - 30B40-48LLaMA 13B, LLaMA 30B
70B+80+LLaMA 70B, Qwen-72B, Mixtral 8x7B

Familias de Modelos Soportados

  • LLaMA (Meta)
  • Mistral
  • Qwen (Alibaba)
  • Phi (Microsoft)
  • DeepSeek
  • Mixtral
  • YI
  • ** Gemma** (Google)
  • Modelos de Ollama Library

Formatos de Modelo

El proyecto soporta múltiples formatos de archivo de modelo, cada uno con características de memoria específicas.

FP16 (Baseline)

Formato base con media precisión:

  • Bytes por parámetro: 2
  • Overhead: 1.0x (sin overhead adicional)
  • Uso: Ideal para GPUs con VRAM abundante

GGUF (llama.cpp)

Formato optimizado para llama.cpp con estructura de metadatos:

  • Bytes por parámetro: Variable (Q2_K a Q8_0)
  • Overhead: 1.15x (+15%)
  • Auto-detección: Extrae cuantización del nombre de archivo
bash
# Ejemplo de auto-detección
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096

Niveles de cuantización GGUF:

  • Q2_K, Q3_K, Q4_K, Q5_K, Q6_K, Q8_0
  • F16, F32

EXL2 (ExLlama2)

Formato optimizado con layout de memoria eficiente:

  • Bytes por parámetro: Variable
  • Overhead: 1.05x (+5%, mínimo)
  • Ventaja: Mejor rendimiento en GPUs NVIDIA

GPTQ

Formato de cuantización post-entrenamiento:

  • Bytes por parámetro: Variable
  • Overhead: 1.10x (+10%)
  • Uso: Compatible con AutoGPTQ

AWQ (Activation-Aware Quantization)

Cuantización consciente de activación:

  • Bytes por parámetro: Variable
  • Overhead: 1.08x (+8%)
  • Ventaja: Mejor calidad que GPTQ mismo nivel

Tabla Comparativa de Overhead

FormatoOverheadMejor Para
FP161.00xVRAM充足
EXL21.05xRTX 4090/3090
AWQ1.08xCalidad +VRAM limitada
GPTQ1.10xAutoGPTQ
GGUF1.15xllama.cpp

Ejemplos de Uso

Especificar Formato

bash
# GGUF con INT4
python main.py --model 7 --context 8192 --format gguf --quantization int4

# EXL2
python main.py --model 13 --context 8192 --format exl2

Auto-detección desde GGUF

bash
# Detecta Q4_K_M automáticamente
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096

Cuantización

Niveles de Cuantización

PrecisiónBytes/ParámetroReducción
FP3240%
FP16250%
INT8175%
INT40.587.5%

Impacto en Calidad

Nota: La degradación de calidad varía según el modelo y caso de uso. Para inferencia chat, INT4 es frecuentemente aceptable.

Commits Relacionados

  • feat: Add advanced inference configuration features (v0.2.0) - Soporte multi-formato
  • fix(models.py): Módulo de modelos permite valores arbitrários - Modelos genéricos

Siguiente Capítulo

En el Capítulo 4, exploraremos la base de datos de GPUs soportadas.