Capítulo 3: Modelos y Formatos

Modelos Soportados

Local Inference Calculator soporta una amplia variedad de modelos LLM, desde 0.5B hasta 670B parámetros.

Rangos de Modelos

Tamaño	Capas Típicas	Ejemplos
0.5B - 1B	12-24	Phi-3 Mini, Qwen-0.5B
3B - 7B	24-32	LLaMA 7B, Mistral 7B, Qwen-1.8B
13B - 30B	40-48	LLaMA 13B, LLaMA 30B
70B+	80+	LLaMA 70B, Qwen-72B, Mixtral 8x7B

Familias de Modelos Soportados

LLaMA (Meta)
Mistral
Qwen (Alibaba)
Phi (Microsoft)
DeepSeek
Mixtral
YI
** Gemma** (Google)
Modelos de Ollama Library

Formatos de Modelo

El proyecto soporta múltiples formatos de archivo de modelo, cada uno con características de memoria específicas.

FP16 (Baseline)

Formato base con media precisión:

Bytes por parámetro: 2
Overhead: 1.0x (sin overhead adicional)
Uso: Ideal para GPUs con VRAM abundante

GGUF (llama.cpp)

Formato optimizado para llama.cpp con estructura de metadatos:

Bytes por parámetro: Variable (Q2_K a Q8_0)
Overhead: 1.15x (+15%)
Auto-detección: Extrae cuantización del nombre de archivo

bash

# Ejemplo de auto-detección
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096

Niveles de cuantización GGUF:

Q2_K, Q3_K, Q4_K, Q5_K, Q6_K, Q8_0
F16, F32

EXL2 (ExLlama2)

Formato optimizado con layout de memoria eficiente:

Bytes por parámetro: Variable
Overhead: 1.05x (+5%, mínimo)
Ventaja: Mejor rendimiento en GPUs NVIDIA

GPTQ

Formato de cuantización post-entrenamiento:

Bytes por parámetro: Variable
Overhead: 1.10x (+10%)
Uso: Compatible con AutoGPTQ

AWQ (Activation-Aware Quantization)

Cuantización consciente de activación:

Bytes por parámetro: Variable
Overhead: 1.08x (+8%)
Ventaja: Mejor calidad que GPTQ mismo nivel

Tabla Comparativa de Overhead

Formato	Overhead	Mejor Para
FP16	1.00x	VRAM充足
EXL2	1.05x	RTX 4090/3090
AWQ	1.08x	Calidad +VRAM limitada
GPTQ	1.10x	AutoGPTQ
GGUF	1.15x	llama.cpp

Ejemplos de Uso

Especificar Formato

bash

# GGUF con INT4
python main.py --model 7 --context 8192 --format gguf --quantization int4

# EXL2
python main.py --model 13 --context 8192 --format exl2

Auto-detección desde GGUF

bash

# Detecta Q4_K_M automáticamente
python main.py --gguf-file "llama-2-7b.Q4_K_M.gguf" --context 4096

Cuantización

Niveles de Cuantización

Precisión	Bytes/Parámetro	Reducción
FP32	4	0%
FP16	2	50%
INT8	1	75%
INT4	0.5	87.5%

Impacto en Calidad

Nota: La degradación de calidad varía según el modelo y caso de uso. Para inferencia chat, INT4 es frecuentemente aceptable.

Commits Relacionados

feat: Add advanced inference configuration features (v0.2.0) - Soporte multi-formato
fix(models.py): Módulo de modelos permite valores arbitrários - Modelos genéricos

Siguiente Capítulo

En el Capítulo 4, exploraremos la base de datos de GPUs soportadas.

Capítulo 3: Modelos y Formatos ​

Modelos Soportados ​

Rangos de Modelos ​

Familias de Modelos Soportados ​

Formatos de Modelo ​

FP16 (Baseline) ​

GGUF (llama.cpp) ​

EXL2 (ExLlama2) ​

GPTQ ​

AWQ (Activation-Aware Quantization) ​

Tabla Comparativa de Overhead ​

Ejemplos de Uso ​

Especificar Formato ​

Auto-detección desde GGUF ​

Cuantización ​

Niveles de Cuantización ​

Impacto en Calidad ​

Commits Relacionados ​

Siguiente Capítulo ​

Capítulo 3: Modelos y Formatos

Modelos Soportados

Rangos de Modelos

Familias de Modelos Soportados

Formatos de Modelo

FP16 (Baseline)

GGUF (llama.cpp)

EXL2 (ExLlama2)

GPTQ

AWQ (Activation-Aware Quantization)

Tabla Comparativa de Overhead

Ejemplos de Uso

Especificar Formato

Auto-detección desde GGUF

Cuantización

Niveles de Cuantización

Impacto en Calidad

Commits Relacionados

Siguiente Capítulo