Appearance
Capítulo 1: Introducción
¿Qué es Local Inference Calculator?
Local Inference Calculator es una herramienta de planificación de capacidad para inferencia local de Modelos de Lenguaje Grande (LLMs). Su propósito principal es ayudarte a descubrir rápidamente qué modelos de lenguaje pueden ejecutarse en tu GPU para un tamaño de contexto específico.
Problema que Resuelve
Cuando quieres ejecutar un LLM localmente, necesitas saber:
- ¿Cuánta VRAM requiere mi modelo objetivo?
- ¿Cabrá en mi GPU actual?
- ¿Qué tamaño de contexto puedo usar?
- ¿Necesito cuantización?
Esta herramienta responde todas estas preguntas automáticamente.
Arquitectura del Proyecto
El proyecto está estructurado en módulos bien definidos:
local_inference_calculator/
├── main.py # CLI principal y punto de entrada
├── calculator.py # Lógica de cálculo de VRAM
├── models.py # Base de datos de modelos LLM
├── gpus.py # Base de datos de GPUs
├── formats.py # Soporte para diferentes formatos de modelo
├── multi_gpu.py # Configuraciones multi-GPU
└── __init__.py # Exports públicosHistoria del Proyecto (Commits)
El proyecto evolucionó a través de varios hitos importantes:
Commit Inicial
feat: Commit inicialEl proyecto comenzó con la funcionalidad básica de cálculo de VRAM.
Documentación y Licencia
docs: Atualização da documentação. Disponibilizada em dois idiomas: en e pt-br.
chore: Projeto sob licença MIT. Adicionada subseção de contribuição ao README.mdEl proyecto adoptó licencia MIT y documentación bilingüe (inglés y portugués).
Mejoras de Funcionalidad
fix(models.py): Módulo de modelos permite valores arbitrários (modelos genéricos)
feat: VRAM calculation features addedSe agregaron características de cálculo de VRAM y soporte para modelos genéricos.
Versión 0.2.0 - Características Avanzadas
feat: Add advanced inference configuration features (v0.2.0)Esta versión agregó:
- Layer Offload Optimization
- CPU Offload Analysis
- Multi-GPU Configuration
- GGUF Format Support
- Soporte para múltiples formatos (EXL2, GPTQ, AWQ)
Actualización de GPUs
feat: Add NVIDIA GeForce RTX 50 series GPUs to databaseSe agregaron las últimas GPUs de NVIDIA a la base de datos.
Uso Básico
Instalación
bash
cd local_inference_calculator
# No hay dependencias externas más allá de Python standard libraryListar Modelos Disponibles
bash
python main.py --list-modelsVerificar Requisitos de VRAM
bash
# Modelo de 7B parámetros con contexto 8K
python main.py --model 7 --context 8192
# Con cuantización INT4
python main.py -m 70 -c 16384 -q int4
# Modelos pequeños (0.6B, 1B, etc.)
python main.py -m 0.6 -c 8192Verificar si un Modelo Corre en tu GPU
bash
python main.py --context 4096 --only-runsConceptos Clave
VRAM (Video RAM)
La memoria de.video de la GPU. Es el recurso más limitado para inferencia local.
Cuantización
Técnica para reducir el tamaño del modelo:
- FP32: 4 bytes por parámetro
- FP16: 2 bytes por parámetro
- INT8: 1 byte por parámetro
- INT4: 0.5 bytes por parámetro
Tamaño de Contexto
El número máximo de tokens que el modelo puede procesar en una sola inferencia.
KV Cache
Memoria adicional requerida para almacenar las claves y valores de atención durante la inferencia.
Siguiente Capítulo
En el Capítulo 2, profundizaremos en cómo se calculan los requisitos de VRAM.