Skip to content

Capítulo 1: Introducción

¿Qué es Local Inference Calculator?

Local Inference Calculator es una herramienta de planificación de capacidad para inferencia local de Modelos de Lenguaje Grande (LLMs). Su propósito principal es ayudarte a descubrir rápidamente qué modelos de lenguaje pueden ejecutarse en tu GPU para un tamaño de contexto específico.

Problema que Resuelve

Cuando quieres ejecutar un LLM localmente, necesitas saber:

  • ¿Cuánta VRAM requiere mi modelo objetivo?
  • ¿Cabrá en mi GPU actual?
  • ¿Qué tamaño de contexto puedo usar?
  • ¿Necesito cuantización?

Esta herramienta responde todas estas preguntas automáticamente.

Arquitectura del Proyecto

El proyecto está estructurado en módulos bien definidos:

local_inference_calculator/
├── main.py          # CLI principal y punto de entrada
├── calculator.py    # Lógica de cálculo de VRAM
├── models.py        # Base de datos de modelos LLM
├── gpus.py          # Base de datos de GPUs
├── formats.py       # Soporte para diferentes formatos de modelo
├── multi_gpu.py     # Configuraciones multi-GPU
└── __init__.py      # Exports públicos

Historia del Proyecto (Commits)

El proyecto evolucionó a través de varios hitos importantes:

Commit Inicial

feat: Commit inicial

El proyecto comenzó con la funcionalidad básica de cálculo de VRAM.

Documentación y Licencia

docs: Atualização da documentação. Disponibilizada em dois idiomas: en e pt-br.
chore: Projeto sob licença MIT. Adicionada subseção de contribuição ao README.md

El proyecto adoptó licencia MIT y documentación bilingüe (inglés y portugués).

Mejoras de Funcionalidad

fix(models.py): Módulo de modelos permite valores arbitrários (modelos genéricos)
feat: VRAM calculation features added

Se agregaron características de cálculo de VRAM y soporte para modelos genéricos.

Versión 0.2.0 - Características Avanzadas

feat: Add advanced inference configuration features (v0.2.0)

Esta versión agregó:

  • Layer Offload Optimization
  • CPU Offload Analysis
  • Multi-GPU Configuration
  • GGUF Format Support
  • Soporte para múltiples formatos (EXL2, GPTQ, AWQ)

Actualización de GPUs

feat: Add NVIDIA GeForce RTX 50 series GPUs to database

Se agregaron las últimas GPUs de NVIDIA a la base de datos.

Uso Básico

Instalación

bash
cd local_inference_calculator
# No hay dependencias externas más allá de Python standard library

Listar Modelos Disponibles

bash
python main.py --list-models

Verificar Requisitos de VRAM

bash
# Modelo de 7B parámetros con contexto 8K
python main.py --model 7 --context 8192

# Con cuantización INT4
python main.py -m 70 -c 16384 -q int4

# Modelos pequeños (0.6B, 1B, etc.)
python main.py -m 0.6 -c 8192

Verificar si un Modelo Corre en tu GPU

bash
python main.py --context 4096 --only-runs

Conceptos Clave

VRAM (Video RAM)

La memoria de.video de la GPU. Es el recurso más limitado para inferencia local.

Cuantización

Técnica para reducir el tamaño del modelo:

  • FP32: 4 bytes por parámetro
  • FP16: 2 bytes por parámetro
  • INT8: 1 byte por parámetro
  • INT4: 0.5 bytes por parámetro

Tamaño de Contexto

El número máximo de tokens que el modelo puede procesar en una sola inferencia.

KV Cache

Memoria adicional requerida para almacenar las claves y valores de atención durante la inferencia.

Siguiente Capítulo

En el Capítulo 2, profundizaremos en cómo se calculan los requisitos de VRAM.