Capítulo 1: Introducción

¿Qué es Local Inference Calculator?

Local Inference Calculator es una herramienta de planificación de capacidad para inferencia local de Modelos de Lenguaje Grande (LLMs). Su propósito principal es ayudarte a descubrir rápidamente qué modelos de lenguaje pueden ejecutarse en tu GPU para un tamaño de contexto específico.

Problema que Resuelve

Cuando quieres ejecutar un LLM localmente, necesitas saber:

¿Cuánta VRAM requiere mi modelo objetivo?
¿Cabrá en mi GPU actual?
¿Qué tamaño de contexto puedo usar?
¿Necesito cuantización?

Esta herramienta responde todas estas preguntas automáticamente.

Arquitectura del Proyecto

El proyecto está estructurado en módulos bien definidos:

local_inference_calculator/
├── main.py          # CLI principal y punto de entrada
├── calculator.py    # Lógica de cálculo de VRAM
├── models.py        # Base de datos de modelos LLM
├── gpus.py          # Base de datos de GPUs
├── formats.py       # Soporte para diferentes formatos de modelo
├── multi_gpu.py     # Configuraciones multi-GPU
└── __init__.py      # Exports públicos

Historia del Proyecto (Commits)

El proyecto evolucionó a través de varios hitos importantes:

Commit Inicial

feat: Commit inicial

El proyecto comenzó con la funcionalidad básica de cálculo de VRAM.

Documentación y Licencia

docs: Atualização da documentação. Disponibilizada em dois idiomas: en e pt-br.
chore: Projeto sob licença MIT. Adicionada subseção de contribuição ao README.md

El proyecto adoptó licencia MIT y documentación bilingüe (inglés y portugués).

Mejoras de Funcionalidad

fix(models.py): Módulo de modelos permite valores arbitrários (modelos genéricos)
feat: VRAM calculation features added

Se agregaron características de cálculo de VRAM y soporte para modelos genéricos.

Versión 0.2.0 - Características Avanzadas

feat: Add advanced inference configuration features (v0.2.0)

Esta versión agregó:

Layer Offload Optimization
CPU Offload Analysis
Multi-GPU Configuration
GGUF Format Support
Soporte para múltiples formatos (EXL2, GPTQ, AWQ)

Actualización de GPUs

feat: Add NVIDIA GeForce RTX 50 series GPUs to database

Se agregaron las últimas GPUs de NVIDIA a la base de datos.

Uso Básico

Instalación

bash

cd local_inference_calculator
# No hay dependencias externas más allá de Python standard library

Listar Modelos Disponibles

bash

python main.py --list-models

Verificar Requisitos de VRAM

bash

# Modelo de 7B parámetros con contexto 8K
python main.py --model 7 --context 8192

# Con cuantización INT4
python main.py -m 70 -c 16384 -q int4

# Modelos pequeños (0.6B, 1B, etc.)
python main.py -m 0.6 -c 8192

Verificar si un Modelo Corre en tu GPU

bash

python main.py --context 4096 --only-runs

Conceptos Clave

VRAM (Video RAM)

La memoria de.video de la GPU. Es el recurso más limitado para inferencia local.

Cuantización

Técnica para reducir el tamaño del modelo:

FP32: 4 bytes por parámetro
FP16: 2 bytes por parámetro
INT8: 1 byte por parámetro
INT4: 0.5 bytes por parámetro

Tamaño de Contexto

El número máximo de tokens que el modelo puede procesar en una sola inferencia.

KV Cache

Memoria adicional requerida para almacenar las claves y valores de atención durante la inferencia.

Siguiente Capítulo

En el Capítulo 2, profundizaremos en cómo se calculan los requisitos de VRAM.

Capítulo 1: Introducción ​

¿Qué es Local Inference Calculator? ​

Problema que Resuelve ​

Arquitectura del Proyecto ​

Historia del Proyecto (Commits) ​

Commit Inicial ​

Documentación y Licencia ​

Mejoras de Funcionalidad ​

Versión 0.2.0 - Características Avanzadas ​

Actualización de GPUs ​

Uso Básico ​

Instalación ​

Listar Modelos Disponibles ​

Verificar Requisitos de VRAM ​

Verificar si un Modelo Corre en tu GPU ​

Conceptos Clave ​

VRAM (Video RAM) ​

Cuantización ​

Tamaño de Contexto ​

KV Cache ​

Siguiente Capítulo ​

Capítulo 1: Introducción

¿Qué es Local Inference Calculator?

Problema que Resuelve

Arquitectura del Proyecto

Historia del Proyecto (Commits)

Commit Inicial

Documentación y Licencia

Mejoras de Funcionalidad

Versión 0.2.0 - Características Avanzadas

Actualización de GPUs

Uso Básico

Instalación

Listar Modelos Disponibles

Verificar Requisitos de VRAM

Verificar si un Modelo Corre en tu GPU

Conceptos Clave

VRAM (Video RAM)

Cuantización

Tamaño de Contexto

KV Cache

Siguiente Capítulo