Conceptos básicos relacionados con los LLM (Large Language Model)

Existen una serie de conceptos básicos que debemos conocer antes de empezar a meternos con modelos LLM y tomar decisiones como la configuración de nuestro equipo de hardware para correrlos localmente.

1. ¿Qué es un TOKEN?

En primer lugar debemos saber qué es un token. Un token es la unidad básica con la que trabajan todos los modelos de lenguaje modernos.

No es exactamente una palabra completa.
No es exactamente una letra.
Es algo intermedio.

Ejemplos reales (tokenizer de Llama 3 / Mistral):

Texto	Cantidad de tokens aproximada
Hola	1 token
¿Cómo estás?	3 tokens (¿ + Cómo + estás?)
casa	1 token
casas	1 token (¡sí, ambas son 1!)
supercalifragilisticoespialidoso	4 tokens
123456789	1 token (los números suelen ir juntos)
hello world	2 tokens
hola mundo	3 tokens (porque “mundo” se parte en “mun” + “do” en español)

Regla rápida:
En español e inglés → 1 palabra ≈ 1.3–1.5 tokens en promedio.
1000 tokens ≈ 750–800 palabras.

2. ¿Qué es el CONTEXTO? (context window)

Es la cantidad máxima de tokens que el modelo puede “ver” o “recordar” al mismo tiempo.

Llama 3 8B → 8.192 tokens de contexto (≈ 6000 palabras)
Llama 3.1 70B → 128.000 tokens (≈ 96.000 palabras = un libro entero)
Gemma 2 27B → 8.192 tokens
Mistral Large 2 → 128k tokens
Grok (actual) → 128k tokens
Gemini 1.5 Pro → hasta 2 millones de tokens (experimental)

Ejemplo práctico: Si tu modelo tiene 8k de contexto y le metes una conversación de 9000 tokens → se olvida de las primeras frases (las corta por la izquierda). Por eso a veces los modelos “olvidan” cosas que dijiste al principio de una charla muy larga.

3. ¿Qué es la INFERENCIA?

Es el proceso de generar texto (o respuestas) usando un modelo ya entrenado.Hay dos fases distintas en la vida de un modelo LLM:

Fase	Qué hace	Cuánta VRAM necesita	Cuánto tiempo tarda
Entrenamiento	Aprender desde cero (solo lo hacen empresas)	ENORME (miles de GPUs)	Meses
Fine-tuning	Adaptar un modelo ya entrenado (LoRA, QLoRA)	Media-alta	Horas o días
Inferencia	¡Usarlo para hablar o generar texto!	Baja-media	Milisegundos o segundos

La inferencia tiene dos sub-fases muy distintas:

a) Prefill (prompt processing)

El modelo lee todo tu prompt/contexto de golpe.
Es la parte más pesada en memoria y cálculo cuando el contexto es muy largo.

b) Generación (decoding) – una token a la vez

Una vez leído el prompt, el modelo predice el siguiente token, luego el siguiente, etc.
Aquí la velocidad se mide en tokens por segundo (t/s).

Ejemplo real de inferencia: Tú escribes: “Explícame la fotosíntesis en 3 frases” → 15 tokens
El modelo:

Lee los 15 tokens (prefill, muy rápido)
Genera 80 tokens de respuesta (uno por uno) → si va a 80 tokens/segundo → tarda 1 segundo.

Resumen visual de cómo funciona la inferencia

Prompt → [15 tokens] ───┐
                         ├→ Modelo lee todo (prefill)
Contexto anterior → [4000 tokens] ─┘
                         ↓
                   Modelo genera:
                   token 16 → token 17 → token 18 → ... → token 95
                         ↓
                   Respuesta completa (80 tokens nuevos)

Relación entre contexto, tokens y VRAM (memoria de la GPU)

Regla aproximada muy útil (2025):

Precisión	Tokens que caben por cada GB de VRAM
FP16 / BF16	≈ 50.000 tokens por 32 GB
Q8_0	≈ 70.000–80.000 tokens por 32 GB
Q5_K_M	≈ 100.000 tokens por 32 GB
Q4_K_M	≈ 130.000–140.000 tokens por 32 GB
Q3_K_M	≈ 160.000–170.000 tokens por 32 GB
Q2_K	≈ 200.000+ tokens por 32 GB

Resumen

Concepto	Qué es en palabras simples	Por qué importa
Token	“Trozo” de texto (palabra o parte de palabra)	Todo se mide en tokens (precio, velocidad, contexto)
Contexto	Cuántos tokens puede recordar el modelo a la vez	Si se pasa → olvida cosas antiguas
Inferencia	Usar el modelo para generar respuestas	Es lo que haces cuando chateas con él
Prefill	Leer el prompt	Rápido con contexto corto, lento con libros enteros
Decoding	Generar token por token	Aquí ves los “tokens por segundo”

Ejemplos reales

Ahora vamos a ver algunos ejemplos. PDFs reales (probados con Llama-3.1 / Mistral tokenizer)

Documento	Páginas	Palabras aprox.	Tokens aprox.	Contexto que ocupa	Modelo que lo puede leer entero de una vez (2025)
Constitución Española 1978	44	15 000	21 000	21k	Cualquier modelo con 32k+ (Llama 3.1 8B, Mistral, Gemma 2 9B, etc.)
Tesis doctoral media (sin imágenes)	220	78 000	108 000	108k	Llama 3.1 70B, Mixtral 8x22B, Claude 3.5, Grok, Gemini 1.5 (128k+)
Libro “Cien años de soledad” (García Márquez)	471	135 000	185 000	185k	Solo modelos 128k+ o 1M+ (Gemini 1.5 Pro, algunos Llama 405B experimentales)
Manual técnico NVIDIA RTX 4090 (datasheet + whitepaper)	85	32 000	46 000	46k	Casi cualquier modelo actual
Paper de investigación típico (arXiv, 12-15 pág.)	14	7 500	10 500	10k	Hasta los modelos de 8k lo leen sobrado
Informe financiero empresa (PDF anual)	180	95 000	132 000	132k	Necesitas 128k+ o hacer RAG

URLs / páginas web reales (contando solo el texto extraído)

URL / Página	Palabras aprox.	Tokens aprox.	Comentario
https://es.wikipedia.org/wiki/Inteligencia_artificial	7 200	10 100	Cabe fácil en cualquier modelo
https://openai.com/research/gpt-4	2 800	4 000	Página oficial, muy limpia
https://www.bbc.com/mundo/articles/cx2xf7z5k4ro (noticia larga)	1 800	2 600	Noticia típica
https://lilianweng.github.io/posts/2023-06-23-agent/ (post técnico famoso)	18 000	26 000	Post técnico muy largo
Página de producto Amazon (con reseñas)	8 000 – 25 000	11k – 35k	Depende de cuántas reseñas cargues
Foro o hilo de Reddit largo (ej. r/MachineLearning)	15 000 – 60 000	20k – 85k	Los hilos épicos ya necesitan 128k
Documentación completa de LangChain (una sola página)	35 000 – 45 000	50k – 65k	Necesitas 128k o dividir

Reglas rápidas que uso yo todos los días

1 página de PDF académico ≈ 700–900 tokens
1 página de libro de bolsillo ≈ 500–600 tokens
1 página web típica ≈ 800–1500 tokens
1 minuto de transcripción de audio (habla normal) ≈ 150–180 tokens

Qué modelo necesitas según lo que quieras leer entero

Lo que quieres meter de una vez	Tokens necesarios	Modelos que lo aguantan (2025) fácil
Artículos, noticias, papers	< 15k	Cualquier modelo (hasta los de 8k)
Manuales técnicos, libros cortos, informes	30k–80k	Llama 3.1 8B/70B (128k), Mistral Large, Grok, Qwen 2 72B
Tesis, libros completos, informes muy largos	100k–200k	Llama 3.1 405B (128k oficial), Gemini 1.5 Pro (1M-2M), Claude 3.5 Sonnet (200k)
Varios PDFs + conversación larga	200k–500k+	Solo Gemini 1.5 Pro / Flash (1M–2M) o RAG obligatorio

¿Qué es RAG?

Hemos hablado del RAG, pero ¿qué significa? RAG = Retrieval-Augmented Generation (traducido: Generación Aumentada por Recuperación). Es la técnica que usan el 95 % de las empresas y personas serias cuando quieren que un LLM responda sobre documentos privados, PDFs largos, bases de datos internas, páginas web actualizadas, manuales técnicos, etc., sin tener que meter todo el texto de una vez en el contexto.

¿Por qué existe RAG (el problema que resuelve)?

Problema clásico	Solución sin RAG	Solución con RAG
Contexto limitado (8k → 128k → 1M máximo)	No cabe un libro o 50 PDFs	Sí cabe aunque tengas 5000 PDFs o 50 GB de texto
Información que cambia cada día (precios, leyes, noticias)	El modelo se queda obsoleto	El modelo siempre consulta la versión actual
Datos privados (contratos, historiales médicos, código interno)	No puedes meterlos en ChatGPT/Grok/Claude	Los tienes en local y el modelo solo ve lo necesario
Alucinaciones cuando el modelo no sabe	Inventa cosas	Solo responde con fragmentos reales que ha encontrado

Cómo funciona RAG paso a paso

Primera fase (una sola vez – indexación)
- Tomas todos tus documentos (PDFs, Word, web, Notion, código, etc.).
- Los cortas en trozos manejables (“chunks”) → normalmente 512–1024 tokens cada uno.
- Para cada trozo generas un embedding (un vector numérico de 768–1536 dimensiones que representa el significado).
- Guardas todos los vectores + el texto original en una base de datos vectorial (ej. Chroma, Pinecone, Weaviate, Qdrant, Milvus, pgvector, etc.).
Segunda fase (cada vez que alguien pregunta)
1. El usuario hace una pregunta → “¿Qué dice el contrato sobre la cláusula de penalización?”
2. Convertimos la pregunta en el mismo tipo de embedding.
3. Buscamos en la base de datos vectorial los 4–20 trozos más parecidos semánticamente (esto tarda milisegundos).
4. Esos trozos reales (texto literal) se meten en el prompt del LLM junto con la pregunta.
5. El LLM responde usando SOLO esa información real → casi cero alucinaciones.

Documentos que tienes:
├── Manual_empresa_2025.pdf (400 páginas)
├── 300 contratos en carpeta
├── Wiki interna
└── 15.000 tickets de soporte

→ Los cortas en 25.000 chunks → generas embeddings → guardas en Qdrant/Chroma

Usuario pregunta:  
"¿Cuál es la garantía que damos en el producto X-5000 según el último manual?"

RAG hace:
1. Busca los 6–8 chunks más relevantes del manual y contratos
2. Prompt que recibe el modelo (total < 20k tokens aunque tengas 50 GB de datos):

Sistema: Responde solo con la información que aparece a continuación.  
Documentos relevantes:  
[chunk 1] "El producto X-5000 tiene garantía de 36 meses desde la fecha de factura…"  
[chunk 2] "En caso de defecto de fabricación se reemplaza sin coste…"  
…  
Pregunta del usuario: ¿Cuál es la garantía que damos en el producto X-5000?

→ Respuesta 100 % exacta y con fuente.

Tipos de RAG que existen:

Tipo	Cuándo se usa	Ventajas
RAG naïf	Proyectos pequeños, pruebas	Muy fácil de montar
Advanced RAG	Antes y después de recuperar: re-rank, filtrado	Más precisión
Modular RAG	Rutas diferentes según la pregunta	Mejor en empresas grandes
GraphRAG	Cuando hay relaciones complejas (organigramas, grafos de conocimiento)	Microsoft lo está empujando mucho
Hybrid Search	Vectorial + búsqueda por palabras clave (BM25)	No te pierdes términos raros o números exactos
Self-RAG / Adaptive RAG	El modelo decide si necesita buscar o no	Ahorra tokens y latencia

Herramientas más usadas en 2025 (de más fácil a más pro)

Nivel	Herramienta	Ideal para
Principiante	Local: PrivateGPT, GPT4All, AnythingLLM, LocalGPT	Todo en tu PC, sin internet
Muy fácil	Web: ChatPDF, Humata, Docalysis	Subes PDFs y ya chatea
Intermedio	LlamaIndex + Local LLM	Mucho control, todo local o en nube
Intermedio	LangChain / Haystack	Proyectos más complejos
Avanzado	Flowise, Dify, RagFlow	Interfaces bonitas + backend potente
Empresa	Azure AI Search + OpenAI, Pinecone + Cohere, Qdrant + local LLM	Escalabilidad, seguridad, logs, etc.

Cuánto mejora la precisión:

Escenario	Sin RAG (solo modelo base)	Con buen RAG
Preguntas sobre PDFs propios	30–50 % correctas	92–98 %
Datos que cambian cada día	0 % (está desactualizado)	99 %
Preguntas muy específicas	Muchas alucinaciones	Casi cero

Con todo esto hemos revisado los conceptos más elementales para comenzar a entender lo que un LLM y sus implicaciones.