Existen una serie de conceptos básicos que debemos conocer antes de empezar a meternos con modelos LLM y tomar decisiones como la configuración de nuestro equipo de hardware para correrlos localmente.
1. ¿Qué es un TOKEN?
En primer lugar debemos saber qué es un token. Un token es la unidad básica con la que trabajan todos los modelos de lenguaje modernos.
- No es exactamente una palabra completa.
- No es exactamente una letra.
- Es algo intermedio.
Ejemplos reales (tokenizer de Llama 3 / Mistral):
| Texto | Cantidad de tokens aproximada |
|---|---|
| Hola | 1 token |
| ¿Cómo estás? | 3 tokens (¿ + Cómo + estás?) |
| casa | 1 token |
| casas | 1 token (¡sí, ambas son 1!) |
| supercalifragilisticoespialidoso | 4 tokens |
| 123456789 | 1 token (los números suelen ir juntos) |
| hello world | 2 tokens |
| hola mundo | 3 tokens (porque “mundo” se parte en “mun” + “do” en español) |
Regla rápida:
En español e inglés → 1 palabra ≈ 1.3–1.5 tokens en promedio.
1000 tokens ≈ 750–800 palabras.
2. ¿Qué es el CONTEXTO? (context window)
Es la cantidad máxima de tokens que el modelo puede “ver” o “recordar” al mismo tiempo.
- Llama 3 8B → 8.192 tokens de contexto (≈ 6000 palabras)
- Llama 3.1 70B → 128.000 tokens (≈ 96.000 palabras = un libro entero)
- Gemma 2 27B → 8.192 tokens
- Mistral Large 2 → 128k tokens
- Grok (actual) → 128k tokens
- Gemini 1.5 Pro → hasta 2 millones de tokens (experimental)
Ejemplo práctico: Si tu modelo tiene 8k de contexto y le metes una conversación de 9000 tokens → se olvida de las primeras frases (las corta por la izquierda). Por eso a veces los modelos “olvidan” cosas que dijiste al principio de una charla muy larga.
3. ¿Qué es la INFERENCIA?
Es el proceso de generar texto (o respuestas) usando un modelo ya entrenado.Hay dos fases distintas en la vida de un modelo LLM:
| Fase | Qué hace | Cuánta VRAM necesita | Cuánto tiempo tarda |
|---|---|---|---|
| Entrenamiento | Aprender desde cero (solo lo hacen empresas) | ENORME (miles de GPUs) | Meses |
| Fine-tuning | Adaptar un modelo ya entrenado (LoRA, QLoRA) | Media-alta | Horas o días |
| Inferencia | ¡Usarlo para hablar o generar texto! | Baja-media | Milisegundos o segundos |
La inferencia tiene dos sub-fases muy distintas:
a) Prefill (prompt processing)
- El modelo lee todo tu prompt/contexto de golpe.
- Es la parte más pesada en memoria y cálculo cuando el contexto es muy largo.
b) Generación (decoding) – una token a la vez
- Una vez leído el prompt, el modelo predice el siguiente token, luego el siguiente, etc.
- Aquí la velocidad se mide en tokens por segundo (t/s).
Ejemplo real de inferencia: Tú escribes: “Explícame la fotosíntesis en 3 frases” → 15 tokens
El modelo:
- Lee los 15 tokens (prefill, muy rápido)
- Genera 80 tokens de respuesta (uno por uno) → si va a 80 tokens/segundo → tarda 1 segundo.
Resumen visual de cómo funciona la inferencia
Prompt → [15 tokens] ───┐
├→ Modelo lee todo (prefill)
Contexto anterior → [4000 tokens] ─┘
↓
Modelo genera:
token 16 → token 17 → token 18 → ... → token 95
↓
Respuesta completa (80 tokens nuevos)
Relación entre contexto, tokens y VRAM (memoria de la GPU)
Regla aproximada muy útil (2025):
| Precisión | Tokens que caben por cada GB de VRAM |
|---|---|
| FP16 / BF16 | ≈ 50.000 tokens por 32 GB |
| Q8_0 | ≈ 70.000–80.000 tokens por 32 GB |
| Q5_K_M | ≈ 100.000 tokens por 32 GB |
| Q4_K_M | ≈ 130.000–140.000 tokens por 32 GB |
| Q3_K_M | ≈ 160.000–170.000 tokens por 32 GB |
| Q2_K | ≈ 200.000+ tokens por 32 GB |
Resumen
| Concepto | Qué es en palabras simples | Por qué importa |
|---|---|---|
| Token | “Trozo” de texto (palabra o parte de palabra) | Todo se mide en tokens (precio, velocidad, contexto) |
| Contexto | Cuántos tokens puede recordar el modelo a la vez | Si se pasa → olvida cosas antiguas |
| Inferencia | Usar el modelo para generar respuestas | Es lo que haces cuando chateas con él |
| Prefill | Leer el prompt | Rápido con contexto corto, lento con libros enteros |
| Decoding | Generar token por token | Aquí ves los “tokens por segundo” |
Ejemplos reales
Ahora vamos a ver algunos ejemplos. PDFs reales (probados con Llama-3.1 / Mistral tokenizer)
| Documento | Páginas | Palabras aprox. | Tokens aprox. | Contexto que ocupa | Modelo que lo puede leer entero de una vez (2025) |
|---|---|---|---|---|---|
| Constitución Española 1978 | 44 | 15 000 | 21 000 | 21k | Cualquier modelo con 32k+ (Llama 3.1 8B, Mistral, Gemma 2 9B, etc.) |
| Tesis doctoral media (sin imágenes) | 220 | 78 000 | 108 000 | 108k | Llama 3.1 70B, Mixtral 8x22B, Claude 3.5, Grok, Gemini 1.5 (128k+) |
| Libro “Cien años de soledad” (García Márquez) | 471 | 135 000 | 185 000 | 185k | Solo modelos 128k+ o 1M+ (Gemini 1.5 Pro, algunos Llama 405B experimentales) |
| Manual técnico NVIDIA RTX 4090 (datasheet + whitepaper) | 85 | 32 000 | 46 000 | 46k | Casi cualquier modelo actual |
| Paper de investigación típico (arXiv, 12-15 pág.) | 14 | 7 500 | 10 500 | 10k | Hasta los modelos de 8k lo leen sobrado |
| Informe financiero empresa (PDF anual) | 180 | 95 000 | 132 000 | 132k | Necesitas 128k+ o hacer RAG |
URLs / páginas web reales (contando solo el texto extraído)
| URL / Página | Palabras aprox. | Tokens aprox. | Comentario |
|---|---|---|---|
| https://es.wikipedia.org/wiki/Inteligencia_artificial | 7 200 | 10 100 | Cabe fácil en cualquier modelo |
| https://openai.com/research/gpt-4 | 2 800 | 4 000 | Página oficial, muy limpia |
| https://www.bbc.com/mundo/articles/cx2xf7z5k4ro (noticia larga) | 1 800 | 2 600 | Noticia típica |
| https://lilianweng.github.io/posts/2023-06-23-agent/ (post técnico famoso) | 18 000 | 26 000 | Post técnico muy largo |
| Página de producto Amazon (con reseñas) | 8 000 – 25 000 | 11k – 35k | Depende de cuántas reseñas cargues |
| Foro o hilo de Reddit largo (ej. r/MachineLearning) | 15 000 – 60 000 | 20k – 85k | Los hilos épicos ya necesitan 128k |
| Documentación completa de LangChain (una sola página) | 35 000 – 45 000 | 50k – 65k | Necesitas 128k o dividir |
Reglas rápidas que uso yo todos los días
- 1 página de PDF académico ≈ 700–900 tokens
- 1 página de libro de bolsillo ≈ 500–600 tokens
- 1 página web típica ≈ 800–1500 tokens
- 1 minuto de transcripción de audio (habla normal) ≈ 150–180 tokens
Qué modelo necesitas según lo que quieras leer entero
| Lo que quieres meter de una vez | Tokens necesarios | Modelos que lo aguantan (2025) fácil |
|---|---|---|
| Artículos, noticias, papers | < 15k | Cualquier modelo (hasta los de 8k) |
| Manuales técnicos, libros cortos, informes | 30k–80k | Llama 3.1 8B/70B (128k), Mistral Large, Grok, Qwen 2 72B |
| Tesis, libros completos, informes muy largos | 100k–200k | Llama 3.1 405B (128k oficial), Gemini 1.5 Pro (1M-2M), Claude 3.5 Sonnet (200k) |
| Varios PDFs + conversación larga | 200k–500k+ | Solo Gemini 1.5 Pro / Flash (1M–2M) o RAG obligatorio |
¿Qué es RAG?
Hemos hablado del RAG, pero ¿qué significa? RAG = Retrieval-Augmented Generation (traducido: Generación Aumentada por Recuperación). Es la técnica que usan el 95 % de las empresas y personas serias cuando quieren que un LLM responda sobre documentos privados, PDFs largos, bases de datos internas, páginas web actualizadas, manuales técnicos, etc., sin tener que meter todo el texto de una vez en el contexto.
¿Por qué existe RAG (el problema que resuelve)?
| Problema clásico | Solución sin RAG | Solución con RAG |
|---|---|---|
| Contexto limitado (8k → 128k → 1M máximo) | No cabe un libro o 50 PDFs | Sí cabe aunque tengas 5000 PDFs o 50 GB de texto |
| Información que cambia cada día (precios, leyes, noticias) | El modelo se queda obsoleto | El modelo siempre consulta la versión actual |
| Datos privados (contratos, historiales médicos, código interno) | No puedes meterlos en ChatGPT/Grok/Claude | Los tienes en local y el modelo solo ve lo necesario |
| Alucinaciones cuando el modelo no sabe | Inventa cosas | Solo responde con fragmentos reales que ha encontrado |
Cómo funciona RAG paso a paso
- Primera fase (una sola vez – indexación)
- Tomas todos tus documentos (PDFs, Word, web, Notion, código, etc.).
- Los cortas en trozos manejables (“chunks”) → normalmente 512–1024 tokens cada uno.
- Para cada trozo generas un embedding (un vector numérico de 768–1536 dimensiones que representa el significado).
- Guardas todos los vectores + el texto original en una base de datos vectorial (ej. Chroma, Pinecone, Weaviate, Qdrant, Milvus, pgvector, etc.).
- Segunda fase (cada vez que alguien pregunta)
- El usuario hace una pregunta → “¿Qué dice el contrato sobre la cláusula de penalización?”
- Convertimos la pregunta en el mismo tipo de embedding.
- Buscamos en la base de datos vectorial los 4–20 trozos más parecidos semánticamente (esto tarda milisegundos).
- Esos trozos reales (texto literal) se meten en el prompt del LLM junto con la pregunta.
- El LLM responde usando SOLO esa información real → casi cero alucinaciones.
Documentos que tienes:
├── Manual_empresa_2025.pdf (400 páginas)
├── 300 contratos en carpeta
├── Wiki interna
└── 15.000 tickets de soporte
→ Los cortas en 25.000 chunks → generas embeddings → guardas en Qdrant/Chroma
Usuario pregunta:
"¿Cuál es la garantía que damos en el producto X-5000 según el último manual?"
RAG hace:
1. Busca los 6–8 chunks más relevantes del manual y contratos
2. Prompt que recibe el modelo (total < 20k tokens aunque tengas 50 GB de datos):
Sistema: Responde solo con la información que aparece a continuación.
Documentos relevantes:
[chunk 1] "El producto X-5000 tiene garantía de 36 meses desde la fecha de factura…"
[chunk 2] "En caso de defecto de fabricación se reemplaza sin coste…"
…
Pregunta del usuario: ¿Cuál es la garantía que damos en el producto X-5000?
→ Respuesta 100 % exacta y con fuente.
Tipos de RAG que existen:
| Tipo | Cuándo se usa | Ventajas |
|---|---|---|
| RAG naïf | Proyectos pequeños, pruebas | Muy fácil de montar |
| Advanced RAG | Antes y después de recuperar: re-rank, filtrado | Más precisión |
| Modular RAG | Rutas diferentes según la pregunta | Mejor en empresas grandes |
| GraphRAG | Cuando hay relaciones complejas (organigramas, grafos de conocimiento) | Microsoft lo está empujando mucho |
| Hybrid Search | Vectorial + búsqueda por palabras clave (BM25) | No te pierdes términos raros o números exactos |
| Self-RAG / Adaptive RAG | El modelo decide si necesita buscar o no | Ahorra tokens y latencia |
Herramientas más usadas en 2025 (de más fácil a más pro)
| Nivel | Herramienta | Ideal para |
|---|---|---|
| Principiante | Local: PrivateGPT, GPT4All, AnythingLLM, LocalGPT | Todo en tu PC, sin internet |
| Muy fácil | Web: ChatPDF, Humata, Docalysis | Subes PDFs y ya chatea |
| Intermedio | LlamaIndex + Local LLM | Mucho control, todo local o en nube |
| Intermedio | LangChain / Haystack | Proyectos más complejos |
| Avanzado | Flowise, Dify, RagFlow | Interfaces bonitas + backend potente |
| Empresa | Azure AI Search + OpenAI, Pinecone + Cohere, Qdrant + local LLM | Escalabilidad, seguridad, logs, etc. |
Cuánto mejora la precisión:
| Escenario | Sin RAG (solo modelo base) | Con buen RAG |
|---|---|---|
| Preguntas sobre PDFs propios | 30–50 % correctas | 92–98 % |
| Datos que cambian cada día | 0 % (está desactualizado) | 99 % |
| Preguntas muy específicas | Muchas alucinaciones | Casi cero |
Con todo esto hemos revisado los conceptos más elementales para comenzar a entender lo que un LLM y sus implicaciones.

