Skip to content
Home » Conceptos básicos relacionados con los LLM (Large Language Model)

Conceptos básicos relacionados con los LLM (Large Language Model)

Existen una serie de conceptos básicos que debemos conocer antes de empezar a meternos con modelos LLM y tomar decisiones como la configuración de nuestro equipo de hardware para correrlos localmente.

1. ¿Qué es un TOKEN?

En primer lugar debemos saber qué es un token. Un token es la unidad básica con la que trabajan todos los modelos de lenguaje modernos.

  • No es exactamente una palabra completa.
  • No es exactamente una letra.
  • Es algo intermedio.

Ejemplos reales (tokenizer de Llama 3 / Mistral):

TextoCantidad de tokens aproximada
Hola1 token
¿Cómo estás?3 tokens (¿ + Cómo + estás?)
casa1 token
casas1 token (¡sí, ambas son 1!)
supercalifragilisticoespialidoso4 tokens
1234567891 token (los números suelen ir juntos)
hello world2 tokens
hola mundo3 tokens (porque “mundo” se parte en “mun” + “do” en español)

Regla rápida:
En español e inglés → 1 palabra ≈ 1.3–1.5 tokens en promedio.
1000 tokens ≈ 750–800 palabras.

2. ¿Qué es el CONTEXTO? (context window)

Es la cantidad máxima de tokens que el modelo puede “ver” o “recordar” al mismo tiempo.

  • Llama 3 8B → 8.192 tokens de contexto (≈ 6000 palabras)
  • Llama 3.1 70B → 128.000 tokens (≈ 96.000 palabras = un libro entero)
  • Gemma 2 27B → 8.192 tokens
  • Mistral Large 2 → 128k tokens
  • Grok (actual) → 128k tokens
  • Gemini 1.5 Pro → hasta 2 millones de tokens (experimental)

Ejemplo práctico: Si tu modelo tiene 8k de contexto y le metes una conversación de 9000 tokens → se olvida de las primeras frases (las corta por la izquierda). Por eso a veces los modelos “olvidan” cosas que dijiste al principio de una charla muy larga.

3. ¿Qué es la INFERENCIA?

Es el proceso de generar texto (o respuestas) usando un modelo ya entrenado.Hay dos fases distintas en la vida de un modelo LLM:

FaseQué haceCuánta VRAM necesitaCuánto tiempo tarda
EntrenamientoAprender desde cero (solo lo hacen empresas)ENORME (miles de GPUs)Meses
Fine-tuningAdaptar un modelo ya entrenado (LoRA, QLoRA)Media-altaHoras o días
Inferencia¡Usarlo para hablar o generar texto!Baja-mediaMilisegundos o segundos

La inferencia tiene dos sub-fases muy distintas:

a) Prefill (prompt processing)

  • El modelo lee todo tu prompt/contexto de golpe.
  • Es la parte más pesada en memoria y cálculo cuando el contexto es muy largo.

b) Generación (decoding) – una token a la vez

  • Una vez leído el prompt, el modelo predice el siguiente token, luego el siguiente, etc.
  • Aquí la velocidad se mide en tokens por segundo (t/s).

Ejemplo real de inferencia: Tú escribes: “Explícame la fotosíntesis en 3 frases” → 15 tokens
El modelo:

  1. Lee los 15 tokens (prefill, muy rápido)
  2. Genera 80 tokens de respuesta (uno por uno) → si va a 80 tokens/segundo → tarda 1 segundo.

Resumen visual de cómo funciona la inferencia

Prompt → [15 tokens] ───┐
                         ├→ Modelo lee todo (prefill)
Contexto anterior → [4000 tokens] ─┘
                         ↓
                   Modelo genera:
                   token 16 → token 17 → token 18 → ... → token 95
                         ↓
                   Respuesta completa (80 tokens nuevos)

Relación entre contexto, tokens y VRAM (memoria de la GPU)

Regla aproximada muy útil (2025):

PrecisiónTokens que caben por cada GB de VRAM
FP16 / BF16≈ 50.000 tokens por 32 GB
Q8_0≈ 70.000–80.000 tokens por 32 GB
Q5_K_M≈ 100.000 tokens por 32 GB
Q4_K_M≈ 130.000–140.000 tokens por 32 GB
Q3_K_M≈ 160.000–170.000 tokens por 32 GB
Q2_K≈ 200.000+ tokens por 32 GB

Resumen

ConceptoQué es en palabras simplesPor qué importa
Token“Trozo” de texto (palabra o parte de palabra)Todo se mide en tokens (precio, velocidad, contexto)
ContextoCuántos tokens puede recordar el modelo a la vezSi se pasa → olvida cosas antiguas
InferenciaUsar el modelo para generar respuestasEs lo que haces cuando chateas con él
PrefillLeer el promptRápido con contexto corto, lento con libros enteros
DecodingGenerar token por tokenAquí ves los “tokens por segundo”

Ejemplos reales

Ahora vamos a ver algunos ejemplos. PDFs reales (probados con Llama-3.1 / Mistral tokenizer)

DocumentoPáginasPalabras aprox.Tokens aprox.Contexto que ocupaModelo que lo puede leer entero de una vez (2025)
Constitución Española 19784415 00021 00021kCualquier modelo con 32k+ (Llama 3.1 8B, Mistral, Gemma 2 9B, etc.)
Tesis doctoral media (sin imágenes)22078 000108 000108kLlama 3.1 70B, Mixtral 8x22B, Claude 3.5, Grok, Gemini 1.5 (128k+)
Libro “Cien años de soledad” (García Márquez)471135 000185 000185kSolo modelos 128k+ o 1M+ (Gemini 1.5 Pro, algunos Llama 405B experimentales)
Manual técnico NVIDIA RTX 4090 (datasheet + whitepaper)8532 00046 00046kCasi cualquier modelo actual
Paper de investigación típico (arXiv, 12-15 pág.)147 50010 50010kHasta los modelos de 8k lo leen sobrado
Informe financiero empresa (PDF anual)18095 000132 000132kNecesitas 128k+ o hacer RAG

URLs / páginas web reales (contando solo el texto extraído)

URL / PáginaPalabras aprox.Tokens aprox.Comentario
https://es.wikipedia.org/wiki/Inteligencia_artificial7 20010 100Cabe fácil en cualquier modelo
https://openai.com/research/gpt-42 8004 000Página oficial, muy limpia
https://www.bbc.com/mundo/articles/cx2xf7z5k4ro (noticia larga)1 8002 600Noticia típica
https://lilianweng.github.io/posts/2023-06-23-agent/ (post técnico famoso)18 00026 000Post técnico muy largo
Página de producto Amazon (con reseñas)8 000 – 25 00011k – 35kDepende de cuántas reseñas cargues
Foro o hilo de Reddit largo (ej. r/MachineLearning)15 000 – 60 00020k – 85kLos hilos épicos ya necesitan 128k
Documentación completa de LangChain (una sola página)35 000 – 45 00050k – 65kNecesitas 128k o dividir

Reglas rápidas que uso yo todos los días

  • 1 página de PDF académico ≈ 700–900 tokens
  • 1 página de libro de bolsillo ≈ 500–600 tokens
  • 1 página web típica ≈ 800–1500 tokens
  • 1 minuto de transcripción de audio (habla normal) ≈ 150–180 tokens

Qué modelo necesitas según lo que quieras leer entero

Lo que quieres meter de una vezTokens necesariosModelos que lo aguantan (2025) fácil
Artículos, noticias, papers< 15kCualquier modelo (hasta los de 8k)
Manuales técnicos, libros cortos, informes30k–80kLlama 3.1 8B/70B (128k), Mistral Large, Grok, Qwen 2 72B
Tesis, libros completos, informes muy largos100k–200kLlama 3.1 405B (128k oficial), Gemini 1.5 Pro (1M-2M), Claude 3.5 Sonnet (200k)
Varios PDFs + conversación larga200k–500k+Solo Gemini 1.5 Pro / Flash (1M–2M) o RAG obligatorio

¿Qué es RAG?

Hemos hablado del RAG, pero ¿qué significa? RAG = Retrieval-Augmented Generation (traducido: Generación Aumentada por Recuperación). Es la técnica que usan el 95 % de las empresas y personas serias cuando quieren que un LLM responda sobre documentos privados, PDFs largos, bases de datos internas, páginas web actualizadas, manuales técnicos, etc., sin tener que meter todo el texto de una vez en el contexto.

¿Por qué existe RAG (el problema que resuelve)?

Problema clásicoSolución sin RAGSolución con RAG
Contexto limitado (8k → 128k → 1M máximo)No cabe un libro o 50 PDFsSí cabe aunque tengas 5000 PDFs o 50 GB de texto
Información que cambia cada día (precios, leyes, noticias)El modelo se queda obsoletoEl modelo siempre consulta la versión actual
Datos privados (contratos, historiales médicos, código interno)No puedes meterlos en ChatGPT/Grok/ClaudeLos tienes en local y el modelo solo ve lo necesario
Alucinaciones cuando el modelo no sabeInventa cosasSolo responde con fragmentos reales que ha encontrado

Cómo funciona RAG paso a paso

  1. Primera fase (una sola vez – indexación)
    • Tomas todos tus documentos (PDFs, Word, web, Notion, código, etc.).
    • Los cortas en trozos manejables (“chunks”) → normalmente 512–1024 tokens cada uno.
    • Para cada trozo generas un embedding (un vector numérico de 768–1536 dimensiones que representa el significado).
    • Guardas todos los vectores + el texto original en una base de datos vectorial (ej. Chroma, Pinecone, Weaviate, Qdrant, Milvus, pgvector, etc.).
  2. Segunda fase (cada vez que alguien pregunta)
    1. El usuario hace una pregunta → “¿Qué dice el contrato sobre la cláusula de penalización?”
    2. Convertimos la pregunta en el mismo tipo de embedding.
    3. Buscamos en la base de datos vectorial los 4–20 trozos más parecidos semánticamente (esto tarda milisegundos).
    4. Esos trozos reales (texto literal) se meten en el prompt del LLM junto con la pregunta.
    5. El LLM responde usando SOLO esa información real → casi cero alucinaciones.
Documentos que tienes:
├── Manual_empresa_2025.pdf (400 páginas)
├── 300 contratos en carpeta
├── Wiki interna
└── 15.000 tickets de soporte

→ Los cortas en 25.000 chunks → generas embeddings → guardas en Qdrant/Chroma

Usuario pregunta:  
"¿Cuál es la garantía que damos en el producto X-5000 según el último manual?"

RAG hace:
1. Busca los 6–8 chunks más relevantes del manual y contratos
2. Prompt que recibe el modelo (total < 20k tokens aunque tengas 50 GB de datos):

Sistema: Responde solo con la información que aparece a continuación.  
Documentos relevantes:  
[chunk 1] "El producto X-5000 tiene garantía de 36 meses desde la fecha de factura…"  
[chunk 2] "En caso de defecto de fabricación se reemplaza sin coste…"  
…  
Pregunta del usuario: ¿Cuál es la garantía que damos en el producto X-5000?

→ Respuesta 100 % exacta y con fuente.

Tipos de RAG que existen:

TipoCuándo se usaVentajas
RAG naïfProyectos pequeños, pruebasMuy fácil de montar
Advanced RAGAntes y después de recuperar: re-rank, filtradoMás precisión
Modular RAGRutas diferentes según la preguntaMejor en empresas grandes
GraphRAGCuando hay relaciones complejas (organigramas, grafos de conocimiento)Microsoft lo está empujando mucho
Hybrid SearchVectorial + búsqueda por palabras clave (BM25)No te pierdes términos raros o números exactos
Self-RAG / Adaptive RAGEl modelo decide si necesita buscar o noAhorra tokens y latencia

Herramientas más usadas en 2025 (de más fácil a más pro)

NivelHerramientaIdeal para
PrincipianteLocal: PrivateGPT, GPT4All, AnythingLLM, LocalGPTTodo en tu PC, sin internet
Muy fácilWeb: ChatPDF, Humata, DocalysisSubes PDFs y ya chatea
IntermedioLlamaIndex + Local LLMMucho control, todo local o en nube
IntermedioLangChain / HaystackProyectos más complejos
AvanzadoFlowise, Dify, RagFlowInterfaces bonitas + backend potente
EmpresaAzure AI Search + OpenAI, Pinecone + Cohere, Qdrant + local LLMEscalabilidad, seguridad, logs, etc.

Cuánto mejora la precisión:

EscenarioSin RAG (solo modelo base)Con buen RAG
Preguntas sobre PDFs propios30–50 % correctas92–98 %
Datos que cambian cada día0 % (está desactualizado)99 %
Preguntas muy específicasMuchas alucinacionesCasi cero

Con todo esto hemos revisado los conceptos más elementales para comenzar a entender lo que un LLM y sus implicaciones.