Me quedé sin tokens

Cada vez que le escribís a una IA pasa, en silencio, muchísimo más de lo que ves en pantalla. Acá lo mostramos paso a paso: cómo funciona una IA por dentro, qué es el arnés que la rodea y por qué a veces “se te acaban los tokens” —con trucos concretos para gastar menos.

Aprender Cómo gastar menos tokens

No tiene memoria

El modelo arranca de cero en cada mensaje. Ni siquiera recuerda lo que él mismo dijo.

Se reenvía todo

Toda la conversación viaja de nuevo en cada mensaje. Ahí está el costo.

Se puede gastar menos

Estrategias simples para que cada conversación rinda más.

EMPECEMOS POR LO BÁSICO

Cuatro ideas, y el resto se entiende solo

Antes del simulador, estos cuatro conceptos hacen que todo lo demás encaje.

1. Qué es un modelo

Un modelo (o LLM) es un programa entrenado con muchísimo texto para una sola cosa: predecir qué viene después. No es una persona ni una base de datos. Recibe texto (a veces también una imagen que le pasás) y devuelve texto; nada más: no entra a tus apps, no aprieta botones, no recuerda.

texto que entra → modelo → texto que sale

2. Por eso existe el arnés

Un modelo solo no alcanza. El arnés es el programa que lo rodea y le da manos y memoria: arma el texto que entra, ejecuta las acciones (abrir tu Drive, mandar un mail) y te muestra todo. claude.ai, Claude Code y Cowork son arneses.

3. Todo se mide en tokens

Los tokens son pedacitos de palabras (~4 caracteres cada uno). Se paga —en plata o en tu límite de uso— por el texto que entra y por el que sale. Menos texto = más barato y más rápido.

4. Y entra todo junto: el contexto

El contexto es todo el texto que el modelo lee de una sola vez para responder. Tiene un tope. Cuando se llena, hay que resumir lo viejo para hacer lugar —algo que vas a ver pasar en el simulador.

LA IDEA QUE LO EXPLICA TODO

Una IA conversacional no recuerda nada

Parece que “se acuerda” de lo que charlaron, pero el modelo no guarda nada entre un mensaje y el siguiente. Empieza en blanco cada vez. Eso tiene una consecuencia directa.

La causa: no tiene memoria

El modelo es como alguien con amnesia total entre frase y frase. Apenas responde, se olvida de todo: de lo que le dijiste y de lo que él mismo contestó.

Vos: «el cliente se llama Pícaro Café»

…la IA responde, y “olvida”…

Vos: «¿cómo se llamaba el cliente?»

Si dependiera solo de su memoria, no tendría ni idea.

La consecuencia: se reenvía todo

Para que parezca que recuerda, el arnés le vuelve a mandar la conversación entera antes de cada respuesta —incluidas las respuestas anteriores del propio Claude, etiquetadas para que sepa quién dijo qué:

↻ vos: «el cliente se llama Pícaro Café»

↻ asistente: «anotado, Pícaro Café»

✦ vos: «¿cómo se llamaba el cliente?»

“Sabe” el nombre porque se lo reenviaste, no porque lo recuerde. A ese paquete completo se lo llama la conversación que viaja.

Todo lo que viaja se mide en tokens. Cuanto más largo el texto que viaja, más tokens. Y como viaja todo cada vez… mirá lo que pasa de verdad. ↓

EL SIMULADOR

Mirá los dos lados a la vez

A la izquierda, el chat que ves vos. A la derecha, lo que de verdad se le manda al modelo. Mandá mensajes desde el chat (como en claude.ai) y tocá cualquier bloque de la derecha para ver el contenido real que viaja.

claude.ai/chat · Pícaro Café — Informe mensual

Claude

Lo que ve la persona en pantalla

¿En qué estás trabajando?

Tocá el cuadro de abajo para mandar el primer mensaje.

Tocá para enviar tu primer mensaje…

Turno 0 de 6

Detrás de escena

El paquete real que viaja al modelo · tocá cada bloque

Va en CADA mensaje (fijo)

Cada bloque aporta sus tokens y se suman ↓

+ La conversación (esto crece)

0 tok

Todavía no enviaste nada. Mandá el primer mensaje desde el chat.

Le llegó al modelo en este turno

0 / 12.000 tokens

Vos escribiste · este turno

0 tok

se empieza a resumir ⌄

Fijo (siempre) 0 Historial reenviado 0 Nuevo en este turno 0

Mandá el primer mensaje desde el chat para arrancar y mirá cómo reacciona este panel.

Los tokens son aproximados y elegidos para que se entienda la idea. Tocá cualquier bloque o burbuja para ver el contenido real, y dentro de cada ficha abrí la pestaña «Técnico (lo real)» para ver el JSON exacto.

EL MOMENTO “AJÁ”

Vos escribís ~120 tokens en estos 5 mensajes.
El modelo termina leyendo ~35.000 en total.

En el quinto mensaje (antes de compactar) el modelo leyó ~8.400 tokens; si sumás lo que leyó en los 5 mensajes da ~35.000, porque en cada turno relee TODO: las instrucciones fijas (~4.610, que repetidas 5 veces ya son la mayor parte) y la conversación que se acumula —tu charla y las respuestas de Claude. Esos ~1.850 tokens de la planilla del turno 2 viajaron otra vez en el 3, el 4 y el 5. Por eso conviene saber cuándo cerrar un chat.

~120

tokens que escribiste vos en los primeros 5 mensajes

~35.000

tokens que leyó el modelo (sumando los 5 turnos)

×4

veces que viajó la planilla del turno 2 (turno 2 + reenvíos en 3, 4 y 5)

ANATOMÍA DEL PAQUETE

¿Qué viaja exactamente en cada mensaje?

El paquete que viste a la derecha se arma siempre con las mismas piezas. Tocá cada una para ver un ejemplo concreto de lo que viaja (y abrí la pestaña «Técnico» de cada ficha para ver el JSON real).

La suma de todas estas piezas = lo que entra al modelo. Su respuesta son los tokens que salen. Se paga (en plata o en tu límite) por los dos: entran + salen. (Existe un truco, el caché, que abarata el texto repetido; aun así, no arrastrar de más siempre rinde.)

MANOS A LA OBRA

6 maneras de gastar menos tokens

Ninguna requiere ser técnico. Son hábitos simples que hacen que cada conversación rinda más —y que la IA sea más rápida y barata.

Tema nuevo → chat nuevo

Si cambiás de cliente o de tarea, abrí una conversación nueva. Arrastrar 80 mensajes viejos significa reenviarlos todos en cada pregunta. Empezar de cero borra ese historial: queda solo el costo fijo, sin la mochila de mensajes anteriores.

chat de 2 horas → ~9.000 tok/msg→chat nuevo → ~4.600 tok/msg

Editá, no corrijas “por abajo”

Cuando Claude se equivoca, en vez de mandar otro mensaje corrigiéndolo, editá tu mensaje original. Así reescribís la conversación: el error y tu corrección no quedan dando vueltas, reenviándose en cada turno siguiente. Corregir con un mensaje nuevo es pagar el error para siempre.

corregir aparte → el error viaja ∞→editar → conversación limpia

No arrastres documentos enormes

Una planilla o un PDF largo que pegaste una vez sigue viajando en cada mensaje. Pedí un resumen de lo que importa y seguí trabajando con ese resumen, no con el documento entero.

PDF entero × 10 turnos→resumen de 5 líneas

Apagá conectores que no usás

Cada conector activo agrega su manual al paquete, lo uses o no. Si hoy no necesitás Calendar ni el CRM, desactivalos en ese espacio de trabajo.

conectores + herramientas + instrucciones ≈ ~4.600 tok fijos en cada mensaje

Resumí en vez de repetir

En un chat largo que se puso pesado, pedí “resumime lo que definimos hasta acá”, copiá ese resumen y arrancá un chat nuevo con él. Es lo mismo que hace el arnés cuando la ventana se llena, pero vos elegís qué conservar.

Elegí el modelo adecuado

No toda tarea necesita el modelo más grande: para algo simple, uno más liviano responde igual y cuesta menos. Lo desarrollamos abajo en Modelos, esfuerzo y agentes.

La regla de oro

Antes de escribir, preguntate: “¿el modelo necesita TODO lo que está en este chat para responderme esto?” Si la respuesta es no, probablemente convenga un chat nuevo, un resumen, editar en vez de corregir, o apagar lo que no usás.

PARA PROFUNDIZAR

Modelos, esfuerzo y agentes

Hasta acá viste el mecanismo. Estas son las “perillas” que cambian el costo, la calidad y la autonomía —sin cambiar lo de fondo.

Qué modelo usás

Un modelo es ese programa que predice texto. Vienen en distintos tamaños —más capaz o más liviano:

Opus

el más capaz

El “senior”. Para lo difícil: análisis fino, código, estrategia. Más caro y un poco más lento.

Sonnet

equilibrado

El todoterreno. Buen balance entre calidad, velocidad y costo para el día a día.

Haiku

rápido y barato

El ágil. Para tareas simples y de mucho volumen: clasificar, corregir, responder corto.

El mismo texto cuesta distinto según el modelo. Usá el más chico que haga bien la tarea: gastás los mismos tokens, pero pagás menos.

Pensar antes de responder

El modelo puede pensar antes de contestar; y el esfuerzo es la perilla que decide cuánto. Una cosa es parte de la otra.

El modelo puede pensar

thinking · razonamiento extendido

Algunos modelos hacen un borrador interno (piensan “en voz baja”) antes de la respuesta final. Buenísimo para problemas complejos —matemática, código, planificar—; al pedo para un “¿cómo andás?”.

…y el esfuerzo decide cuánto

effort: low / high

El esfuerzo regula ese pensar: bajo = piensa poco y responde rápido; alto = piensa más (mejor en lo difícil, pero más tokens y más lento). En otras palabras: no hay esfuerzo sin pensar —el esfuerzo es cuánto piensa.

¿Y un “agente”?

Un agente es el modelo + el arnés trabajando con autonomía: le das un objetivo y decide solo qué herramientas usar, en bucle —pide una acción → mira el resultado → sigue— hasta terminar, con poca supervisión tuya.

¿El arnés es un agente? No exactamente: el arnés es el programa; el agente es esa forma de usarlo (con herramientas y en bucle). Por eso a Claude Code o Cowork se los llama arneses agénticos: dejan que el modelo actúe casi solo para lograr lo que pediste.

PARA LOS CURIOSOS

Glosario: lo simple y lo técnico

Usamos palabras cotidianas en toda la página. Acá tenés la traducción a los términos reales, por si querés profundizar o hablar con el equipo técnico.

Como lo decimos acá

Término técnico

Qué significa

La IA / el asistente

LLM / modelo

Programa que predice el texto que sigue. No recuerda nada por sí solo.

El arnés que la rodea

harness

claude.ai, Claude Code, Cowork… Arma el paquete, corre herramientas y te muestra todo listo.

La conversación que viaja

contexto / context window

Todo el texto que recibe el modelo para responder. Tiene un tamaño máximo.

Pedacitos de palabras

tokens

La unidad que se cuenta y se cobra. ~1 token ≈ 4 caracteres.

Instrucciones de fondo

system prompt

Reglas ocultas que definen el comportamiento del asistente.

Habilidades

skills

Paquetes que enseñan tareas. El instructivo se carga solo cuando se usan.

Conectores

MCP

Puentes hacia apps externas: Drive, Gmail, tu CRM, etc.

Pedir una acción

tool use / tool call

El modelo pide usar una herramienta; el arnés la ejecuta y devuelve el resultado.

“No tiene memoria”

statelessness

El modelo no guarda estado entre mensajes; por eso se reenvía todo.

Resumir para hacer lugar

compactación

Cuando el contexto se llena, el arnés reemplaza lo viejo por un resumen corto.

Modelo grande / chico

Opus / Sonnet / Haiku

Tamaños de modelo: más capaz y caro, equilibrado, o rápido y económico.

Cuánto piensa

effort / thinking

Esfuerzo y “pensar en voz baja” antes de responder: mejor calidad, más tokens.

IA que actúa sola

agente

El modelo + el arnés usando herramientas en bucle, con autonomía, hacia un objetivo.

Ahora ya sabés qué pasa detrás del chat

La IA no es magia ni una caja negra: es un modelo sin memoria, rodeado de un arnés que le reenvía todo cada vez. Entender eso te convierte en alguien que la usa mejor —y más barato.

Conocé Grupo EON →

Me quedé sin tokens

Cuatro ideas, y el resto se entiende solo

1. Qué es un modelo

2. Por eso existe el arnés

3. Todo se mide en tokens

4. Y entra todo junto: el contexto

Una IA conversacional no recuerda nada

Mirá los dos lados a la vez

Vos escribís ~120 tokens en estos 5 mensajes.
El modelo termina leyendo ~35.000 en total.

¿Qué viaja exactamente en cada mensaje?

Instrucciones de fondo

Instrucciones del proyecto

Habilidades

Conectores

Herramientas

Historial completo

6 maneras de gastar menos tokens

Tema nuevo → chat nuevo

Editá, no corrijas “por abajo”

No arrastres documentos enormes

Apagá conectores que no usás

Resumí en vez de repetir

Elegí el modelo adecuado

Modelos, esfuerzo y agentes

Qué modelo usás

Opus

Sonnet

Haiku

Pensar antes de responder

El modelo puede pensar

…y el esfuerzo decide cuánto

Glosario: lo simple y lo técnico

Ahora ya sabés qué pasa detrás del chat

Me quedé sin tokens

Cuatro ideas, y el resto se entiende solo

1. Qué es un modelo

2. Por eso existe el arnés

3. Todo se mide en tokens

4. Y entra todo junto: el contexto

Una IA conversacional no recuerda nada

Mirá los dos lados a la vez

Vos escribís ~120 tokens en estos 5 mensajes. El modelo termina leyendo ~35.000 en total.

¿Qué viaja exactamente en cada mensaje?

Instrucciones de fondo

Instrucciones del proyecto

Habilidades

Conectores

Herramientas

Historial completo

6 maneras de gastar menos tokens

Tema nuevo → chat nuevo

Editá, no corrijas “por abajo”

No arrastres documentos enormes

Apagá conectores que no usás

Resumí en vez de repetir

Elegí el modelo adecuado

Modelos, esfuerzo y agentes

Qué modelo usás

Opus

Sonnet

Haiku

Pensar antes de responder

El modelo puede pensar

…y el esfuerzo decide cuánto

Glosario: lo simple y lo técnico

Ahora ya sabés qué pasa detrás del chat

Vos escribís ~120 tokens en estos 5 mensajes.
El modelo termina leyendo ~35.000 en total.