Me quedé sin tokens
Cada vez que le escribís a una IA pasa, en silencio, muchísimo más de lo que ves en pantalla. Acá lo mostramos paso a paso: cómo funciona una IA por dentro, qué es el arnés que la rodea y por qué a veces “se te acaban los tokens” —con trucos concretos para gastar menos.
No tiene memoria
El modelo arranca de cero en cada mensaje. Ni siquiera recuerda lo que él mismo dijo.
Se reenvía todo
Toda la conversación viaja de nuevo en cada mensaje. Ahí está el costo.
Se puede gastar menos
Estrategias simples para que cada conversación rinda más.
EMPECEMOS POR LO BÁSICO
Cuatro ideas, y el resto se entiende solo
Antes del simulador, estos cuatro conceptos hacen que todo lo demás encaje.
1. Qué es un modelo
Un modelo (o LLM) es un programa entrenado con muchísimo texto para una sola cosa: predecir qué viene después. No es una persona ni una base de datos. Recibe texto (a veces también una imagen que le pasás) y devuelve texto; nada más: no entra a tus apps, no aprieta botones, no recuerda.
2. Por eso existe el arnés
Un modelo solo no alcanza. El arnés es el programa que lo rodea y le da manos y memoria: arma el texto que entra, ejecuta las acciones (abrir tu Drive, mandar un mail) y te muestra todo. claude.ai, Claude Code y Cowork son arneses.
3. Todo se mide en tokens
Los tokens son pedacitos de palabras (~4 caracteres cada uno). Se paga —en plata o en tu límite de uso— por el texto que entra y por el que sale. Menos texto = más barato y más rápido.
4. Y entra todo junto: el contexto
El contexto es todo el texto que el modelo lee de una sola vez para responder. Tiene un tope. Cuando se llena, hay que resumir lo viejo para hacer lugar —algo que vas a ver pasar en el simulador.
LA IDEA QUE LO EXPLICA TODO
Una IA conversacional no recuerda nada
Parece que “se acuerda” de lo que charlaron, pero el modelo no guarda nada entre un mensaje y el siguiente. Empieza en blanco cada vez. Eso tiene una consecuencia directa.
El modelo es como alguien con amnesia total entre frase y frase. Apenas responde, se olvida de todo: de lo que le dijiste y de lo que él mismo contestó.
Si dependiera solo de su memoria, no tendría ni idea.
Para que parezca que recuerda, el arnés le vuelve a mandar la conversación entera antes de cada respuesta —incluidas las respuestas anteriores del propio Claude, etiquetadas para que sepa quién dijo qué:
“Sabe” el nombre porque se lo reenviaste, no porque lo recuerde. A ese paquete completo se lo llama la conversación que viaja.
Todo lo que viaja se mide en tokens. Cuanto más largo el texto que viaja, más tokens. Y como viaja todo cada vez… mirá lo que pasa de verdad. ↓
EL SIMULADOR
Mirá los dos lados a la vez
A la izquierda, el chat que ves vos. A la derecha, lo que de verdad se le manda al modelo. Mandá mensajes desde el chat (como en claude.ai) y tocá cualquier bloque de la derecha para ver el contenido real que viaja.
Claude
Lo que ve la persona en pantalla
¿En qué estás trabajando?
Tocá el cuadro de abajo para mandar el primer mensaje.
Le llegó al modelo en este turno
0 / 12.000 tokens
Vos escribiste · este turno
0 tok
Los tokens son aproximados y elegidos para que se entienda la idea. Tocá cualquier bloque o burbuja para ver el contenido real, y dentro de cada ficha abrí la pestaña «Técnico (lo real)» para ver el JSON exacto.
EL MOMENTO “AJÁ”
Vos escribís ~120 tokens en estos 5 mensajes.
El modelo termina leyendo ~35.000 en total.
En el quinto mensaje (antes de compactar) el modelo leyó ~8.400 tokens; si sumás lo que leyó en los 5 mensajes da ~35.000, porque en cada turno relee TODO: las instrucciones fijas (~4.610, que repetidas 5 veces ya son la mayor parte) y la conversación que se acumula —tu charla y las respuestas de Claude. Esos ~1.850 tokens de la planilla del turno 2 viajaron otra vez en el 3, el 4 y el 5. Por eso conviene saber cuándo cerrar un chat.
~120
tokens que escribiste vos en los primeros 5 mensajes
~35.000
tokens que leyó el modelo (sumando los 5 turnos)
×4
veces que viajó la planilla del turno 2 (turno 2 + reenvíos en 3, 4 y 5)
ANATOMÍA DEL PAQUETE
¿Qué viaja exactamente en cada mensaje?
El paquete que viste a la derecha se arma siempre con las mismas piezas. Tocá cada una para ver un ejemplo concreto de lo que viaja (y abrí la pestaña «Técnico» de cada ficha para ver el JSON real).
La suma de todas estas piezas = lo que entra al modelo. Su respuesta son los tokens que salen. Se paga (en plata o en tu límite) por los dos: entran + salen. (Existe un truco, el caché, que abarata el texto repetido; aun así, no arrastrar de más siempre rinde.)
MANOS A LA OBRA
6 maneras de gastar menos tokens
Ninguna requiere ser técnico. Son hábitos simples que hacen que cada conversación rinda más —y que la IA sea más rápida y barata.
Tema nuevo → chat nuevo
Si cambiás de cliente o de tarea, abrí una conversación nueva. Arrastrar 80 mensajes viejos significa reenviarlos todos en cada pregunta. Empezar de cero borra ese historial: queda solo el costo fijo, sin la mochila de mensajes anteriores.
Editá, no corrijas “por abajo”
Cuando Claude se equivoca, en vez de mandar otro mensaje corrigiéndolo, editá tu mensaje original. Así reescribís la conversación: el error y tu corrección no quedan dando vueltas, reenviándose en cada turno siguiente. Corregir con un mensaje nuevo es pagar el error para siempre.
No arrastres documentos enormes
Una planilla o un PDF largo que pegaste una vez sigue viajando en cada mensaje. Pedí un resumen de lo que importa y seguí trabajando con ese resumen, no con el documento entero.
Apagá conectores que no usás
Cada conector activo agrega su manual al paquete, lo uses o no. Si hoy no necesitás Calendar ni el CRM, desactivalos en ese espacio de trabajo.
Resumí en vez de repetir
En un chat largo que se puso pesado, pedí “resumime lo que definimos hasta acá”, copiá ese resumen y arrancá un chat nuevo con él. Es lo mismo que hace el arnés cuando la ventana se llena, pero vos elegís qué conservar.
Elegí el modelo adecuado
No toda tarea necesita el modelo más grande: para algo simple, uno más liviano responde igual y cuesta menos. Lo desarrollamos abajo en Modelos, esfuerzo y agentes.
La regla de oro
Antes de escribir, preguntate: “¿el modelo necesita TODO lo que está en este chat para responderme esto?” Si la respuesta es no, probablemente convenga un chat nuevo, un resumen, editar en vez de corregir, o apagar lo que no usás.
PARA PROFUNDIZAR
Modelos, esfuerzo y agentes
Hasta acá viste el mecanismo. Estas son las “perillas” que cambian el costo, la calidad y la autonomía —sin cambiar lo de fondo.
Qué modelo usás
Un modelo es ese programa que predice texto. Vienen en distintos tamaños —más capaz o más liviano:
Opus
el más capazEl “senior”. Para lo difícil: análisis fino, código, estrategia. Más caro y un poco más lento.
Sonnet
equilibradoEl todoterreno. Buen balance entre calidad, velocidad y costo para el día a día.
Haiku
rápido y baratoEl ágil. Para tareas simples y de mucho volumen: clasificar, corregir, responder corto.
El mismo texto cuesta distinto según el modelo. Usá el más chico que haga bien la tarea: gastás los mismos tokens, pero pagás menos.
Pensar antes de responder
El modelo puede pensar antes de contestar; y el esfuerzo es la perilla que decide cuánto. Una cosa es parte de la otra.
El modelo puede pensar
thinking · razonamiento extendido
Algunos modelos hacen un borrador interno (piensan “en voz baja”) antes de la respuesta final. Buenísimo para problemas complejos —matemática, código, planificar—; al pedo para un “¿cómo andás?”.
…y el esfuerzo decide cuánto
effort: low / high
El esfuerzo regula ese pensar: bajo = piensa poco y responde rápido; alto = piensa más (mejor en lo difícil, pero más tokens y más lento). En otras palabras: no hay esfuerzo sin pensar —el esfuerzo es cuánto piensa.
Un agente es el modelo + el arnés trabajando con autonomía: le das un objetivo y decide solo qué herramientas usar, en bucle —pide una acción → mira el resultado → sigue— hasta terminar, con poca supervisión tuya.
¿El arnés es un agente? No exactamente: el arnés es el programa; el agente es esa forma de usarlo (con herramientas y en bucle). Por eso a Claude Code o Cowork se los llama arneses agénticos: dejan que el modelo actúe casi solo para lograr lo que pediste.
PARA LOS CURIOSOS
Glosario: lo simple y lo técnico
Usamos palabras cotidianas en toda la página. Acá tenés la traducción a los términos reales, por si querés profundizar o hablar con el equipo técnico.
Ahora ya sabés qué pasa detrás del chat
La IA no es magia ni una caja negra: es un modelo sin memoria, rodeado de un arnés que le reenvía todo cada vez. Entender eso te convierte en alguien que la usa mejor —y más barato.