Contador de Tokens
Estime a quantidade de tokens em modelos de IA com preços dos principais LLM
Estatísticas
Custo estimado
$2.50 por 1M tokens de entrada
$10.00 por 1M tokens de saída
O que é um Token?
O contador de tokens estima como modelos de IA dividem um texto em unidades de processamento. Um token não é sempre uma palavra ou caractere; pode ser uma palavra inteira, parte de uma palavra, pontuação, comportamento de espaços ou um caractere isolado em alguns idiomas. A contagem importa para limites de contexto, estimativa de custos, desenho de prompts, divisão em RAG, gestão de histórico e decisão sobre caber em uma requisição. Famílias de modelos usam tokenizadores diferentes, então o número depende do modelo. A ferramenta ajuda a cortar, dividir ou estruturar texto antes do envio, mas o limite final deve ser conferido no modelo real.
Como Usar
Operações Básicas
- Insira ou cole o texto na área de entrada
- Selecione o modelo de IA de destino (GPT-4, Claude, Gemini, etc.)
- Veja a estimativa de contagem de tokens no painel à direita
- Defina o comprimento estimado de saída para calcular os custos da API
Regras de Tokenização
- Série GPT: ~4 caracteres em inglês = 1 token, ~1,5 caracteres em chinês = 1 token
- Série Claude: Semelhante ao GPT com pequenas diferenças
- Série DeepSeek: Otimizado para chinês, ~2 caracteres = 1 token
- Caracteres especiais, pontuação e quebras de linha também consomem tokens
- Textos estruturados como código e JSON geralmente têm maior densidade de tokens
Casos de uso
Princípio técnico
Os tokenizadores de LLM modernos usam algoritmos de subpalavras — principalmente Byte Pair Encoding (BPE) e SentencePiece — em vez de dividir por espaços em branco. O BPE parte de bytes individualmente e mescla iterativamente o par adjacente mais frequente, produzindo um vocabulário fixo de tipicamente 32k a 200k símbolos. Palavras comuns se tornam um único token, palavras raras se dividem em vários subwords, e bytes arbitrários (emoji, caracteres de controle) ainda são codificados com segurança porque o alfabeto cobre todos os 256 bytes. O SentencePiece (usado por variantes do Llama, Mistral, Gemini) trata espaços em branco como um caractere regular através do marcador `▁`, então espaços iniciais se tornam parte do próximo token, é por isso que ` hello` e `hello` geralmente têm IDs de token diferentes. A OpenAI publica três principais vocabulários BPE através da biblioteca `tiktoken`: `p50k_base` (50.281 tokens, GPT-3 / Codex), `cl100k_base` (100.277 tokens, GPT-3.5 Turbo e GPT-4), e `o200k_base` (~200k tokens, GPT-4o e o1) que adiciona cobertura não inglesa e reduz contagens de tokens em chinês/japonês em aproximadamente 1,4-1,7×. O Claude usa um tokenizador relacionado mas proprietário com uma escala de vocabulário semelhante. Como proporções aproximadas de trabalho, texto em inglês tem em média ~4 caracteres por token, chinês ~1,5-2 caracteres por token no cl100k_base e ~2 no o200k_base, e um único emoji frequentemente consome 2-5 tokens porque é codificado como múltiplos bytes UTF-8. A contagem de tokens impulsiona tanto o uso da janela de contexto quanto o custo. As janelas atuais incluem GPT-4o 128k, Claude 3.5 Sonnet 200k e Gemini 1.5 Pro 2M; o custo é cobrado como `tokens × preço_por_1M`, com entrada e saída precificadas separadamente (ex.: GPT-4o a $2,50/$10,00 por 1M, Claude 3.5 Sonnet a $3,00/$15,00). Este contador usa coeficientes heurísticos por família porque enviar o arquivo de vocabulário de cada tokenizador seriam megabytes de payload, então o resultado é uma estimativa de trabalho — o número autoritativo é o campo `usage` da resposta da API do modelo.
- BPE mescla pares de bytes frequentes em um vocabulário fixo; vocabulários OpenAI são `cl100k_base` (GPT-4/3.5), `o200k_base` (GPT-4o/o1), `p50k_base` (Codex).
- O SentencePiece codifica espaços iniciais como `▁`, então ` world` e `world` mapeiam para IDs de token diferentes no Llama/Mistral/Gemini.
- Heurística inglesa ≈ 4 caracteres/token; CJK ≈ 1,5-2 caracteres/token no cl100k_base, ≈ 2 no o200k_base; emoji tipicamente 2-5 tokens cada.
- Fórmula de custo: `(tokens_entrada / 1.000.000) × preço_entrada + (tokens_saída / 1.000.000) × preço_saída`, com entrada e saída precificadas separadamente.
- Janelas de contexto em 2025: GPT-4o 128k, GPT-4 Turbo 128k, Claude 3.5 Sonnet 200k, Gemini 1.5 Pro 2M, DeepSeek V3 128k.
- O mesmo texto gera contagens de tokens diferentes entre fornecedores: vocabulário do tokenizador, regras de byte-fallback e tratamento de espaços em branco diferem.
- A contagem autoritativa é o `usage.prompt_tokens` / `usage.completion_tokens` (OpenAI) ou `usage.input_tokens` / `usage.output_tokens` (Anthropic) da resposta da API.
Exemplos
Frase curta em inglês com GPT-4
Entrada: Hello, world!
Modelo: GPT-4 (cl100k_base)
Tokens: 4 -> ["Hello", ",", " world", "!"]
Caracteres: 13
Proporção: 3,25 caracteres/tokenTexto em chinês usa mais tokens por caractere
Entrada: 你好,世界! (Olá, mundo! em chinês)
GPT-4: ~8 tokens (1,5 caracteres/token)
DeepSeek V3: ~4 tokens (2 caracteres/token, otimizado para CJK)
Claude 3.5: ~7 tokensEstimar custo para um artigo de 1.000 palavras
Entrada: 1.000 palavras em inglês (~1.330 tokens)
Saída esperada: 500 tokens
Modelo: GPT-4o ($2,50 entrada / $10,00 saída por 1M tokens)
Custo de entrada: 1.330 / 1.000.000 * $2,50 = $0,00333
Custo de saída: 500 / 1.000.000 * $10,00 = $0,00500
Total: ~$0,0083 por requisiçãoRegra prática: ~75 palavras = ~100 tokens (inglês)
Parágrafo (75 palavras):
"The quick brown fox jumps over the lazy dog. Pack my box with five
dozen liquor jugs. How vexingly quick daft zebras jump! The five
boxing wizards jump quickly. Sphinx of black quartz, judge my vow."
Tokens GPT-4: ~100
Tokens Claude: ~95Tamanho de chunk antes de inserir em um banco vetorial
Chunk alvo: 512 tokens (limite do text-embedding-3-small: 8191)
Texto inglês: ~384 palavras por chunk
Texto chinês: ~768 caracteres por chunk (tokenizer GPT)
Sobreposição: 50 tokens entre chunks (preserva contexto)Perguntas frequentes
Qual tokenizador o contador usa?
Tipicamente o tiktoken da OpenAI (cl100k_base para GPT-4, GPT-3.5; o200k_base para GPT-4o), e às vezes o tokenizador Claude da Anthropic ou tokenizadores Hugging Face para modelos abertos. Modelos diferentes dividem o texto de formas diferentes, então a contagem varia entre modelos.
Por que a contagem não é igual à contagem de palavras?
Tokens são unidades subpalavra. 'Hello world' são 2 tokens; 'antidisestablishmentarianism' são 5-6 tokens. Em inglês a média é de ~0,75 palavras por token (então 1000 tokens ≈ 750 palavras). Outros idiomas são mais densos — caracteres chineses costumam ser 1-2 tokens cada, apesar de serem um único caractere.
Meu prompt é enviado para algum servidor?
Não. O tokenizador roda no seu navegador — o tiktoken tem uma versão em JavaScript que faz a codificação localmente. Seu prompt não trafega pela rede.
Qual a precisão da estimativa de custo?
A contagem de tokens é exata. O valor do custo depende do preço por mil tokens do modelo escolhido, que a página lê de uma tabela de preços publicada. Mudanças de preço dos provedores são refletidas quando a página é atualizada; verifique os preços mais recentes para decisões críticas de orçamento.
Por que minhas contagens diferem ligeiramente entre isto e o playground da OpenAI?
Versões diferentes do tiktoken podem ter pequenas diferenças. Tokens especiais (mensagens de chat têm tokens de role/system framing) adicionam alguns tokens por mensagem que um contador não estruturado pode não incluir. Para faturamento exato de chamadas de API, conte o que seu código realmente envia.
Como ele lida com código, JSON e dados estruturados?
Tokenizadores dividem pontuação, colchetes e espaços em branco em muitos tokens pequenos. JSON é denso — um pequeno objeto JSON pode usar mais de 50 tokens. Código usa mais tokens do que prosa equivalente. Planeje isso ao enviar JSON ou código para um modelo com limite de contexto apertado.
Posso contar tokens para um modelo não listado?
Apenas se o tokenizador dele estiver disponível no navegador. Os mais comuns (GPT, Claude, Llama) têm implementações em JS. Para modelos obscuros ou proprietários, use o contador oficial do provedor do modelo ou estime (4 caracteres ≈ 1 token para inglês).