ToolActToolAct

Compteur de Tokens

Estimez le nombre de tokens dans les modèles d'IA avec tarifs des principaux LLM

Texte d'entrée

Statistiques

Nombre de tokens0
Caractères0
Caractères chinois0
Mots (Est.)0
Ratio Caractères/Token0

Coût estimé

Tokens d'entrée0
Tokens de sortie1,000
Coût total$0.0100

$2.50 par 1M tokens d'entrée
$10.00 par 1M tokens de sortie

Qu'est-ce qu'un Token?

Le compteur de tokens estime comment les modèles d’IA découpent un texte en unités de traitement. Un token n’est pas toujours un mot ni un caractère: il peut être un mot entier, une partie de mot, un signe de ponctuation, un comportement d’espace ou parfois un caractère isolé selon la langue. Le décompte sert à gérer les limites de contexte, les coûts, la conception de prompts, le découpage RAG, l’historique de conversation et la taille d’une requête. Chaque famille de modèles utilise son propre tokenizer, donc le résultat dépend du modèle. L’outil aide à raccourcir, segmenter ou structurer un texte avant envoi.

Comment utiliser

Opérations de base

  1. Entrez ou collez votre texte dans la zone de saisie
  2. Sélectionnez le modèle d'IA souhaité (GPT-4, Claude, Gemini, etc.)
  3. Consultez l'estimation du nombre de tokens dans le panneau de droite
  4. Définissez la longueur de sortie estimée pour calculer les coûts d'API

Règles de tokenisation

  • GPT series : ~4 caractères anglais = 1 token, ~1,5 caractères chinois = 1 token
  • Claude series : Similaire à GPT avec de légères différences
  • DeepSeek series : Optimisé pour le chinois, ~2 caractères = 1 token
  • Les caractères spéciaux, la ponctuation et les sauts de ligne consomment également des tokens
  • Les textes structurés comme le code et le JSON ont généralement une densité de tokens plus élevée

Cas d’utilisation

Estimer la taille d’un prompt pour différentes familles de modèlesCollez du texte et choisissez parmi les préréglages OpenAI, Claude, Gemini, Llama, Mistral ou DeepSeek. L’estimateur utilise des coefficients heuristiques différents pour les caractères chinois, les mots anglais, la ponctuation et les espaces selon la famille sélectionnée. Changer de préréglage révèle rapidement comment un prompt conçu pour un fournisseur sera facturé chez un autre.
Prévoir le coût approximatif en entrée et sortieLe panneau combine les tokens d’entrée estimés avec un nombre de tokens de sortie saisi par l’utilisateur et les tarifs spécifiques au modèle. Il affiche les tokens d’entrée, les tokens de sortie et le coût total estimé pour une vérification budgétaire rapide. Pour un traitement par lots de longue durée, multipliez l’estimation d’une seule requête par le nombre de requêtes prévu pour projeter la dépense mensuelle avant de vous engager sur un modèle.
Comprendre la composition multilingue d’un texteAu-delà de l’estimation des tokens, l’outil indique le nombre total de caractères, de caractères chinois, de mots et le ratio caractères par token. Pratique pour alléger des prompts, comparer des brouillons chinois et anglais, ou préparer du contenu selon les limites de contexte. Un ratio élevé signifie que le tokenizer condense plus de texte par token, ce qui réduit généralement le coût par page.
Comparer les estimateurs de tokenisation côte à côteBasculez le préréglage entre GPT, Claude et Gemini sur le même texte pour observer comment les coûts chinois vs anglais varient, utile lors de la migration d’un prompt entre fournisseurs ou de l’estimation de la taille des chunks pour un pipeline RAG. La différence entre les tokenizers BPE et SentencePiece devient visible : BPE tend à découper les mots rares en plus de sous-mots, tandis que SentencePiece (utilisé par Llama et Mistral) peut séparer les espaces différemment et traiter les caractères chinois comme des unités plus grandes.
Dimensionner les chunks avant embedding ou récupérationVisez chaque paragraphe près de la taille de contexte du modèle choisi (par ex. 512 ou 1024 tokens), copiez la phrase frontière dans le splitter et étiquetez les chunks avec leur nombre de tokens pour les index de récupération. Le vocabulaire cl100k_base utilisé par GPT-4o, o200k_base pour les modèles OpenAI plus récents et le SentencePiece d’environ 100k symboles de Claude produisent tous des frontières de chunk différentes sur le même document.

Principe technique

Les tokeniseurs LLM modernes utilisent des algorithmes de sous-mots — principalement Byte Pair Encoding (BPE) et SentencePiece — plutôt que de découper sur les espaces. Le BPE part de octets individuels et fusionne itérativement la paire adjacente la plus fréquente, produisant un vocabulaire fixe de typiquement 32k à 200k symboles. Les mots courants deviennent un seul token, les mots rares se décomposent en plusieurs sous-mots, et les octets arbitraires (emoji, caractères de contrôle) s'encodent sans problème car l'alphabet couvre les 256 octets. SentencePiece (utilisé par les variantes de Llama, Mistral, Gemini) traite l'espace comme un caractère ordinaire via le marqueur `▁`, de sorte que les espaces en début de mot font partie du token suivant, ce qui explique que ` hello` et `hello` ont généralement des identifiants de token différents. OpenAI publie trois vocabulaires BPE principaux via la bibliothèque `tiktoken` : `p50k_base` (50 281 tokens, GPT-3 / Codex), `cl100k_base` (100 277 tokens, GPT-3.5 Turbo et GPT-4), et `o200k_base` (~200k tokens, GPT-4o et o1) qui ajoute une couverture non anglaise et réduit le nombre de tokens chinois/japonais d'environ 1,4 à 1,7×. Claude utilise un tokeniseur propriétaire apparenté à une échelle de vocabulaire similaire. En ratios approximatifs de travail, le texte anglais compte en moyenne ~4 caractères par token, le chinois ~1,5 à 2 caractères par token sur cl100k_base et ~2 sur o200k_base, et un seul emoji consomme souvent 2 à 5 tokens car il est encodé en plusieurs octets UTF-8. Le nombre de tokens détermine à la fois l'utilisation de la fenêtre de contexte et le coût. Les fenêtres actuelles incluent GPT-4o 128k, Claude 3.5 Sonnet 200k et Gemini 1.5 Pro 2M ; le coût est facturé comme `tokens × prix_par_1M`, avec l'entrée et la sortie tarifées séparément (par ex. GPT-4o à 2,50 $/10,00 $ par 1M, Claude 3.5 Sonnet à 3,00 $/15,00 $). Ce compteur utilise des coefficients heuristiques par famille car inclure le fichier de vocabulaire de chaque tokeniseur représenterait des mégaoctets de données, donc le résultat est une estimation de travail — le chiffre faisant autorité est le champ `usage` de la réponse API du modèle.

  • Le BPE fusionne les paires d'octets fréquentes en un vocabulaire fixe ; les vocabulaires OpenAI sont `cl100k_base` (GPT-4/3.5), `o200k_base` (GPT-4o/o1), `p50k_base` (Codex).
  • SentencePiece encode l'espace initial comme `▁`, de sorte que ` world` et `world` correspondent à des identifiants de token différents dans Llama/Mistral/Gemini.
  • Heuristique anglaise ≈ 4 car./token ; CJK ≈ 1,5 à 2 car./token sur cl100k_base, ≈ 2 sur o200k_base ; emoji typiquement 2 à 5 tokens chacun.
  • Formule de coût : `(tokens_entrée / 1 000 000) × prix_entrée + (tokens_sortie / 1 000 000) × prix_sortie`, avec l'entrée et la sortie tarifées séparément.
  • Fenêtres de contexte en 2025 : GPT-4o 128k, GPT-4 Turbo 128k, Claude 3.5 Sonnet 200k, Gemini 1.5 Pro 2M, DeepSeek V3 128k.
  • Le même texte donne des nombres de tokens différents selon les fournisseurs : le vocabulaire du tokeniseur, les règles de repli sur les octets et la gestion des espaces diffèrent tous.
  • Le chiffre faisant autorité est le champ `usage.prompt_tokens` / `usage.completion_tokens` (OpenAI) ou `usage.input_tokens` / `usage.output_tokens` (Anthropic) de la réponse API.

Exemples

Phrase courte en anglais avec GPT-4

Entrée:   Hello, world!
Modèle:   GPT-4 (cl100k_base)
Tokens:   4   ->  ["Hello", ",", " world", "!"]
Carac.:   13
Ratio:    3,25 caractères/token

Le texte chinois consomme plus de tokens par caractère

Entrée:       你好,世界!  (Bonjour, le monde ! en chinois)
GPT-4:        ~8 tokens (1,5 caractère/token)
DeepSeek V3:  ~4 tokens (2 caractères/token, optimisé pour le CJK)
Claude 3.5:   ~7 tokens

Estimer le coût d'un article de 1 000 mots

Entrée:        1 000 mots en anglais (~1 330 tokens)
Sortie attendue: 500 tokens
Modèle:        GPT-4o (2,50 $ entrée / 10,00 $ sortie par 1M tokens)

Coût entrée:   1 330 / 1 000 000 * 2,50 $ = 0,00333 $
Coût sortie:   500   / 1 000 000 * 10,00 $ = 0,00500 $
Total:         ~0,0083 $ par requête

Règle empirique : ~75 mots = ~100 tokens (anglais)

Paragraphe (75 mots):
"The quick brown fox jumps over the lazy dog. Pack my box with five
dozen liquor jugs. How vexingly quick daft zebras jump! The five
boxing wizards jump quickly. Sphinx of black quartz, judge my vow."

Tokens GPT-4: ~100
Tokens Claude: ~95

Taille de chunk avant l'embedding dans une base vectorielle

Chunk cible:  512 tokens (text-embedding-3-small limite : 8191)
Texte anglais: ~384 mots par chunk
Texte chinois: ~768 caractères par chunk (tokenizer GPT)

Chevauchement: 50 tokens entre les chunks (préserve le contexte)

FAQ

Quel tokenizer le compteur utilise-t-il ?

Généralement tiktoken d'OpenAI (cl100k_base pour GPT-4, GPT-3.5 ; o200k_base pour GPT-4o), et parfois le tokenizer Claude d'Anthropic ou les tokenizers Hugging Face pour les modèles ouverts. Différents modèles découpent le texte différemment, donc le compte varie selon le modèle.

Pourquoi le compte n'est-il pas le même que le nombre de mots ?

Les tokens sont des unités sous-mots. « Hello world » fait 2 tokens ; « antidisestablishmentarianism » fait 5 à 6 tokens. L'anglais fait en moyenne ~0,75 mot par token (donc 1000 tokens ≈ 750 mots). D'autres langues sont plus denses — les caractères chinois représentent souvent 1 à 2 tokens chacun, malgré leur unicité graphique.

Mon prompt est-il téléversé ?

Non. Le tokenizer s'exécute dans votre navigateur — tiktoken dispose d'un portage JavaScript qui effectue l'encodage localement. Votre prompt ne traverse pas le réseau.

Quelle est la précision de l'estimation de coût ?

Le compte de tokens est exact. Le chiffre de coût dépend du prix par 1K tokens du modèle choisi, lu depuis une grille de prix publiée. Les changements de prix des fournisseurs sont reflétés lors de la mise à jour de la page ; vérifiez auprès du tarif le plus récent pour les décisions sensibles au budget.

Pourquoi mes comptes diffèrent-ils légèrement entre cet outil et le playground d'OpenAI ?

Différentes versions de tiktoken peuvent avoir des écarts mineurs. Les tokens spéciaux (les messages de chat ont des tokens d'encadrement role/system) ajoutent quelques tokens par message qu'un compteur non structuré peut omettre. Pour une facturation API exacte, comptez ce que votre code envoie réellement.

Comment gère-t-il le code, le JSON et les données structurées ?

Les tokenizers découpent la ponctuation, les crochets et les espaces en de nombreux petits tokens. Le JSON est dense — un petit objet JSON peut consommer 50+ tokens. Le code utilise plus de tokens que de la prose équivalente. Anticipez cela lorsque vous envoyez du JSON ou du code à un modèle avec une fenêtre de contexte limitée.

Puis-je compter les tokens pour un modèle non listé ?

Uniquement si son tokenizer est disponible côté navigateur. Les courants (GPT, Claude, Llama) ont des implémentations JS. Pour les modèles obscurs ou propriétaires, utilisez le compteur officiel du fournisseur ou estimez (4 caractères ≈ 1 token pour l'anglais).