Compteur de mots
Statistiques de texte en temps réel : caractères, mots, lignes, paragraphes, et plus
Statistiques de base
Statistiques de structure
Estimation de lecture
Qu'est-ce que le compteur de mots ?
Le compteur de mots est un outil pour les statistiques de texte en temps réel incluant le comptage de caractères, de mots, de lignes, et plus. Que vous écriviez des articles, des articles académiques, des commentaires de code ou du contenu pour médias sociaux, cet outil vous aide à comprendre rapidement votre texte. Cet outil supporte le texte mixte chinois-anglais, reconnaissant intelligemment les caractères chinois et les mots anglais pour des comptages séparés. Il fournit également des estimations de temps de lecture pour vous aider à comprendre combien de temps il faut aux lecteurs pour finir votre contenu.
Comment utiliser
Opérations de base
- Saisissez ou collez votre texte dans la zone de gauche
- Les statistiques se mettent à jour en temps réel dans le panneau de droite
- Ajustez les options selon vos besoins (ponctuation, sauts de ligne, etc.)
- Effacez, collez ou copiez le texte à tout moment
Règles de comptage
- Caractères totaux : tous les caractères, y compris espaces, ponctuation et sauts de ligne
- Caractères chinois : compte tous les caractères chinois (CJK)
- Mots anglais : compte les mots composés de lettres
- Paragraphes : blocs de texte non vides séparés par des lignes vides
- Vitesse de lecture : 350 car./min pour le chinois, 225 mots/min pour l'anglais
Cas d’utilisation
Principe technique
Le comptage de mots découpe sur les espaces Unicode à l'aide d'une expression régulière proche de `text.trim().split(/\s+/).filter(Boolean)` pour les scripts latins, qui correspond aux espaces ASCII, tabulations, retours à la ligne et séparateurs Unicode comme U+00A0 (espace insécable) et U+2028 (séparateur de ligne). Cette règle fonctionne pour l'anglais, le français, l'allemand et d'autres langues séparées par des espaces, mais ne fonctionne pas pour le chinois, le japonais et le thaï où il n'y a pas d'espace entre les mots. Le texte CJK est donc compté par caractère : `[...text].length` plutôt que `text.length`, car l'opérateur spread itère les points de code Unicode et gère correctement les paires de substitution pour les caractères au-dessus de U+FFFF (par ex. les idéogrammes unifiés CJK Extension B à partir de U+20000 et la plupart des émojis à U+1F300+). La classe de caractères CJK elle-même est détectée avec l'échappement de propriété Unicode `/\p{Script=Han}/u` pour les idéogrammes chinois. La propriété `length` d'une chaîne JavaScript compte les unités de code UTF-16, pas les caractères, donc `'👨👩👧'.length === 8` alors que le glyphe visible est un seul graphème composé de trois émojis joints par U+200D (Zero-Width Joiner). Le comptage précis utilise `Intl.Segmenter('en', { granularity: 'grapheme' })`, disponible dans tous les navigateurs modernes depuis 2023 ; pour la segmentation au niveau du mot dans n'importe quelle langue y compris le CJK, `Intl.Segmenter(locale, { granularity: 'word' })` suit l'annexe 29 du standard Unicode et constitue l'option la plus correcte lorsqu'elle est disponible. Les limites de phrases sont détectées par `[.!?…。!?]+` suivi d'un espace ou de la fin de la chaîne, et les paragraphes par deux sauts de ligne consécutifs ou plus (`/\n\s*\n/`). Les estimations de lecture et de parole appliquent des constantes de vitesse publiées. La méta-analyse de Brysbaert (2019) situe la lecture silencieuse adulte à 238 mots par minute pour l'anglais non fiction, d'où 225-250 wpm comme valeur par défaut courante dans l'interface. La lecture silencieuse du chinois est en moyenne de 350 à 500 caractères par minute. Le rythme de parole est plus lent : les conférences TED sont en moyenne à 163 wpm, et la narration de livres audio vise 150-160 wpm. La limite de 280 caractères de Twitter compte le CJK et la plupart des émojis comme 2 caractères pondérés via sa bibliothèque `twitter-text`, tandis qu'une paire d'indicateurs régionaux (émoji drapeau de pays) compte comme 4 unités de code UTF-16 dans `.length` brut.
- Découpage par espaces : `text.trim().split(/\s+/).filter(Boolean)` fonctionne pour les scripts latins ; échoue sur le CJK et le thaï qui n'ont pas d'espaces inter-mots.
- Le comptage de caractères CJK utilise `[...text].length` pour itérer correctement les points de code Unicode (gère les paires de substitution au-dessus de U+FFFF, par ex. les idéogrammes étendus et les émojis).
- `string.length` renvoie des unités de code UTF-16, pas des graphèmes : un émoji famille 👨👩👧 a `.length === 8` mais constitue un seul caractère visible.
- Segmentation la plus précise : `Intl.Segmenter(locale, { granularity: 'word' | 'grapheme' })` implémente l'annexe 29 du standard Unicode.
- Vitesses de lecture par défaut : anglais 225-250 wpm en silencieux (Brysbaert 2019), chinois 350-500 car. min ; parole 150-160 wpm pour la narration, 163 wpm pour la moyenne TED.
- Découpage de phrases : `[.!?…。!?]+\s+` ; découpage de paragraphes : `\n\s*\n` ; comptage de lignes : `text.split('\n').length`.
- Twitter pondère le CJK et la plupart des émojis comme 2 caractères contre la limite de 280 via `twitter-text` ; un émoji drapeau (paire d'indicateurs régionaux) a `.length === 4` en UTF-16 brut.
Exemples
Phrase courte en anglais
Entrée : Hello world, this is a test.
Caractères au total : 28
Caractères (sans espaces) : 23
Mots : 6
Phrases : 1
Temps de lecture : ~2 secondes (225 mpm)Texte mixte chinois et anglais
Entrée : Hello 你好世界, this is ToolAct.
Caractères au total : 28
Caractères chinois : 4 (你好世界)
Mots anglais : 4 (Hello, this, is, ToolAct)
Nombres : 0Publication Twitter sous la limite de 280 caractères
Brouillon : Launching a new browser-only toolbox today — 112 dev tools,
zero uploads, zero tracking. Check it out at toolact.com.
Caractères au total : 124 (dans la limite Twitter de 280 caractères)
Mots : 22
Lignes : 2Estimer un discours de 5 minutes
Script : ~750 mots anglais
Temps de lecture : 3 min 20 sec (225 mpm en lecture silencieuse)
Temps de parole : 5 min 0 sec (150 mpm en débit oral)
Paragraphes : 5 | Phrases : 42Vérifier la longueur de la méta-description SEO
Titre : "ToolAct - 112 Online Developer Tools, Free and Private"
-> 56 caractères (Google affiche ~60)
Description : "Format JSON, convert timestamps, generate cron expressions,
and run 100+ more dev tools right in your browser. No uploads."
-> 148 caractères (Google affiche ~155)FAQ
Que mesure le compteur ?
Le total des caractères, les caractères sans espaces, les caractères chinois, les mots anglais, les chiffres, les lignes, les paragraphes, les phrases et le temps estimé de lecture/parole. Tout se met à jour en temps réel pendant que vous tapez ou collez.
Comment les « mots » sont-ils définis ?
Les mots anglais sont des suites de lettres séparées par des espaces. Les caractères chinois sont détectés via les plages Unicode CJK et comptés individuellement. Les chiffres et les symboles sont inclus dans le total des caractères.
Comment le temps de lecture est-il calculé ?
Par défaut 200 à 250 mots par minute, la moyenne pour une lecture silencieuse adulte. Le débit de parole est plus lent (~150 mpm) ; la lecture en diagonale est plus rapide (300 à 400 mpm). Le chiffre n'est qu'une estimation : le temps réel dépend de la densité du contenu et de l'expérience du lecteur.
Les emojis et les caractères spéciaux sont-ils comptés ?
Oui, mais notez qu'un emoji comme 😀 compte comme plusieurs unités de code UTF-16 dans la propriété length d'une chaîne JavaScript. Le compteur dénombre les caractères visibles tels qu'ils apparaissent dans le texte.
Pourquoi le nombre de lignes diffère-t-il du nombre de paragraphes ?
Les lignes sont séparées par un seul saut de ligne (Entrée appuyée une fois). Les paragraphes sont séparés par une ligne vide (Entrée deux fois). Les traitements de texte comptent généralement les paragraphes ; les éditeurs de code comptent les lignes. La page affiche les deux pour que vous choisissiez ce dont vous avez besoin.
Compte-t-il les caractères dans les URL et le code ?
Oui, tout ce qui n'est pas un blanc est compté. Si vous ne voulez compter que la prose (en excluant les URL, les blocs de code, les citations), retirez-les manuellement avant de coller. Certaines pages proposent un mode « compatible Markdown » qui ignore les caractères de syntaxe.
Mon texte est-il téléversé ?
Non. Le comptage se fait dans votre navigateur. Le texte collé n'est pas transmis.