CCinocRapport · benchmark
3 docs2 moteurs2026-06-01

Mesures clés

Mesures clés

Scores standard par moteur (↓ = plus bas est meilleur · ↑ = plus haut est meilleur). Triez par n'importe quelle colonne. Aucun gagnant n'est déclaré : les chiffres et le test sont fournis, l'interprétation vous revient.

Texte brut

MoteurCER ↓WER ↓
Atesseract0,01430,0909
Bpero0,02860,0909

francais_medieval

MoteurCER ↓WER ↓
Bpero0,00000,0000
Atesseract0,00000,0000

Métriques par vue

Corpus : demo

Vue : Texte brut

Erreur · caractèreErreur · mot
Pipelinecerwer
Atesseract0,01430,0909
Bpero0,02860,0909

La teinte de chaque cellule indique sa position sur l'axe de la métrique — échelle commune par colonne.

Vue : francais_medieval

Erreur · caractèreErreur · mot
Pipelinecerwer
Atesseract0,00000,0000
Bpero0,00000,0000

La teinte de chaque cellule indique sa position sur l'axe de la métrique — échelle commune par colonne.

Comparaison

Comparaison des moteurs (vue : Texte brut)

Ordonné par cer ↑ (un tri, pas un rang attribué) · dispersion = cer min · médiane · max par document. Cliquer un en-tête de métrique pour réordonner ; survoler pour la définition. Aucun gagnant n'est déclaré.

Erreur · caractèreErreur · mot
Moteurcer wer dispersion
Atesseract0,01430,09090,000 · 0,000 · 0,042
Bpero0,02860,09090,000 · 0,000 · 0,087

La teinte de chaque cellule indique sa position sur l'axe de la métrique — échelle commune par colonne.

Dispersion du CER (vue : Texte brut)

Boîte à moustaches par moteur : moustaches min→max, boîte interquartile Q1→Q3, trait médian, tick moyenne. Échelle commune entre moteurs.

Atesseract
min 0,0 % · Q1 0,0 % · méd 0,0 % · µ 1,4 % · Q3 4,2 % · max 4,2 %
Bpero
min 0,0 % · Q1 0,0 % · méd 0,0 % · µ 2,9 % · Q3 8,7 % · max 8,7 %

Significativité & recouvrement

Significativité inter-moteurs

p-value d'une différence entre pipelines (Wilcoxon / Friedman) ; significatif si p < 0,05.

VueMétriquep-valuenverdict
Texte brutcer3
Texte brutwer3
Texte brutmer3
francais_medievalcer3
francais_medievalwer3
francais_medievalmer3

Duel par document

CER par moteur sur chaque document, reliés — les 3 documents où les moteurs divergent le plus (écart décroissant). Échelle commune (max 9 %).

A tesseract · B pero

Galerie des documents (vue : Texte brut)

Aperçu + CER par moteur (pastille de couleur ; meilleur du document surligné).

Méthodologie & reproductibilité

Ce que mesure le benchmark, sur quel corpus, avec quels moteurs et quelles conventions — pour interpréter et reproduire les résultats.

Corpusdemo
Documents3
Moteurspero, tesseract
Métriquescer, mer, wer
Date2026-06-01
Version du code0.1.1.dev25+gca59b82a2

Vues d’évaluation

text

Normalisationaucune
Métriquescer, wer, mer

francais_medieval

Normalisationmedieval_french
Métriquescer, wer, mer

Environnement

Versions de modules
precomputed:pero1.0
precomputed:tesseract1.0

Conventions. Les métriques d’erreur (CER, WER, MER) sont des distances d’édition normalisées par la longueur de la référence (plus bas = mieux). Les agrégats affichés sont des macro-moyennes par document, sauf mention « micro ». Une valeur absente est rendue « — », jamais interprétée comme zéro. Un document non produit par un moteur est omis de ses agrégats (pas de score factice). La normalisation typographique est appliquée avant comparaison selon le profil de chaque vue (ci-dessus).

Glossaire

Définitions des métriques présentes dans ce rapport, pour le lecteur non spécialiste.

CER — taux d'erreur caractère
Définition
Rapport entre la distance d'édition (substitutions + insertions + suppressions) au niveau caractère et la longueur de la référence, exprimé en proportion. 0 = transcription parfaite.
Ce que ça mesure
La fidélité caractère-à-caractère entre la sortie du moteur et la vérité terrain, après le profil de normalisation choisi.
Limites
Insensible au sens des erreurs : une faute sur un caractère rare pèse autant qu'une faute courante. Dépend du profil de normalisation appliqué.
MER — match error rate
Définition
Rapport entre le nombre d'opérations d'édition et la longueur de l'alignement (référence + insertions), borné entre 0 et 1.
Ce que ça mesure
La part de l'alignement caractère qui n'est pas une correspondance exacte ; variante bornée du CER.
Limites
Proche du CER sur texte propre ; diverge surtout en présence de longues insertions/suppressions.
WER — taux d'erreur mot
Définition
Équivalent du CER au niveau du mot : distance d'édition entre les suites de mots de l'hypothèse et de la référence, rapportée au nombre de mots de référence.
Ce que ça mesure
La fidélité mot-à-mot ; un mot est faux dès qu'un seul de ses caractères diffère.
Limites
Très sensible à la segmentation en mots et à la ponctuation collée ; un WER élevé peut masquer un CER faible.