Aide:Match et Split - Wikisource
Aller au contenu
La bibliothèque libre.
Aide
Publier un livre
Match et Split
En résumé
Comment transférer un texte vers l’
espace page
de manière semi-automatique.
En termes non techniques, comment découper un texte pour le faire correspondre à des images reproduisant en fac-similé les pages papier d’un vrai livre.
AVERTISSEMENT
: La commande
match
n’est pas infaillible ! Il est donc nécessaire de vérifier la découpe entre les commandes
match
et
split
, et de corriger les erreurs qui peuvent s’y trouver. C’est pour cette raison que la procédure
match & split
se fait en deux étapes plutôt qu’une seule.
Aide : Manuel de Wikisource
Qu’est-ce que Wikisource ?
Publier un livre
Poser une question
Principes généraux
Contenu de Wikisource
Droit d’auteur
Syntaxe wiki : aide-mémoire
Guide typographique
Conventions de nommages
Guide du lecteur
Aide au lecteur
Qualité des textes
Chercher un texte
Demander un texte
Signaler une erreur
Guide de l’éditeur débutant
Introduction à Wikisource
Guide du nouveau contributeur
Barre d’outils
Espace « Page »
Espace « Livre »
Transclusion
Finalisation
Guide de la numérisation
Utiliser des ressources libres
Comment numériser
Créer un fichier DjVu
Importer un livre
Guide de l’éditeur confirmé
Guide de l’éditeur avancé
Maintenance des articles
Confronter texte et fac-similé
Robots
Liste des modèles
Trousse à outils
Guide de la validation des textes
Qualité des pages
Qu’est-ce qu’un Match et Split ?
modifier
Match et Split
(détection des pages et découpage d’un texte) consiste à automatiser en partie le découpage d’un texte pour le placer en vis-à-vis des images d’un livre (un fac-similé).
L’objectif de cette automatisation partielle est de gagner du temps : si l’on dispose d’un texte relativement correct ou de bonne qualité, et que l’on veut le corriger à l’aide d’un fac-similé, il n’est pas nécessaire de découper et de recopier manuellement le texte page par page. Un robot fait cette opération et il ne reste plus qu’à s’occuper de la relecture.
Explications : vous devez disposer de trois éléments.
1. Un texte
qui semble correct mais qui n’est pas dans
l’espace « Page »
2. Des images (fac-similés) de toutes les pages d’un livre prêtes pour la correction en mode Page (texte et image côte à côte), mais le texte
extrait des fac-similés comporte trop de coquilles pour être corrigé. On veut donc avoir le texte
à la place du texte
dans l’espace « Page » avant de le corriger.
3. Ce texte
qui fait face aux images doit être quand même un peu lisible : il faut en effet que le robot qui procédera au « Match » (pas au sens sportif du terme mais au sens d’appariement) ait suffisamment de repères pour qu’il soit capable de répartir, à la place du texte
illisible, le texte
qui est déjà correct.
Un texte
à découper, édité seul dans l’espace principal :
…outre que la cavalerie réglée est devenue beaucoup plus nombreuse, à commencer par le Prince le dénombrement de les écuries excède de beaucoup celles de ses prédécesseurs ; on avoit quelques chevaux de main, mais à cela près, on n’en nourrissoit point d’inutiles. Une grande Dame de ce pays-ci, à qui je vis des chevaux de remise, me répondit : ce n’est pas quil n’y en ait 70 dans nos écuries, mais il n’y en a point qui ait pû aller aujourd’hui. Quand Bassompiere rencontra cette lingere du pont-neuf, dont il fait une singuliére histoire, il n’avoit qu’un cheval entre ses jambes : c’étoit l’homme le plus brillant de son temps ; aujourd’hui le plus pauvre allant en fiacre, en occupe deux. Il est à remarquer encore que les chevaux répandus alors dans les campagnes où leurs maîtres habitoient, engraissoient de leur fumier la prairie…
etc.
match et split
Le texte
lisible est découpé et placé vis-à-vis des images des pages correspondantes…
… et remplace dans l’espace « Page » le texte
illisible qui a été extrait du fac-similé.
Description
modifier
Les commandes «
match
» et «
split
» permettent de transférer un texte vers l’
espace page
de manière semi-automatique. Le
fichier DjVu
correspondant au texte que l’on va transférer doit contenir lui aussi une couche texte d’ocr, même si la qualité en est médiocre.
Le transfert est effectué par un robot, qui répond à votre navigateur
Pour pouvoir l’utiliser, vous devez activer la case correspondante dans vos préférences de compte, dans la section
Édition
de
l’onglet
gadgets
{\displaystyle \square }
Commandes interactives Match et Split (utilise le robot Phe-Bot
Déroulement
modifier
Le robot s’utilise en deux temps :
détection des pages (match) ;
découpage (split).
La file d’attente des tâches en cours de ce robot est consultable
ici
Préparation du texte
modifier
Avant toute chose, il convient de s’assurer que le texte que l’on va importer correspond à l’édition du livre. Si le texte ne correspond pas et que vous n’avez pas le texte de la bonne édition, c’est à vous de voir si l’import vous fera tout de même gagner du temps pour la correction et si les différences entre les versions ne rendent pas impossible le découpage du texte par le robot. Si vous n’avez pas l’intention de corriger le texte, il ne faut pas importer une édition différente.
Avant d’effectuer un
match
, il peut être judicieux d’effectuer certaines transformations : faire la typographie (
guide typographique
) et la mise en forme du texte si nécessaire (
mise en forme
). Cela évite de devoir faire ces corrections page par page.
Déplacez les catégories, les interwikis et tous les éléments étrangers au texte se trouvant en fin de page vers le début de la page (avant le __MATCH__ que vous aurez inséré) pour éviter qu’ils se retrouvent dans la dernière Page:.
Match
modifier
Syntaxe
modifier
Avant de commencer, il faut insérer au début du texte à transférer (en général dans l’espace principal) un marqueur __MATCH__ qui indique au robot où se trouve le fac-similé correspondant à la première page dans l’espace « Page ».
La syntaxe est :
==__MATCH__:[[Page:xxx.djvu]]==
ou
==__MATCH__:[[Page:xxx.djvu|step=2]]==
dans le cas où le facsimilé doit être reconnu une page sur deux (par exemple, les traductions en apposition ou les livres dont les pages ne sont pas imprimées recto-verso)
où « Page:xxx.djvu » est le nom de la page où commence votre texte.
Ce marqueur est générable par le bouton
de la barre d’outil (ancienne version) ou par les balises
==__MATCH__:[[]]==
que vous trouverez dans les outils fournis sous la fenêtre d’édition (Edittools).
Exemple
modifier
Au début de la page
[[==__MATCH__]]'', juste avant le texte à transférer dans l’espace « Page » :


{| style="border:1px solid #efefef;"
==__MATCH__:[[Page:Marivaux - Théâtre, vol. II.djvu/124]]==
PERSONNAGES
ARAMINTE, fille de Madame Argante.
DORANTE, neveu de Monsieur Remy.
MONSIEUR REMY, procureur.
MADAME ARGANTE.
ARLEQUIN, valet d'Araminte.
DUBOIS, ancien valet de Dorante.
MARTON, suivante d'Araminte.
LE COMTE.
Un domestique parlant.
Un garçon joaillier.
La scène est chez Madame Argante.
suite du texte…
|}
Vous pouvez voir
ici
l’insertion de MATCH au début du texte. Le nom de page «
Page:Marivaux - Théâtre, vol. II.djvu/124
» indique au robot qu’il doit commencer à la page 124 du livre
Livre:Marivaux - Théâtre, vol. II.djvu
qui correspond au fichier
Fichier:Marivaux - Théâtre, vol. II.djvu
Une fois la page sauvegardée, il vous faut alors vous rendre sur la page de l’outil disponible sur la
Tool forge
de Wikimédia :
[1]
(onglet
match
). Saisissez le
Language code
fr
, puis le nom de la page de l’espace principal contenant le __MATCH__ :
Les Fausses Confidences
dans notre exemple. Cliquez alors sur le bouton
Run a match job
Résultat
modifier
Au bout d’un certain temps, l’affichage va s’actualiser, et vous verrez que des liens vers les pages de l’espace « Page » ont été introduits dans le texte.
Préparation avant le
split
modifier
Entre les deux étapes, il est conseillé de vérifier le travail du robot : vérifier que les débuts de pages sont à la bonne place, que des références ou des modèles n’ont pas été coupés en deux par une limite de page et surtout vérifier qu’un « no match » n’apparaît pas dans le texte.
no match
modifier
« no match », s’il est présent, indique la position où le robot a perdu la synchronisation avec le texte. Dans ce cas il faut refaire un __MATCH__ à cette position avec le bon numéro de page. La présence d’un « no match » peut aussi indiquer que la version du texte ne correspond pas à l’édition du scan.
Split
modifier
Le
split
est l’étape de l’import du texte dans les pages : le robot va transférer le texte selon le découpage qui a été fait à l’étape précédente.
Pour cela il suffit de revenir sur la page de l’outil sur la
Tool forge
[2]
(onglet
split
) puis de saisir les mêmes champs que précédemment :
fr
pour
Language code
et
Les Fausses Confidences
dans notre exemple pour
Title of page
. Cliquez alors sur le bouton
Run a split job
L’opération est plus longue que celle du
match
et peut demander plus ou moins de temps suivant le nombre de pages à créer/modifier et la sollicitation du robot par d’autres contributeurs. Vous pouvez consulter les logs dans l’onglet
status
[3]
pour voir où en est le robot dans le découpage de votre texte.
Lorsque l’import est terminé, le robot procède à la
transclusion
, c’est-à-dire qu’il remplace tout ce qui se trouve après __MATCH__ par la balise

qui permet d’afficher dans une page un texte qui se trouve dans l’espace « Page ».
Pour notre exemple ci-dessus, nous obtiendrons :

qui se trouve dans
Les Fausses Confidences
Pour configurer cette balise, vous pouvez consulter
Aide:Transclusion
Remarques
modifier
Afin de préserver les paragraphes, un est ajouté au début de chaque page commençant par une ligne vide.
match
détecte la présence du tag et l’ajoute en début et fin de page
split
écrase les pages qui existent déjà, si elles sont non corrigées et non transcluses. Si la première ou la dernière page de la liste existe déjà et qu’elle est transcluse,
split
considère qu’il s’agit d’un début de chapitre en milieu de page, et crée deux sections sur la page.
Lors d’un M/S par chapitre d’un livre, il faut
absolument
éviter de faire une double transclusion de type Texte entier avant d’avoir fini
tous
les
splits
, sinon, il peut y avoir un problème pour la reconnaissance des sections.
Voir aussi
modifier
Catégorie:Livres à découper
Le robot communique avec le navigateur avec la technique «
ajax
».
En réalité,
SodiumBot
a remplacé l'ancien phe-bot
Récupérée de "
Catégorie
Aide
Aide
Match et Split
Ajouter un sujet