[FG] Frédéric Glorieux (École nationale des chartes) conception et maintenance
[VJ] Vincent Jolivet (École nationale des chartes) conception et maintenance
[CD] Camille Desenclos (École nationale des chartes) notes d'apparat critique, indexation des entités nommées
[CH] Clément Hurel (École nationale des chartes) contributions
Ce schéma comporte des éléments génériques pour écrire du texte.
On y trouvera au moins le nécessaire pour générer un HTML acceptable pour l'écran.
Sont aussi définies des structures spécifiques à l'édition critique, avec leurs règles d'utilisation dans le contexte de ce site.
Il est conventionnel de diviser un schéma rédactionnel en trois niveaux : texte (balises en cours de ligne),
blocs (boîtes de texte), sections (conteneur de blocs). L'exposition des éléments
cherchera globalement à suivre cet ordre, sans cependant en adopter les divisions, qui seraient très déséquilibrées.
Ce document veille aussi à détailler les pratiques d'édition électronique pour ce site.
Balises vides : texte simple avec bornes pouvant se trouver à tout endroit, comme les sauts, ou les notes.
Appareillage critique : le balisage dédié aux corrections, ajouts, attributions... avec prise en charge spéciale (ex : génération de notes).
Indexation : valeurs susceptibles d'être rassemblées
dans un index aidant la navigation (auteurs, personnes, lieux...).
Fonctions : fonction sémantique (susceptible de présentation typographique adaptées).
Typographie : typographie simple, sans fonction assumée, rendues sans interprétation (HTML).
p.content
Macro décrivant le contenu de type paragraphe (tous les éléments de niveau ligne).
Cette section réunit différentes balises susceptibles d'indexation. Elles permettent d'étiqueter les noms
de personnes, de lieux, ou les termes sujet... Ces balises sont particulièrement nombreuses dans les corpus
de chartes, où l'on trouve en moyenne quatre à cinq noms par phrase.
La juste segmentation des noms a tout d'abord un objectif linguistique, elle permet d'isoler
les mots de la langue, pour par exemple mieux assurer une lemmatisation. Il s'agit ensuite
d'avancer vers la constitution d'index automatique fiable (ce qui ne dispense pas d'un travail érudit
de prosopographie, pour par exemple rassembler les différents noms d'une même personne sous une même
clés). On trouvera ici des règles et des exemples mis au point sur des corpus de chartes, elles
peuvent valoir pour tous textes.
Remarque, on déconseillera de baliser les saints comme des personnes lorsqu'ils apparaissent comme des fêtes repères dans le calendrier.
indexation
Les balises indexables regroupent les mots susceptibles de mériter un
index.
Les noms de personnes se présentent sous des formes très diverses: anthroponyme simple ("Gofredus"), anthroponyme complexe ("Gofredus de Sancto Martino"), titulature officielle ("Gofridus, dominus de Sancto Martino"), identification par filiation ("Gofredus, filius Petri"). Le traitement de ces noms doit s'adapter à cette mutliplicité. Le nom principal, destiné à devenir une entrée lors de la constitution automatique de l'index, doit être encodé à l'aide de <persName>. Cependant dans le cas d'expressions complexes telles les titulatures, les autres composantes du nom doivent être encodées en fonction de leur nature, par exemple: <placeName> pour les noms de domaines et l'ensemble de l'expression doit être insérée à l'intérieur d'un élément <rs>, auquel on a ajouté un attribut @type de valeur "person", afin de notifier que l'expression désigne une seule personne et non des personnes ou lieux distincts et ainsi pouvoir identifier les divers acteurs intervenant dans les actes.
Les anthroponymes complexes nécessitent une attention particulière. Pour "Gofredus de Sancto Martino', il faut se demander si "Sancto-Martino" renvoie réellement à un lieu ou s'il n'a plus qu'une valeur anthroponymique, sans rapport identifiable avec une réalité géographique. Pour l'époque moderne, il n'y a pas d'hésitations à avoir, surtout pour des expressions telles que "Mlle de Guise": "Guise" est un nom de famille et n'a plus de valeur géographique; si la personne a lien avec la ville de Guise cela sera indiqué dans sa titulature. Pour le Moyen Age, il est impossible de dire si "Gofredus de Sancto Martino" est Gofredus qui habite à Saint-Martin, Gofredus venu de Saint-Martin, seigneur de Saint-Martin, ou Gofredus appartenant à la famille du nom de Saint-Martin. Pour les XIe et XIIe, il est plus prudent d'encoder "Sancto Martino" à l'aide d'un élément <placeName>, quand bien même cela conduit à la constitution d'expressions d'encodage peu satisfaisantes.
Idéalement l'anthroponyme complexe, s'il fait référence à un nom de lieu devrait donc être encodé à l'aide d'un élément <placeName> au sein même de l'élément <persName>. Cependant ce traitement peut s'avérer long dans le cas de corpus. Dans ce cas, on limitera l'utilisation de <placeName> aux noms de terre.
Est identifié comme <persName> tout anthroponyme isolé, abrévié ou non ("G.", "Gofredus") et tout anthroponyme complexe, formé d'un prénom et d'un nom ("Gofredus de Sancto Martino") et à l'intérieur duquel ne s'intercale aucun mot de langue, hormis dans le cas des surnoms qui doivent être insérés dans le même élément <persName> ("Robertus dictus Legrand").
Nom de personne
Tout nom de lieu clairement identifiable dans l'index doit être encodé à l'aide de l'élément <placeName. Un nom de lieu est un ensemble continu à l'intérieur duquel ne s'intercale aucun mot de langue. Dans des expressions telles que "ecclesie Beate Marie", soit lorsque le mot de langue n'apporte pas de précision supplémentaire ("ecclesie" sert uniquement à qualifier "Beate Marie"), seul "Beate Marie" doit être encodé à l'aide de l'élément <placeName>. Dans le cas de corpus de taille importante, il n'est pas recommandé d'encoder plus précisément les noms de lieux à l'aide d'un élément <rs type="place">, quand bien même "Pontisare" ne désigne pas la même chose que "pontum Pontisare". Au contraire, ce type d'encodage (à l'aide de <rs>) doit être utilisé pour les noms de rue.
Référence à une entité nommée complexe, pouvant désigner une personne ou un lieu. <rs> permet de réunir des noms et des mots de la langue devant être identifiés comme une seule entité nommée et devant apparaître comme tel dans l'index. De ce fait il peut contenir plusieurs noms de lieux ou de personnes. L'unité sémantique prévaut sur l'insertion de conjonctions ("autem") ou d'expressions ("Dei gratia") qui ne doivent pas faire oublier qu'il s'agit d'une seule et même personne; ces conjonctions doivent donc être insérées, s'il est impossible de faire autrement, à l'intérieur de l'élément <rs>.
Nom, lorsqu'il n'est pas possible de déterminer s'il s'agit d'une personne ou d'un lieu
(par exemple après balisage automatique des mots en majuscule).
Selon la documentation TEI peut entre
autres signifier : soCalled, foreign, distinct, term, mentioned... htm:q. Un texte cité
peut contenir une citation.
Les balises fonctionnelles, à privilégier le plus possible relativement
aux balises typographiques, mais à ne pas utiliser si le besoin est juste
typographique.
Mentions, apparaissant généralement en italique, parfois en petites capitales (ex : inscriptions). Sur un acte médiéval, il arrive qu'une mention moderne fasse elle-même mention d'un texte plus ancien.
Mot, expression, voire proposition dans une langue différente du contexte, généralement rendu en italique. Une classe CSS est inscrite dans le rendu html, afin de pouvoir ajuster le cas échéant une police de caractères (ex : grec accentué). <dfn class="foreign @xml:lang">. On évitera d'indiquer ainsi les lieux ou personnes en langue étrangère (par exemple une nom de personne en ancien français dans une charte latine), préférer un attribut de langue sur la balise du terme indexé. Toutefois, certains textes multilingues peuvent contenir des fragments contenant du texte riche.
Les codes de langues ont surtout un usage informatique, afin d'appliquer les meilleurs filtres de traitement. Ainsi par exemple, contrairement à la norme anglophone de la bibliothèque du congrès, aucune distinction n'est faîte entre ancien et moyen français.
Nombre. Le balisage des nombres est notamment utile pour les chiffres romains, afin
qu'ils ne soient pas confondus avec des mots. Ils peuvent être mis en petites
capitales.
La forme étendue de l'abréviation sera contenue dans un attribut
optionnel @rend. (La proposition TEI d'un élément <expan> sera un problème
pour les exploitations ultérieures car elle ajoute un noeud texte qui n'est pas dans le
document encodé)
typo
Typographie de base
Mise en forme typographique de caractères,
au contenu volontairement restreint pour encourager les balises fonctionnelles.
Pagination ou foliotation, pour édition électronique d'imprimé ou de manuscrit. Le numéro est obligatoire, sauf dans le cas de pages ou folios manquants, en ce cas une explication est nécessaire.
Type de liste, indiqué par un caractère. Le nombre de valeurs est susceptible de s'étendre.
En cas d'encodage de texte existant, il peut être plus commode de reporter les numérotations difficiles à générer
en attribut de l'item (@n).
Liste pour encodage d'index imprimé. Le type 'index' permet de munir
la liste d'une barre d'exploration alphabétique. Une liste d'identifiants prévue à l'avance
permet de raffiner les comportements.
Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque personne mentionnée dans l'index (nom complet, dates et faits marquants de la biographie).
Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque lieu mentionné dans l'index (nom et localisation).
Attributs obligatoires d'un élément à “spliter” (générer un fichier HTML).
Le contenu de l'attribut @xml:id d'une division sert de nom de fichier.
La granularité des divisions varie selon les documents.
Afin de pouvoir factoriser un code de fractionnement, les divisions seront marquées par l'attribut @subtype="item".
Sectionnement du texte. Le modèle propose une alternative, soit une section
contient des blocs, soit une section ne contient que des sections (avec possibilité
d'introduction et de conclusion).
Il s'agit d'éviter le mélange entre blocs avec textes et sections,
afin par exemple de faciliter le traitement des notes
(affichées en bas de section).
Ce modèle de contenu sert d'entête de fichier
(à ne pas confondre avec le teiHeader qui porte les métadonnées).
Page de titre, préface, introductions, et autres paratextes d'une édition.