Annotation de la forme

Elle compte 7 étapes, la lemmatisation, la structure linguistique, la structure-type, la structure formelle, la structure poétique, le type de discours, les figures de style. Il a été fait appel aux linguistes des diverses langues annotées pour en établir les règles communes. Toutes les annotations peuvent être expliquées ou justifiées par les annotateurs dans une note.

La lemmatisation réduit les formes conjuguées ou déclinées à leur forme minimale, pour les langues néo-latines à l’entrée du dictionnaire : verbe à l’infinitif, adjectif au masculin singulier. Elle permet d’éliminer les variations dues à la morphologie ou à la graphie.  Elle se fait à partir du lexique de l’ESB et en modernise la forme ou l’orthographe. Les éléments lexicaux propres au lexique du Moyen Age sont conservés et lemmatisés conformément aux habitudes modernes. Pour les langues sémitiques on ne réduit pas à la racine, les catégories (nom, verbe, adjectif…) sont conservées, les verbes sont à la 3e personne masculin singulier de l’accompli / le passé. Le nombre des items lemmatisés doit correspondre exactement au nombre des éléments de l’énoncé, les articles, pronoms, prépositions accolées aux termes sont lemmatisées indépendamment et reliées par un tiret. Pour l’arabe les racines figurent dans la note.

Exemple : lavóse > lavar-se ; agora > ahora; tuelle > toller

(en savoir plus cliquer sur le lien https://apps.atilf.fr/aliento/img/documentationFR.pdf)

La structure linguistique doit également être alignée avec la lemmatisation et l’énoncé de l’ESB et compter pour cela le même nombre d’items dans le même ordre, reliés le cas échéant par un tiret. Les catégories annotées sont basiques et les étiquettes ont été choisies parmi la liste du Leipzig Glossing Rules (lien hypertexte https://www.eva.mpg.de/lingua/pdf/Glossing-Rules.pdf). Les étiquettes englobantes comme DET (déterminant) ont été privilégiées (plutôt qu’article, démonstratif, possessif). Les verbes indiquent principalement la personne. Les précisions s’ajoutent au moyen d’un point, un espace sépare deux unités, les unités composées sont reliées par un tiret.

(en savoir plus cliquer sur le lien https://apps.atilf.fr/aliento/img/documentationFR.pdf)

La structure-type ou moule (pattern), permet d’extraire des modèles de formalisation sentencieuse ou proverbiale. Le schéma lexical modèle est repris et modernisé le cas échéant, les syntagmes  verbaux qui varient y sont représentés par Y suivi d’un chiffre, les syntagmes nominaux y sont représentés par X suivi d’un chiffre.

(en savoir plus cliquer sur le lien https://apps.atilf.fr/aliento/img/documentationFR.pdf)

La structure formelle est le découpage logique de l’ESB en propositions distinctes ; les propositions sont étiquetées par des chevrons qui en marquent les limites selon la syntaxe XML <E.1> </E.1> <E.2> </E.2>.

(en savoir plus cliquer sur le lien https://apps.atilf.fr/aliento/img/documentationFR.pdf)

Le Discours annote le type d’énonciation selon une liste préétablie. Elle privilégie les étiquettes pertinentes dans le cas des ESB, discours adressé, invocation, conjecture…

La structure poétique, n’est pas obligatoirement annotée, sa formulation est libre. Elle concerne les annotateurs qui s’intéressent aux rythmes, à la métrique, aux rimes, assonances,  au type poétique auxquels certains ESB se rattachent.

Les figures de style font l’objet d’une liste préétablie. Les figures ne sont pas toutes représentées, seulement celles qui sont les plus fréquentes dans les ESB et les mieux connues, de façon à pouvoir être renseignées par des annotateurs non spécialistes de la stylistique des textes.

Exemple d’étiquetage formel