Text Encoding Initiative

De CIDE.

La Text Encoding Initiative désigne à la fois le nom d'un groupe de travail international et d'un standard. Le sujet qu'ils traitent est la codification de toutes sortes de documents dans une approches structurée et plus précisément, en SGML au début, puis maintenant, en XML.

Sommaire

Un exemple introductif

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Pourquoi ce paragraphe d'initiation dans un wiki destiné aux spécialistes du document numérique ?
Cette section a été introduite à des fins pédagogiques pour montrer l'aspect « encyclopédique » des wikis du réseau Wicri.

En fait cette section devrait à terme être remplacée par une synthèse rédigée à partir des explorations des corpus.

Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[1]. Pour un ouvrage d'introduction plus complet voir |BUR 96].

On cherche à représenter :

Acte II, Scène 2
DON RODRIGUE À moi, Comte, deux mots.
LE COMTE          Parle.
DON RODRIGUE                  Ôte-moi d'un doute.
Connais-tu bien Don Diègue ?
LE COMTE          Oui.
DON RODRIGUE                  Parlons bas, écoute.
Sais-tu que ce vieillard fut la même vertu,
La vaillance et l'honneur de son temps ? Le sais-tu ?

Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».

<h1>Acte II, Scène 2</h1>
<br/> <b>DON RODRIGUE</b> À moi Comte, deux mots.
<br/> <b>LE COMTE</b>&nbsp;&nbsp; ... &nbsp; Parle

Avec le schéma TEI, on obtiendrait ceci :

<div type="Act" n="I"><head>Acte II</head>
   <div type="Scene" n="1"><head>Scène 2</head>
     <sp><speaker>Rodrigue</speaker>
         <l part="i">À moi, comte, deux mots.</l></sp>
     <sp><speaker>Comte</speaker><l part="m">Parle</l></sp>
     <sp><speaker>Rodrique</speaker>
         <l part="f">Ôte-moi d'un doute</l></sp>
     <sp><speaker>Comte</speaker>
         <l part="i">Connais-tu bien Don Diègue ?</l></sp>
      <sp><speaker>Comte</speaker><l part="m">Oui</l></sp>
     <sp><speaker>Rodrigue</speaker>
       <l part="f">Parlons bas, écoute.</l>
       <l>Sais-tu que ce vieillard fut la même vertu,</l>
       <l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
    ...
   </div>
  ...
  </div>

La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment :

  • L'imbrication des actes et des paragraphes (2 éléments div imbriqués). Avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène.
  • Le découpage du dialogue par des éléments "sp".
  • La définition des interlocuteurs par des éléments "speaker" (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène).
  • La précision de la description de la versification par des éléments "l" (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs "part".

 

Serveur d'exploration

Cette section introduit le « Serveur d'exploration sur la TEI ». Il contient 692 documents.

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès 536 documents ISTEX (et 536 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 115 références, dont 51 venant de Francis, et 64 venant de Pascal.

Après curation le volume est réduit à 106.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 41 références téléchargées de HAL. Après curation le volume est réduit à 41.
Logo Paris tram ligne4.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 683 références issues des étapes précédentes.

Ce volume est ramené à 683 après dédoublonnage par DOI. Enfin, il est réduit à 644 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 64 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 101 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 181 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 39 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

 

France location map-Regions-2016.svg

Pour consulter la liste des 12 publications de la région Auvergne-Rhône-Alpes
Pour consulter la liste des 1 publications de la région Centre-Val de Loire
Pour consulter la liste des 12 publications de la région Grand Est
Pour consulter la liste des 3 publications de la région Occitanie (région administrative)
Pour consulter la liste des 2 publications de la région Pays de la Loire
Pour consulter la liste des 10 publications de la région Provence-Alpes-Cðte d$##9;Azur
8div qtile="position:absolute;z-index:1;top:72.046009523813%;left:75.113411392398%;background:transparent;font-size:100%;">
Pour consulter la liste des 9 publications de la région Île-de-France

Listes de résultats bruts

Auteurs
  1. Susan Hockey (16)
  2. Laurent Romary (16)
  3. Michael Sperberg-McQueen (13)
  4. Lou Burnard (12)
  5. Nancy Ide (11)
  6. David T. Barnard (6)
  7. Susan Schreibman (5)
  8. Jean Véronis (4)
  9. Fotis Jannidis (4)
  10. Claire Warwick (4)
  11. Alejandro Bia (4)
  12. Willard Mccarty (3)
  13. Thomas N. Corns (3)
  14. Stig Johansson (3)
  15. Ron Van Den Branden (3)
 
Affiliations
  1. Université d'Oxford (20)
  2. Université de Princeton (14)
  3. Vassar College (11)
  4. Université de Lorraine (11)
  5. Université Rutgers (10)
  6. University College de Londres (10)
  7. Université de l'Illinois à Chicago (9)
  8. Center for Electronic Texts in the Humanities (9)
  9. Université de Lyon (8)
  10. Université Jean Moulin Lyon 3 (8)
  11. Université du Maryland (7)
  12. Université Queen's (6)
  13. Université de Manchester (4)
  14. Université d'Édimbourg (4)
  15. Université de Provence (3)
Pays
  1. États-Unis (181)
  2. Royaume-Uni (101)
  3. France (64)
  4. Allemagne (39)
  5. Canada (26)
  6. Espagne (20)
  7. Italie (14)
  8. Norvège (11)
  9. Australie (9)
  10. Pays-Bas (8)
  11. Belgique (8)
  12. Corée du Sud (6)
  13. Irlande (pays) (5)
  14. Danemark (5)
  15. Japon (4)
 
Région
  1. Angleterre (56)
  2. État de New York (24)
  3. Oxfordshire (24)
  4. Grand Londres (22)
  5. New Jersey (19)
  6. Illinois (14)
  7. Rhône-Alpes (12)
  8. Grand Est (12)
  9. Auvergne-Rhône-Alpes (12)
  10. Pennsylvanie (11)
  11. Massachusetts (11)
  12. Lorraine (région) (11)
  13. Provence-Alpes-Côte d'Azur (10)
  14. Maryland (10)
  15. Île-de-France (9)
 
Villes
  1. Oxford (24)
  2. Londres (22)
  3. Nancy (13)
  4. Poughkeepsie (11)
  5. Metz (9)
  6. Chicago (9)
  7. Lyon (8)
  8. College Park (Maryland) (7)
  9. Pise (6)
  10. Kingston (Ontario) (6)
  11. Aix-en-Provence (6)
  12. Princeton (New Jersey) (5)
  13. Édimbourg (4)
  14. Paris (4)
  15. Manchester (4)
Mots-clés anglais
:
  1. Coding (35)
  2. Electronic text (33)
  3. TEI (31)
  4. Computational linguistics (29)
  5. Text (28)
  6. Standardization (22)
  7. Markup language (21)
  8. Electronic document (17)
  9. Description (14)
  10. Tagging (13)
  11. Project (12)
  12. XML language (11)
  13. Markup (11)
  14. Record format (10)
  15. Electronic publishing (10)
 
Mots des titres
  1. encoding (50)
  2. text (48)
  3. tei (40)
  4. digital (35)
  5. electronic (32)
  6. metadata (28)
  7. xml (25)
  8. initiative (23)
  9. corpus (23)
  10. documents (21)
  11. web (20)
  12. texts (20)
  13. resources (18)
  14. project (18)
  15. libraries (18)
 
ISSN/revue
  1. Literary and linguistic computing (168)
  2. 0010-4817 (79)
  3. Lecture Notes in Computer Science (66)
  4. Lit Linguist Computing (61)
  5. Comput Hum (46)
  6. 1572-8412 (46)
  7. Library Hi Tech (23)
  8. 1065-075X (14)
  9. 1532-2890 (13)
  10. Journal of the American Society for Information Science and Technology (13)
  11. Microform and Imaging Review (11)
  12. Program (revue) (11)
  13. 1741-4113 (10)
  14. The Electronic Library (10)
  15. ACALIB (9)
Sur le Zoom France
Auteurs
  1. Laurent Romary (9)
  2. Nancy Ide (8)
  3. Jean Véronis (4)
  4. Thierry Chanier (2)
  5. Sylvie Calabretto (2)
  6. Syd Bauman (2)
  7. Serge Heiden (2)
  8. Nicole Dufournaud (2)
  9. Marjorie Burghart (2)
  10. Lou Burnard (2)
 
Affiliations
  1. Université de Lorraine (11)
  2. Vassar College (8)
  3. Université de Lyon (8)
  4. Université Jean Moulin Lyon 3 (8)
  5. Université de Provence (3)
  6. Université Jean Monnet Saint-Etienne (3)
  7. Université de Nantes (2)
  8. Université d'Avignon (2)
  9. Université Paris 10 (2)
  10. Laboratoire lorrain de recherche en informatique et ses applications (2)
Pays
  1. France (64)
  2. États-Unis (9)
  3. Allemagne (4)
  4. Royaume-Uni (2)
  5. Italie (2)
  6. Uruguay (1)
  7. Slovénie (1)
  8. Pays-Bas (1)
  9. Grèce (1)
  10. Espagne (1)
 
Région
  1. Rhône-Alpes (12)
  2. Grand Est (12)
  3. Auvergne-Rhône-Alpes (12)
  4. Lorraine (région) (11)
  5. Provence-Alpes-Côte d'Azur (10)
  6. Île-de-France (9)
  7. État de New York (8)
  8. Occitanie (région administrative) (3)
  9. Pays de la Loire (2)
  10. Midi-Pyrénées (2)
 
Villes
  1. Nancy (13)
  2. Metz (9)
  3. Poughkeepsie (8)
  4. Lyon (8)
  5. Aix-en-Provence (6)
  6. Paris (4)
  7. Saint-Étienne (3)
  8. Toulouse (2)
  9. Nantes (2)
  10. Nanterre (2)
Mots-clés anglais
:
  1. Standardization (4)
  2. Text (3)
  3. Electronic document (3)
  4. Coding (3)
  5. Record format (2)
  6. Markup (2)
  7. France (2)
  8. Document type definition (2)
  9. Corpus annotation (2)
  10. XML language (1)
 
Mots des titres
  1. tei (11)
  2. encoding (9)
  3. data (6)
  4. project (5)
  5. documents (5)
  6. text (4)
  7. structured (4)
  8. dictionaries (4)
  9. open (3)
  10. multilingual (3)
 
ISSN/revue
  1. Lecture Notes in Computer Science (10)
  2. 0010-4817 (6)
  3. Comput Hum (4)
  4. 1572-8412 (4)
  5. SPECOM (2)
  6. 0264-1615 (2)
  7. 0167-6393 (2)
  8. Mach Translat (1)
  9. JVA (1)
  10. IPM (1)

Voir aussi

Notes
  1. Cet exemple est inspiré d'un article de Lou Burnard, a fait l'objet d'un article sur le site ARTIST (http://artist.inist.fr/article.php3?id_article=59 ARTIST) et a été enfin adapté à Wikipédia
Bibliographie

[BUR 96] Lou Burnard et C. M. Sperberg-McQueen, traduction de François Role. La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange
<http://www.tei-c.org.uk/Lite/teiu5_fr.html>

Sur ce wiki
Liste des pages de ce wiki où cette norme est citée (de façon significative) 
Dans le réseau Wicri :

La page de référence « Text Encoding Initiative » est sur le wiki Wicri/Ticri. Sur Wicri/Ticri, voir aussi le Serveur d'exploration sur la TEI

Outils personnels