TP Master Paris 8 GID, mars 2015

De H2PTM.

(Redirigé depuis TP Master Paris 8 mars 2015)

Cette page donne des éléments pour un ensemble de travaux pratiques sur les pratiques avancées de la connaissance numérique dans la science, la technologie et la culture. Elle a été initialisée pour les étudiants du master GID de l'Université Paris 8. Elle fait l'objet de modifications explicatives pour la mise en place d'autres expérimentations de même type.

Plus précisément la formation donnée au Master de Paris 8 et potentiellement étendue à d'autres cadres vise à donner à un ensemble d'étudiants une expérience concrète sur :

  • L'exploration de corpus volumineux ;
    • Pour cette première édition, les corpus étaient limités aux métadonnées. Des premiers outils pour l'exploration du texte intégral sont maintenant disponibles.
  • Des pratiques mutualisées de curation de données.
    • Les étudiants peuvent formuler des règles de curation au sein du réseau collectif de wikis. Celui-ci constitue un référentiel terminologique commun, aligné sur le Web Sémantique.
  • La construction collective de données structurées.
    • Cette partie a été peu développée (faute de temps[1]) à Paris 8. D'autres expériences (en Master à l'Université de Lorraine ou dans le cadre de stages) montrent l'intérêt de dédier une session à ce type de pratique.

Sommaire

Diapositives complétées

LorExplor

TP Paris 8 2015 Diapositive02.jpg
TP Paris 8 2015 Diapositive03.jpg

On trouvera de nombreuses applications dans le réseau Wicri en utilisant (dans chaque wiki) la catégorie Serveur d'exploration.

Parmi les références les plus significatives :

TP Paris 8 2015 Diapositive04.jpg

Le réseau Wicri

Carist2014Diapositive07.png

Le réseau Wicri est le socle éditorial et ontologique sur lequel s'appuie le projet LorExplor.

Le réseau Wicri s'appuie sur l'expérience Wikipédia.

Sur un plan technique, Wicri utilise le moteur MediaWiki pour ses performances techniques et sa capacité à traiter du contenu scientifique ou technique.

Le réseau Wicri propose donc un démonstrateur qui repose sur une encyclopédie collectivement construite par des acteurs de la recherche et de l'innovation. Le expérimentations déjà réalisées montrent le besoin d'une infrastructure de la connaissance qui contient des références bibliographiques de référence et des ensembles ontologiques.

Pour se repérer dans le réseau

Le réseau Wicri est un démonstrateur qui contient de nombreuses expérimentations en cours de montage et qui ne dispose pas de forces éditoriales.

  • sur un wiki, de façon classique le logo en haut à gauche pointe vers la page d'accueil.
  • l'onglet communauté permet également de s'orienter au sein du réseau de wikis.
Quelques points d'entrée (wikis communs) 
  • Le wiki point d'accueil principal du réseau : Wicri/Wicri.
  • le premier wiki régional : Wicri/Lorraine.
  • le premier wiki thématique (autour de l'ingénierie de la connaissance pour les communautés de la recherche et de l'innovation : Wicri/Ticri.
  • ce wiki (H2PTM) est un wiki associé au wiki commun Wicri/Ticri.

Wikis sémantiques

Carist2014Diapositive09.png

Par rapport à Wikipédia le réseau Wicri utilise une extension développée par l'Université de Karlsruhe : Semantic MediaWiki.

Elle permet de créer des lien sémantiques. Les diapositives utilisent une démonstration située sur le wiki Wicri/Eau.

Pour voir la codification des éléments sémantiques, il suffit d'activer l'onglet « voir le texte source » (ou modifier si vous êtes connectés).

  • Pour accéder à la page Pittsburgh sur Wicri/Eau.
Carist2014Diapositive10.png

Avec des liens sémantiques, on peut « naviguer sur une propriété ».

Carist2014Diapositive11.png

Avec des liens sémantiques, on peut « exprimer des requêtes ».

Carist2014Diapositive12.png

Ces requêtes permettent notamment de calculer des listes.

Traitement sémantique des colloques

Ce wiki constitue un référence sur le traitement des colloques. On trouve notamment :

  • Le traitement des comités de programme (voir par exemple l'édition H2PTM 2011 Metz). On trouvera d'autres exemples sur Wicri/Ticri et notamment sur les colloques du DCMI (voir par exemple DC 2010 Pittsburgh).
  • Le traitement des publications proprement dites, sous forme de métadonnées ou en texte intégral.

Les serveurs d'exploration

Carist2014Diapositive15.png

Les serveurs d'exploration sont des systèmes de recherche d'information, fortement paramétrables et dans lesquels les fonctions exploratoires sont privilégiées. Ils sont construit à partir d'un ou de plusieurs corpus téléchargés de sources diverses (et notamment ISTEX).

Deux exemples à partir de ce wiki
  • Ce wiki contient une plateforme le Serveur d'exploration sur l'hypertexte qui constitue une référence du projet Wicri/LorExplor. Elle s'appuie sur un ensemble de flux d'entrée qui se fusionne pour se redistribuer en flux spécialisés. Elle est donc relativement complexe à explorer pour un premier contact.
  • Il contient également une plateforme d'entraînement, Hypertexte dans HAL, pour mettre au point les outils spécialisés autour de HAL (CCSD). Les serveurs sont matérialisés par des icônes.

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Chaque serveur donne accès à un ensemble d'index. Pour chaque index une page donne une liste d'entrée classée par ordre de fréquence décroissante (voir par exemple pour l'index pays de l'étape Exploration du flux principal (Main))

Nous travaillons sur une meilleure visualisation de ces résultats sous forme de cartes, voici par exemple, sur la microsimulation la production scientifique des régions françaises :


Un exemple de référence de 10 000 documents (métadonnées) est disponible sur ce wiki, voir HypertextV5.

Travaux pratiques

Points de départ pour les aspects techniques

TP Paris 8 2015 Diapositive18.jpg

Voir sur Wicri/Manuel :

Les sujets

Les étudiants ont choisi un ensemble de thématiques. Elles ont souvent du être modifiées ou spécialisées pour entrer dans un protocole avec un temps de réponse court et un paramétrage simplifié. Les consignes ont donc été assez restrictives : si possible entre 500 et 1200 documents par corpus.

Nous avons du également faire face à une contrainte technique forte et limitative. Concernant l'interface avec l'API ISTEX, seuls les documents provenant de l'éditeur Springer sont manipulables facilement avec la plateforme LorExplor actuelle. Certaines requêtes ont du être traitées sur PubMed pour obtenir un corpus de taille minimale.

Les sujets choisis par les étudiants :

Voir aussi

Notes
  1. Il faut également mentionner une faiblesse dans la logistique.
Faits relatifs à TP Master Paris 8 GID, mars 2015 — Recherche de pages similaires avec +.Voir comme RDF
A pour base utiliséeISTEX (corpus)  +
A pour taille ISTEX30  +
Outils personnels