LorExplor

De Artist.

LorExplor est un acronyme qui signifie : Exploration des enjeux et besoins de l'Université de Lorraine sur l'exploration des connaissances.

Ce texte a été élaboré en vue d'une soumission auprès des instances de pilotage du projet ISTEX. Il a été rédigé par un groupe de travail initial[1] en vue de l'appropriation de cet investissement par des communautés de l'Université de Lorraine.


Sommaire



LorExplor, Exploration des enjeux et besoins de l'Université de Lorraine sur l'Exploration des connaissances

L’Université de Lorraine, agissant pour la CPU, participe au projet ISTEX qui met un ensemble gigantesque de connaissances numériques (60 M€) à la disposition de la recherche et de l'enseignement supérieur.


Dans cette perspective, l'équipe Ticri[2] propose une action pour informer, analyser les besoins et évaluer les moyens à mettre en œuvre pour l'appropriation de cet investissement. Pour cela, elle dispose d'une plateforme technique qui aborde l'ensemble du paysage de l'information scientifique[3] Celle-ci n'a pas la prétention de résoudre tous les besoins mais permet de les expérimenter et d'en affiner l'expression.

Nous proposons de mener, avec un panel d'équipes, un ensemble de projets de courte durée avec comme objectif de faire émerger les problèmes liés à l'appropriation d'ISTEX et de mesurer les moyens nécessaires en termes de formation et de soutien logistique. Une des retombées est l'amélioration de la plateforme pour qu'elle soit déjà capable de résoudre des besoins courants.

Les enjeux

Le projet ISTEX donne accès à un ensemble très volumineux de ressources numériques, négociées avec les éditeurs pour un usage qui va bien au delà du simple accès au document pour permettre des traitements de contenus. L'Université de Lorraine bénéficie ainsi d'un dispositif majeur pour son positionnement autour de l'ingénierie de la connaissance. Elle dispose ainsi d'un outil pour répondre à la première ambition affichée sur son site, où elle « promeut la mutualisation des savoirs. Des sciences fondamentales aux sciences humaines, elle crée des éco-systèmes trans-disciplinaires au service de l’innovation, qui accélèrent le passage de la connaissance aux applications ».

Cela dit, l'appropriation effective des ressources numériques implique un bouleversement profond. La NSF parle à ce propos de changement de paradigme[4] En effet, depuis l'invention des bibliothèques sous l'Antiquité, les relations avec les documents sont indépendantes des disciplines. Par exemple, en première approximation, une action telle que «transporter ou dupliquer un document» est identique quel que soit le sujet traité. Ceci est encore vrai pour les formats numériques en PDF. Avec l'accès au contenu, les documents se différencient de multiples manières en fonction de leur thématique, de leur vocabulaire mais également de leur format. De la même façon, les traitements deviennent spécifiques à chaque type de besoin. Il faut donc maintenant maitriser « l'infodiversité ».

Cette acquisition massive va ainsi bouleverser en profondeur la relation des acteurs de la recherche avec l'IST. Le fait de pouvoir exploiter directement les données de la recherche sans passer par les « filtres » classiques peut ouvrir des voies de recherche inexplorées jusqu'ici, du moins pour les chercheurs qui feront la démarche d'apprendre à manipuler de nouveaux outils. Les enseignants vont pouvoir interpeler les étudiants sur le rôle stratégique de l'information numérique, mais là encore, à condition de se former en conséquence.

Autrement dit, un dispositif d'accompagnement à la hauteur des investissements apparait comme indispensable. Dans une bibliothèque classique, un chercheur qui accède à un article, sous forme numérique ou traditionnelle, peut le lire immédiatement. Il n'a pas besoin d'être accompagné. Dans une bibliothèque de corpus, un chercheur peut décharger des dizaines de milliers de documents en texte intégral. Que peut-il en faire sans outils et formation spécifique ? Les médiateurs de l'information, bibliothécaires ou documentalistes les assistent dans les procédures de recherche de documents ou d'informations ponctuelles. Le projet ISTEX doit être l'occasion de les faire progresser en profondeur sur l'accompagnement des chercheurs dans l'exploration des connaissances contenues dans les gisements de corpus. La mission Ticri propose une action d'interpellation sur ces enjeux, pour sensibiliser les acteurs à l'intérêt de ces ressources, assurer un premier niveau de formation et évaluer plus précisément les besoins nécessaires à l'appropriation du projet ISTEX.

Partir des besoins pour expérimenter l'ensemble de la chaîne numérique

Le traitement avancé des contenus scientifiques est très fortement intégré aux pratiques de recherche. Pour une analyse fine des besoins, nous proposons donc de prendre en compte l'ensemble des activités numériques de la recherche, et pas seulement la seule activité d'exploitation de corpus. De même, nous proposons d'opérer dans un paysage informationnel plus vaste que celui d'ISTEX (notamment dans une perspective de coopération internationale ou de transfert de technologie). Pour cela nous disposons d'une solution initiale encore limitée mais que nous avons déjà mise en œuvre. Elle permet de mener des expérimentations sur l'ensemble du processus informationnel de la recherche.

Pour simplifier la gestion de l'infodiversité, nous distinguerons deux types principaux d'applications :

  • les applications transversales, communes aux communautés scientifiques, comme par exemple la veille ou l'aide au pilotage. On y utilise principalement les métadonnées ou des parties fortement structurées telles que la bibliographie. Notre projet vise aussi à proposer des outils ou pratiques génériques, appliqués aux collections hétérogènes.
  • les applications verticales, ou thématiques, ou thématiques, propres à une pratique scientifique. Il convient ici de distinguer deux catégories : celles qui relèvent de communautés internationales qui bénéficient d'une forte expérience dans les pratiques numériques (telles que la génomique), et les autres, celles qui ne sont pas encore autonomes et que nous considèrerons en priorité.

Nous considèrerons également deux autres types d'expérimentations :

  • les applications pédagogiques, en visant notamment la sensibilisation des étudiants en master 2 aux traitements de l'information numérique scientifique.
  • la culture scientifique et technique (CST). Cette activité, au cœur des ambitions de l'Université, est une passerelle entre les applications transversales et thématiques, avec comme particularité la production d'une information compréhensible par un large public. Elle nous parait fondamentale dans une stratégie d'appropriation d'ISTEX par les professionnels de l'information car elle leur permet de s'impliquer totalement dans les pratiques numériques en coopération étroite avec les chercheurs.

Nous proposons donc un programme d'expérimentations en trois phases avec comme priorités successives : les applications transversales, la culture scientifique et technique, et enfin, les applications scientifiques ou techniques spécialisées.

Annexe 1 - Éléments scientifiques et techniques

Cette annexe décrit le programme d'expérimentation que nous proposons dans le contexte ISTEX. Elle présente la plateforme technique sur laquelle nous comptons nous appuyer et la démarche que nous pensons déployer.

Une remarque préalable s'impose à ce niveau. La plateforme est une intégration d'outils ou de solutions pour lesquelles nous sommes très attentifs aux contraintes d'interopérabilité. Elle sera utilisée comme un outil de démonstration, formation ou maquettage, qui ne préjuge pas des choix qui seront faits par les équipes visitées. Cependant, une retombée espérée dans ce programme est de pouvoir disposer d'une solution technique capable de résoudre des problèmes courants.

Les applications visées par notre proposition

Parmi la grande variété des applications qui relèvent des traitements de corpus, nous visons comme exemple médian, dans la culture scientifique et technique, la réalisation de dossiers de volume conséquent. En effet, cette démarche demande une activité exploratoire significative qui relève pleinement de l'utilisation de corpus pour permettre à un rédacteur de découvrir des informations qu'il ne connaît pas a priori.

Ces dossiers de synthèses font également appel à une large panoplie de traitements plus courants en matière éditoriale de recherche d'information. Autrement dit la technicité acquise sur la culture scientifique et technique sera applicable à une large gamme de problèmes plus courants.

La limite de la plateforme se situe au niveau des applications thématiques dès qu'il s'agira de traiter des données proprement dites, et surtout si elles s'avèrent spécifiques d'un domaine donné. En revanche l'ingénierie Xml mise en œuvre dans la plateforme pourra s'avérer utile dans l'élaboration de solutions finalisées.

Accompagnement, mini-projet, appropriation

Nos expériences montrent qu'il faut environ six mois de pratique pour devenir réellement autonome sur les applications impliquant des manipulations et analyses de corpus. En effet, celles-ci demandent de maitriser une palette d'outils et de développer des connaissances très diversifiées (informatique, statistique, bibliothéconomie, normalisation, terminologie, etc.). Ce phénomène est amplifié par la grande variété des applications potentielles des corpus. Il en résulte quelques difficultés pour élaborer des programmes de formation très généraux.

C'est pourquoi, nous pensons qu'il est nécessaire de mettre en place des procédures d'accompagnement dans lesquelles des experts de l'information (ou infomédiaires) assistent les personnes ou équipes qui ont des besoins informationnels.

Les organismes de recherche travaillent souvent avec des contraintes temporelles très fortes qui exigent une très grande réactivité dans les recherches d'information. Une première connaissance mutuelle entre un chercheur et un accompagnateur est donc indispensable pour agir efficacement en temps réel.

C'est pourquoi, nous proposons de réaliser un ensemble de mini-projets visant à résoudre un noyau de besoins préliminaires : sensibilisation, expérimentation sur des besoins formulés par les utilisateurs, identification des besoins récurrents pour lesquels ils peuvent devenir autonomes. Un tel projet peut se dérouler sur quelques mois avec une implication limitée des équipes utilisatrices (quelques journées ou demi-journées) et un travail plus conséquent de l'accompagnateur (environ un mois).

Un atelier flexible sur l'ensemble du paysage numérique

En prenant comme exemple la culture scientifique et technique, l'élaboration d'un dossier de synthèse par un groupe de travail demande un assemblage de différentes solutions techniques :

  • des outils de construction collective de textes scientifiques, c'est à dire capable de traiter des objets complexes, formules mathématiques, graphiques en mode vectoriel, intégration de simulation ou d'animation (par exemple sur des molécules complexes en 3 dimensions).
  • des mécanismes de structuration formelle des connaissances dès que la taille du dossier devient consistante ou que l'on souhaite intégrer ces dossiers dans en ensemble plus vaste de navigation (accès unifié à une collection thématique). Ces mécanismes relèvent d'une part des outils d'indexation et d'autre part des approches sémantiques.
  • des outils d'analyse de corpus de connaissances pour découvrir la globalité des approches à présenter. Il s'agit ici de combiner des outils de recherche d'information avec des outils d'exploration (statistiques, classification) ou de visualisation cartographique des connaissances dans un contexte de très forte hétérogénéité.

La variété des situations que nous prévoyons de rencontrer demande une très grande flexibilité des solutions retenues. C'est pourquoi nous avons retenu l'appellation « d'atelier flexible ». Dans l'état de nos réflexions, nous prévoyons de démarrer avec une solution initiale « clé en main » mais qui sera généralement profondément modifiée dans une stratégie itérative d'appropriation.

Une solution initiale

En pratique, nous nous appuyons sur 3 ensembles de solutions technologiques correspondant aux trois axes du paragraphe précédent :

  • Pour les besoins éditoriaux, nous utilisons le moteur MediaWiki, souche de Wikipédia et d'un très grand nombre de wikis scientifiques dans le monde. Plus précisément, le réseau Wicri, qui croise une collection de wikis thématiques et régionaux, permet de traiter tout problème informationnel dans un contexte préexistant (ou relativement facile à créer).
  • Sur les aspects sémantiques, nous utilisons actuellement l'extension Semantic MediaWiki développée par l'Université de Karlsruhe. Dans le cadre du projet LorExplor, nous serons probablement amenés à faire quelques développements annexes pour intégrer des ontologies existantes (généralisation d'EuroVoc ou introduction de l'UMLS).
  • Pour les aspects directement liés à l'utilisation de corpus, nous partons de la bibliothèque Dilib qui avait été initialement développée au Loria, puis étendue à l'INIST.

Cet ensemble nous permet d'installer très rapidement (1/2 heures dans les cas simples) un environnement permettant d'explorer et de consolider (dans les wikis sémantiques) les résultats obtenus par les recherches dans les corpus.


WicriIstex.png

Ces étapes successives utilisent différents types d'outils en fonction de la nature des données à homogénéiser. Par exemple, dans nos premières expérimentations, les noms ou codes de pays d'affiliations sont traités dans le passage entre la base Corpus et la base Curation, et les régions dans l'étape suivante (avec des algorithmes particuliers pour les pays concernés).

L'homogénéisation est réalisée avec une priorité permanente vis à vis des contraintes d'interopérabilité. La souche de base est naturellement Xml. La recommandation TEI (Text Encoding Initiative) est retenue comme schéma de convergence. Nous avons évoqué l'usage d'EuroVoc ou de l'UMLS pour les ontologies. Nous sommes également attentif à un alignement possible avec Wikipédia, et ainsi avec des travaux du Web Sémantique.

Nous prévoyons d'utiliser les wikis pour la curation de données, notamment pour gérer les règles associées ou pour gérer des données (ou ontologies) de convergence. Les options d'interopérabilité retenues permettent de substituer n'importe quel élément et ainsi de faire évoluer les applications. Par exemple, l'option TEI ouvre la porte à l'usage d'outils sophistiqués du traitement automatique des langues.

Un protocole à affiner

Pour un mini-projet de sensibilisation, d'expérimentation et de définition de besoin, on peut ainsi imaginer, avec une équipe de recherche, une coopération avec les étapes suivantes :

  1. Préparation par un accompagnateur d'une application, construite à partir de corpus de première approche (bases bibliographique) sur la thématique du laboratoire. On peut ainsi montrer quelques pages sur les relations du laboratoire (transversal) avec un exemple de rendu « Communication scientifique et technique » sur un sujet très limité.
  2. Organisation d'une séance de sensibilisation (et de première formation) sur la base de cette application. Cette étape permet notamment de faire exprimer un premier ensemble de questions (essentiellement de type transversal dans un premier temps). Par exemple, on peut s'attendre à des demandes telles que : « je recherche des partenaires pour répondre à un projet européen ».
  3. À partir de quelques besoins identifiés comme « assez faciles à résoudre » on construit un ensemble d'actions de sensibilisation qui permettent aux chercheurs de mieux comprendre les outils mis en œuvre dans les traitements de corpus. Par exemple, par rapport à la recherche de partenaires, on peut montrer comment repérer, dans un ensemble de publications, des participations à des projets européens, en filtrant les paragraphes de remerciements ou les premières notes de bas de page.
  4. On peut alors passer à un montage analogue sur des questions thématiques.

Chaque opération de ce type permet de sensibiliser une équipe de lui apporter un premier ensemble de réponses et de collecter des besoins. Nous comptons également profiter de chacune de ces opérations pour enrichir le démonstrateur en données de curation et pour améliorer la boîte à outils.

Pour chacune de ces opérations nous pouvons associer des spécialistes de l'information, documentalistes ou bibliothécaires, dans une perspective de formation d'accompagnateurs.

Enfin, en fonction des problèmes observés, on peut également associer des chercheurs sur les outils ou pratiques.

Annexe 2 - Programme prévisionnel des travaux

La démarche adoptée dans cette proposition est basée sur des cycles relativement courts (dans un environnement de mini-projets) où les besoins des partenaires pourront être mal définis au départ. Les phases décrites dans ce programme doivent être comprises comme trois niveaux de priorité.

Nous proposons donc de faire évoluer les outils et d'analyser trois types de besoins vers trois types d'application de technicité croissante :

  • la veille et le pilotage où il s'agit d'abord d'identifier les acteurs d'un système de recherche ou d'innovation et leurs résultats (CRIS) ;
  • la culture scientifique et technique ;
  • l'analyse des besoins thématiques en liaison forte avec les données de la recherche.

Ceci se traduit par un programme en 3 phases :

Janvier à juin 2013
  • Des premières expérimentations en situation réelle vont être orientées en priorité sur des besoins d'exploration de systèmes de recherche. Dans ce cas, les stratégies démarrent généralement par un débroussaillage sur des bases de métadonnées complétées par un affinage sur texte intégral basé sur du filtrage.
  • En attendant les premières disponibilités de corpus ISTEX, préfiguration de la plateforme à partir de données disponibles dans le domaine public ou dans les ressources du CNRS.
  • Cette étape vise également à mettre au point le démonstrateur initial et le protocole à déployer.
Juin 2013 à juin 2014
  • Évolution de la plateforme pour qu'elle puisse aborder des applications de culture scientifique et technique. Cela implique une utilisation conséquente des articles en texte intégral.
  • Déploiement d'actions de protocoles de sensibilisation/expérimentation, au départ sur des problématiques institutionnelles puis en introduisant des aspects thématiques,
  • Adaptation du protocole à des actions de formation (une première expérimentation avec le master IE a mis en évidence le besoin d'une application d'entrainement, avant le passage sur des données réelles).
  • Coopérations avec des équipes de recherche en informatique pour améliorer les procédés de curation ou d'exploration.
Juin 2014 à juin 2015
  • Déploiement de sensibilisations/explorations thématiques,
  • Amélioration de la plateforme pour qu'elle puisse être installée dans les laboratoires,
  • Implication d'équipes de recherche en traitement automatique des langues, cognition, psychologie ou sociologie de l'innovation.

Annexe 3 - Premiers éléments d'évaluation des moyens

Le projet ISTEX proprement dit est un programme d'infrastructure dont le budget ne comprend pas les moyens d'accompagnement qui devront être mis en œuvre par ailleurs.

Comme nous l'avons explicité plus haut, une difficulté soulevée par ISTEX est la nécessité d'une politique d'accompagnement. Concernant les moyens associés à déployer au niveau d'une région comme la Lorraine, les chiffres sont conséquents : 82 laboratoires, plus de 6500 enseignants, chercheurs, et personnels techniques ou administratifs.

L'aide que nous demandons ne concerne donc que les moyens à mettre en œuvre pour l'amélioration technique de la plateforme d'expérimentation. Nous prévoyons notamment d'intégrer de nombreux petits outils qui vont permettre de mieux traiter des collections identifiées.

Concernant l'accompagnement opérationnel nous ne donnons ici que quelques premiers éléments d'analyse qui devront être affiné dans le projet LorExplor.

Sur une période de trois à cinq années, quelques centaines d'actions de sensibilisations telles que les mini-projets devront être déployées pour une appropriation généralisée. Cela implique un réseau d'accompagnateurs, notamment dans les disciplines phares (pôles scientifiques) de l'Université de Lorraine. En première approximation, un mini-projet mobilise un mois d'accompagnateur. Un accompagnateur débutant doit travailler en doublon avec un infomédiaire confirmé pendant quelques mois.

Pour une université de la taille de celle de la Lorraine, on peut donc estimer la taille d'une équipe de soutien sur les connaissances et contenus numériques et couvrant l'ensemble des besoins dans une fourchette de 6 à 15 personnes, autrement dit, du même ordre de grandeur que le nombre de pôles scientifiques.

Notes

  1. Le noyau de rédacteurs est composé de : Jacques Ducloy, Thierry Daunois, Audrey Knauf, Jean-Charles Lamirel et Frédérique Péguiron. Il a bénéficié des conseils de Francis André, de Jean-Louis Morel et de Jean-Pierre Thomesse (et également de ceux de Jean-Marie Pierrel, notamment pour son éclairage sur les enjeux d'ISTEX).
  2. L'équipe Ticri (Technologies de l'Information Communication pour les Communautés de la Recherche et de l'Innovation) a été initiée par la DRRT Lorraine puis reprise par l'Université de Lorraine.
  3. Cette plateforme est décrite dans l'annexe 1
  4. Jim Gray, Alex Szalay, eScience: The Next Decade Will Be Exciting, Talk@ETH, Zurich 29 May 2006

Voir aussi

Sur ce wiki
Sur le wiki privé
Dans le réseau Wicri :

La page de référence « LorExplor » est sur le wiki Wicri/Lorraine.

Outils personnels
Ateliers INSI