Journées d’études sur les humanités numériques

En octobre dernier, j’ai assisté à deux journées d’études sur la mise en œuvre des Humanités Numériques (ou Digital Humanities), terme souvent employé mais dont il est parfois difficile de comprendre ce qu’il recouvre exactement. Ce billet mettra l’accent sur quelques interventions stimulantes qui permettent de mieux appréhender cette notion.

1

DIGIT-HUM

Le 17 octobre 2019, avait lieu à Paris (ENS) la 5ème édition des ateliers DIGIT-HUM. La tenue de ces ateliers part du constat que « la recherche en humanités et sciences sociales est de plus en plus liée aux techniques du numérique et aux problématiques de diffusion des données » et qu’il existe un « besoin d’échanger sur les différents usages (…) et de structurer ces nouvelles pratiques ». L’édition 2019 portait sur « les humanités numériques en langues », et notamment sur les outils de transcription et de traduction automatiques et collaboratives. Parmi les outils présentés, j’en ai retenu deux : TACT et TRANSKRIBUS.

Ouverte en 2019, la plateforme TACT (Transcription et Annotation de Corpus Textuels) a été financée dans le cadre de l’Idex Grenoble. Elle permet à tout un chacun de transcrire des corpus de textes qui ont été numérisés dans le cadre de projets de recherche. On a le choix des corpus : conférences de Benoîte Groult, brouillons du quatrième roman de Jean-Philippe Toussaint, périodiques tahitiens des 19e et 20e siècles etc. La transcription consiste à « recopier ce que l’on voit » mais aussi à structurer le texte en y repérant des éléments (titre, ajouts, ratures, abréviations etc.) qu’on va signaler par l’ajout de balises. La dernière étape consiste à caractériser plus finement les éléments repérés (comme les noms de personne, les date, les lieux etc.). Ergonomique, la plateforme a été conçue pour rendre les utilisateurs autonomes, sans accompagnement préalable. Elle inclut un guide de prise en main rapide, une prévisualisation de sa contribution, et l’envoi pour relecture. Plus d’infos : https://tact.demarre-shs.fr/

Développée depuis 2015 à l’université d’Innsbruck, TRANSKRIBUS est un logiciel de transcription assistée et automatisée de textes et de documents manuscrits, financée dans le cadre d’un projet H2020. Il permet la reconnaissance de l’écriture manuscrite tout alphabet confondu et des structures de mise en page. La reconnaissance du texte du document numérisé se fait ligne par ligne, et non par caractères. On doit d’abord transcrire manuellement une centaine de pages, afin de permettre d’entraîner un modèle de transcription. Le logiciel va alors reconnaître automatiquement le texte des pages suivantes et en proposer une transcription ligne à ligne. Un retour d’expérience a été présenté par Régis Schlagdenhauffen, chercheur à l’EHESS, qui l’a utilisé pour transcrire le journal intime du juriste Eugène Wilhelm (1866-1951) et qui a traduit en français un guide de prise en main. C’est un outil complexe, mais qui facilite le travail de transcription au moyen des techniques de reconnaissance optique de caractères (OCR) et de reconnaissance d’écriture humaine (HTR). Plus d’infos : https://transkribus.eu/

Lien vers les vidéos de l’atelier DIGIT-HUM : https://digithum.huma-num.fr/atelier/2019/

DHNord2019

La 2ème journée avait lieu à Lille dans le cadre du colloque DHNord2019, sur le thème « Corpus et archives numériques ».  DHNord (pour Digital Humanities) est organisé depuis 2014 par la MESHS (Maison Européenne des Sciences de l’Homme et de la Société).

J’ai assisté aux présentations du 3ème jour et en particulier à celle de Johanna Daniel, doctorante en histoire à l’université de Lyon 2, qui me semble un bon cas d’école d’apprentissage des humanités numériques.

2

L’intervention portait sur la constitution d’un corpus d’images, en l’occurrence des vues d’optiques, collectées à partir des catalogues des institutions de provenance (musées et bibliothèques). Comme elle envisage de constituer ce corpus sous forme de base de données, pour en faire une annexe numérique de sa thèse, la collecte devait passer par l’utilisation d’API pour interroger chaque base. Johanna Daniel a exposé les difficultés rencontrées dans la récupération automatique de ces données : disparité des métadonnées fournies, complexité des requêtes, export incomplet des métadonnées (voire parfois impossible par lot) et difficulté à manipuler les formats des fichiers exportés. L’hétérogénéité des données ainsi obtenues a nécessité de retraiter les lots de chaque institution avant de pouvoir les intégrer à la base de données dans le cadre de la thèse. L’ultime étape est de pouvoir, en retour, enrichir les catalogues du fruit de son travail, ce qui, en pratique, semble loin d’être évident. En conclusion, Johanna Daniel a plaidé pour que les choix de catalogage soient davantage explicités, ce qui faciliterait l’utilisation des bases par les chercheurs. Je renvoie à son carnet de recherche et notamment à la série de billets sur la construction de son corpus : https://ig.hypotheses.org/author/jdaniel

Lien vers les dessins et les vidéos du colloque DHNord2019 : https://www.meshs.fr/page/dhnord2019_les_dessins_du_colloque

Cécile Malleret

Les dessins ont été réalisés par Adèle Huguet dans le cadre du colloque DHNord organisé par la MESHS en octobre 2019

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s