SlideShare una empresa de Scribd logo
1 de 59
Descargar para leer sin conexión
Les Bibliotheques virtuelles humanistes
et l’étude des matériels typographiques
Rémi Jimenes (CESR), Thierry Brouard (LIFAT),
Jean-Yves Ramel (LIFAT)
Assemblée générale 2022
CESR, Tours
le 25/11/2022
Souvenirs, souvenirs...
Etat des lieux en 2008
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères) par J.-Y. Ramel
● Mise en place d’une « base iconographique » par Sébastien Busson
● Base de lettrines (« Ornamental letters database ») par Sébastien
Busson
● Deux ANR sur le traitement d’images de documents :
○ Madonne (« Masses de données issues de la numérisation du
Patrimoine », 2003-2006)
○ Navidomass (« Navigation into document masses », 2007-2010).
Développements (2008 -2014)
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères)
● Google Award in Digital Humanities , 2011 et 2012
● 2013 : Mise en place de BaTyR :
« Base de typographie de la Renaissance »
http://www.bvh.univ-tours.fr/batyr/beta/
Développements (2008 -2014)
● Développement d’Agora (analyse de mise en page) et de
Rétro (clustering de caractères)
● Google Award in Digital Humanities , 2011 et 2012
● 2013 : Mise en place de BaTyR :
« Base de typographie de la Renaissance »
● 2013-2014 : refonte d’AGORA (Pascal Bourquin)
● 2014 : prix « Succeed »
Depuis 2014
■ Aucune mise à jour de BaTyR
■ Une collaboration ininterrompue avec le LIFAT :
● 2017 : stage « Recalage et comparaison d’images de pages provenant de
différents exemplaires de livres anciens numérisés » (Shuo Bai ; outil « Micro
Eye »)
● 2018 : stage « Caractérisation et classification de différences locales
détectées dans des collections d’images similaires » (Iandri Rakotoniaina)
● 2020 : mémoire d’informatique sur Rétro (Guillaume Ciret)
● 2022 : stages sur Rétro (Justine Pinsard, Inès Feugier)
ANR TypoReF
« Typographie de la Renaissance française »
● Projet déposé en octobre 2021 (phase 1) et mars 2022 (phase 2).
● Financement obtenu en juillet 2022 : 266 793 €
● Calendrier prévisionnel : mars 2023-mars 2027 (48 mois)
● Étudier les principaux acteurs impliqués dans l’évolution des formes
typographiques
● Mieux connaître les conditions concrètes de production, de vente et
de circulation des matériels typographiques
● Développer des outils informatiques d’analyse d’images dédiés à
l’étude des matériels d’imprimerie anciens,
● Refonte et reprise de BaTyR (objectifs : 20 000 à 30 000
occurrences d’ornements gravés et 200 à 300 polices de caractères)
ANR TypoReF
« Typographie de la Renaissance française »
Objectifs
● Matériels ornementaux gravés (illustrations exclues !) :
○ lettres ornées
○ bandeaux,
○ encadrements,
○ fleurons,
○ culs-de-lampes, etc.
● Polices de caractères
→ imprimés dans le royaume de France entre 1470 et 1640
ANR TypoReF
« Typographie de la Renaissance française »
Objets
Trois types de sources :
1. Les livres imprimés anciens ( BaTyR)
(à travers des fac-similés numériques accessibles via le protocole IIIF)
1. Les livres imprimés anciens
(par la consultation des originaux)
Trois types de sources :
Paris, École Estienne, I 4438
Paris, École Estienne, I 4438
2. Les archives (ReNumAR)
Inventaire de Michel Le Duc, 21/07/1589
« Item quatre paires de tresteaux ou chevalet
servantz à mettre casses, dont trois paires sont
à chassis, garniz d’aiz par dessous et l’autre
paire telle quelle, prisez ensemble deux escuz sol. »
Trois types de sources :
2. Les archives (ReNumAR)
A esté trouvé en l’imprimerie
une fonte de cicero romain estant dans un manequin
cent soixante quatre livres pesant
Item une fonte de petit texte romain estant
en un manequin poisé deux centz seize livres
Trois types de sources :
2. Les archives (ReNumAR)
Une layette en laquelle y a des vignettes
in seize moulees sur plomb de cuivre avec leur
blocquage le tout prise ensemble vingtz
et cinq livres
Inventaire après-décès d’Agnès Suscevin, Paris, 1573
Trois types de sources :
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
3. Les matériels subsistants
(Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon)
Trois types de sources :
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
3. Les matériels subsistants
Une découverte de Christian Laucou à l’école Estienne
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
Trois types de sources :
Trois types de sources :
3. Les matériels subsistants
Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
Atelier « Fabriquer un livre au XVIe siècle », février 2022
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
2024 : la « Fac Tory » à Bourges !
Atelier « Fabriquer un livre au XVIe siècle », février 2021
2024 : la « Fac Tory » à Bourges !
TypoReF : demandez le programme !
Refonte de la
plateforme de
transcription (Agora,
Retro)
Thierry BROUARD, Jean-Yves RAMEL (LIFAT)
Agora & Retro
État des lieux
Agora et Retro version 2011…
● Retro exploite les sorties d’Agora :
○ Regroupement des EoC
similaires en cluster
○ Annotation des EoC et cluster
(transcription)
● Agora analyse un document présenté sous la forme d’une image et identifie les
éléments qui le constituent (EoC) : caractères, lignes, blocs, illustrations,
marges, titres, etc.
Agora version 2011
● Agora analyse un document présenté sous la
forme d’une image et identifie les éléments qui le
constituent : caractères, lignes, blocs, illustrations,
marges, titres, etc.
● Fonctionne d’après des règles définies par
l’utilisateur, sous la forme de scénarios
● Les règles utilisent des informations concernant
les formes détectées, leur position dans la page,
leur position relatives, leur taille…
Retro version 2011
Retro permet d’associer du texte aux
éléments isolés par Agora
Il rassemble des éléments sur la
base d’une similarité afin de les
traiter en lots.
Il permet certains traitements sur
chaque lot constitué, par exemple
l’extraction de polices de caractères
ou l’annotation, voire la
transcription.
Agora version 2011 :: les limites
● La binarisation des images pose parfois problème
EoC
Agora version 2011 :: les limites
● Les interfaces de création de scénario sont complexes à utiliser
Retro version 2011 :: les limites
Le clustering est une phase longue et très sensible :
● Pas suffisamment de clusters = erreurs à corriger
● Trop de clusters = plus d’interventions utilisateur
Retro n’a pas de métier identifié, il sert à beaucoup de choses
● Logiciel qui s’alourdit, se fragilise et se déprécie
Besoin d’évolution de l’ensemble
Logiciels datés :
● Pas d’utilisation des techniques « réseaux profonds »
● Interfaces utilisateurs à repenser
● Standard d’échange ALTO à mettre à jour
● Pas ouvert sur le web, notamment pour l’accès aux images
Agora & Retro
Évolution
Vers une nouvelle version d’Agora
● Remplacement de la binarisation par de nouvelles
méthodes de segmentation sémantique (Deep Learning)
○ Meilleure résistance au bruit, dégradations et
structures fluctuantes (EoC interconnectés)
○ Classes détectées : lignes et paragraphes, éléments
d’ornements, figures, annotations marginales et
manuscrites
Vers une nouvelle version d’Agora
● Refonte des interfaces de création des scénarios
○ Intégration dans la plateforme web unifiée avec Retro
○ Intégration de IIIF pour les images en entrée
Scenarios utilisateur exploitant
des règles de positionnement,
voisinage, forme
Modèles Neuronaux
prédéfinis
EoC de classes prédéfinis :
lignes, ornements, figures,
annotations, …
Eoc de classe Utilisateur
Résultats envoyés vers Retro
Images
Format IIIF
Images
d’apprentissage
IHM Web AGORA
Retro
Recentrage sur le cœur de métier : la transcription
Utilisation conjointe de deux mécanismes :
● L’ancien (non supervisé), avec un nouvel algorithme
● Une technique « profonde », supervisée, pour proposer une
transcription automatique
Retro apprend à transcrire en regardant l’utilisateur le faire, et
d’après l’expérience des ouvrages précédemment transcrits .
Retro apprend « en permanence » d’après les nouvelles
connaissances disponibles .
Agora & Retro :: le futur
Travaux réalisés ou en cours
● 2019/20 – Stage L3 Info (F. Castilla) – UXDesign
● 2020/21 – PRD Polytech 5A (G. Ciret) – Maquettage
● 2021/22 – Stage L3 Info (I. Feugier) – Dev. Appli W eb
● 2021/22 – Stage Polytech 4A (J. Pinsard) – Machine Learning
● 2022/23 – PRD Polytech 5A (T. Boisseau) – Deep-Agora
● 2022/23 – PRD Polytech 5A (J. Pinsard) – Machine Learning
● 2022/23 – Projet Master HN (A. Gauthier) – Alto, UXDesign, IA…
● 2022/23 – Projet L2 Info – Application d’analyse de lettrine
Exemples d’applications
dans TypoReF
Applications dans TypoReF (1)
Applications dans TypoReF (1)
Utilisation des lettrines de la base de connaissances de Retro
● Isolées par Agora
● Ou importées de BaTyR
Calcul de métadonnées d’après des algorithmes packagées sous
la forme de plug-ins
2022/23 – Projets de L2 Info (15 étudiants, 4 groupes)
Applications dans TypoReF (2)
Applications dans TypoReF (2)
Plateforme web, ouverte et
extensible
utilisant l’IA pour
accompagner l’utilisateur et
enrichir les données
Cette œuvre est mise à disposition selon les termes
de la Licence Creative Commons Attribution -
Partage dans les Mêmes Conditions 4.0
International.

Más contenido relacionado

Similar a Les BVH & l’étude des matériels d’imprimerie anciens

Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
 
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Tam Youcef
 
Projet d archivage
Projet d archivageProjet d archivage
Projet d archivageTam Youcef
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFEquipex Biblissima
 
L'évolution des catalogues
L'évolution des cataloguesL'évolution des catalogues
L'évolution des cataloguesMarc Maisonneuve
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...Aurélia Rostaing
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Equipex Biblissima
 
Éléments pour la mise en place d'un projet de numérisation
Éléments pour la mise en place d'un projet de numérisationÉléments pour la mise en place d'un projet de numérisation
Éléments pour la mise en place d'un projet de numérisationSylvain Machefert
 
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...ABES
 
Nouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueNouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueArchi Guelma
 
Nouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueNouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueArchi Guelma
 
Scénographie des controverses 2014, Sciences Po, Ecole de la Com
Scénographie des controverses 2014, Sciences Po, Ecole de la ComScénographie des controverses 2014, Sciences Po, Ecole de la Com
Scénographie des controverses 2014, Sciences Po, Ecole de la ComStéphane Rouilly
 
L'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceL'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceJulien Masanès
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...ABES
 
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceApplication Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceEquipex Biblissima
 

Similar a Les BVH & l’étude des matériels d’imprimerie anciens (20)

Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
 
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
Projets de numérisation adoptés par les Archives fédérales d'Allemagne et les...
 
Projet d archivage
Projet d archivageProjet d archivage
Projet d archivage
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
 
Plaquette InVisu 2016
Plaquette InVisu 2016Plaquette InVisu 2016
Plaquette InVisu 2016
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
L'évolution des catalogues
L'évolution des cataloguesL'évolution des catalogues
L'évolution des catalogues
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
 
Assemblée générale 2018 du programme de recherche BVH : Projet Bibliothèques ...
Assemblée générale 2018 du programme de recherche BVH : Projet Bibliothèques ...Assemblée générale 2018 du programme de recherche BVH : Projet Bibliothèques ...
Assemblée générale 2018 du programme de recherche BVH : Projet Bibliothèques ...
 
Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)Biblissima (Rencontre Ménestrel 2013)
Biblissima (Rencontre Ménestrel 2013)
 
Éléments pour la mise en place d'un projet de numérisation
Éléments pour la mise en place d'un projet de numérisationÉléments pour la mise en place d'un projet de numérisation
Éléments pour la mise en place d'un projet de numérisation
 
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "Omeka ou ...
 
Nouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueNouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologique
 
Nouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologiqueNouvelles technologies patrimoine archeologique
Nouvelles technologies patrimoine archeologique
 
Scénographie des controverses 2014, Sciences Po, Ecole de la Com
Scénographie des controverses 2014, Sciences Po, Ecole de la ComScénographie des controverses 2014, Sciences Po, Ecole de la Com
Scénographie des controverses 2014, Sciences Po, Ecole de la Com
 
L'archivage du Web, présentation college de france
L'archivage du Web, présentation college de franceL'archivage du Web, présentation college de france
L'archivage du Web, présentation college de france
 
Cv
CvCv
Cv
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
 
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérienceApplication Web sémantique sur des manuscrits médiévaux - Retour d'expérience
Application Web sémantique sur des manuscrits médiévaux - Retour d'expérience
 

Más de Bibliothèques Virtuelles Humanistes - CESR, Université de Tours, UMR 7323

Más de Bibliothèques Virtuelles Humanistes - CESR, Université de Tours, UMR 7323 (20)

Montaigne : derniers développements sur les travaux éditoriaux
Montaigne : derniers développements sur les travaux éditoriauxMontaigne : derniers développements sur les travaux éditoriaux
Montaigne : derniers développements sur les travaux éditoriaux
 
Évolutions de l’infrastructure & de la bibliothèque numérique
Évolutions de l’infrastructure & de la bibliothèque numériqueÉvolutions de l’infrastructure & de la bibliothèque numérique
Évolutions de l’infrastructure & de la bibliothèque numérique
 
Les « Bibliotheques françoises » (BibFr) – Avancée de l’indexation de La Croi...
Les « Bibliotheques françoises » (BibFr) – Avancée de l’indexation de La Croi...Les « Bibliotheques françoises » (BibFr) – Avancée de l’indexation de La Croi...
Les « Bibliotheques françoises » (BibFr) – Avancée de l’indexation de La Croi...
 
Édition numérique et valorisation du livre de compte de la reine Marguerite d...
Édition numérique et valorisation du livre de compte de la reine Marguerite d...Édition numérique et valorisation du livre de compte de la reine Marguerite d...
Édition numérique et valorisation du livre de compte de la reine Marguerite d...
 
Catalogues régionaux des Incunables des bibliothèques publiques de France
Catalogues régionaux des Incunables des bibliothèques publiques de FranceCatalogues régionaux des Incunables des bibliothèques publiques de France
Catalogues régionaux des Incunables des bibliothèques publiques de France
 
Une nouvelle base de données, Scripta Manent : le “Facebook” des années 1530-...
Une nouvelle base de données, Scripta Manent : le “Facebook” des années 1530-...Une nouvelle base de données, Scripta Manent : le “Facebook” des années 1530-...
Une nouvelle base de données, Scripta Manent : le “Facebook” des années 1530-...
 
Bilan 2022 & perspectives du programme de recherche BVH
Bilan 2022 & perspectives du programme de recherche BVHBilan 2022 & perspectives du programme de recherche BVH
Bilan 2022 & perspectives du programme de recherche BVH
 
Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
Catalogues régionaux des Incunables des bibliothèques publiques de France : S...Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
 
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
 
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
 
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
 
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
 
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
 
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
 
Architecture de la bibliothèque numérique : Modélisation et migrations de don...
Architecture de la bibliothèque numérique : Modélisation et migrations de don...Architecture de la bibliothèque numérique : Modélisation et migrations de don...
Architecture de la bibliothèque numérique : Modélisation et migrations de don...
 
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
 
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
 
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
 
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
 
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis RobineauMise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
 

Les BVH & l’étude des matériels d’imprimerie anciens

  • 1. Les Bibliotheques virtuelles humanistes et l’étude des matériels typographiques Rémi Jimenes (CESR), Thierry Brouard (LIFAT), Jean-Yves Ramel (LIFAT) Assemblée générale 2022 CESR, Tours le 25/11/2022
  • 3.
  • 4. Etat des lieux en 2008 ● Développement d’Agora (analyse de mise en page) et de Rétro (clustering de caractères) par J.-Y. Ramel ● Mise en place d’une « base iconographique » par Sébastien Busson ● Base de lettrines (« Ornamental letters database ») par Sébastien Busson ● Deux ANR sur le traitement d’images de documents : ○ Madonne (« Masses de données issues de la numérisation du Patrimoine », 2003-2006) ○ Navidomass (« Navigation into document masses », 2007-2010).
  • 5. Développements (2008 -2014) ● Développement d’Agora (analyse de mise en page) et de Rétro (clustering de caractères) ● Google Award in Digital Humanities , 2011 et 2012 ● 2013 : Mise en place de BaTyR : « Base de typographie de la Renaissance » http://www.bvh.univ-tours.fr/batyr/beta/
  • 6.
  • 7. Développements (2008 -2014) ● Développement d’Agora (analyse de mise en page) et de Rétro (clustering de caractères) ● Google Award in Digital Humanities , 2011 et 2012 ● 2013 : Mise en place de BaTyR : « Base de typographie de la Renaissance » ● 2013-2014 : refonte d’AGORA (Pascal Bourquin) ● 2014 : prix « Succeed »
  • 8. Depuis 2014 ■ Aucune mise à jour de BaTyR ■ Une collaboration ininterrompue avec le LIFAT : ● 2017 : stage « Recalage et comparaison d’images de pages provenant de différents exemplaires de livres anciens numérisés » (Shuo Bai ; outil « Micro Eye ») ● 2018 : stage « Caractérisation et classification de différences locales détectées dans des collections d’images similaires » (Iandri Rakotoniaina) ● 2020 : mémoire d’informatique sur Rétro (Guillaume Ciret) ● 2022 : stages sur Rétro (Justine Pinsard, Inès Feugier)
  • 9. ANR TypoReF « Typographie de la Renaissance française » ● Projet déposé en octobre 2021 (phase 1) et mars 2022 (phase 2). ● Financement obtenu en juillet 2022 : 266 793 € ● Calendrier prévisionnel : mars 2023-mars 2027 (48 mois)
  • 10. ● Étudier les principaux acteurs impliqués dans l’évolution des formes typographiques ● Mieux connaître les conditions concrètes de production, de vente et de circulation des matériels typographiques ● Développer des outils informatiques d’analyse d’images dédiés à l’étude des matériels d’imprimerie anciens, ● Refonte et reprise de BaTyR (objectifs : 20 000 à 30 000 occurrences d’ornements gravés et 200 à 300 polices de caractères) ANR TypoReF « Typographie de la Renaissance française » Objectifs
  • 11. ● Matériels ornementaux gravés (illustrations exclues !) : ○ lettres ornées ○ bandeaux, ○ encadrements, ○ fleurons, ○ culs-de-lampes, etc. ● Polices de caractères → imprimés dans le royaume de France entre 1470 et 1640 ANR TypoReF « Typographie de la Renaissance française » Objets
  • 12. Trois types de sources : 1. Les livres imprimés anciens ( BaTyR) (à travers des fac-similés numériques accessibles via le protocole IIIF)
  • 13. 1. Les livres imprimés anciens (par la consultation des originaux) Trois types de sources :
  • 16. 2. Les archives (ReNumAR) Inventaire de Michel Le Duc, 21/07/1589 « Item quatre paires de tresteaux ou chevalet servantz à mettre casses, dont trois paires sont à chassis, garniz d’aiz par dessous et l’autre paire telle quelle, prisez ensemble deux escuz sol. » Trois types de sources :
  • 17. 2. Les archives (ReNumAR) A esté trouvé en l’imprimerie une fonte de cicero romain estant dans un manequin cent soixante quatre livres pesant Item une fonte de petit texte romain estant en un manequin poisé deux centz seize livres Trois types de sources :
  • 18. 2. Les archives (ReNumAR) Une layette en laquelle y a des vignettes in seize moulees sur plomb de cuivre avec leur blocquage le tout prise ensemble vingtz et cinq livres Inventaire après-décès d’Agnès Suscevin, Paris, 1573 Trois types de sources :
  • 19. 3. Les matériels subsistants (Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon) Trois types de sources :
  • 20. 3. Les matériels subsistants (Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon) Trois types de sources :
  • 21. 3. Les matériels subsistants (Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon) Trois types de sources :
  • 22. 3. Les matériels subsistants (Imprimerie nationale, Musée Plantin Moretus, Musée de l’imprimerie de Lyon) Trois types de sources :
  • 23. 3. Les matériels subsistants Une découverte de Christian Laucou à l’école Estienne Trois types de sources :
  • 24. 3. Les matériels subsistants Une découverte de Christian Laucou à l’école Estienne Trois types de sources :
  • 25. 3. Les matériels subsistants Une découverte de Christian Laucou à l’école Estienne Trois types de sources :
  • 26. 3. Les matériels subsistants Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé Trois types de sources :
  • 27. Trois types de sources : 3. Les matériels subsistants Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
  • 28. 3. Les matériels subsistants Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé Trois types de sources :
  • 29. 3. Les matériels subsistants Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé Trois types de sources :
  • 30. Trois types de sources : 3. Les matériels subsistants Une première sortie (juin 2022), avec Anna Baydova : Le Mans, Musée deTessé
  • 31.
  • 32. 2024 : la « Fac Tory » à Bourges ! Atelier « Fabriquer un livre au XVIe siècle », février 2021
  • 33. 2024 : la « Fac Tory » à Bourges ! Atelier « Fabriquer un livre au XVIe siècle », février 2021
  • 34. Atelier « Fabriquer un livre au XVIe siècle », février 2022 2024 : la « Fac Tory » à Bourges !
  • 35. Atelier « Fabriquer un livre au XVIe siècle », février 2021 2024 : la « Fac Tory » à Bourges !
  • 36. Atelier « Fabriquer un livre au XVIe siècle », février 2021 2024 : la « Fac Tory » à Bourges !
  • 37. TypoReF : demandez le programme !
  • 38. Refonte de la plateforme de transcription (Agora, Retro) Thierry BROUARD, Jean-Yves RAMEL (LIFAT)
  • 39. Agora & Retro État des lieux
  • 40. Agora et Retro version 2011… ● Retro exploite les sorties d’Agora : ○ Regroupement des EoC similaires en cluster ○ Annotation des EoC et cluster (transcription) ● Agora analyse un document présenté sous la forme d’une image et identifie les éléments qui le constituent (EoC) : caractères, lignes, blocs, illustrations, marges, titres, etc.
  • 41. Agora version 2011 ● Agora analyse un document présenté sous la forme d’une image et identifie les éléments qui le constituent : caractères, lignes, blocs, illustrations, marges, titres, etc. ● Fonctionne d’après des règles définies par l’utilisateur, sous la forme de scénarios ● Les règles utilisent des informations concernant les formes détectées, leur position dans la page, leur position relatives, leur taille…
  • 42. Retro version 2011 Retro permet d’associer du texte aux éléments isolés par Agora Il rassemble des éléments sur la base d’une similarité afin de les traiter en lots. Il permet certains traitements sur chaque lot constitué, par exemple l’extraction de polices de caractères ou l’annotation, voire la transcription.
  • 43. Agora version 2011 :: les limites ● La binarisation des images pose parfois problème EoC
  • 44. Agora version 2011 :: les limites ● Les interfaces de création de scénario sont complexes à utiliser
  • 45. Retro version 2011 :: les limites Le clustering est une phase longue et très sensible : ● Pas suffisamment de clusters = erreurs à corriger ● Trop de clusters = plus d’interventions utilisateur Retro n’a pas de métier identifié, il sert à beaucoup de choses ● Logiciel qui s’alourdit, se fragilise et se déprécie
  • 46. Besoin d’évolution de l’ensemble Logiciels datés : ● Pas d’utilisation des techniques « réseaux profonds » ● Interfaces utilisateurs à repenser ● Standard d’échange ALTO à mettre à jour ● Pas ouvert sur le web, notamment pour l’accès aux images
  • 48. Vers une nouvelle version d’Agora ● Remplacement de la binarisation par de nouvelles méthodes de segmentation sémantique (Deep Learning) ○ Meilleure résistance au bruit, dégradations et structures fluctuantes (EoC interconnectés) ○ Classes détectées : lignes et paragraphes, éléments d’ornements, figures, annotations marginales et manuscrites
  • 49. Vers une nouvelle version d’Agora ● Refonte des interfaces de création des scénarios ○ Intégration dans la plateforme web unifiée avec Retro ○ Intégration de IIIF pour les images en entrée Scenarios utilisateur exploitant des règles de positionnement, voisinage, forme Modèles Neuronaux prédéfinis EoC de classes prédéfinis : lignes, ornements, figures, annotations, … Eoc de classe Utilisateur Résultats envoyés vers Retro Images Format IIIF Images d’apprentissage IHM Web AGORA
  • 50. Retro Recentrage sur le cœur de métier : la transcription Utilisation conjointe de deux mécanismes : ● L’ancien (non supervisé), avec un nouvel algorithme ● Une technique « profonde », supervisée, pour proposer une transcription automatique Retro apprend à transcrire en regardant l’utilisateur le faire, et d’après l’expérience des ouvrages précédemment transcrits . Retro apprend « en permanence » d’après les nouvelles connaissances disponibles .
  • 51. Agora & Retro :: le futur
  • 52. Travaux réalisés ou en cours ● 2019/20 – Stage L3 Info (F. Castilla) – UXDesign ● 2020/21 – PRD Polytech 5A (G. Ciret) – Maquettage ● 2021/22 – Stage L3 Info (I. Feugier) – Dev. Appli W eb ● 2021/22 – Stage Polytech 4A (J. Pinsard) – Machine Learning ● 2022/23 – PRD Polytech 5A (T. Boisseau) – Deep-Agora ● 2022/23 – PRD Polytech 5A (J. Pinsard) – Machine Learning ● 2022/23 – Projet Master HN (A. Gauthier) – Alto, UXDesign, IA… ● 2022/23 – Projet L2 Info – Application d’analyse de lettrine
  • 55. Applications dans TypoReF (1) Utilisation des lettrines de la base de connaissances de Retro ● Isolées par Agora ● Ou importées de BaTyR Calcul de métadonnées d’après des algorithmes packagées sous la forme de plug-ins 2022/23 – Projets de L2 Info (15 étudiants, 4 groupes)
  • 58. Plateforme web, ouverte et extensible utilisant l’IA pour accompagner l’utilisateur et enrichir les données
  • 59. Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International.