Lisa

Comment ça fonctionne

Les archives parlent
à qui sait les interroger

Chaque document traverse deux chemins d'analyse complémentaires. Leurs résultats sont confrontés pour garantir la fiabilité.

Première lecture — analyse par étapes spécialisées

Des modèles d'IA spécialisés se relaient, chacun expert dans sa tâche. Cette approche offre une granularité fine et des métadonnées riches.

Comprendre la structure

Réseau de neurones convolutif

Le modèle identifie la mise en page du document en 14 millisecondes : où sont les titres, le corps de texte, les illustrations, les marges. Il distingue dix types de zones différentes avec 92% de précision.

Lire le texte

OCR + reconnaissance manuscrite

Deux moteurs complémentaires : un OCR multilingue couvrant 109 langues (classé n°1 mondial sur les benchmarks), et un modèle spécialisé pour les écritures manuscrites historiques, entraînable avec seulement 200 lignes annotées.

Extraire les informations

Intelligence zero-shot

Un modèle capable de détecter n'importe quel type d'information — personnes, lieux, dates, professions — sans avoir été entraîné spécifiquement. On décrit ce qu'on cherche en langage naturel, et il le trouve.

Identifier l'œuvre

Croisement multimodal

Les résultats sont croisés avec notre base de 454 000 œuvres et 40 675 codes Iconclass — par le texte, par l'image, et par la classification iconographique — pour identifier ou rapprocher le document.

Seconde lecture — compréhension globale

Simultanément, un modèle de vision-langage de 72 milliards de paramètres regarde la page entière et la comprend comme le ferait un être humain.

Ce modèle, parmi les plus puissants au monde, voit l'image et génère du texte. Il ne segmente pas, ne découpe pas, ne traite pas par étapes — il lit la page comme un paléographe expérimenté, d'un seul regard. Il transcrit le texte, identifie la scène représentée, reconnaît les personnes et les lieux, et peut produire une fiche structurée complète en quelques secondes.

Sa force : il ne cumule pas les erreurs intermédiaires. Sa compréhension du contexte global lui permet de résoudre des ambiguïtés que l'analyse par étapes ne peut pas lever.

La confrontation — fiabilité par consensus

Les deux lectures sont comparées. Quand elles concordent, la confiance est maximale. Quand elles divergent, le document est signalé pour vérification humaine. Cette approche duale est unique — aucune autre solution ne combine la précision d'un pipeline spécialisé avec la compréhension d'un modèle de vision-langage de cette envergure.

Base de connaissances

Les plus grandes collections
du monde, réunies

Lisa s'appuie sur une base de connaissances construite à partir des données ouvertes des plus grands musées et du système de classification iconographique international.

Metropolitan Museum of Art

Collection encyclopédique couvrant 5 000 ans d'art. Chaque œuvre inclut artiste, datation, matériaux, provenance et iconographie.

451 664

œuvres

Musée du Louvre

Le plus grand musée du monde. Peintures, sculptures, objets d'art, antiquités. Enrichissement continu à partir des collections ouvertes.

2 496

œuvres (objectif 500k)

Iconclass

Système international de classification des sujets représentés dans l'art. Hiérarchie complète, bilingue français-anglais.

40 675

codes avec mots-clés

Capacités

Ce que Lisa permet

Transcription automatique

OCR et reconnaissance d'écritures manuscrites, du XVIe siècle à nos jours. 109 langues supportées, fine-tuning possible avec 200 lignes annotées.

Identification d'œuvres

Croisement multimodal (visuel + textuel + iconographique) avec 454 000+ fiches muséales. Classification Iconclass automatique.

Extraction d'entités

Personnes, lieux, dates, professions, organisations — détection zero-shot, sans entraînement préalable pour chaque nouveau type.

Recherche sémantique

Recherche par le sens, pas seulement par les mots. Trouver des documents sur « les baptêmes » même si le texte dit « naissance ».

Analyse visuelle

Description automatique de photographies, peintures et illustrations. Identification de style, technique, composition et iconographie.

Extraction structurée

Transformation de documents en données structurées (JSON, XML). Actes d'état civil, fiches d'inventaire, registres paroissiaux.

Pour qui

Lisa s'adresse aux professionnels
du patrimoine culturel

Musees et centres d'art

Enrichissement automatique de catalogues, identification d'oeuvres, recherche par similarite visuelle dans les collections.

Archives nationales et departementales

Transcription de registres paroissiaux, d'actes notaries et de correspondances. Indexation semantique de fonds entiers.

Bibliotheques et mediatheques

Transcription automatisee de manuscrits anciens par OCR avance, enrichissement de metadonnees, recherche plein texte sur les fonds numerises.

Laboratoires de recherche

Humanites numeriques, etudes iconographiques computationnelles, analyse de corpus a grande echelle.

Les archives parlentà qui sait les interroger