Plateforme professionnelle · Thot by DEEP-5

Lisa

Analyse automatique de documents patrimoniaux
par intelligence artificielle

Pipeline hybride combinant un traitement modulaire de pointe et un modèle de vision-langage de 72 milliards de paramètres, adossé à une base de connaissances muséale de 454 000+ œuvres et 40 000+ codes de classification iconographique.

454k
Œuvres indexées
40k
Codes Iconclass
72B
Paramètres VLM
14ms
Par page (layout)

Les archives parlent
à qui sait les interroger

Chaque document traverse deux chemins d'analyse complémentaires. Leurs résultats sont confrontés pour garantir la fiabilité.

Première lecture — analyse par étapes spécialisées

Des modèles d'IA spécialisés se relaient, chacun expert dans sa tâche. Cette approche offre une granularité fine et des métadonnées riches.

Comprendre la structure
Réseau de neurones convolutif
Le modèle identifie la mise en page du document en 14 millisecondes : où sont les titres, le corps de texte, les illustrations, les marges. Il distingue dix types de zones différentes avec 92% de précision.
Lire le texte
OCR + reconnaissance manuscrite
Deux moteurs complémentaires : un OCR multilingue couvrant 109 langues (classé n°1 mondial sur les benchmarks), et un modèle spécialisé pour les écritures manuscrites historiques, entraînable avec seulement 200 lignes annotées.
Extraire les informations
Intelligence zero-shot
Un modèle capable de détecter n'importe quel type d'information — personnes, lieux, dates, professions — sans avoir été entraîné spécifiquement. On décrit ce qu'on cherche en langage naturel, et il le trouve.
Identifier l'œuvre
Croisement multimodal
Les résultats sont croisés avec notre base de 454 000 œuvres et 40 675 codes Iconclass — par le texte, par l'image, et par la classification iconographique — pour identifier ou rapprocher le document.

Seconde lecture — compréhension globale

Simultanément, un modèle de vision-langage de 72 milliards de paramètres regarde la page entière et la comprend comme le ferait un être humain.

Ce modèle, parmi les plus puissants au monde, voit l'image et génère du texte. Il ne segmente pas, ne découpe pas, ne traite pas par étapes — il lit la page comme un paléographe expérimenté, d'un seul regard. Il transcrit le texte, identifie la scène représentée, reconnaît les personnes et les lieux, et peut produire une fiche structurée complète en quelques secondes.

Sa force : il ne cumule pas les erreurs intermédiaires. Sa compréhension du contexte global lui permet de résoudre des ambiguïtés que l'analyse par étapes ne peut pas lever.

La confrontation — fiabilité par consensus

Les deux lectures sont comparées. Quand elles concordent, la confiance est maximale. Quand elles divergent, le document est signalé pour vérification humaine. Cette approche duale est unique — aucune autre solution ne combine la précision d'un pipeline spécialisé avec la compréhension d'un modèle de vision-langage de cette envergure.

Les plus grandes collections
du monde, réunies

Lisa s'appuie sur une base de connaissances construite à partir des données ouvertes des plus grands musées et du système de classification iconographique international.

Metropolitan Museum of Art
Collection encyclopédique couvrant 5 000 ans d'art. Chaque œuvre inclut artiste, datation, matériaux, provenance et iconographie.
451 664
œuvres
Musée du Louvre
Le plus grand musée du monde. Peintures, sculptures, objets d'art, antiquités. Enrichissement continu à partir des collections ouvertes.
2 496
œuvres (objectif 500k)
Iconclass
Système international de classification des sujets représentés dans l'art. Hiérarchie complète, bilingue français-anglais.
40 675
codes avec mots-clés

Ce que Lisa permet

Transcription automatique
OCR et reconnaissance d'écritures manuscrites, du XVIe siècle à nos jours. 109 langues supportées, fine-tuning possible avec 200 lignes annotées.
Identification d'œuvres
Croisement multimodal (visuel + textuel + iconographique) avec 454 000+ fiches muséales. Classification Iconclass automatique.
Extraction d'entités
Personnes, lieux, dates, professions, organisations — détection zero-shot, sans entraînement préalable pour chaque nouveau type.
Recherche sémantique
Recherche par le sens, pas seulement par les mots. Trouver des documents sur « les baptêmes » même si le texte dit « naissance ».
Analyse visuelle
Description automatique de photographies, peintures et illustrations. Identification de style, technique, composition et iconographie.
Extraction structurée
Transformation de documents en données structurées (JSON, XML). Actes d'état civil, fiches d'inventaire, registres paroissiaux.
Pour qui

Lisa s'adresse aux professionnels
du patrimoine culturel

Musees et centres d'art

Enrichissement automatique de catalogues, identification d'oeuvres, recherche par similarite visuelle dans les collections.

Archives nationales et departementales

Transcription de registres paroissiaux, d'actes notaries et de correspondances. Indexation semantique de fonds entiers.

Bibliotheques et mediatheques

Transcription automatisee de manuscrits anciens par OCR avance, enrichissement de metadonnees, recherche plein texte sur les fonds numerises.

Laboratoires de recherche

Humanites numeriques, etudes iconographiques computationnelles, analyse de corpus a grande echelle.

Prêt à explorer Lisa ?

Accédez à la plateforme pour naviguer 454 000+ œuvres, identifier des documents et explorer la classification Iconclass.

Accéder à Lisa Demander une démonstration