Recherchez une offre d'emploi

Thèse Genmed IA Générative pour la Transformation Médicale H/F - 10

Description du poste

Doctorat.Gouv.Fr
Troyes - 10
CDD
Publié le 31 Mars 2026

Établissement : Université de technologie de Troyes
École doctorale : Sciences Pour l'Ingénieur
Laboratoire de recherche : Laboratoire Informatique et Société Numérique
Direction de la thèse : Farah CHEHADE ORCID 0000000250489372
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-22T23:59:59

Aujourd'hui, l'organisation des soins et le suivi des patients reposent de plus en plus sur le numérique, avec la surveillance des données stratégiques, la mesure d'électrocardiogrammes, l'imagerie médicale, le stockage des résultats d'analyses, et même le traitement des notes écrites par les médecins. Ce contexte a considérablement évolué vers la nécessité de prise de décision intelligente grâce au développement d'outils d'intelligence artificielle et notamment des modèles d'apprentissage profond. Une propriété commune à la plupart de ces modèles est la nécessité de disposer d'un vaste ensemble de données pour l'entraînement et la validation. La préparation d'un tel jeu de données, intégrant un nombre suffisant d'échantillons représentatifs des différentes classes, peut parfois poser problème. Cette difficulté est particulièrement marquée dans le domaine médical, où la confidentialité des données des patients exige une attention toute particulière et où certains champs ne disposent tout simplement pas assez de données pour entraîner des modèles fiables. De plus, les formats sont très variés (images, signaux, valeurs numériques, textes...), ce qui complique encore l'exploitation.
L'IA générative joue un rôle crucial à ce niveau, permettant de créer de nouvelles données qui ressemblent fortement à des données réelles, sans jamais copier un patient existant ou un service donné. Grâce à l'IA générative, il est possible de générer de faux électrocardiogrammes qui soient réalistes, des IRM synthétiques montrant une pathologie rare, des notes médicales fictives mais cohérentes, des tableaux de résultats biologiques simulés ou des séries temporelles de fausses visites de patients. L'intérêt de cette synthèse est double : enrichir les bases de données pour entraîner les modèles d'IA et protéger les données sensibles. Ces données artificielles permettent de combler les manques, de réduire les biais (par exemple, entre hommes et femmes, entre âges différents ou entre historiques plus ou moins longs) et de faciliter le partage des modèles.
Ce projet propose de construire un cadre complet de génération de données médicales synthétiques, couvrant plusieurs types de données (images, signaux, chiffres, texte). Il s'articulera en plusieurs étapes :
-Préparation : analyse des besoins prioritaires et sélection de jeux de données (open source type MIMIC-III, PhysioNet, TCIA, ou partenariats hospitaliers),
-Cadrage : mise en conformité réglementaire et définition des critères de qualité des données synthétiques (réalisme clinique, diversité, non-traçabilité),
-Développement méthodologique :
oImplémenter des modèles de diffusion ou GANs spécialisés avec l'intégration des techniques de contrôle pour l'imagerie médicale ;
oDévelopper un générateur temporel pour simuler différentes variables physiologiques et vérifier la cohérence ;
oMettre en place un GAN tabulaire conditionnel pour la reproduction des corrélations entre les variables ;
oAdapter un LLM médical pour générer des comptes rendus cohérents et plausibles ;
oIntégrer la multimodalité pour construire un « jumeau numérique » patient réaliste combinant plusieurs sources de données.
-Validation : réaliser des évaluations quantitatives et qualitatives des données synthétiques, appliquer des tests grâce à des modèles prédictifs entraînés sur des données réelles et vérifier la qualité des données produites avec l'aide d'experts médicaux.
A terme, ce travail doit permettre de créer un « patient virtuel » réaliste, combinant signaux, images et textes, qui servira de ressource pour tester et améliorer les outils d'IA médicale. Une extension de ce travail permettra aussi de produire un avatar d'établissements de santé, avec des données stratégiques simulées. Les bénéfices attendus sont nombreux : données plus accessibles, recherche accélérée, innovation en ingénierie médicale et tout cela dans le respect des règles éthiques.

Le domaine médical génère aujourd'hui une quantité massive et hétérogène de données : signaux physiologiques (ECG, EEG), imagerie médicale (IRM, radiographies, scanner), données numériques structurées (constantes vitales, analyses biologiques) et notes cliniques textuelles. Ces informations sont essentielles pour développer de nouvelles solutions d'intelligence artificielle capables d'assister des praticiens dans le diagnostic, la prévention et la personnalisation des traitements. Toutefois, plusieurs limitations freinent leur exploitation : les contraintes éthiques et réglementaires liées à la confidentialité (RGPD), le manque de données pour certaines pathologies rares et la variabilité et l'hétérogénéité des formants, rendant leur intégration complexe.
Dans ce contexte, l'IA générative offre une opportunité unique. Elle permet de créer des données médicales synthétiques réalistes et diversifiées, qui préservent la confidentialité tout en enrichissant les jeux de données disponibles. Cette approche constitue une innovation majeure pour l'ingénierie médicale, car elle permet :
-D'augmenter la tailler et la diversité des bases de données, réduisant ainsi les biais,
-De simuler des cas cliniques rares pour améliorer la robustesse des modèles prédictifs,
-De faciliter le partage de données sans enfreindre les règles de confidentialité,
-De préparer l'avenir avec des patients virtuels multimodaux, combinant signaux, images et notes médicales.
L'objectif global du projet est de concevoir et valider un cadre méthodologique basé sur l'IA générative pour produire des données médicales synthétiques multimodales, utiles à la recherche, à la formation et au développement d'outils cliniques.

Le projet s'articule autour de plusieurs étapes essentielles, contribuant ensemble à la réussite du projet :
Étape 1 : Préparation des données et cadrage
Cette première étape consiste à identifier les différentes bases de données publiques existantes (MIMIC-III, PhysioNet, TCIA) et à en sélectionner des jeux de données. Ces données seront enrichies par des bases d'établissements partenaires. Une phase de normalisation et d'anonymisation sera nécessaire pour une mise en conformité réglementaire, garantissant une confidentialité, et une réduction des biais. Les jeux de données seront ensuite segmentés en quatre types : images, signaux, données tabulaires et notes cliniques. Enfin, les critères de qualité des données synthétiques sont établis : réalisme clinique, diversité, non-traçabilité.
Étape 2 : Développement par modalité
Cette deuxième étape consiste à développer des modèles d'IA générative pour la synthèse des données en fonction de leur modalité. Pour l'imagerie médicale, il s'agit d'exploiter des modèles de diffusion et des GANs conditionnels pour générer des images hautes résolution, incluant des pathologies rares. Pour les signaux physiologiques, il s'agit de creuser les pistes d'implémentation de TimeGAN ou WaveGAN pour créer des séries temporelles réalistes, évaluées par des métriques physiologiques. Pour les données tabulaires, il s'agit de la génération via CTGAN conditionnel pour reproduire correctement les distributions statistiques et les corrélations cliniques. Enfin, pour les notes médicales, il s'agit de proposer un transfert d'apprentissage des modèles LLMs spécialisés en santé (BioGPT, Med-PaLM) pour créer des rapports synthétiques plausibles et cohérents. Plusieurs défis et verrous scientifiques sont à considérer dans cette étape, tels que le réalisme anatomique, la variabilité inter-patients, la réduction des artefacts liés aux GANs ou aux modèles de diffusion, la complexité multi-échelles pour les signaux, la reproduction fidèle des distributions réelles, la spécificité du langage médical, la génération de cas rares avec des données insuffisantes, etc.
Étape 3 : Approche multimodale
Cette étape consiste à développer des architectures capables de combiner plusieurs types de données (par exemple, un ECG avec une IRM et un rapport textuel), à concevoir des modèles multimodaux fondés sur des transformers avec encodeurs spécifiques à chaque modalité, et à créer des patients virtuels complets pour simuler des cas cliniques. La principale difficulté de cette étape réside dans le manque de jeux de données multimodales complets, ainsi que dans la génération conditionnelle multimodale, qui impose à la fois des contraintes médicales strictes et une variabilité réaliste dans les données synthétisées.
Étape 4 : Validation
Cette étape consiste à valider la création des données selon la modalité grâce à des techniques quantitatives (FID pour les images, RMSE/DTW pour les signaux, statistiques comparatives pour les données tabulaires et perplexité et cohérence pour les textes). Elle porte aussi sur une évaluation qualitative grâce à une revue par des experts médicaux pour valider le réalisme et la pertinence clinique. L'entraînement de modèles prédictifs (diagnostic, pronostic) sur des données synthétiques et la comparaison de leur performance à l'entraînement sur données réelles permettront une validation triple des modèles d'IA générative proposés.