BotDesign crée des patients virtuels pour accélérer les essais cliniques
La startup toulousaine BotDesign développe ORIGA, une technologie conçue avec la mathématicienne Stéphanie Allassonnière (Université Paris Cité) capable de générer des données médicales artificielles à partir de données réelles. Son objectif est d’enrichir les bases de données de santé, faciliter certaines études cliniques et, à terme, réduire le recours à des patients réels dans certains groupes contrôles.
Dans la recherche clinique, le patient est devenu une ressource rare. Certaines maladies ne touchent que quelques milliers de personnes. Certaines populations restent également peu représentées dans les essais cliniques, ce qui limite parfois la quantité de données disponibles pour certaines indications. Conséquence : certaines études deviennent plus longues, plus coûteuses et parfois difficiles à conduire.
Augmenter les données des patients
C’est la promesse de BotDesign. Cofondée par le chercheur et entrepreneur Jean-Louis Fraysse et Olivier Thuillard, l’entreprise développe depuis plusieurs années la plateforme Origa, conçue avec la mathématicienne Stéphanie Allassonnière de l’Université Paris Cité. À leur côté, Raphaël Fontaine pilote les développements en intelligence artificielle en tant que responsable de l’équipe data science.
Origa part de données réelles pour générer de nouvelles données artificielles présentant les mêmes caractéristiques statistiques. « Aujourd’hui, on est en capacité d’augmenter des données d’imagerie, des données alphanumériques, on augmente aussi des données multimodales », explique Jean-Louis Fraysse. La plateforme peut ainsi multiplier certaines bases de données par deux à dix selon les cas d’usage.
Elle permet également de compléter des bases de données incomplètes. Selon BotDesign, elle est capable de reconstituer jusqu’à 45 % de données manquantes dans certaines bases de soins ou de recherche clinique.
Le prochain défi : les données génétiques
Si la technologie est déjà commercialisée pour les données cliniques et l’imagerie médicale, BotDesign concentre désormais une partie importante de ses efforts sur les données génétiques. L’entreprise travaille notamment en collaboration avec UNICANCER, sur la génération de données RNA-seq et single-cell, deux types de données devenus essentiels pour comprendre le fonctionnement des cellules, identifier de nouvelles cibles thérapeutiques ou développer des approches de médecine personnalisée.
Contrairement aux données cliniques classiques, ces données biologiques présentent une complexité beaucoup plus importante. Elles comportent des milliers, voire des dizaines de milliers de variables par patient, avec des interactions biologiques particulièrement difficiles à reproduire artificiellement. « C’est aujourd’hui l’un des grands défis du secteur », souligne Raphaël Fontaine.
Cette activité se situe actuellement à un niveau de maturité technologique compris entre TRL 6 et 7. La technologie a déjà été démontrée sur des jeux de données biologiques réels et dans des conditions proches de ses usages futurs, mais elle nécessite encore des validations scientifiques complémentaires avant un déploiement à grande échelle.
Comment vérifier qu’un patient artificiel est crédible ?
La question revient systématiquement : peut-on faire confiance à des données générées par une IA ? Pour y répondre, Raphaël Fontaine nous explique : « Nous avons développé plusieurs niveaux de validation: d’abord la fiabilité des données générées, puis leur utilité.»
Pour la fiabilité, l’entreprise utilise notamment la distance de Wasserstein, une métrique statistique permettant de mesurer l’écart entre les distributions des données réelles et artificielles. « On va essayer de calculer le coût minimal pour passer de la distribution des données réelles à la distribution des données artificielles », explique-t-il. L’équipe analyse ensuite les résultats à différents niveaux : variable par variable, sur l’ensemble de la base et sur tous les sous-groupes possibles. Mais la validation n’est pas uniquement mathématique. « Tout ce qu’on génère est revalidé par des professionnels de santé et des professionnels du métier », rappelle Jean-Louis Fraysse.
Avant la génération, un comité médical vérifie que la base utilisée est représentative de la pathologie étudiée. Après génération, médecins, statisticiens et mathématiciens évaluent la vraisemblance des données produites. Résultat : « Aujourd’hui, on ne fait pas la différence entre les données artificielles et les données réelles. »
Des bras contrôles synthétiques pour les essais cliniques
Pour BotDesign, l’intérêt ne se limite pas à enrichir les bases de données. L’entreprise estime que ces données artificielles pourraient, à terme, modifier la manière dont certains essais cliniques sont conçus. Aujourd’hui, une partie des patients recrutés sert de groupe contrôle afin de comparer l’efficacité d’un traitement. Une nécessité scientifique qui soulève parfois des questions éthiques. « Quand on a devant nous un patient cancéreux à qui on dit qu’il a 18 mois d’espérance de vie, inutile de préciser qu’il préférerait être dans le groupe traité que dans le groupe placebo », résume Jean-Louis Fraysse.
L’entreprise travaille donc avec les autorités de santé pour réduire le nombre de patients réels nécessaires dans certains bras contrôles. Avec Unicancer, elle participe à un projet soutenu par l’Agence de l’innovation en santé et l’ANR visant à déployer un bras artificiel prospectif composé uniquement de données générées par IA. L’objectif sera de comparer ses performances statistiques à celles obtenues avec des groupes contrôles réels.
Ce qu’il faut retenir
- Valeur ajoutée : génération de données médicales artificielles pour compléter les bases de données, améliorer les essais cliniques et développer des bras contrôles synthétiques
- Niveau TRL : 6-7 pour les données génétiques (RNA-seq, single-cell)
- Besoins de financement : levée intermédiaire de 200 k€ puis levée d’environ 1 M€ en 2027 pour accélérer le développement technologique et réglementaire
- Marché visé : recherche clinique, industrie pharmaceutique, hôpitaux, entrepôts de données de santé, maladies rares, santé animale et cosmétique