SGT ULPGL

Détails du sujet

Conception et implémentation d'un système d'identification des bactéries à partir des séquences génétiques

Résumé

Auteur : BWINJA MUDEKEREZA
Niveau: G3
Département: Genie Informatique
Année Ac: 2025-2026 , | 2026-02-15 18:29:59

Mots clés

Identification bactérienne, Bioinformatique, BLAST, IA, NCBI, BioPython

Intérêt

1. Automatisation du flux d'information (du workflow) de recherche moléculaire partant du chargement d'un fichier .fasta, passer par le BLAST pour le parsing (analyse) afin d'afficher le résultat
2. Recours à l'Intelligence artificielle pour assister les utilisateurs
3. Possibilité d'une surveillance des pathogènes émergents grâce à une liaison avec NCBI (National Center for Biotechnology Information)

Problématique

Face à l'immense diversité microbienne mais aussi à la lenteur des méthodes traditionnelles de culture en microbiologie, comment donc concevoir un système informatique automatique et rapide permettant d'identifier avec une grande précision une espèce bactérienne inconnue à partir de sa séquence génétique brute (ADN), et en garantissant une faible marge d'erreur ?

Plan provisoire

INTRODUCTION
CHAP 1. Fondements théoriques
CHAP 2. Conception du Logiciel
CHAP 3. Développement et Implémentation
CONCLUSION

Hypothèses

L'intégration d'un modèle de langage (Intelligence Artificielle) comme une interface d'interprétation pour les outils de comparaison de séquences (BLAST = Basic Local Alignment Search Tool) permet d'augmenter la vitesse d'identification ainsi que la fiabilité de l'analyse des espèces bactériennes pour des utilisateurs spécialistes et non spécialistes

Méthodes

Le projet repose sur une architecture en couches :
La première couche est la collecte, portant la lecture de fichier FASTA et des rapports médicaux via une interface graphique
La seconde couche c'est l'analyse moléculaire et sauvegarde, où l'on interroge les serveurs du NCBI via l'API Biopython pour l'identification taxonomique et l'on enregistre les résultat dans le disque local
La troisième couche est l'augmentation par l'IA (Génération augmentée par recherche : RAG), avec l'utilisation d'un système de génération augmentée par récupération pour croiser les résultats d'idenfication avec les bases de données de littérature (PubMed)
La quatrième couche enfin c'est la sécurisation, avec une implémentation de filtres sémantiques (Anti-prescription médicale) pour garantir un usage strictement orienté à la recherche

Bibliographie

1. Bousmat Yacine (2022) - "K-means & K-mers pour le regroupement et la comparaison de grands ensembles de séquences biologiques"
2. Jeff Chang, Brad Chapman, Iddo Friedberg, Thomas Hamelryck, Michiel de Hoon, Peter Cock, Tiago Antao, Eric Talevich, Bartek Wilczy´nski (2022) - "Biopython 1.80 Tutorial and Cookbook"
3. Ting Ding, Yi-Wei Tang, Xiaoke Hao (2025) - "Application of Artificial Intelligence in Clinical Microbiology"
4. Lameck Mbangula, Pietro Mascheroni, Steven Brooks, Stefan Doering, Jan Seidel - "Retrieval Augmented Generation for large language models in healthcare"
5. OMS (2024) - "Ethics and governance of artificial intelligence for health"
6. OpenAI (2024) - "GPT-4 Technical Report"
7. DJAKHDJAKHA Lynda (2023) - "Polycopié de Cours- Génie Logiciel"
8. Nzanzu Vingi Patrick (2025) - "Cours de Génie LOGICIEL"
9. Olivier BARAKA - "Cours d'Initiation à la Recherche Scientifique"

Directeur & Encadreur

Directeur: AKWIR Alain NKIEDIEL
Encadreur: Yvette kavira KALIMUMBALO

Status

Décision ou observation:
Feu vert:
Déposé : NON
Défendu: NON
Finalisé: NON