Retour au portfolio

Plateforme Big Data pour le Secteur de la Santé

Construction d'un data warehouse pour un groupe hospitalier afin d'analyser et visualiser les données médicales.

Dashboard d'analyse de données
Technologies Utilisées
Apache AirflowApache Spark (PySpark)MinIOApache HiveTrinoApache SupersetDockerDocker ComposePython
Contexte et Objectifs

Le projet visait à mettre en place une plateforme Big Data complète pour un groupe hospitalier (CHU) afin de créer un data warehouse. L'objectif était d'intégrer, stocker, analyser et visualiser des données hétérogènes, telles que les dossiers médicaux et les flux de patients, pour en extraire des informations stratégiques.

L'architecture Data Lakehouse a été choisie pour traiter les données à travers différentes couches de qualité : Bronze (données brutes), Silver (nettoyées) et Gold (agrégées), prêtes pour la business intelligence.

Pipeline de Données

Architecture Lakehouse

  • • Intégration de données brutes (Bronze)
  • • Nettoyage et transformation (Silver)
  • • Agrégation pour l'analyse (Gold)

Analyse et Visualisation

  • • Orchestration des tâches avec Airflow
  • • Traitement distribué avec Spark
  • • Visualisation interactive avec Superset