Décryptage : le Big data santé

Le mag numéro 10 | 22 nov. 2013
 
L’explosion de la quantité de données électroniques générées dans le monde permet aujourd’hui de mieux analyser voire de prédire certains phénomènes humains à grande échelle. Appliquée à la santé, cette nouvelle approche, dite « Big Data », porte de grandes promesses notamment dans l’épidémiologie, mais soulève également des questions particulières de confidentialité.
 

 

Ces dernières années, le nombre de données circulant sur internet a littéralement explosé et continue de croître de façon exponentielle : en 2011, il existait déjà presque autant de données électroniques que d’étoiles dans l’univers, et l’humanité génère aujourd’hui en 2 jours plus de d’information qu’elle n’en a produit les 36 siècles précédents, selon cette étude. En 2012, Facebook a stocké à chaque minute 350 giga-octets de données générées par ses utilisateurs.

Les réseaux sociaux sont d’ailleurs l’une des principales raisons de cette explosion des données produites (75% des données générées par les utilisateurs à titre personnel). L’accélération des débits de connexion internet et la démocratisation des appareils numériques (appareils photos, caméras, smartphones, tablettes, capteurs…etc.) expliquent également ce phénomène.

 

Le Big Data qu’est-ce que c’est ?


Traiter une telle masse et une telle variété de données était impensable il y a quelques années, tant la puissance de calcul nécessaire était colossale. Aujourd’hui, cela est possible, et ouvre de nouvelles perspectives. En effet, en triant et en recoupant ces données, on peut créer de nouvelles statistiques pour analyser différemment certains phénomènes voire les prédire. C’est ce procédé que l’on appelle « Big Data » (en référence à la grande quantité de données analysées).

Par exemple, en 2012, l’analyse des tweets des américains au sortir des bureaux de vote avait permis de prédire les résultats de l’élection présidentielle et de les représenter sur une carte en temps réel.


Google flutrends













 

Des avancées prometteuses en santé


En santé, le Big Data promet également beaucoup, notamment dans le domaine de l’épidémiologie, puisqu’il permet d’analyser des données sur des échantillons cliniques plus grands, voire de se passer d’échantillon et de laisser émerger des tendances que l’on n’aurait pas imaginées à l’avance. Par exemple, en 2009, en pleine pandémie de grippe H1N1, le ministère américain de la santé a demandé l’aide de Google. En localisant sur une carte la position la provenance des mots-clés tapés dans le célèbre moteur de recherche, les ingénieurs ont pu dessiner et finalement anticiper l’évolution de l’épidémie. Google Flutrends était né, et l’outil a depuis été utilisé pour suivre d’autres maladies comme la grippe ou la dengue.




Mais plus les données étudiées sont fiables, plus les résultats seront pertinents. C’est pourquoi se pose la question de permettre l’accès à certaines bases de données existantes à des fins d’étude statistique. Le sujet est plus que jamais d’actualité, puisque la Ministre de la santé a reçu le 3 octobre dernier un rapport sur le sujet de la part de l’Inspection générale des affaires sociales (IGAS). Le « rapport sur la gouvernance et l’utilisation des données de santé » préconise notamment de simplifier l’accès pour les chercheurs au Système d’information inter-régimes de l’assurance-maladie (SNIIRAM) qui enregistre par an plus de 500 millions d’actes médicaux et 11 millions de séjours hospitaliers, et ce depuis 14 ans.

Les pouvoirs publics ont agi avant même la parution du rapport, puisqu’un arrêté du 19 juillet 2013 assoupli l’accès au SNIIRAM pour l’Institut de veille sanitaire (InVS) et la Haute autorité de santé (HAS) pour leurs besoins statistiques.

A souligner également, l’initiative de l’Institut national du cancer (INCa), qui met à la disposition des internautes depuis 2012 un certain nombre de données statistiques sur la maladie dans un but d’information et pour faciliter la recherche.

Mais ces initiatives sont insuffisantes et ne règlent pas le pré-requis essentiel à l’utilisation des données de santé où qu’elles se trouvent de façon efficace pour la santé publique : la définition d’une architecture des systèmes d’information qui inclut dès leur conception la dimension de santé publique. Les données de snaté sont collectées pour administrer les soins ; elles le sont également pour produire de la connaissance.

 

Attention données sensibles !




Toutefois, la plus grande prudence est de mise. Les données de santé sont particulièrement intimes et donc sensibles. Un arsenal juridique très complet existe afin de garantir au citoyen la sécurité et la confidentialité de ses données de santé, loi n° 78-17 du 6 janvier 1978 dite « informatique et libertés » et code de la santé publique.

Au-delà des moyens légaux, il existe également de nombreux moyens techniques pour protéger l’accès aux données de santé. L’une des missions de l’ASIP Santé est d’ailleurs de définir les référentiels techniques qui permettront de partager et utiliser les données de santé en toute sécurité. Ils ont notamment vocation à être rassemblés dans la Politique Générale de Sécurité des Systèmes d’Information de Santé (PGSSI-S), qui fixe les normes de sécurité pour tous les acteurs de l’informatique de santé.

Le Big Data peut donc apporter de réelles avancées dans le domaine de la santé, mais il implique l’utilisation de données ultra-sensibles, qui même si elles sont utilisées de manière anonyme, doivent être manipulées avec précaution. Le débat est plus que jamais d’actualité, et l’avenir dira comment concilier ces deux aspects pour le bien de tous.



Crédits Photos : © everythingpossible - Fotolia.com