Magnifique interview de Amalio Telenti, qu’il faut lire absolument. Un survol rapide de bien des enjeux et défis de l’analyse massive de données. Comme Amalio Telenti, toutefois, j’aimerais souligner combien récent est ce domaine, pour lequel la science a encore beaucoup à découvrir, beaucoup à clarifier, beaucoup à apprendre… avant d’enseigner!
Notamment, il faudra développer de nouvelles méthodes analytiques, sans doute plus proches de ce que nous avons appris de la météorologie que de la biostatistique classique. Apprendre à travailler avec des modèles complexes sur des flux de données ininterrompus et en constante modification. Apporter des réponses de valeur limitée dans le temps, systématiquement une probabilité d’exactitude, un peu comme les prévisions du temps. Et ne pas oublier qu’il peut pleuvoir quand même…
Le plus grand danger sera peut-être d’être ébouriffé par la taille des échantillons, d’en oublier cependant qu’ils restent une image virtuelle dans laquelle on construit des «vérités» mathématiques. Et qu’il deviendra rapidement impossible de vérifier ces «vérités» dans le monde réel, par manque de temps, de moyens…
Un des grands bénéfices sera d’apprendre à travailler sur des données incomplètes, parfois confuses, jamais «propres». De ne plus se laisser tromper par l’illusion de données «contrôlées», dans un monde biologique dont l’essence même est l’absence de discontinuité informationnelle.
Amalio Telenti a beaucoup parlé de données, de Google. Il aurait pu aborder aussi des travaux similaires, mais qui se font sur ce que la science publie. Comment analyser les 3000–4000 articles indexés quotidiennement dans Pubmed? Comment transformer cette incroyable production d’information scientifique en connaissance humaine capable de transformer la société et pas juste un CV?
C’est là un autre grand défi des «données massives». Quant à moi, je ne pense pas que les médecins soient à la traîne. Plus de 5000 publications scientifiques dans Pubmed dont une bonne partie par des médecins, l’initiative du Campus Biotech lémanique avec l’implication majeure des hôpitaux universitaires lémaniques et des deux facultés de médecine, autant de signes qui montrent que le Big Data est un axe important de recherche. Mais, justement, de recherche…