À la fin de ce cours, vous saurez :
Dans ce module, nous présenterons l’évolution des bases de données pour comprendre les enjeux du BIG DATA et le besoin couvert par ces nouvelles technologies dites de BIG DATA. Des solutions capables de traiter de grande quantité de données tout en conciliant efficacité et coût. Depuis les années 2000, c’est tout un écosystème qui est né autour de cette mouvance avec de nouveaux Systèmes de Gestion de Bases De Données dit NOSQL et de nouvelles plateformes de traitement.
Avec plus de 255 SGBD NOSQL existants, nous ferons un focus sur les différentes familles qui existent pour se familiariser avec les SGBD NOSQL les plus répandus.
Dans cette folie à la course à la donnée, nous aborderons par la suite des plateformes de traitement de données avec une volonté de déplacer le traitement des données au plus près de la données avec tout un écosystème riche et varié .
On entend souvent parlé de BIG DATA sans forcément en comprendre le sens et non, ce n’est pas uniquement un BUZZ word comme certains le pensent. Pour bien comprendre, les défis relevés par ce domaine, il est important de comprendre le contexte et le besoin à l’origine de cette émergence. En consacrant 2h par semaine sur un total de 16 semaines, vous ouvrirez les portes d’un nouveau monde ou tout est possible. Un monde que vous pourrez reproduire sur votre ordinateur à l’aide des technologies de containerisation et des cas d’utilisation sous forme de Notebook pour faciliter votre apprentissage.
Le cours aborde une première partie sur les bases de données NoSQL sur laquelle de nombreuses comparaisons sont faites avec les bases de données relationnelles. Il est donc fortement conseillé d’avoir une connaissance solide sur les bases de données relationnelles. Pour la seconde partie du module, relatif aux plateformes de traitements parallélisés, des connaissances en programmation sont recommandées. Des TP nécessiteront de programmer en python : la connaissance du langage python n’est pas indispensable mais serait un plus. Le niveau de programmation est relativement simple mais nécessite d’avoir des bonnes bases en programmation.
Les environnements de TP se baseront sur un noyau UNIX, les commandes d’usage lié à ce noyau serait un plus.
L’évaluation des étudiants s’appuiera sur des devoirs maisons à réaliser individuellement.