À la fin de ce cours, vous saurez :
Vous prenez des notes et vous voulez vous y retrouver ? Vous faites des calculs sur ordinateur et vos résultats changent d’un jour à l’autre ? Vous aimeriez partager avec vos collègues vos analyses de données et vos développements méthodologiques et qu’ils puissent les réutiliser ?
Ce cours est composé de quatre modules qui combinent des vidéos de cours, de nombreuses ressources notamment sur l'installation et l'utilisation des outils présentés (sous forme de vidéos ou de pages web), des quizz, et des exercices pour la mise en pratique des méthodes présentées.
Pour illustrer et approfondir les notions de cahiers de laboratoire, vous pourrez visionner des interviews de quatre chercheuses de domaines différents (Mathématiques, Histoire moderne et contemporaine, Neurophysiologie).
Des cas pratiques vous sont proposés tout au long du cours. Nous vous proposons par exemple de travailler sur un jeu de données "historique", celui de l'analyse du risque de défaillance des joints toriques de la navette spatiale Challenger, tristement célèbre en raison de sa désintégration 73 secondes après son décollage, provoquant la mort des sept astronautes de l'équipage. Cet accident aurait peut-être pu être évité ...
Un autre exercice, évalué par les autres participants, consiste à préparer une analyse de données sous forme d'un document computationnel, avec plusieurs sujets au choix basés sur des cas réels, sur des thématiques très différentes.
Pour réaliser ces exercices, nous proposons trois parcours différents dont chacun utilise une technologie de notebook:
- Le premier parcours repose sur Jupyter et le langage Python. Il ne nécessite aucune installation de votre part sur votre ordinateur.
- Le deuxième parcours repose sur RStudio et le langage R. Il nécessitera l’installation de RStudio sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.
- Le troisième parcours repose sur Emacs/Org-mode et les langages Python et R. Il nécessitera l’installation d’Emacs, Python, et R sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.
Ce cours est en majorité bilingue français / anglais. Les vidéos sont en français sous-titrées en français et en anglais. Les supports de cours au format pdf sont fournis en anglais et en français ainsi que les Quiz et Exercices.
Vous pouvez modifier votre profil pour avoir l'interface de FUN en anglais.
Le premier module ne requiert aucune connaissance particulière.
Dès le deuxième module, une connaissance des bases du langage Python (librairies pandas, numpy et matplotlib) ou du langage R est nécessaire. Si vous ne connaissez pas les librairies Python, n'hésitez pas à suivre le chapitre correspondant le cours "Python 3 : des fondamentaux aux concepts avancés du langage" (semaine 7 : l'écosystème data science Python). Dans le quatrième module, nous traitons des sujets plus spécialisés dont chacun peut nécessiter des compétences particulières.
Un assez bon niveau en analyse de données et en statistique est nécessaire pour certains exercices de cette session. Néanmoins, même si vous ne pouvez pas compléter ces exercices, vous pourrez vous former sur de nombreux outils et méthodes pour la recherche reproductible. Nous espérons pouvoir proposer dans la session suivante (session 03) des alternatives à ces exercices avec des prérequis plus souples.
Ce cours est pour vous, doctorant-e-s, chercheur-se-s , étudiant-e-s en master, enseignant-e-s, ingénieur-e-s de toutes disciplines qui souhaitez vous former à des environnements de publication et des outils fiables :
- Markdown pour la prise de note structurée
- des Outils d'indexation (DocFetcher et ExifTool)
- Gitlab pour le suivi de version et le travail collaboratif
- Notebooks (jupyter, rstudio ou org-mode) pour combiner efficacement calcul, représentation et analyse des données
L’évaluation est basée sur des quiz, des exercices pratiques et un devoir qui sera évalué par d'autres élèves.
Catégories
Catégories
Catégories