Stratégies Numériques en Sciences Sociales

Ce cours part d’un constat : nous sommes de plus en plus entourés de données numériques. Dans le débat public, dans notre quotidien, dans la décision publique, et parfois jusque dans notre vie privée, des traces numériques enregistrent nos activités.

Cette abondance de données est déjà largement analysée par les sciences sociales. Elle est aussi utilisée, afin de poser des questions nouvelles, ou de reposer d’anciennes questions à partir de ces nouvelles sources.

L’enjeu de ce cours, c’est d’offrir à des étudiantes, des jeunes chercheuses qui n’ont pas forcément de compétences en informatique des éléments pour qu’elles puissent d’une part saisir certains des enjeux que pose la multiplication des données numériques, et d’autre part pour qu’elles puissent en tirer partie de façon empirique, en maitrîsant différents outils qui permettent de travailler à partir de ces données numériques.

Le cours a pour objectif principal de donner des bases de programmation. Mais ce faisant, il propose des éléments de réflexion théorique et épistémologiques sur ce que peuvent ces données numériques pour les sciences sociales, ce qu’elles peuvent leur faire. Il nous semble en effet qu’on ne peut dissocier l’analyse des données des conditions de leur production. 

Le cours peut être suivi en intégralité, ou de manière sélective. Chaque chapitre s’appuie toutefois sur des notions qui ont été vues précédemment. Aucune connaissance préalable en informatique n’est nécessaire.



Table des matières :


0 – L’abondance et ses revers

Ou ce que l’arrivée massive de données numériques fait aux sciences socialesparfois.


1 – Données numériques et sciences humaines et sociales

Pourquoi, et comment collecter des données numériques pour une recherche en sciences sociales?

Références


1 bis – Introduction à R

Ce cours propose une brève introduction, d’abord littéraire, puis appliquée, au logiciel R.

Scripts

Références

Il existe des dizaines de tutoriels, ouvrages, et sites qui permettent de se plonger dans R. Parmi ceux-ci, on peut chaudement recommander :

  • Pour plus de détails, voir le projet collaboratif analyse-R.

Ressources supplémentaires


2 – Écrire, et surtout lire le web

À travers une plongée dans l’histoire d’internet et du web, ce cours propose une première approche d’aspects plus techniques comme les langages à balise et les protocoles http, éléments essentiels pour collecter des données en ligne.

Scripts

Sites des exercices :

Références

  • Dominique Cardon, Cultures numériques, Presses de Sciences Po, 2019.

3 – Sélectionner des données avec XPath

Ce cours propose une introduction au langage Xpath, qui permet de faire des requêtes dans un langage structuré, et ainsi de ne sélectionner que les éléments pertinents.

Scripts

Sites des exercices :

Ressources supplémentaires


4 – Expressions régulières : recherche avancée et nettoyage de données

Ce cours est une introduction aux expressions régulières (ou regular expressions, Regex en anglais).

Scripts

Sites utilisés :

Références

  • Des pistes pour aller plus loin sur analyse-r

Ressources supplémentaires


5 – Automatiser la collecte

Une fois la collecte des données réalisée sur une page, il faut passer à l’échelle. Ce cours propose une série de conseils pour automatiser le moissonnage.

Scripts

Sites utilisés :


6 – Téléchargement avancé

Comme toutes les pages web ne sont pas forcément accessibles à partir des outils simples présentés en leçon 2, il faut parfois ruser pour réussir à télécharger les pages qui nous intéressent. Cette leçon présente le téléchargement avec des outils presse-bouton comme DownloadThemAll, et le pilotage de navigateur depuis R avec RSelenium.

Scripts

Sites utilisés :

Ressources supplémentaires


7- Exercices supplémentaires

Vous trouverez ici quelques exemples supplémentaires de sites pour vous entraîner, ainsi que des démonstrations de méthodes alternatives à celles utilisées dans le cours.

Scripts

Exercices supplémentaires :

Démonstrations rvest, CSS, XML, JSON :

Sites d’exemples :


8- Crédits

Le cours a été conçu par Julien Boelaert et Étienne Ollion. Le site web a été réalisé par Jan Sodoge.

Commentaires

Tous vos commentaires sur les cours sont le bienvenus, ci-dessous ou via le formulaire de contact. Pour les questions techniques et les difficultés rencontrées au cours des exercices, rendez-vous sur le forum du cours.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *