Axe 1

Axe 1 : Numérique et Humanités

L’axe « Numérique et humanités » catalyse les dynamiques de recherche autour de la révolution numérique et ses ambivalences. Si, d’une part, cette révolution change le visage des sociétés et des économies, et représente une opportunité indéniable de développement, d’autre part, elle pourrait constituer une menace pour nos libertés individuelles. Les enjeux sociétaux des réseaux, des données massives, de l’algorithmique sont au cœur des projets de recherche labellisés par la MSH Paris-Saclay.

 

Le monde des données est aujourd’hui traversé par des changements profonds. Comme dans d’autres domaines, les données accumulées par les enquêtes en SHS (qualitatives et quantitatives) constituent maintenant un stock considérable, destiné à s’accroître encore dans les années à venir. On voit émerger progressivement le problème des données massives (big data), connectées (réseaux sociaux) ou complexes (langage naturel et images).Statistiques et algorithmique sont appelées à résoudre des problèmes de stockage (compression, indexation, streaming), de calcul distribué, de fiabilité et traçabilité.

La révolution digitale incite les entrepreneurs à repenser les modes de production en composant avec l’empowerment des consommateurs. Les enjeux éthiques et juridiques des données massives obligent les SHS à réfléchir à la préservation du patrimoine informationnel, à la protection de la vie privée, au design et à l’implémentation des régulations. Conception et mise en place des nouvelles règles du jeu sont surveillées par des commissions compétentes telle que la CNIL (Commission nationale de l’informatique et des libertés).

L’économie des données incite les entreprises à une plus grande flexibilité et une réallocation continue des ressources. Pour y répondre, un petit nombre d’entreprises – Google, Apple, Facebook ou Amazon (GAFA) – concentrent une part croissante des données (selon une distribution de Pareto) obtenues de sources diverses (internet, smartphones, objets connectés). La question du pouvoir de marché et celle des rentes associées se trouvent ainsi posées. Les gouvernements sont appelés à réguler les marchés des données pour protéger la souveraineté des citoyens contre l’extraction de rentes économiques et politiques.

La production, la conservation et la mise à disposition de données fiables et pertinentes ont un coût qui doit être supporté par certaines parties prenantes. Des aides de l’État ont permis, jusqu’ici, la mise à disposition de données issues de la statistique publique, des administrations et des enquêtes des chercheurs, les rendant réutilisables pour la recherche SHS. Dans ce cadre, L’EQUIPEX (Équipement d’excellence) CASD (Centre d’accès sécurisé distant) joue un rôle de premier plan. Il s’agit d’une infrastructure nationale du GENES (Groupe des écoles nationales d’économie et statistiques) basée à l’Université Paris-Saclay et spécialisée dans la mise à disposition de données individuelles très détaillées et, donc, le plus souvent soumises à des conditions de sécurité élevées. Au CASD se pose actuellement le problème du choix d’un modèle d’affaires, après le passage d’un système de subvention étatique (avec gratuité pour les utilisateurs) à une grille tarifaire faisant payer à chaque utilisateur les services qu’il utilise, reportant le coût ultime sur les bailleurs de fonds qui financent son projet. Il apparaît déterminant que la MSH Paris-Saclay offre un soutien aux chercheurs dont les travaux exigent l’analyse de microdonnées détaillées, pour laquelle ni les open data (de l’INSEE ou d’autres producteurs) ni les fichiers agrégés et anonymisés conçus pour la réutilisation secondaire standard comme les Fichiers production et recherche (FPR) ne seraient suffisants.

Plus généralement, la MSH Paris-Saclay entend promouvoir la diffusion des données en hébergeant une PUD (Plateforme universitaire des données) sur le modèle de celles de Lille, Caen et Lyon. Elle participera aux infrastructures de conservation et de mises à disposition de fichiers agrégés et anonymisés : TGIR (Très grandes infrastructures de recherche) PROGEDO (Production et gestion des données en sciences sociales) et CESSDA (Consortium of European Social Science Data Archives). Reste la question de la valorisation des données.

Les données massives seraient inertes sans les algorithmes de fouille. Des machines toujours plus puissantes brassent aujourd’hui de plus grandes masses de données. Pourtant, loin de se cantonner à des effets de volume, la révolution des big data est marquée par l’usage d’algorithmes au croisement des statistiques, de l’informatique et de l’intelligence artificielle. Ils doivent faciliter la construction de modèles sur les comportements et les représentations collectives ou la prise de décision. Dans leur vie quotidienne, les individus laissent des traces, qui sont autant de données. Elles sont repérables dans leurs relations avec les organisations (administrations, entreprises…), mais plus généralement via leurs usages des technologies numériques. Pensons, par exemple, à leurs déplacements (caméras de vidéosurveillance), aux paiements (cartes bancaires), ou à certains aspects de la vie domestique (capteurs et objets connectés). Ces grandes masses de données numériques, précisément datées (time-stamped) et souvent géolocalisées, attirent les entreprises, la statistique publique et la recherche en SHS.

Ces données massives sont aussi un défi théorique pour les SHS. Elles questionnent les théories de la décision et de l’optimisation. Les modèles statistiques et les algorithmes de décision traditionnels se révèlent inadaptés à traiter des données hétérogènes, complexes, incomplètes et incertaines. Elles doivent susciter de nouvelles recherches sur les usages de la technologie et ses conséquences sur les comportements individuels et collectifs ainsi que sur les dynamiques sociétales. La sociologie, l’histoire, l’économie, l’anthropologie, la psychologie et bien d’autres disciplines encore sont naturellement amenées à se pencher sur ces questions.

Du point de vue éthique et épistémologique, la gestion des données doit aussi intégrer des nouvelles contraintes telles que la sécurité et la traçabilité. La confiance numérique résulte de l’application de méthodes éthiquement et juridiquement responsables. Il s’agit de réguler la récolte, le traitement et l’interprétation des données personnelles. La protection de la vie privée passe par une protection des données à toutes les étapes du processus. La traçabilité repose sur une conception réfléchie des infrastructures de stockage et de traitement. Du point de vue éthique et juridique encore, la vie privée est menacée par le croisement des traces (géolocalisation, transactions électroniques, fréquentation des sites web) dont disposent certaines multinationales (GAFA), ainsi que par la possibilité de piratage de données privées (médicales, fiscales, financières) en l’absence de régulations adaptées. Les algorithmes prédictifs représentent de nouvelles opportunités tout autant que des menaces dans les secteurs de la santé et de l’assurance avec un risque important de discrimination. Du point de vue politique, la démocratie est fragilisée par le tracking des électeurs et la manipulation de l’information à leur adresse à la veille des élections. Plus généralement, le pluralisme comme socle de la démocratie est potentiellement remis en cause par les traitements algorithmiques et l’émergence de médias sociaux dominants. Tout en encourageant des projets pilotes montrant la voie dans l’utilisation de données massives en SHS, la MSH Paris-Saclay soutiendra des travaux qui s’interrogent sur les enjeux sociétaux des big data et des algorithmes, et contribuent à éclairer la décision publique sur ces sujets brulant d’actualité.

La montée en puissance des moyens de calculs permet de brasser des masses vertigineuses de données. La vraie révolution toutefois est celle des algorithmes de fouille basés sur le tracking, le machine learning et l’interopérabilité des bases de données.Ces dernières années, l’apprentissage profond (deep learning) a montré son efficacité, notamment en ce qui concerne le langage naturel et la vision par ordinateur. La question d’une intelligence artificielle qui surpasse l’intelligence humaine dans certaines applications interroge directement les SHS.

Simon avait déjà critiqué la rationalité néoclassique en 1947 et introduit une notion de rationalité limitée fondée sur l’intelligence artificielle. Les travaux de Kahneman et Tversky en 1974 ont aussi contribué à dépasser l’axiomatique traditionnelle par le biais de l’heuristique du jugement et l’ouverture aux sciences cognitives. Les avancées récentes en théorie de la décision (sparsity theory), intelligence artificielle (convergence homme-machine) et neurosciences (IRM fonctionnel) permettent le dépassement du cadre standard de la rationalité instrumentale au sens de Weber (1913).

La MSH lance des appels à projets interdisciplinaires et assure l’animation de la recherche sur les données, les algorithmes et la décision en étroite collaboration avec les projets existant dans le périmètre saclaysien. Parmi tous ces projets, l’Institut Convergence DATAIA fait figure de proue. DATAIA porte la recherche SHS sur les données et les algorithmes. Ses applications concernent la politique énergétique, les smart cities, la mobilité, l’alimentation et le bien-être. Le LABEX (Laboratoire d’excellence) DIGICOSME (Digital Worlds: Distributed Data, Programs and Architectures) finance les recherches sur les mondes numériques, programmes et architectures distribués, tandis que l’EQUIPEX MATRICE (Mémoire, analyse, théories, représentations individuelles et collectives, expérimentations) est une plateforme multifactorielle, multi-échelle et multidisciplinaire pour les mémoires individuelle et sociale. Sur les questions liées à la décision et à la rationalité, la MSH est impliquée dans l’IRS (Initiative de recherche stratégique) ICODE2 (Institute for Control and Decision of Paris-Saclay) et dans le LABEX MME-DII (Modèles mathématiques et économiques de la dynamique, de l’incertitude et des interactions). Le LABEX ECODEC (Économie et sciences de la décision) porte aussi les recherches en théorie de la décision. Mais la révolution numérique ne se limite pas à ces aspects. Elle impacte aussi les humanités et les activités individuelles et collectives liées à la mémoire, au patrimoine, à leur valorisation et leur transmission.

L’arrivée de l’informatique ouvre de nouvelles perspectives de développement des humanités. À n’en pas douter, les nouveaux moyens de calcul et de communication, au croisement de la recherche et de l’ingénierie, vont rapidement bouleverser la façon de penser, d’enseigner et de diffuser les savoirs, les objets et les méthodes de recherche, grâce au mariage de l’informatique, des arts, des lettres et des SHS. Ces nouvelles humanités numériques doivent prendre toute leur place au sein du projet de la MSH Paris-Saclay. Elles constituent en effet un domaine qui mérite un intérêt particulier à deux titres. D’une part, parce que ces supports et ces méthodes vont probablement être à l’origine d’inventions et d’innovations dans les méthodes de recherche, d’enseignement et de diffusion de l’information scientifique et technique. Ceci constitue un enjeu national validé par le réseau des SHS ATHENA. D’autre part, ces nouvelles modalités doivent être mises en perspective afin d’en évaluer la portée et les modalités du point de vue méthodologique et épistémologique. Les promoteurs et les pionniers des humanités numériques se donnent souvent comme objectif d’améliorer l’accès, la diffusion, le partage et la valorisation du savoir. À l’évidence, en modifiant fortement le mode d’accès aux objets et aux pratiques culturelles, le numérique est susceptible de transformer la connaissance et le rapport aux pratiques culturelles de nouveaux acteurs et groupes sociaux. Dans ce cadre, l’environnement du plateau de Saclay regroupe un ensemble impressionnant d’institutions et de compétences individuelles ou collectives. Sont présents des disciplines et des laboratoires relevant de l’histoire, de la sociologie, du droit privé et public, de l’économie, des études théâtrales ou de la musicologie. À cela s’ajoutent des équipes issues des sciences “dures” qui travaillent sur l’informatique.

La MSH Paris-Saclay a vocation à favoriser l’émergence de nouvelles collaborations. Plusieurs pistes paraissent prometteuses : nouvelles formes de conception et de pratiques des humanités, étude des productions culturelles et artistiques « numériques », invention de nouvelles modalités de conservation et de diffusion numériques. Des recherches sur les modalités de réception par des acteurs ou utilisateurs « anciens » ou « nouveaux » devra aussi faire l’objet de recherches. Trois champs – pluridisciplinaires et transversaux – paraissent dans un premier temps particulièrement prometteurs.

Le premier concerne l’articulation entre les parcours professionnels des créateurs et les modalités de leur travail de création. On pense ici aux nouvelles formes de création qui intègrent les technologies digitales les plus récentes. On pense aussi aux profondes transformations du travail artistique dans différents secteurs (musique, cinéma). À l’évidence, les nouvelles technologies paraissent affecter les conditions d’entrée dans les activités artistiques et culturelles. Elles appellent à une transformation des cursus de formation. Elles vont imposer une évolution du statut juridique d’un ensemble de professions anciennes ou émergentes. Elles vont transformer les modalités de protection par le droit de leurs productions artistiques, scientifiques ou pédagogiques. Autant de choses qui méritent des travaux approfondis.

Le second champ, plus centré sur l’histoire, doit permettre d’aller plus loin dans la compréhension de l’histoire transnationale. En mobilisant des outils et des supports numériques, ce champ d’étude s’appuie sur l’étude des représentations, des pratiques ou des modes de vie que véhiculent ces nouvelles formes de productions numériques. L’accent sera en particulier mis sur la longue durée. Des projets de ce type existent déjà dans le périmètre de Paris-Saclay, par exemple en musicologie. Ils illustrent la fécondité de ce type de démarche. Les technologies modifient les frontières au sein du travail de création collective. Petit à petit, c’est la définition des acteurs individuels ou collectifs qui s’en trouve interrogée. Par exemple, les premières recherches permettent de mieux comprendre l’activité et le travail de certains acteurs qui, sans être directement qualifiés de créateurs, participent néanmoins au travail de création. On pense par exemple aux éditeurs littéraires ou musicaux, aux impresarios, aux producteurs de cinéma, sans oublier les directeurs de labels dans l’industrie musicale, les administrateurs de production dans le spectacle vivant.

Le dernier champ qui mérite un soutien de la MSH Paris-Saclay porte sur les phénomènes de médiation et de réception des productions culturelles et artistiques. Cette thématique concerne de nombreux publics. Un accent particulier sera mis sur l’étude des nouveaux dispositifs de médiation numérique. On pense par exemple au jeu vidéo OFABULIS développé avec le CMN (Centre des monuments nationaux). Là encore, une mise en perspective historique doit faciliter la compréhension ces nouveaux dispositifs. L’histoire des médias, de l’image ou de la communication sera ici particulièrement sollicitée. C’est déjà le cas avec le projet TRANSFOPRESS (Transnational Network for the Study of Foreign Language Press) sur la presse en langues étrangères. Ce projet présente un fort potentiel de développement. Il est soutenu par la FSP (Fondation des sciences du patrimoine) en étroite collaboration avec le LABEX PATRIMA (Patrimoines matériels : savoirs, conservation, transmission).

Les nouvelles technologies révolutionnent également les recherches sur le patrimoine.

L’économie de l’immatériel façonne à la fois le processus de patrimonialisation, les modalités de transmission et les pratiques de création culturelle. Au-delà de la question de l’impact du numérique sur les champs du patrimoine et de la création, le numérique fait aussi émerger de nouvelles catégories patrimoniales, le patrimoine numérique, qui regroupe un ensemble de ressources et de données culturelles et patrimoniales selon la définition de l’UNESCO. Sous l’intitulé de « patrimoine numérique » peuvent être abordées les problématiques de traitement et d’archivage des données patrimoniales, de partage et d’enrichissement des données, de production collaborative des savoirs, de représentation, visualisation et création numérique (arts et sciences), ainsi que les questionnements épistémologiques, organisationnels et sociétaux associés. Le lien entre création et patrimoine pourra contribuer à nourrir une réflexion croisée, en particulier avec le développement de la notion de patrimoine immatériel.

Le patrimoine est à la fois un objet d’étude pour les chercheurs, mais aussi une source de questionnement scientifique sur la conservation et la valorisation. On pense par exemple au partage des objets de recherche, à l’évolution de l’acte de conservation (donc aussi de tri et de sélection) ou à la valorisation des objets patrimoniaux. On pense aussi à l’impact du numérique sur la façon de décrire, de penser, de nommer, de visualiser, de désigner le patrimoine. Se posent ensuite les problèmes liés à la dématérialisation qu’affrontent aujourd’hui un certain nombre d’institutions patrimoniales (bibliothèques, musées, archives). Il s’agit enfin d’identifier ce que le numérique peut apporter à la connaissance ou au partage des objets. Les futures recherches pourraient porter plus précisément sur la dématérialisation des objets culturels, la visualisation, le partage collaboratif, l’authenticité, la circulation des pratiques et des savoirs, le statut social et juridique des objets.

La virtualisation des patrimoines matériel et immatériel ne doit pas se substituer à la conservation du patrimoine physique et des supports traditionnels. Une dimension importante de la recherche saclaysienne est l’étude des matériaux. Il s’agit d’une dimension étroitement liée aux processus de patrimonialisation (objets de musée, collections d’histoire naturelle et d’archéologie, architecture, manuscrits et livres, archives). L’étude des matériaux a été profondément renouvelée par l’importance grandissante prise par les données et leur accessibilité. La caractéristique des travaux menés dans ce cadre est de combiner d’une manière inédite des sciences expérimentales (physique et chimie), les mathématiques, les sciences de l’information avec des SHS. De nombreuses recherches reposent sur des études empiriques construites dans le cadre d’une pratique épistémologique innovante. L’objectif est d’intégrer des données physicochimiques dans les modèles d’interprétation pluridisciplinaire. Cela a pour conséquence logique de mobiliser l’histoire des sociétés dans leur dimension artistique, culturelle, technique ou économique. On pense aussi à l’étude de l’évolution environnementale des sites, à l’optimisation des traitements de conservation et de restauration des objets du patrimoine. Il s’agit, en effet, à partir d’une approche interdisciplinaire des objets anciens, de comprendre comment les patrimoines, au sens matériel et immatériel, sont le résultat d’une série d’opérations historiques, juridiques, sociales, scientifiques ou techniques. Le patrimoine constitue ainsi un observatoire idéal pour saisir l’historicité des productions, des pratiques sociales qui leur sont liées ou des évolutions environnementales. On voit émerger les problèmes de l’authenticité, de la circulation des matériaux, des procédés techniques et des savoirs,de la dégradation/taphonomie des objets. En parallèle, du point de vue de la méthode et des réflexions épistémologiques, on s’interrogera sur le problème de vocabulaire, de traitement interdisciplinaire de données quantitatives et qualitatives, de statut social et juridique des objets patrimoniaux et d’épistémologie/sociologie de l’interdisciplinarité. L’hétérogénéité propre aux matériaux anciens est mise à profit comme nouvelle source d’information à propos de leur trajectoire historique et des pratiques associées. Cette approche réflexive transcende les approches traditionnelles et jette les bases d’une évolution épistémologique et méthodologique de la recherche interdisciplinaire dans ce domaine en ayant un impact direct sur ses objets concernés : questions d’hétérogénéité, d’altération au cours du temps et d’historicité, de croisement des échelles et d’échantillonnage. La MSH Paris-Saclay vise à rassembler les unités du plateau de Saclay autour des transversalités qui émergent de la cartographie SHS concernant les problématiques patrimoniales. Au-delà même des entités académiques, les unités de Paris-Saclay interagissent directement avec des institutions patrimoniales et culturelles du plateau de Saclay et de ses vallées (châteaux, musées, archives et théâtres). Ces unités travaillent avec des institutions culturelles de premier plan, au niveau régional ou national. Certaines de ces activités viendront naturellement s’inscrire dans le cadre de l’accord-cadre entre le CNRS et le ministère de la Culture et de la Communication. La reconnaissance internationale de la France dans le domaine des études sur les cultures et le patrimoine doit amener les équipes de Paris-Saclay à accentuer les collaborations existantes avec les universités d’Oxford, de Berkeley et de Stanford. La MSH Paris-Saclay souhaite associer étroitement le LABEX PATRIMA et l’EQUIPEX PATRIMEX (Patrimoines matériels : réseau d’instrumentation multisites expérimental), ainsi que le DIM (Domaine d’intérêt majeur) MAP (Matériaux anciens et patrimoniaux) aux recherches sur les questions patrimoniales. L’activité pourra s’articuler avec l’infrastructure européenne ERIHS (European Research Infrastructure for Heritage Science) dédiée à l’étude avancée des matériaux anciens. Les fonds d’archives de l’École polytechnique représentent aussi une ressource structurante pour l’histoire des sciences et des techniques du xviiie au xxie siècle. Il s’agit enfin de porter aussi les aspects liés à la valorisation (diffusion auprès des publics, impact sur le tourisme culturel, nouveaux médias, expertise analytique des biens patrimoniaux, droit et économétrie du patrimoine et de la culture) via une collaboration avec le réseau de PME PBM (Patrimoine, big data & multimédia).

Workshop MSH Paris-Saclay : Le pouvoir des algorithmes – 21/06/2017

Le quatrième workshop relatif aux axes de recherche de la MSH Paris-Saclay sera consacré à l’axe 1 – Le pouvoir des algorithmes -, et se tiendra le mercredi 21 juin 2017, dans les locaux de l’ENS Paris-Saclay, à Cachan (la salle sera communiquée ultérieurement).

Les questions de réseaux, de numérique, de données massives, de modélisation, etc.  vous intéressent, inscrivez-vous dès à présent à l’adresse suivante : christine.benichou@universite-paris-saclay.fr

PROGRAMME

9H00 – Accueil

 Session 1 – Systèmes algorithmiques et recherche : un enjeu fondamental pour Paris-Saclay

9h30-9h50 – Présentation de Nozha BOUJEMAA, DR, informatique, INRIA / I2DRIVE / TRANSALGO

« Le projet I2Drive »

9h50-10h10 – Présentation de Christine BALAGUE, Pr., sciences de gestion, Institut Mines Telecom- TEM / CERNA / I2DRIVE / TRANSALGO

« L’éthique des algorithmes »

10h10-10h30 – Présentation d’Anne VILNAT, PU, informatique, UPSud-LIMSI (UPR3251)

« Un comité d’éthique pour la recherche »

10h30-10h45 – Pause

Session 2 – Systèmes algorithmiques et régulation : pouvoir des algorithmes et politiques publiques

10h45-11h05 – Présentation de Sylvie THORON, PU, économie, UPEC-LIPHA (EA7373) et Pierre VALARCHER, PU, informatique, UPEC-LACL (EA4219)

« Algorithmes et citoyenneté – Le projet APB »

11h05-11h25 – Présentation de Dominique BARTH, PU, informatique, UVSQ-PRISM

« Smart cities »

11h25-11h45 – Présentation de Mélanie CLEMENT-FONTAINE, MCF, droit privé, UVSQ-DANTE (EA4498)

«  Le projet VEDECOM »

11h45-12h05 – Présentation de Fabien TARISSAN, CR, informatique, CNRS/ENS Paris-Saclay-ISP (UMR7220)

« Le projet ALGODIV : information diversity and algorithmic recommendation »

12h05-12h25 – Présentation de Paola TUBARO, CR, sociologie, CNRS/UPSud-LRI (UMR8623)

« Algorithmes et travail »

12h25-13h25 – Déjeuner

Session 3 – Systèmes algorithmiques et nouveaux modèles économiques : enjeux et perspectives

13h25-13h45 – Présentation de Grazia CECERE, PU, économie, UPSud-RITM (EA7360)

« Algorithm bias and gender discrimination in social network »

13h45-14h05 – Présentation de Fabrice LE GUEL, MCF, économie, UPSud-RITM (EA7360)

« The hidden economy of smartphone applications: personal data diffusion and concentration »

14h05-14h25 – Présentations d’Alain RALLET, PU émérite, économie, UPSud-RITM (EA7360) et Célia ZOLYNSKI, PU, droit privé, UVSQ-DANTE (EA4498)

« Les marchés émergents d l’économie guidée par la donnée »

14h25-14h45 – Présentation d’Alan KIRMAN, DE émérite, économie, CNRS/EHESS-CAMS (UMR8557) et Stefano BOSI, PU, économie, UEVE-EPEE (EA2177)

« Modèles multi-agents et frontières de la modélisation »

14h45-15h00 – Pause

Session 4 – L’axe 1 de la MSH Paris-Saclay

15h00-16h30 – Discussion sur l’évolution de l’axe 1 de la MSH Paris-Saclay

Coordination : Célia ZOLYNSKI, droit, membre du bureau de la MSH Paris-Saclay

 

Pour télécharger le programme : Programme Workshop Axe 1

Appel à article de la Revue Française de Sociologie sur « Big Data, Sociétés et Sciences Sociales »

Numéro spécial Revue française de sociologie : « Big Data, Sociétés et Sciences Sociales »

Coordination scientifique
Gilles BASTIN (Laboratoire PACTE, Sciences Po Grenoble),
Paola TUBARO (Laboratoire de Recherche en Informatique, CNRS, Université de Paris-Saclay)

Peu de sujets ont suscité dans les années récentes autant d’intérêt dans le débat public et dans les sciences sociales que celui des big data. La montée en puissance de nouvelles sources de données massives produites principalement par les technologies numériques alimente, depuis le début des années 2010, une réflexion et des craintes sur le fonctionnement des sociétés contemporaines et la production du savoir sur ces sociétés. Une grande part de la littérature consacrée aux big data oscille encore entre deux approches.

La première vise à caractériser de manière instrumentale ces données (par exemple par opposition aux données plus classiques utilisées par les chercheurs) et l’usage qui en est fait (Kitchin, 2013). La seconde met en avant de manière critique les risques induits par les big data : non seulement l’obsolescence de la méthode scientifique d’analyse des données appelée à être remplacée par des algorithmes sans lien fort avec les théories sociales (Anderson, 2006), mais aussi, et surtout, l’apparition d’une nouvelle forme de société « dirigée par les données » (Pentland, 2012), inaugurant des bouleversements de nos façons de vivre, de travailler et de penser (Mayer-Schönberger et Cukier, 2013) ou une nouvelle « gouvernementalité » (Rouvroy et Berns, 2013).

On dispose cependant encore de peu de travaux interrogeant les effets sociaux et les implications scientifiques des big data à partir d’une expérience de première main dans le domaine. Cet appel à contributions vise à mobiliser la communauté des sociologues qui s’intéressent aux big data et qui les utilisent autour de deux grandes questions qui ne nous paraissent pas devoir être séparées : comment les big data transforment-elles la société ?

Comment ces données affectent-elles la pratique des sciences sociales ? Cette double approche consistant, dans une perspective de sociologie des processus de datafication, à réfléchir à la quantification du social comme Alain Desrosières l’avait fait au sujet des statistiques, considérant en même temps « leurs apports de connaissance et les circuits sociaux de leur mise en forme et de leurs usages » (Desrosières, 2005). Notre objectif est par là de contribuer à la réflexion engagée depuis quelques années dans les sciences sociales sur les effets sociaux, économiques, juridiques et politiques, d’une part, méthodologiques et épistémologiques, d’autre part, du « déluge de données » (Hey et Trefethen, 2003) qui a accompagné trois phénomènes sociaux congruents. Le premier
est le développement des pratiques de documentation et de digitalisation de pans entiers de l’expérience sociale des individus sur le web.

Le second concerne la numérisation des produits culturels comme les livres, la musique ou les medias. Le troisième enfin est la généralisation de la collecte de traces d’usages et de pratiques sociales par des capteurs connectés au web dans des domaines très variés comme la santé, les déplacements ou la vie domestique.

Un premier type d’articles attendus concerne la généalogie du phénomène big data, aussi bien comme une forme d’innovation scientifique, dans des champs disciplinaires plus ou moins proches des sciences sociales, que comme un sujet du débat public (Beer, 2016). Les conditions historiques de diffusion du concept et des méthodes des big data pourront être examinées à l’aide d’études comparatives qui seraient utiles pour comprendre dans quelle mesure le contexte institutionnel pèse sur leur généralisation et la façon dont elles ont pénétré les espaces publics et académiques dans différents pays. La question du rapport (ou de l’écart) entre définition « publique » et définition « scientifique » des big data (Michael et Lupton, 2016) pourrait aussi être abordée dans des articles analysant ce phénomène sur un plan généalogique.

Les contributions pourront aussi aborder les nombreux problèmes publics qui ont émergé dans le sillage des big data. La façon dont la révolution des données modifie la perception de la vie privée et brouille la frontière entre sphère publique et sphère privée est un premier exemple de ces problèmes publics (Tubaro, Casilli et Sarabi, 2014). D’autres phénomènes peuvent être cités comme la question de la surveillance des populations rendue possible par la récupération massive d’informations sur les individus à partir des traces numériques de leurs activités. La question du « digital labor », souvent invisible et non rémunéré, qui permet d’alimenter les bases de données (Terranova, 2000 ; Cardon et Casilli, 2015 ; Scholz, 2012) comme celle du développement des algorithmes destinés à les traiter pourra aussi donner lieu à des propositions d’articles.

Le regard peut aussi se porter sur la propriété privée des données et sur l’injection de ressources informationnelles massives dans la chaîne de valeur économique, qui sont souvent l’apanage de grandes entreprises et qui déplacent les rapports de pouvoir en faveur de celles-ci, par rapport aux États et aux autorités publiques. Les contributions proposées pourront s’intéresser aux formes de discrimination « algorithmique » résultant des segmentations de marché très fines que les big data facilitent, ou aux inégalités d’éducation et d’accès aux données. Enfin des articles pourront aborder la manière dont les big data peuvent a contrario faciliter l’implication citoyenne et la participation démocratique, donnant une voix à des couches de la population traditionnellement moins bien représentées, notamment par la mise à disposition de données dans le cadre de l’open data (mouvements sociaux, datajournalisme, etc.).

Dans une perspective réflexive de sociologie de la profession de sociologue, d’autres propositions pourront aborder les effets de l’usage de ce type de données dont l’origine se situe généralement dans la pratique des individus et des institutions, en dehors de toute démarche de recherche. Si l’on adopte le point de vue réflexif de Burrows et Savage dans leur fameux article sur la « coming crisis » de la sociologie empirique (Savage et Burrows, 2007), celle-ci serait simplement en train de perdre sa « juridiction » sur tout un pan de la connaissance de la société. L’entretien et l’enquête par questionnaire qui lui ont longtemps assuré cette juridiction seraient en effet dépassés par de nouveaux modes de représentation de la société sans lien évident avec les connaissances sociologiques acquises et fondées sur la commodification des données personnelles.

La Revue française de sociologie souhaite aussi susciter des réflexions d’ordre méthodologique sur les big data. Les chercheurs en sciences sociales se sont engagés récemment dans l’analyse et, de plus en plus, l’utilisation de ces nouveaux matériaux (Cardon, 2012). Il nous semble que ce numéro pourrait leur donner l’occasion de rendre visibles les écueils qu’ils rencontrent en chemin et la façon dont ces données mettent en tension les « assemblages » techniques, méthodologiques et déontologiques qui forment leur appareil de preuve (Ruppert, Law et Savage, 2013).

Si, dans le discours courant, les big data sont souvent présentés en termes de rupture, ces contributions pourront notamment s’interroger à partir d’exemples concrets sur les éléments de continuité que l’on peut trouver dans leur utilisation par rapport à celle des small et des medium data dont s’est nourrie la sociologie tout au long de son histoire : l’enquête de terrain, l’interview, la statistique publique, etc. Un défi qui pourrait être discuté est celui des compétences désormais exigées du sociologue et par là, de l’interdisciplinarité nouvelle qui se crée dans les lieux de production de ces données.

L’usage des big data suppose en effet que le sociologue se forme aux méthodes de pointe de l’informatique (machine learning, visualisation des données) ou collabore avec des spécialistes de ces méthodes. Les effets de ces changements doivent être analysés dans le détail à l’image des opérations concrètes de ce que l’on peut appeler la datafication, par exemple le travail des « petites mains » des données (Dagiral et Peerbaye, 2012) ou des conflits d’interprétation qui naissent de la production des données d’enquête lorsque le sociologue doit les négocier avec leurs producteurs individuels, les plateformes d’agrégation de contenus et la CNIL (Bastin et Francony, 2016). La question de l’échantillonnage des données pourra aussi être au centre de propositions d’articles dans la lignée des débats soulevés par exemple par le Great British Class Survey (Savage et al., 2013 ; Mills, 2014).

Enfin, sur un plan épistémologique, des articles sur les aspects théoriques de l’épistémologie des sciences sociales à l’heure des big data pourront être publiés dans ce numéro. Les big data bouleversent-ils l’espace de l’enquête et le raisonnement sociologique (Passeron, 1991) comme l’avancent certains en craignant le glissement de l’explication causale à la simple mise en évidence de corrélations que provoqueraient les big data ? Comment comprendre l’émergence de notions comme celle de « trace » qui remet au goût du jour le paradigme de l’indice (Ginzburg, 1980) dans les études sur le numérique (Merzeau, 2009) ou encore celui de l’enquête fondée sur le modèle de la police scientifique — « forensic social science » (Goldberg, 2015) ?

Si ces quelques exemples n’épuisent pas l’ensemble des interrogations possibles sur le sujet de ce numéro spécial, il est opportun de préciser que des travaux discutant d’aspects méthodologiques spécifiques ou des défis techniques posés par les big data (par exemple, les problèmes de documentation ou de curation) seront les bienvenus pourvu qu’ils apportent des éléments permettant de les relier à la théorie ou la pratique sociologique. Réciproquement, sur les questions les plus théoriques soulevées par la thématique du numéro, un ancrage dans une étude de cas documentée précisément sera fortement apprécié.

Gilles Bastin et Paola Tubaro

Références

Anderson, C. (2006). « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete », Wired.
Bastin, G. et Francony, J.-M. (2016). « L’inscription, le masque et la donnée. Datafication du web et conflits d’interprétation autour des données dans un laboratoire invisible des sciences sociales », Revue d’Anthropologie des connaissances, 10(4).
Beer, D. (2016). « How should we do the history of Big Data ? », Big Data & Society, 3(1).
Cardon, D. (2012). « Regarder les données », Multitudes, 2012/2, n° 49.
Cardon, D. et Casilli, A.A. (2015). Qu’est-ce que le digital labor ?, Éditions de l’INA.
Dagiral, É. et Peerbaye, A. (2012). « Les mains dans les bases de données », Revue d’anthropologie des connaissances, 6(1).
Desrosières, A. (2005). « Décrire l’État ou explorer la société : les deux sources de la statistique publique », Genèses, n° 58.
Ginzburg, C. (1980). « Signes, traces, pistes », Le débat, n° 6.
Goldberg, A. (2015). « In defense of forensic social science », Big Data & Society, 2(2).
Gray, J., Chambers, L. et Bounegru, L. (2012). The data journalism handbook. O’Reilly Media, Inc.
Hey, A. J. et Trefethen, A. E. (2003). « The data deluge: An e-science perspective »In, Berman, F., Fox, G. C. and Hey, A. J. G. (eds.) Grid Computing – Making the Global Infrastructure a Reality, Wiley and Sons.
Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences, Sage.
Mayer-Schönberger, V. et Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think, Houghton Mifflin Harcourt.
Merzeau, L. (2009). « Du signe à la trace : l’information sur mesure », Hermès, La Revue, 2009/1, n° 53.
Michael, M. et Lupton, D. (2016). « Toward a manifesto for the ‘public understanding of big data’ », Public Understanding of Science, 25(1).
Mills, C. (2014). « The great British class fiasco: A comment on Savage et al. », Sociology, 48(3).
Passeron, J.-C. (1991). Le raisonnement sociologique : l’espace non-poppérien du raisonnement naturel, Paris, Nathan.
Pentland, A. (2012). « Reinventing society in the wake of big data ». Edge. Available online at: https://www.edge.org/conversation/alex_sandy_pentland-reinventing-society-in-the-wake-of-big-data
Rouvroy, A. et Berns, T. (2013). « Gouvernementalité algorithmique et perspectives d’émancipation », Réseaux, 2013/1, n° 177.
Ruppert, E., Law, J. et Savage, M. (2013). « Reassembling social science methods: The challenge of digital », Theory, culture & society, 30(4).
Savage, M. et Burrows, R. (2007). « The coming crisis of empirical sociology », Sociology, 41(5).
Savage, M., Devine, F., Cunningham, N., Taylor, M., Li, Y., Hjellbrekke, J., Le Roux, B., Friedman, S. et Miles, A. (2013). « A new model of social class? Findings from the BBC’s Great British Class Survey experiment », Sociology, 47(2).
Scholz, T. (ed.) (2012). Digital labor: The Internet as playground and factory, Routledge.
Terranova, T. (2000). « Free labor: Producing culture for the digital economy ». Social text, 18(2).
Thrift, N. (2005). Knowing capitalism, Sage.
Tubaro, P., Casilli, A.A. et Sarabi, Y. (2014). Against the Hypothesis of the End of Privacy, Springer.

Consignes pour les auteurs

Les propositions de contribution (min. 1 000 mots – max. 1 500 mots, bibliographie non incluse), en français ou en anglais, devront être adressées à Christelle Germain
(christelle.germain@cnrs.fr), secrétaire de rédaction, au plus tard le 28 février 2017.
Elles feront l’objet d’un examen conjoint par les signataires de cet appel et un autre membre de la Rédaction. La notification d’acceptation sera rendue au plus tard le 30 mars 2017.
Les auteurs dont la proposition aura été retenue devront soumettre leur texte, dont la longueur ne dépassera pas 70 000 signes (espaces, bibliographie et figures compris), au plus tard le 15 septembre 2017. Chaque article sera évalué indépendamment par les coordinateurs scientifiques du dossier et, de manière anonyme, par le comité de lecture de la Revue française de sociologie.

Retour haut de page