Visuel article web scraping

Le Web Scraping est-il légal ?

Article proposé par

Paul Mouginot, Directeur des Opérations, stabler.tech

avec l’aimable collaboration de Nathalie Martial-Braz, Avocate, Twelve

Temps de lecture : 8mn| Base de données

Le web scraping consiste à utiliser des moyens technologiques -notamment logiciels- pour collecter industriellement des données publiques présentes sur des supports digitaux sur Internet. Il peut s’agir de tous types de supports, comme des blogs ou des sites web. L’objectif de la collecte réalisée par le web scraping consiste à les restituer de manière organisée dans une base de données.

La régularité de ces opérations permet d’offrir aux utilisateurs de ces outils de web scraping un véritable « trésor de données » qu’ils peuvent réutiliser par la suite dans de multiples cas d’usages : construction d’une stratégie de pricing et de prédiction de la demande, étude du paysage concurrentiel de leur entreprise, alimentation de modèles d’intelligence artificielle, enrichissement pertinent de données internes à l’entreprise…

Une question essentielle vient vite à l’esprit quand nous parlons de web scraping : est-ce que cette pratique est légale ?

En partenariat avec le cabinet Twelve, Stabler.tech a étudié depuis sa création cette question importante et a pu définir les bonnes pratiques qui doivent être mises en œuvre par le fournisseur de logiciel et son client pour respecter le cadre légal et ainsi garantir la licéité des pratiques envisagées.

Tout d’abord, et il est crucial de le noter, l’activité de web scraping n’est absolument pas illicite ou interdite en soi, de même que ne le sont pas davantage les outils qui permettent d’extraire des données sur Internet.

L’étude détaillée du contexte légal permet de faire ressortir quatre points d’attention essentiels afin de respecter les droits des tiers et les exigences réglementaires permettant d’assurer la licéité de l’opération, points d’attention, que stabler.tech a intégré lors du développement de ses technologies. Il ne s’agit pas ici de développer le détail des dispositifs légaux qui ont vocation à s’appliquer, uniquement de souligner les principes qui constituent l’essence même de nos pratiques afin qu’elles puissent être, by design, respectueuses de l’environnement légal auquel elles sont soumises.

Respecter le droit sui generis du producteur de base de données

Droit d’auteur

Certaines données présentes sur le web, lorsqu’elles sont constituées en bases de données, peuvent recevoir, outre la protection par le droit d’auteur, une protection plus spécifique, par le droit « sui generis » des producteurs de bases de données. Cette protection est acquise lorsque le producteur de bases de données peut démontrer des investissements importants pour constituer ces bases. Le producteur doté de cette protection peut ainsi interdire l’extraction d’une partie ou de tous ses contenus.

De manière empirique, la jurisprudence enseigne que la protection est difficilement acquise parce que la plupart des sites Internet dont les données sont scrapées peuvent difficilement se réclamer de la protection par le droit sui generis du producteur des bases de données. Cependant, il est recommandé aux clients de faire une utilisation mesurée des extractions (quantité, fréquence et ciblage).

Respecter les Conditions Générales d’Utilisation des supports digitaux concernés

Droit des contrats

Une décision de la Cour de Justice de l’Union Européenne du 15 janvier 2015 (C-30/14, Ryanair Ltd c. PR Aviation BV), pose que lorsqu’un support digital ne bénéficie ni de de la protection spécifique prévue par le droit sui generis des bases de données, ni de la protection conférée par un droit d’auteur, il est possible d’envisager, par des dispositions contractuelles, les conditions de l’usage des données par des tiers : c’est le principe des Conditions Générales d’Utilisation.

Les CGU fixent donc les règles contractuelles auxquelles les parties, les utilisateurs du site, se soumettent. Le consentement, dès lors que les termes sont clairs et l’information donnée, peut se déduire de la simple navigation sur le site.

Stabler.tech recommande toujours à ses clients de vérifier le contenu des CGU des supports digitaux qu’ils désirent extraire, et de se conformer aux limites stipulées par les textes. En outre, cette vérification devrait être effectuée à chaque nouveau lancement des bots pour valider que les CGU n’ont pas changé.

Stabler.tech ne fournit que les outils d’extraction de données et n’a pas accès aux configurations et aux données extraites par ses clients. Ses clients sont donc responsables, selon ses termes et conditions, du bon respect des CGU des supports digitaux visés par leurs opérations de web scraping.

Respecter les lois en matière d’accès et de maintien dans un STAD

Droit pénal

Lorsque les clients utilisent les outils fournis par stabler.tech, la technologie leur permet d’accéder aux supports digitaux et, via des requêtes informatiques, reproduisent le comportement humain d’un internaute de manière automatisée.

Suivant les cas, ces requêtes peuvent être très ciblées, ou à l’inverse, plus massives et systématiques et dépasser la vitesse de navigation typique d’un internaute.

Le droit pénal sanctionne l’atteinte aux systèmes de traitement automatisé de données. Dès lors, la question peut se poser de savoir si cette pratique du web scraping peut constituer une telle infraction caractérisée par la tentative d’accès ou de maintien dans un STAD (système de traitement automatisé de données) -c’est-à-dire le support digital ?

L’activité de web scraping ne constitue pas nécessairement et de manière systématique un accès frauduleux dans un STAD. Il appartient aux clients utilisateurs de bots de les utiliser dans le respect des CGU du support digital et de reproduire, en dépit de l’usage du bot, le comportement d’un internaute classique.

Respecter les principes du RGPD lors du traitement de la donnée

Droit de la protection des données

Le RGPD, et à l’échelle nationale la loi informatique et libertés, imposent un certain nombre d’exigences de conformité afin d’assurer la légalité des traitements de données à caractère personnel. Le web scraping constitue sans aucun doute un traitement de données et doit donc, lorsque des données personnelles sont concernées, respecter ces exigences pour se conformer à la réglementation en matière de protection des données à caractère personnel. En tant qu’entreprise française et européenne, staber.tech est soumise à ces impératifs de conformité et doit donc intégrer, by design ces exigences afin d’être pleinement respectueux des données à caractère personnel et des droits des personnes concernées. Elle demande ainsi dans le cadre de ses Conditions d’Utilisation à ses clients d’en faire de même et de ne pas utiliser ses outils pour extraire illicitement des données personnelles au mépris des principes du RGPD.

La régulation, vecteur de nouveaux usages pour le web scraping

Lorsqu’on extrait des données sur des supports digitaux en utilisant des outils de web scraping tels que ceux proposés par stabler.tech, il convient donc de respecter un ensemble de bonnes pratiques, pour se conformer au cadre légal français et européen.

Loin d’être une contrainte, ce cadre légal permet de protéger les droits des créateurs de bases de données, des usagers et de leurs données personnelles.

Plus encore, l’application des normes peut ainsi générer de nouveaux cas d’usage pertinents pour les activités de web scraping. A titre d’exemple, une enseigne ou un site web doit désormais s’assurer que les prix barrés affichés sur leurs supports font bien référence à un prix réel effectivement pratiqué dans les 30 derniers jours. Lorsque des milliers -voire des millions- de produits sont proposés par ces commerçants, on comprend immédiatement qu’il sera à court terme crucial de proposer des dispositifs automatisés d’extraction de ces « prix pratiqués dans les 30 derniers jours », faisant donc appel au web scraping.

Après avoir extrait ces informations, il est recommandé d’effectuer un horodatage avec un tiers de confiance comme l’Agence pour la Protection des Programmes (APP). Cette solution permet de donner une date certaine au document numérique pour apporter une preuve infalsifiable​ et prouver son intégrité​. Pour en savoir plus sur l’horodatage, nous vous invitons à consulter notre livre blanc.

Stabler.tech est à votre disposition pour en discuter avec vous, n’hésitez pas à nous contacter !

Un grand merci au cabinet Twelve et à l’Agence pour la Protection des Programmes (APP) pour leur collaboration sur cet article.

Vous avez aimé l’article ? 

N’hésitez pas à le partager et à nous suivre sur nos réseaux sociaux pour en apprendre plus