Programmation de scripts HTML et CSS dans le cadre d’un projet de web scraping

Le Web Scraping est-il légal ?

Article proposé par

Paul Mouginot, Directeur des Opérations, stabler.tech

avec l’aimable collaboration de Nathalie Martial-Braz, Avocate, Twelve

Temps de lecture : 8mn| Base de données

Article mis à jour le 13 avril 2026

Le web scraping consiste à utiliser des moyens technologiques -notamment logiciels- pour collecter industriellement des données publiques présentes sur des supports digitaux sur Internet. Il peut s’agir de tous types de supports, comme des blogs ou des sites web. L’objectif de la collecte réalisée par le web scraping consiste à les restituer de manière organisée dans une base de données.

La régularité de ces opérations permet d’offrir aux utilisateurs de ces outils de web scraping un véritable « trésor de données » qu’ils peuvent réutiliser par la suite dans de multiples cas d’usages : construction d’une stratégie de pricing et de prédiction de la demande, étude du paysage concurrentiel de leur entreprise, alimentation de modèles d’intelligence artificielle, enrichissement pertinent de données internes à l’entreprise…

Une question essentielle vient vite à l’esprit quand nous parlons de web scraping : est-ce que cette pratique est légale ?

Les points clés à retenir concernant la légalité du web-scraping :

Le web scraping n’est pas illégal en soi, mais il doit respecter le cadre juridique en vigueur.

Le droit sui generis et le droit d’auteur peuvent protéger certaines bases de données : il est donc nécessaire de vérifier si une extraction est autorisée.

Les Conditions Générales d’Utilisation (CGU) des sites fixent les règles d’accès et d’usage des données : elles doivent être respectées.

Un usage abusif ou frauduleux peut être sanctionné au titre du droit pénal (accès ou maintien frauduleux dans un système de traitement automatisé de données).

Le RGPD s’applique dès lors que des données personnelles sont collectées : toute opération de scraping doit intégrer la conformité en matière de protection des données.

Pour donner une valeur probante aux données collectées, il est recommandé de recourir à un tiers de confiance comme l’APP, via l’horodatage.

Une pratique pas interdite mais encadrée

En partenariat avec le cabinet Twelve, Stabler.tech a étudié depuis sa création cette question importante et a pu définir les bonnes pratiques qui doivent être mises en œuvre par le fournisseur de logiciel et son client pour respecter le cadre légal et ainsi garantir la licéité des pratiques envisagées.

Tout d’abord, et il est crucial de le noter, l’activité de web scraping n’est absolument pas illicite ou interdite en soi, de même que ne le sont pas davantage les outils qui permettent d’extraire des données sur Internet.

L’étude détaillée du contexte légal permet de faire ressortir quatre points d’attention essentiels afin de respecter les droits des tiers et les exigences réglementaires permettant d’assurer la licéité de l’opération, points d’attention, que stabler.tech a intégré lors du développement de ses technologies. Il ne s’agit pas ici de développer le détail des dispositifs légaux qui ont vocation à s’appliquer, uniquement de souligner les principes qui constituent l’essence même de nos pratiques afin qu’elles puissent être, by design, respectueuses de l’environnement légal auquel elles sont soumises.

**Respecter le droit sui generis du producteur de base de données**

Droit d’auteur

Certaines données présentes sur le web, lorsqu’elles sont constituées en bases de données, peuvent recevoir, outre la protection par le droit d’auteur, une protection plus spécifique, par le droit « sui generis » des producteurs de bases de données. Cette protection est acquise lorsque le producteur de bases de données peut démontrer des investissements importants pour constituer ces bases. Le producteur doté de cette protection peut ainsi interdire l’extraction d’une partie ou de tous ses contenus.

De manière empirique, la jurisprudence enseigne que la protection est difficilement acquise parce que la plupart des sites Internet dont les données sont scrapées peuvent difficilement se réclamer de la protection par le droit sui generis du producteur des bases de données. Cependant, il est recommandé aux clients de faire une utilisation mesurée des extractions (quantité, fréquence et ciblage).

Note de l’APP

Sur le plan légal, l’article L. 342-3 du Code de la propriété intellectuelle apporte des précisions importantes sur ce qui est permis ou non.

Respecter les Conditions Générales d’Utilisation des supports digitaux concernés

Droit des contrats

Une décision de la Cour de Justice de l’Union Européenne du 15 janvier 2015 (C-30/14, Ryanair Ltd c. PR Aviation BV), pose que lorsqu’un support digital ne bénéficie ni de de la protection spécifique prévue par le droit sui generis des bases de données, ni de la protection conférée par un droit d’auteur, il est possible d’envisager, par des dispositions contractuelles, les conditions de l’usage des données par des tiers : c’est le principe des Conditions Générales d’Utilisation.

Les CGU fixent donc les règles contractuelles auxquelles les parties, les utilisateurs du site, se soumettent. Le consentement, dès lors que les termes sont clairs et l’information donnée, peut se déduire de la simple navigation sur le site.

Stabler.tech recommande toujours à ses clients de vérifier le contenu des CGU des supports digitaux qu’ils désirent extraire, et de se conformer aux limites stipulées par les textes. En outre, cette vérification devrait être effectuée à chaque nouveau lancement des bots pour valider que les CGU n’ont pas changé.

Stabler.tech ne fournit que les outils d’extraction de données et n’a pas accès aux configurations et aux données extraites par ses clients. Ses clients sont donc responsables, selon ses termes et conditions, du bon respect des CGU des supports digitaux visés par leurs opérations de web scraping.

Note de l’APP

L’évolution des CGU des grandes plateformes illustre bien ce mouvement de durcissement. LinkedIn, par exemple, a refondu ses conditions d’utilisation fin 2024 pour y interdire de façon encore plus explicite toute forme de collecte automatisée, y compris sur les profils publics. Les sanctions prévues vont désormais bien au-delà de la simple suspension de compte et incluent un blocage permanent de l’accès à la plateforme.

Respecter les lois en matière d’accès et de maintien dans un STAD

Droit pénal

Lorsque les clients utilisent les outils fournis par stabler.tech, la technologie leur permet d’accéder aux supports digitaux et, via des requêtes informatiques, reproduisent le comportement humain d’un internaute de manière automatisée.

Suivant les cas, ces requêtes peuvent être très ciblées, ou à l’inverse, plus massives et systématiques et dépasser la vitesse de navigation typique d’un internaute.

Le droit pénal sanctionne l’atteinte aux systèmes de traitement automatisé de données. Dès lors, la question peut se poser de savoir si cette pratique du web scraping peut constituer une telle infraction caractérisée par la tentative d’accès ou de maintien dans un STAD (système de traitement automatisé de données) -c’est-à-dire le support digital ?

L’activité de web scraping ne constitue pas nécessairement et de manière systématique un accès frauduleux dans un STAD. Il appartient aux clients utilisateurs de bots de les utiliser dans le respect des CGU du support digital et de reproduire, en dépit de l’usage du bot, le comportement d’un internaute classique.

Respecter les principes du RGPD lors du traitement de la donnée

Droit de la protection des données

Le RGPD, et à l’échelle nationale la loi informatique et libertés, imposent un certain nombre d’exigences de conformité afin d’assurer la légalité des traitements de données à caractère personnel. Le web scraping constitue sans aucun doute un traitement de données et doit donc, lorsque des données personnelles sont concernées, respecter ces exigences pour se conformer à la réglementation en matière de protection des données à caractère personnel. En tant qu’entreprise française et européenne, staber.tech est soumise à ces impératifs de conformité et doit donc intégrer, by design ces exigences afin d’être pleinement respectueux des données à caractère personnel et des droits des personnes concernées. Elle demande ainsi dans le cadre de ses Conditions d’Utilisation à ses clients d’en faire de même et de ne pas utiliser ses outils pour extraire illicitement des données personnelles au mépris des principes du RGPD.

Note de l’APP

Les obligations issues du RGPD méritent d’être précisées à la lumière des recommandations publiées par la CNIL en juin 2025, qui traitent spécifiquement du moissonnage de données et de son articulation avec le développement de systèmes d’IA.

La régulation, vecteur de nouveaux usages pour le web scraping

Lorsqu’on extrait des données sur des supports digitaux en utilisant des outils de web scraping tels que ceux proposés par stabler.tech, il convient donc de respecter un ensemble de bonnes pratiques, pour se conformer au cadre légal français et européen.

Loin d’être une contrainte, ce cadre légal permet de protéger les droits des créateurs de bases de données, des usagers et de leurs données personnelles.

Plus encore, l’application des normes peut ainsi générer de nouveaux cas d’usage pertinents pour les activités de web scraping. A titre d’exemple, une enseigne ou un site web doit désormais s’assurer que les prix barrés affichés sur leurs supports font bien référence à un prix réel effectivement pratiqué dans les 30 derniers jours. Lorsque des milliers -voire des millions- de produits sont proposés par ces commerçants, on comprend immédiatement qu’il sera à court terme crucial de proposer des dispositifs automatisés d’extraction de ces « prix pratiqués dans les 30 derniers jours », faisant donc appel au web scraping.

Note de l’APP — Le développement des systèmes d’intelligence artificielle constitue un autre terrain d’expansion du scraping Ce domaine fait cependant l’objet d’une attention réglementaire croissante : la CNIL a publié en juin 2025 des recommandations spécifiques encadrant le recours à l’intérêt légitime lorsque la collecte de données est destinée à l’entraînement de modèles d’IA. Parallèlement, de nombreux éditeurs de sites prennent désormais soin d’interdire explicitement dans leurs CGU ou via leur fichier robots.txt toute collecte à cette fin. Ces oppositions ont une valeur juridique et doivent être identifiées en amont de tout projet de scraping orienté IA.

Pour une analyse complémentaire, vous pouvez consulter l’article publié par Evidency sur ce sujet.

Après avoir extrait ces informations, il est recommandé d’effectuer un horodatage avec un tiers de confiance comme l’Agence pour la Protection des Programmes (APP). Cette solution permet de donner une date certaine au document numérique pour apporter une preuve infalsifiable et prouver son intégrité. Pour en savoir plus sur l’horodatage, nous vous invitons à consulter notre livre blanc.

Livre blanc horodatage

Stabler.tech est à votre disposition pour en discuter avec vous, n’hésitez pas à nous contacter !

Un grand merci au cabinet Twelve et à l’Agence pour la Protection des Programmes (APP) pour leur collaboration sur cet article.

Vous avez aimé l’article ?

N’hésitez pas à le partager et à nous suivre sur nos réseaux sociaux pour en apprendre plus