Un expert Semalt raconte comment le scraping des données Web a été légalisé par une décision de justice

Bien qu'il puisse être illégal de supprimer des données de sites Web sans l'autorisation explicite des propriétaires du site, un juge a récemment décidé autrement dans certaines circonstances. hiQ Labs a récemment déposé une plainte contre LinkedIn pour les avoir empêchés d'extraire des données des pages LinkedIn.

La plupart des gens ont été choqués par le fait que LinkedIn avait été invité à donner à la startup un accès gratuit à ses pages Web. hiQ a utilisé ses algorithmes pour détecter le moment où un utilisateur de LinkedIn recherche un emploi en fonction des modifications apportées par l'utilisateur à son profil public.

Les algorithmes fonctionnent sur des données extraites des pages Web de LinkedIn. Comme prévu, LinkedIn n'a pas aimé et des contre-mesures ont été mises en place pour empêcher hiQ de poursuivre l'extraction des données. Outre les barrières techniques qui ont été mises en place, des avertissements juridiques formulés avec force ont également été émis.

La startup n'avait pas d'autre choix que de soulever la question en toute légalité. hiQ a dû demander réparation. L'entreprise souhaitait que LinkedIn ordonne la suppression de ses obstacles techniques. hiQ souhaitait également légaliser son processus d'extraction de données sur LinkedIn.

Heureusement pour la startup, elle a obtenu ce qu'elle voulait. La décision était en faveur de hiQ. LinkedIn a reçu l'ordre de supprimer toutes les contre-mesures empêchant hiQ de gratter ses pages Web (LinkedIn) et de lui donner également carte blanche car la loi est totalement légale. Le juge a articulé sa décision sur le fait que ce que hiQ veut gratter, ce sont des données qui ont été affichées à la vue du public.

Le juge a non seulement ordonné à l'accusé de retirer tous les mécanismes de prévention mis en place contre le HIQ, mais il a également ordonné à l'accusé de renoncer à de tels actes à l'avenir.

Promouvoir des données Web ouvertes

Bien que la décision soit toujours une injonction temporaire, il est réconfortant d'entendre que la loi soutient les données Web ouvertes et le libre accès aux informations sur Internet, comme le confirme cette décision. Même si la décision finale arrive à favoriser l'accusé, ce fait est déjà établi.

Le juge a promu cette politique en fermant pratiquement tous les arguments de LinkedIn. Alors que LinkedIn tentait d'établir que le demandeur violait sa vie privée, le juge l'a répliqué par le fait que le défendeur vendait également les données.

Lorsque l'argument n'a pas tenu le coup, le défendeur a également déclaré que l'acte de hiQ constituait une violation flagrante de la Computer Fraud and Abuse Act (CFAA) parce que la startup avait accédé à leurs serveurs pour collecter des données illégalement. Encore une fois, l'argument a été percé. Il a été rejeté au motif que hiQ ne faisait que gratter du contenu sur les pages publiques non protégées.

Le juge a analogisé le cas comme quelqu'un entrant dans un magasin ouvert pendant les heures ouvrables. On ne peut pas dire qu'une telle personne est une intrusion. Donc, hiQ n'était pas une intrusion. Fait intéressant, le juge est allé plus loin pour expliquer pourquoi sa décision est dans l'intérêt public.

En résumé, la Cour a reconnu qu'il était dans l'intérêt public de permettre l'analyse, l'extraction et l'analyse des données. Ce sera donc une politique préjudiciable d'encourager le placement d'obstacles à la libre circulation de l'information.

Ce que vous devez apprendre de la décision

Bien que vous n'ayez peut-être pas de raisons d'extraire des données directement de LinkedIn, vous devriez apprendre de la décision. Il est préférable de jouer en toute sécurité en lisant et en respectant le fichier robots.txt de tous les sites Web. N'oubliez pas que la décision est toujours une injonction temporaire. Il pourrait éventuellement aller en faveur de LinkedIn.

Bien que la décision puisse ne pas vous affecter directement, il est réjouissant qu'un tribunal fédéral maintienne la politique de garder le Web ouvert au public. Les informations doivent donc être disponibles et accessibles à ceux qui peuvent les rechercher et en faire bon usage.

Les données Web sont extrêmement utiles pour tout le monde, en particulier les analystes des médias, les développeurs, les scientifiques des données et certains autres professionnels. En tant que tel, la décision est une évolution bienvenue.

mass gmail