Web scraping en el contexto de la protección de datos

El web scraping es una técnica consistente en extraer información de una web mediante el uso de programas software que permiten navegar automáticamente por ella simulando una navegación humana.

Esta técnica no resulta novedosa ni ajena en el mundo digital ya que a lo largo de los años su uso se ha expandido a distintas aplicaciones prácticas que van desde aglutinar noticias u ofertas en un único sitio (agregadores de contenido) hasta conocer el rendimiento digital de una web (posicionamiento, cuota de mercado digital, tipo de contenidos a potenciar, etc.) gracias al scraping de los resultados de búsqueda que realizan herramientas como Google Search Analysis. Todo ello pasando por el estudio de la reputación online, el aprovechamiento de oportunidades de marketing (cool hunting), la optimización de precios y e-commerce (comparadores de precios y/o categorización de productos) o la monitorización de la competencia, entre otros.

Legalidad del web scraping.

En una era donde los datos personales son un activo más para la empresas, resulta inevitable su uso para recabar información de las personas a fin de poder tener un mayor conocimiento de estas y, por ende, realizar perfiles de distinta índole sobre estas. Sin embargo, ¿es legal el uso de esta técnica con dichos fines?

Dar una única respuesta a esta pregunta resulta complicado. A pesar de que el web scraping no es ilegal por defecto tampoco es legal por definición. Se requiere estudiar detenidamente las peculiaridades de cada caso y las distintas implicaciones legales, ya que estas atañen a distintas ramas del Derecho como son la competencia desleal, la propiedad intelectual y la protección de datos.

En este artículo nos centraremos en las implicaciones de esta técnica desde el punto de vista de la normativa de protección de datos personales.

Web scraping en el contexto del RGPD.

Desde el punto de vista de protección de datos personales, la legalidad del web scraping a priori resulta complicada de defender por los siguientes motivos:

Internet no es una fuente accesible al público. A pesar de su uso extendido y su carácter público, internet nunca ha sido reconocida por la Agencia Española de Protección de Datos (AEPD) como tal, ni siquiera cuando la hoy derogada Ley Orgánica de Protección Datos (LOPD) estaba vigente. Por tanto, su carácter público no constituye una base jurídica para poder tratar los datos de forma legal.
El Reglamento General de Protección de Datos (RGPD) no reconoce la existencia de fuentes accesibles al público, a diferencia de lo que ocurría con la LOPD teniendo esta consideración el censo promocional, los repertorios telefónicos, determinado tipo de listados de colectivos profesionales, los diarios y boletines oficiales y los medios de comunicación.
El tratamiento de los datos personales obtenidos se podría llegar a considerar ilícito, con el consiguiente riesgo de sanción económica por parte de la AEPD o la pertinente autoridad de control. Un buen ejemplo es la sanción de un millón de euros que la AEPD impuso a EQUIFAX IBÉRICA S.L. en abril de 2021 o la sanción 20 millones de euros que la autoridad italiana, IL GARANTE, ha impuesto recientemente a CLEARVIEW AI por el uso de web scraping para recabar información personal de los usuarios.

A la luz de las sanciones mencionadas, se puede observar la tendencia de las autoridades de control de los distintos países de la Unión Europea en contra del uso del web scraping para recabar y tratar información personal de los usuarios. Esto se debe al alto impacto que los tratamientos de datos obtenidos mediante esta práctica pueden tener sobre la intimidad de las personas.

Por todo ello, antes de optar por utilizar esta técnica para recabar y tratar datos personales de los usuarios es necesario planificar y diseñar correctamente la actividad del tratamiento correspondiente. En concreto, se deben adoptar como mínimo los siguientes pasos de conformidad con el RGPD:

Realizar un análisis de riesgos a fin de determinar si el uso del web scraping puede influir o conllevar que el tratamiento de los datos suponga un riesgo alto para los derechos y las libertades de las personas. En tal caso, se deberá realizar una evaluación de impacto sobre la privacidad a fin de adoptar medidas que mitiguen dicho riesgo (por ejemplo, anonimizar los datos recabados).
Determinar correctamente la base jurídica que legitime el tratamiento de los datos. A este respecto, cabe destacar que resulta difícil ampararse en el interés legítimo cuando los datos se vayan a tratar con fines publicitarios puesto que optar por esta base jurídica implica realizar un análisis de ponderación de intereses cuyo resultado probablemente no sea favorable a los intereses del Responsable del Tratamiento. En consecuencia, es preferible optar por el consentimiento del titular de los datos siempre que este sea expreso, informado y libre, además de cumplir con las condiciones establecidas en el artículo 7 del RGPD.
Informar al titular de los datos del tratamiento de sus datos personales y de las fuentes de las que se han obtenido. En concreto, esta información se le debe facilitar con anterioridad a recabar o tratar sus datos personales de los recursos disponibles en internet (perfiles de redes sociales, webs, etc.) y cumpliendo con los requisitos establecidos en el artículo 14 del RGPD.

Adicionalmente, se deberán tener presentes otros aspectos de distinta índole como revisar las condiciones y términos de uso de la web objeto del scraping, considerar si el número de peticiones que se realicen a los servidores de dicha web pueda suponer una conducta delictiva (por ejemplo, un ataque DDos) o perjudicar el negocio del titular de la web.

Amaya Reguilón Espinosa

Delegada de Protección de Datos

Asseco Spain Group

Asseco Poland

Asseco Denmark

Asseco Lithuania

Asseco Nigeria

Asseco Eastern Europe

Asseco Spain Group

Asseco PST

Asseco Georgia

Asseco Central Europe

Slovakia

Czech Republic

Hungary

Asseco Solutions

Germany

Switzerland

Austria

Asseco South Eastern Europe

Albania

Bosnia and Hercegovina

Bulgaria

Croatia

Kosovo

Macedonia

Moldova

Montenegro

Romania

Serbia

Slovenia

Turkey

Web scraping en el contexto de la protección de datos