Il Garante privacy ha pubblicato le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet effettuata per addestrare i modelli di Intelligenza artificiale generativa (IAG). Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito di un’indagine conoscitiva dello scorso dicembre.
Web scraping e diritto alla protezione dei dati personali
Il web scraping è una tecnica utilizzata per effettuare una raccolta massiva di dati da siti web in modo automatizzato. Si basa su script o programmi che navigano le pagine web, recuperano informazioni specifiche e le organizzano in un formato strutturato. I dati recuperati vengono usati principalmente per finalità di addestramento dei modelli di intelligenza artificiale generativa (IAG).
Le finalità per cui viene svolta l’attività di web scraping sono molteplici. Alcune sono senz’altro malevole, mentre per altre la valutazione di liceità o illiceità resta inevitabilmente rimessa a un accertamento da compiersi caso per caso.
Quando l’attività di web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dei dati personali.
Le indicazioni del Garante
Il Garante ha fornito alcune indicazioni ai gestori di siti web e di piattaforme online in merito alle possibili cautele da adottare per mitigare gli effetti del web scraping. In particolare quello finalizzato all’addestramento di sistemi di intelligenza artificiale generativa.
Questi alcuni dei suggerimenti del Garante da applicare a siti web o piattaforme online:
- Creare aree riservate;
- Inserire clausole ad hoc nei termini di servizio;
- Monitoraggio del traffico di rete;
- Utilizzare tecniche che limitino l’accesso ai bot (es. verifiche CAPTCHA).
Queste misure non sono obbligatorie: i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se metterle in atto per prevenire o mitigare in maniera selettiva gli effetti del web scraping. In tal caso dovranno prendere in considerazione una serie di elementi: lo stato dell’arte tecnologico e i costi di attuazione, in particolare nel caso delle PMI.
Anche se nessuna di queste misure può ritenersi idonea a impedire al 100% il web scraping, è comunque auspicabile adottarle sulla base di un’autonoma valutazione da parte del titolare del trattamento.
Verso un equilibrio tra IA e tutela della privacy
L’intelligenza artificiale generativa porta dei benefici che non possono essere limitati né sminuiti. L’addestramento dei modelli per far funzionare questi sistemi richiede, tuttavia, una mole ingente di dati (anche di carattere personale) spesso provenienti da una raccolta massiva ed indiscriminata effettuata sul web. I gestori di siti web e di piattaforme online che rivestano al tempo stesso il ruolo di titolari del trattamento dovrebbero valutare, quando risulti necessario, di sottrarre i dati personali che trattano ai bot di terze parti mediante azioni di contrasto come quelle suggerite dal Garante.