L’INTELLIGENZA ARTIFICIALE E COME DIFENDERE I DATI PERSONALI DAL WEB SCRAPING

Il Garante per la protezione dei dati personali ha cominciato a posare i suoi occhi sull’intelligenza artificiale e, con il provvedimento n. 329 del 20 maggio 2024(Link), ha deciso di fornire indicazioni su come difendere i dati personali pubblicati online da soggetti pubblici e privati dal fenomeno del web scraping. Questo provvedimento nasce dall’analisi delle segnalazioni ricevute dall’Autorità durante un’indagine conoscitiva avviata lo scorso dicembre.

WEB SCRAPING

Cosa e’ il Web Scraping

Con web scraping si intende la raccolta indiscriminata di dati personali su internet, effettuata da terzi per addestrare modelli di Intelligenza Artificiale Generativa (IAG). Il processo si basa su script e programmi automatizzati che navigano sul web, estraggono dati e li salvano localmente in forma strutturata. Da un lato, sicuramente il web scraping può essere lecito quando i dati sono pubblicamente accessibili e usati per scopi statistici o di monitoraggio; dall’altro, la pratica diventa problematica quando coinvolge dati personali o proprietà intellettuale ottenuti senza consenso.

Misure di Protezione Raccomandate per difendersi dal Web Scraping

Il Garante suggerisce diverse misure per prevenire o mitigare il web scraping non autorizzato:

  1. Creazione di Aree Riservate: per limitare la disponibilità pubblica dei dati suggerisce e ridurre le opportunità di scraping, il Garante suggerisce la creazione di aree riservate accessibili solo previa registrazione;
  2. Clausole nei Termini di Servizio: un altro suggerimento è quello di inserire clausole specifiche nei Termini di Servizio dei siti web che vietano l’uso di tecniche di web scraping, creando un deterrente legale contro chi non rispetta tali disposizioni;
  3. Monitoraggio del Traffico di Rete: monitorando le richieste HTTP per identificare flussi di dati anomali e utilizzando tecniche come il “Rate Limiting”; si possono limitare il numero di richieste da indirizzi IP specifici.
  4. Intervento sui Bot: utilizzando autenticazioni o verifiche tramite CAPTCHA, modifiche periodiche del markup HTML e incorporazione dei contenuti in oggetti multimediali l’operatività dei bot di scraping diventa più difficile.

 

Queste misure non sono obbligatorie, ma rappresentano strumenti utili che i titolari del trattamento dovrebbero valutare in base al principio di accountability. È essenziale considerare lo stato dell’arte tecnologico e i costi di attuazione, soprattutto per le piccole e medie imprese (PMI).

Come anticipato sopra, il web scraping può violare i principi del GDPR nel momento in cui coinvolge dati personali ottenuti ed utilizzati in modo illecito. Il Garante ha già inibito l’utilizzo di dati raccolti tramite scraping in passato, come nel caso di una società che aveva pubblicato informazioni raccolte in forma di elenco telefonico online, o quando ha vietato l’invio di email commerciali a professionisti i cui indirizzi erano stati prelevati da elenchi di pubblico dominio senza autorizzazione.

Sfide e considerazioni future

L’implementazione delle misure suggerite richiede risorse tecniche e finanziarie che potrebbero non essere alla portata di tutte le aziende. Inoltre, limitare l’accesso ai dati potrebbe rallentare il progresso tecnologico e l’innovazione, specialmente in settori dove l’accesso ai dati pubblici è fondamentale. La reale efficacia delle misure dipende dalla capacità di monitorare e far rispettare le normative. È necessario un aggiornamento continuo delle misure di sicurezza per contrastare le tecniche sempre più sofisticate di scraping.

Conclusioni

Il provvedimento del Garante rappresenta un passo importante per la protezione dei dati personali nel contesto del web scraping e dell’intelligenza artificiale. Tuttavia, limitare l’accesso ai dati deve essere bilanciato per non compromettere la privacy e consentire l’uso responsabile dei dati. Un approccio globale e collaborativo potrebbe aiutare a stabilire standard comuni e rendere più efficaci le misure di contrasto.
Investire in tecnologie avanzate di protezione dei dati, come la crittografia omomorfica o le tecniche di privacy differenziale, potrebbe offrire nuove opportunità per proteggere i dati personali senza limitarne l’uso per l’addestramento di modelli di intelligenza artificiale. L’intervento del Garante promuove una maggiore consapevolezza tra le aziende che operano nel campo dell’intelligenza artificiale, ma è essenziale che queste adottino misure adeguate per proteggere i dati personali e rispettare le normative vigenti.

 

Autrice Articolo

Elisabetta Galli 

Ha acquisito il Ph.D. in Giurisprudenza presso l’Università degli Studi di Padova discutendo una tesi in diritto penale sulla responsabilità delle persone giuridiche, dopo aver conseguito la laurea Magistrale in Giurisprudenza con lode (e menzione speciale per la tesi) presso l’Alma Mater Studiorum Università di Bologna, usufruendo del c.d. percorso breve, e la laurea con lode in Scienze Giuridiche (vincitrice del premio per la miglior tesi). Ha altresì conseguito l’abilitazione all’esercizio della professione forense.
È consulente aziendale, in particolare nel settore dei sistemi di gestione – con funzione anche di auditor -, della responsabilità sociale delle persone giuridiche, della sicurezza sul lavoro, dei processi di implementazione del business e della privacy (GDPR). È docente per importanti Enti di Certificazione sulle norme ISO e in materia di privacy.

Contatti

Per maggiori informazioni contattateci o chiamate il numero +39 333 1328522.

Può compilare il form in basso per avere maggiori info

    * Dichiaro di aver preso visione dell'informativa per il trattamento dei dati personali di EBL - CONSULENZA AZIENDALE E FORMAZIONE STRATEGICA di PH.D. DOTT. ELISABETTA GALLI

    * Campi obbligatori