La Nasa ha creato l’archivio PDF più grande della storia per la ricerca sul malware

I data scientist del Jet Propulsion Laboratory (sezione della NASA) hanno danno vita al più grande archivio open source con un peso di circa 8 terabyte. Questo progetto fa parte del programma Defence Advanced Research Projects Agency – DARPA – ed è frutto di una collaborazione con la PDF Association. Attualmente l’archivio è disponibile al pubblico.

 

Come e quando è stato creato?

Per la costruzione di questo enorme database è stato utilizzato Common Crawl, un repository pubblico open-source di dati ottenuti attraverso web crawling. In particolare, il processo di web crawling (in italiano scansione web) permette, tramite un software automatizzato, di analizzare e raccogliere le informazioni dalle pagine di ciascun sito web o all’interno di un database.

Oltre al contenuto dei documenti, sono stati inclusi anche altri metadati che riguardano ciascun PDF. In aggiunta, il team ha impiegato un software di geolocalizzazione per identificare la posizione del server, ospitante il sito web, che esponeva ogni singolo file.

Quest’azione, che ha portato all’accumulo di quasi 8 milioni di file, è avvenuta nell’estate del 2021.

 

Obiettivo dell’archivio

Quest’operazione è finalizzata a verificare la sicurezza dei file PDF presenti sul web, in modo da poter gestire le minacce online emergenti riguardanti la sicurezza degli utenti, tra cui la ricerca di malware nascosti nei file. In particolare, i malware – o anche software malevoli – sono dei programmi che cercano di danneggiare o disattivare un sistema, come computer, reti, tablet e dispositivi mobili.

 

Risultati sperati

L’obiettivo principale è quello di identificare le minacce presenti, in modo da aumentare la sicurezza online. Tuttavia, i ricercatori studiano costantemente questi file per raggiungere risultati più ampi, come il miglioramento del software di creazione e modifica file per proteggere i dati contenuti in essi. Inoltre, un altro risultato sperato è quello di individuare bug nel loro codice in modo da verificare se le precedenti versioni del software sono ancora compatibili con quelle più aggiornate dei PDF.

 

 

Condividi