Uploaded by Riccardo Paparella

BIG DATA

advertisement
1. I BIG DATA
1.1 ORIGINE DEI BIG DATA
Da alcuni anni, nel dibattito pubblico sulle tecnologie dell’informazione, ha ormai piena
cittadinanza il tema dei Big Data definito come il terreno su cui si potranno sviluppare negli
anni a venire (con metodi e strumenti già da tempo disponibili) delle modalità di elaborazione
dei dati innovative e applicabili a raccolte d’informazione di elevatissimo volume.
Ciò è dovuto soprattutto al cosiddetto Datagate, lo scandalo politico e mediatico nato in
seguito alle rivelazioni di Edward Snowden, secondo cui il Governo degli Stati Uniti avrebbe
utilizzato dati sensibili violando così la privacy dei cittadini. Per Big Data si tratta in generale
di un’enorme massa di dati in grado di dare informazioni di vario genere: l’aumento del
traffico cittadino, delle tempeste, l’espansione di un virus, la maggiore richiesta di un modello
di smartphone, la preferenza sulla prossima meta estiva e molto altro.
Se oggi si tratta di dati digitali, originariamente nacquero come informazioni acquisite in
modo analogico.
Quelli che possono essere definiti come gli antenati dei Big Data, infatti, comparvero nel
contesto delle biblioteche, quando si segnavano tutti i libri presi in prestito in un enorme libro
che, analizzato statisticamente, poteva essere usato per dedurre alcuni dati sulla popolazione:
gusti letterari e profilo demografico dei lettori.
Con l’avvento delle nuove tecnologie negli anni ‘60, i Big Data vennero per la prima volta
digitalizzati e archiviati, anche in virtù della loro crescita di volume, in un singolo ed enorme
computer. Ovviamente per accedere ai dati bisognava recarsi fisicamente sul posto.
Nel 1970 l’evoluzione informatica permise di archiviare i Big Data su più sistemi, creando
network indipendenti. Nel 1980, poi, si assistette alla grande rivoluzione dei network con
Internet. Il computer divenne accessibile al pubblico, si diffuse il Personal Computer così si
rese possibile agli utenti accedere ai Big Data in modo del tutto autonomo.
Negli anni ’90, con la nascita del web, ci fu un’ulteriore crescita di informazioni disponibili
per chiunque volesse consultarle. Questo non solo gettò le basi per quella che oggi viene
definita l’era dell’intelligenza collettiva, ma anche delle regole per il marketing digitale.
Arriviamo agli anni 2000. Per l’elevata quantità di Big Data presenti nel mondo, è necessario
organizzare interi edifici adibiti al solo scopo di archiviazione. Questi edifici sono sempre
collegati fra loro e creano una “griglia di computer”.
Oggi i Big Data continuano a crescere e a occupare un ruolo importante nell’analisi di
moltissimi scenari. Parallelamente, i sistemi di archiviazione stanno evolvendo per garantire
che i dati possano essere processati, analizzati e interpretati sempre più velocemente.
1.2 TECNOLOGIE INFORMATICHE SEMI-AUTONOME
PER LA SICUREZZA
Gli sviluppi del Big Data analitycs insieme al Machine Learning aprono nuove prospettive
anche nel campo della cyber-security per la difesa autonoma o semiautonoma. Al contrario di
come si possa pensare, i primi strumenti automatici sono stati utilizzati dagli attaccanti e tale
tendenza è in crescita. In uno studio di Radware, il 90% delle 300 grandi società intervistate
aveva subìto un attacco cyber e la metà di questi era stato condotto mediante sistemi
automatici1. Un altro ruolo determinante è svolto dalla produzione
automatica di malware derivati da ceppi originali o modificandone i loro “DNA”. Con questi
nuovi strumenti, gli attaccanti riescono a produrre un’ingente mole di nuovi campioni di
malware al giorno. Di fronte a una simile capacità di fuoco, anche i difensori hanno necessità
di rafforzare i loro strumenti di difesa. Prendendo in considerazione le fasi principali della
sicurezza informatica, è necessario evidenziare quali attività e obiettivi potrebbero essere
supportati o automatizzati da sistemi informatici basati su Big Data analytics. I sistemi di
difesa automatizzati sono caratterizzati dalla capacità di essere eseguiti a velocità, intensità e
continuità non raggiungibili da esseri umani. Le funzionalità difensive automatizzate che
stanno apparendo sul mercato includono soprattutto la fase di prevenzione e d’individuazione.
Le attività di risposta emergenziale e di ripristino sono tuttora condotte da esperti del settore.
Interessante è la fase delle contromisure che potrebbe spingersi fino ad azioni di ritorsione.
1.2.1 PREVENZIONE
La fase di prevenzione è fondata sull’acquisizione e analisi di grandi quantità di dati
eterogenei, ovvero intelligence.
Da un lato, si sta riducendo il potenziale di acquisizione dei dati con le modalità tradizionali
a causa del crescente utilizzo di strumenti crittografici per le comunicazioni.
Dall’altro, la diffusione del web, dei social network e del broadcasting radio-televisivo via
internet ha portato l’OSINT (open source intelligence) a livelli di semi automazione.
Nella pratica, tali attività d’intelligence sono indirizzate a identificare le “threats” prima che
possano materializzarsi in attacchi. La raccolta dati per la cyber threat intelligence2, come
abbiamo detto, è molto eterogenea: va da informazioni open source ad attività sotto copertura
nel deep web utilizzato per acquistare e vendere malware e nuovi strumenti di attacco, fino a
sistemi automatici in grado di rilevare nuove vulnerabilità.
RADWARE, Global application and network security report – 2015-2016, 2016.
Cyber threat intelligence is information about threats and threat actors that helps mitigate harmful events in
cyberspace.
1
2
Per essere efficiente, la cyber threat intelligence deve essere perseguita in modo continuativo
e, vista la quantità di dati e l’importanza della tempistica, le tecniche di Big Data analytics
risultano fondamentali.
1.2.2 INDIVIDUAZIONE
L’individuazione degli attacchi cyber è di per sé un problema. Se si escludono quelli di
sabotaggio, i DoS3 e i ricatti, le attività svolte dagli attaccanti a scopo d’intrusione,
esfiltrazione dati e installazione di malware sono tese ad aggirare le difese basate
sull’identificazione di modelli e tecniche di attacco precedentemente noti. L’inefficacia degli
antivirus tradizionali è causata dalla produzione giornaliera di centinaia di migliaia di nuovi
malware, a discapito degli antivirus che non riescono ad essere aggiornati al passo con cui i
nuovi virus si creano, e dalla prevalenza di malware multilivello, polimorfico e metamorfico.
I ricercatori informatici hanno iniziato diverse attività per sviluppare tecniche
d’individuazione del malware basate sul comportamento e di agenti software in grado di
riconoscere vulnerabilità del software e capaci di interagire autonomamente con vari
componenti, nonché di applicare automaticamente patch a vulnerabilità identificate così da
proteggerli.
Sempre più in crescita sono le ricerche e i prodotti di individuazione degli attacchi basati sul
riconoscimento di anomalie. L’idea di base è quella di determinare il comportamento normale
di un sistema e/o di un utente, in modo da individuare eventuali mutamenti causati dalle
attività degli attaccanti. Per arrivare ad un obiettivo del genere viene richiesta un’analisi
avanzata in tempo reale su enormi quantità d’informazioni eterogenee. Di conseguenza, ogni
soluzione d’individuazione delle anomalie deve basarsi su una piattaforma di Big Data in cui
i metodi di analisi siano derivati da diversi settori della statistica e del machine learning e
adattati per essere applicati al dominio della sicurezza.
1.2.3 CONTROMISURE
Le contromisure effettuate si contengono alla raccolta d’informazioni da fonti aperte e chiuse,
finalizzate alla geolocalizzazione della fonte di attacco, alle interpretazioni per similarità e
dissimilarità degli strumenti usati, possibilmente integrate con informazioni derivanti da
analisi geopolitiche ed economiche.
3
Denial of Service: nel campo della sicurezza informatica indica un malfunzionamento dovuto ad un attacco
informatico in cui si fanno esaurire deliberatamente le risorse di un sistema informatico che fornisce un servizio ai
client.
Idee più aggressive si spingono fino alla possibilità di raccogliere informazioni sulla fonte
apparente di attacco interagendo automaticamente con essa. In questa maniera si potrebbe
giungere alla rilevazione di suoi punti deboli, così da ripercorrere ai livelli più alti della
catena.
In questo settore i limiti non sono tecnici ma dettati da leggi nazionali, regolamenti
internazionali e, soprattutto, dall’impossibilità di rapportare gli attacchi in modo certo ai
rispettivi responsabili, a causa della natura di internet e del software.
Neanche tra alcuni degli eventi più famosi, dove le responsabilità sono date per assodate, si
basano su prove garantite. Sebbene l’attribuzione certificata sia ancora lontana o non
dichiarabile, è il momento di allargare al dominio cyber i dibattiti sulle armi autonome,
decisioni senza supervisione e relative implicazioni legali ed etiche.
Download