BIG DATA

1. I BIG DATA 1.1 ORIGINE DEI BIG DATA Da alcuni anni, nel dibattito pubblico sulle tecnologie dell’informazione, ha ormai piena cittadinanza il tema dei Big Data definito come il terreno su cui si potranno sviluppare negli anni a venire (con metodi e strumenti già da tempo disponibili) delle modalità di elaborazione dei dati innovative e applicabili a raccolte d’informazione di elevatissimo volume. Ciò è dovuto soprattutto al cosiddetto Datagate, lo scandalo politico e mediatico nato in seguito alle rivelazioni di Edward Snowden, secondo cui il Governo degli Stati Uniti avrebbe utilizzato dati sensibili violando così la privacy dei cittadini. Per Big Data si tratta in generale di un’enorme massa di dati in grado di dare informazioni di vario genere: l’aumento del traffico cittadino, delle tempeste, l’espansione di un virus, la maggiore richiesta di un modello di smartphone, la preferenza sulla prossima meta estiva e molto altro. Se oggi si tratta di dati digitali, originariamente nacquero come informazioni acquisite in modo analogico. Quelli che possono essere definiti come gli antenati dei Big Data, infatti, comparvero nel contesto delle biblioteche, quando si segnavano tutti i libri presi in prestito in un enorme libro che, analizzato statisticamente, poteva essere usato per dedurre alcuni dati sulla popolazione: gusti letterari e profilo demografico dei lettori. Con l’avvento delle nuove tecnologie negli anni ‘60, i Big Data vennero per la prima volta digitalizzati e archiviati, anche in virtù della loro crescita di volume, in un singolo ed enorme computer. Ovviamente per accedere ai dati bisognava recarsi fisicamente sul posto. Nel 1970 l’evoluzione informatica permise di archiviare i Big Data su più sistemi, creando network indipendenti. Nel 1980, poi, si assistette alla grande rivoluzione dei network con Internet. Il computer divenne accessibile al pubblico, si diffuse il Personal Computer così si rese possibile agli utenti accedere ai Big Data in modo del tutto autonomo. Negli anni ’90, con la nascita del web, ci fu un’ulteriore crescita di informazioni disponibili per chiunque volesse consultarle. Questo non solo gettò le basi per quella che oggi viene definita l’era dell’intelligenza collettiva, ma anche delle regole per il marketing digitale. Arriviamo agli anni 2000. Per l’elevata quantità di Big Data presenti nel mondo, è necessario organizzare interi edifici adibiti al solo scopo di archiviazione. Questi edifici sono sempre collegati fra loro e creano una “griglia di computer”. Oggi i Big Data continuano a crescere e a occupare un ruolo importante nell’analisi di moltissimi scenari. Parallelamente, i sistemi di archiviazione stanno evolvendo per garantire che i dati possano essere processati, analizzati e interpretati sempre più velocemente. 1.2 TECNOLOGIE INFORMATICHE SEMI-AUTONOME PER LA SICUREZZA Gli sviluppi del Big Data analitycs insieme al Machine Learning aprono nuove prospettive anche nel campo della cyber-security per la difesa autonoma o semiautonoma. Al contrario di come si possa pensare, i primi strumenti automatici sono stati utilizzati dagli attaccanti e tale tendenza è in crescita. In uno studio di Radware, il 90% delle 300 grandi società intervistate aveva subìto un attacco cyber e la metà di questi era stato condotto mediante sistemi automatici1. Un altro ruolo determinante è svolto dalla produzione automatica di malware derivati da ceppi originali o modificandone i loro “DNA”. Con questi nuovi strumenti, gli attaccanti riescono a produrre un’ingente mole di nuovi campioni di malware al giorno. Di fronte a una simile capacità di fuoco, anche i difensori hanno necessità di rafforzare i loro strumenti di difesa. Prendendo in considerazione le fasi principali della sicurezza informatica, è necessario evidenziare quali attività e obiettivi potrebbero essere supportati o automatizzati da sistemi informatici basati su Big Data analytics. I sistemi di difesa automatizzati sono caratterizzati dalla capacità di essere eseguiti a velocità, intensità e continuità non raggiungibili da esseri umani. Le funzionalità difensive automatizzate che stanno apparendo sul mercato includono soprattutto la fase di prevenzione e d’individuazione. Le attività di risposta emergenziale e di ripristino sono tuttora condotte da esperti del settore. Interessante è la fase delle contromisure che potrebbe spingersi fino ad azioni di ritorsione. 1.2.1 PREVENZIONE La fase di prevenzione è fondata sull’acquisizione e analisi di grandi quantità di dati eterogenei, ovvero intelligence. Da un lato, si sta riducendo il potenziale di acquisizione dei dati con le modalità tradizionali a causa del crescente utilizzo di strumenti crittografici per le comunicazioni. Dall’altro, la diffusione del web, dei social network e del broadcasting radio-televisivo via internet ha portato l’OSINT (open source intelligence) a livelli di semi automazione. Nella pratica, tali attività d’intelligence sono indirizzate a identificare le “threats” prima che possano materializzarsi in attacchi. La raccolta dati per la cyber threat intelligence2, come abbiamo detto, è molto eterogenea: va da informazioni open source ad attività sotto copertura nel deep web utilizzato per acquistare e vendere malware e nuovi strumenti di attacco, fino a sistemi automatici in grado di rilevare nuove vulnerabilità. RADWARE, Global application and network security report – 2015-2016, 2016. Cyber threat intelligence is information about threats and threat actors that helps mitigate harmful events in cyberspace. 1 2 Per essere efficiente, la cyber threat intelligence deve essere perseguita in modo continuativo e, vista la quantità di dati e l’importanza della tempistica, le tecniche di Big Data analytics risultano fondamentali. 1.2.2 INDIVIDUAZIONE L’individuazione degli attacchi cyber è di per sé un problema. Se si escludono quelli di sabotaggio, i DoS3 e i ricatti, le attività svolte dagli attaccanti a scopo d’intrusione, esfiltrazione dati e installazione di malware sono tese ad aggirare le difese basate sull’identificazione di modelli e tecniche di attacco precedentemente noti. L’inefficacia degli antivirus tradizionali è causata dalla produzione giornaliera di centinaia di migliaia di nuovi malware, a discapito degli antivirus che non riescono ad essere aggiornati al passo con cui i nuovi virus si creano, e dalla prevalenza di malware multilivello, polimorfico e metamorfico. I ricercatori informatici hanno iniziato diverse attività per sviluppare tecniche d’individuazione del malware basate sul comportamento e di agenti software in grado di riconoscere vulnerabilità del software e capaci di interagire autonomamente con vari componenti, nonché di applicare automaticamente patch a vulnerabilità identificate così da proteggerli. Sempre più in crescita sono le ricerche e i prodotti di individuazione degli attacchi basati sul riconoscimento di anomalie. L’idea di base è quella di determinare il comportamento normale di un sistema e/o di un utente, in modo da individuare eventuali mutamenti causati dalle attività degli attaccanti. Per arrivare ad un obiettivo del genere viene richiesta un’analisi avanzata in tempo reale su enormi quantità d’informazioni eterogenee. Di conseguenza, ogni soluzione d’individuazione delle anomalie deve basarsi su una piattaforma di Big Data in cui i metodi di analisi siano derivati da diversi settori della statistica e del machine learning e adattati per essere applicati al dominio della sicurezza. 1.2.3 CONTROMISURE Le contromisure effettuate si contengono alla raccolta d’informazioni da fonti aperte e chiuse, finalizzate alla geolocalizzazione della fonte di attacco, alle interpretazioni per similarità e dissimilarità degli strumenti usati, possibilmente integrate con informazioni derivanti da analisi geopolitiche ed economiche. 3 Denial of Service: nel campo della sicurezza informatica indica un malfunzionamento dovuto ad un attacco informatico in cui si fanno esaurire deliberatamente le risorse di un sistema informatico che fornisce un servizio ai client. Idee più aggressive si spingono fino alla possibilità di raccogliere informazioni sulla fonte apparente di attacco interagendo automaticamente con essa. In questa maniera si potrebbe giungere alla rilevazione di suoi punti deboli, così da ripercorrere ai livelli più alti della catena. In questo settore i limiti non sono tecnici ma dettati da leggi nazionali, regolamenti internazionali e, soprattutto, dall’impossibilità di rapportare gli attacchi in modo certo ai rispettivi responsabili, a causa della natura di internet e del software. Neanche tra alcuni degli eventi più famosi, dove le responsabilità sono date per assodate, si basano su prove garantite. Sebbene l’attribuzione certificata sia ancora lontana o non dichiarabile, è il momento di allargare al dominio cyber i dibattiti sulle armi autonome, decisioni senza supervisione e relative implicazioni legali ed etiche.

BIG DATA

Products

Support

BIG DATA

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib