All About Data Fakta, Data, Informasi, Pengetahuan Fakta ? Fakta Vs Opini Data dan Fakta • Sesuatu yang telah terjadi disebut fakta • Data adalah sekumpulan fakta berupa angka, teks, dokumen, gambar, bagan, suara yang mewakili deskripsi verbal tertentu • Data adalah bersifat majemuk • Bentuk tunggalnya disebut Datum, dalam bahasa Inggris berarti suatu yang diketahui atau dianggap • Sedangkan menurut Austin CJ, data adalah fakta kasar atau gambaran yang dikumpulkan dari keadaan tertentu, jadi data adalah fakta, belum diolah dan kasar • Data adalah serangkaian fakta dan angka yang dapat digunakan sebagai bahan untuk menyusun informasi. Data: Korban meninggal 4 orang, dua orang sopir dari masing-masing mobil, dua orang penumpang dari mobil bercat hitam. Kecepatan mobil hitam: 130 km/jam Kecepatan mobil silver 100 km/jam Fakta: kecelakaan tabrakan dua buah kendaraan di jalan tol yang mengakibatkan kerusakan berat dan ada korban Data dan Fakta • Data merupakan suatu kumpulan yang terdiri dari fakta-fakta untuk memberikan gambaran yang luas terkait dengan suatu keadaan. • Seseorang yang akan mengambil sebuah kebijakan atau keputusan umumnya akan menggunakan data sebagai bahan pertimbangan. Melalui data seseorang dapat menganalisis, menggambarkan, atau menjelaskan suatu keadaan. • Di samping itu, data dikumpulkan melalui cara-cara tertentu kemudian diolah menjadi suatu informasi yang jelas dan mudah dipahami setiap orang. • Data juga dibutuhkan di dalam berbagai macam keperluan, seperti penjualan, penelitian hingga kependudukan. • Data memiliki jenis dan fungsinya masing-masing, hal ini sesuai dengan kebutuhan pengelola data. Apa itu: Opini, Fakta, Data dan Informasi? • Di dalam sebuah obrolan, mungkin Anda pernah mendengar dua orang saling berargumen seperti ini: • “Itu kan opini Anda. Faktanya kan tidak begitu,” kata Si ABC. • “Opini bagaimana. Informasinya kan sudah ada di mana-mana. Datanya seperti itu kok,” jawab Si XYZ. • • • • Data, fakta, informasi dan opini sering campur aduk menjadi satu. Sehingga mereka sulit untuk dibedakan. Apa itu data, fakta, informasi, dan opini? Berikut ini adalah contoh perbedaannya: Fakta • PPKM diperpanjang • Data • Januari, PPKM diperpanjang • Februari, PPKM diperpanjang • Maret, PPKM diperpanjang • Informasi • PPKM diperpanjang tiga bulan berturut-turut • Opini • Pemerintah tidak baik masak PPKM diperpanjang terus Makna dari Data • Data belum dapat dikatakan mempunyai makna penting atau informasi bagi penerima sebelum dilakukan pengolahan data • Data adalah fakta yang dapat dicatat dan memiliki arti (Elmasri dan Navathe, 2004, p4) • Data adalah sesuatu yang mewakilkan objek dan peristiwa yang memiliki arti dan sangat penting bagi pemakai (user) (Hoffer, Prescott dan McFadden, 2004, p5) • Objek dapat berupa gambar, suara, huruf, angka, bahasa, ataupun simbolsimbol lainnya yang bisa digunakan sebagai bahan untuk melihat lingkungan, obyek, kejadian ataupun suatu konsep. (George, Hoffer dan Valacich, 2004,46) • Oleh karena itu, suatu data belum dapat berbicara banyak sebelum diolah lebih lanjut • Pengertian data ada bermacam-macam, secara umum menurut Kamus Umum Bahasa Indonesia (KUBI), • “Data adalah bukti yang ditemukan dari hasil penelitian yang dapat dijadikan dasar kajian atau pendapat”. • Secara teknis, data lebih berkaitan dengan pengumpulannya secara empiris. • Dengan demikian, data merupakan satuan terkecil yang diwujudkan dalam bentuk simbol angka, simbol huruf, atau simbol gambar yang menggambarkan nilai suatu variabel tertentu sesuai dengan kondisi data di lapangan • Simbol angka, huruf atau gambar sering disebut dengan data mentah atau besaran yang belum menunjukkan suatu ukuran terhadap suatu konsep atau gejala tertentu • Besaran data tersebut belum memiliki arti apa pun jika belum dilakukan pengolahan atau analisis lebih lanjut dalam bentuk informasi atau indikator pendidikan. • Pendapat lain menyatakan bahwa • “Data adalah segala fakta dan angka yang dapat dijadikan bahan untuk menyusun suatu informasi”. • Selain itu, menurut Webster’s New World Dictionary. • “Data adalah sesuatu yang diketahui dan dianggap”. • Apabila istilah “fakta dan angka” dalam definisi yang kedua digabungkan dengan definisi ketiga menurut Webster’s maka kedua definisi tersebut dapat menghasilkan suatu pengertian “baru” sebagai berikut. • “Data adalah segala fakta dan angka yang diketahui atau yang dianggap”. • Pengertian baru ini tidak dimaksudkan untuk menggantikan definisi di atas tetapi hanya sebagai usaha untuk menggali secara lebih mendalam pengertian data. Informasi: Data Yang Diproses Definisi Data • Data : • • • • fakta, rangkaian fakta yang mewakili suatu kejadian, fakta singkat, simbol yang terekam • Contoh : umur, nilai test, kode matakuliah, nama orang tua, jumlah pasien, warna mobil, luas tanah, ukuran sepatu, jenis rambut, harga motor Syarat dari sebuah data dianggap baik dan berguna adalah sebagai berikut: • Data harus obyektif, artinya data itu menggambarkan seperti apa adanya. • Data harus mewakili. • Data harus mempunyai kesalahan baku (standar error) yang kecil (apabila data merupakan suatu perkiraan). • Kesalahan baku merupakan simpangan baku suatu perkiraan dan digunakan untuk mengukur tingkat ketelitian. • Makin kecil kesalahan baku suatu perkiraan, makin telitilah perkiraan tersebut. • Data harus tepat waktu, syarat tepat waktu penting sekali jika data tersebut akan digunakan untuk mengontrol pelaksanaan dan perencanaan sehingga persoalan yang terjadi dapat diketahui untuk segera diatasi, dikoreksi dan dipecahkan. • Data harus mempunyai hubungan dengan persoalan yang akan dipecahkan. Informasi Sebagai Data • Data adalah fakta-fakta mentah termasuk kumpulan angka dan huruf serta kumpulan kata yang belum mengandung arti. • Informasi adalah data atau sekumpulan data yang telah diinterpretasi atau mengandung arti • Contoh: • Data : E4761836 • Informasi : Setelah diinterpretarsi sebagai NIM, maka kumpulan angka dan huruf tersebut mengandung arti bahwa pemilik NIM tersebut adalah Mahasiswa; Fakultas Teknik (E), Jurusan Elektronika (4), Mulai Kuliah Tahun 1976, dengan nomor urut 1836. Informasi Sebagai Data Yang Telah Diproses • Informasi : • • • • • Hasil pemrosesan data Data yang terkumpul, terproses dan bermakna Properti terstruktur hasil dari proses data Data yang memiliki arti Data dalam suatu konteks • Contoh: • • • • • lulusan paling muda periode wisuda April, rata-rata IPK lulusan periode wisuda Oktober, jadwal kuliah semester genap, Peringkat mobil terlaris th 2008, Profil kredit motor 5 tahun, KRS, KTB, Slip ATM Pengetahuan: Kaitannya Dengan Data Definisi Pengetahuan • Hasil internalisasi informasi • Informasi yang tersimpan tentang area perhatian tertentu • Informasi dengan arah atau maksud yang mendukung suatu keputusan atau aksi • Hasil perkembangan dari hubungan orang dan hal yang dipahaminya • Hasil dari memahami informasi Hubungan • Data : Suhu udara di ruang kelas saat ini 20 ° C • Informasi : Ruang kelas dingin • Pengetahuan: • Mahasiswa yang sedang flu sebaiknya memakai jaket atau baju hangat di kelas. • Mahasiswa yang kedinginan memakai jaket • Mahasiswa membawa jaket ke kelas Hubungan • Data: nilai PTI = D • Informasi : tidak lulus PTI • Pengetahuan: hanya bisa mengulang tahun depan, semester depan mengambil matakuliah lain Data, Informasi dan Pengetahuan • Data adalah fakta-fakta mentah atau deskripsideskripsi dasar dari hal, event, aktivitas, dan traksaksi yang ditangkap, direkam, disimpan, diklasifikasikan, tetapi tidak diorganisasikan untuk tujuan spesifik tertentu. Contoh data antara lain terdiri dari saldo bank, atau jumlah jam pekerja yang bekerja dalam periode pembayaran. • Informasi adalah sekumpulan fakta (data) yang diorganisir dengan cara tertentu sehingga mereka mempunyai arti bagi si penerima. Sebagai contoh, bila kita memasukkan nama-nama murid dengan nilai rata-rata, nama-nama konsumen dengan saldo bank, jumlah gaji dengan jumlah jam bekerja, kita akan mendapatkan informasi yang berguna. Dengan kata lain, informasi datang dari data yang akan diproses. • Pengetahuan terdiri dari informasi yang sudah diorganisasikan dan diproses untuk memperoleh pemahaman, pengalaman, pembelajaran yang terakumulasi, sehingga dapat diaplikasikan dalam masalah atau proses bisnis tertentu. • Model yang hampir sama ditawarkan Mike Powell dalam bukunya, Information Management for Development Organizations. • Data adalah koleksi terstruktur dari kumpulan fakta (structured collection of quantitative facts), • Informasi adalah data atau fakta dengan arti (data or facts with meaning) • Pengetahuan merupakan hasil atau keluaran atau nilai dari informasi (producing significance or value from information) • Menurut Teskey, data merupakan hasil pengamatan langsung terhadap suatu kejadian atau suatu keadaan; ia merupakan entitas yang dilengkapi dengan nilai tertentu. • Informasi merupakan kumpulan data yang terstruktur untuk memperlihatkan adanya hubungan antarentitas. • Pengetahuan merupakan model yang digunakan manusia untuk memahami dunia, dan yang dapat diubah-ubah oleh informasi yang diterima pikiran manusia. • Model lain yang mirip juga dikemukakan Nathan Shedroff, seperti dikutip oleh Richard Saul Wurman dalam Information Anxiety 2 • Bahkan Shedroff menambahkan satu lagi tahap sesudah pengetahuan, yaitu kebijaksanaan (wisdom). “If something exists, it exists in some amount. If it exists in some amount, then it is capable of being measured.” Rene Descartes • Pertanyaan penting yang sering muncul dalam sebuah penelitian (baik di dunia akademik maupun industri) adalah “data apa yang harus saya ambil dan model statistika/data science apa yang sesuai?” • “Biarkan data yang berbicara“. • Tentu saja sebagai seorang akademisi (pekerja profesional), keputusan atau kesimpulan haruslah diambil berdasarkan alasan logis dan-atau fakta yang ada (i.e. data) • Ketika dihadapkan dengan sebuah masalah, maka kebanyakan dari kita ingin merubah data menjadi informasi, lalu menjadi pengetahuan atau kebijakan, dan kemudian mengambil suatu manfaat (baru) darinya • “Masalah” biasanya diformulasikan dalam sebuah (atau beberapa) hipotesis(dugaan), yang kemudian dibuat sebuah perencanaan untuk pengambilan data, analisa data, dan terakhir penarikan kesimpulan • Untuk mendapatkan kesimpulan yang kuat dan tepat, proses inipun terkadang dilakukan berulangulang bahkan di setiap sub langkahnya. • Teknik analisa data yang akan dilakukan untuk mencari informasi yang relevan terhadap dugaan (hipotesis) seringnya bergantung pada jenis/tipe data yang kita miliki. • Oleh karena itu sebelum membahas tentang model-model data science, mari kita awali dulu dengan pembahasan mengenai jenis/tipe data. • Jenis data sendiri dapat dibedakan menurut sumber, tipe, struktur, atau fitur/sifat lain dari data tersebut What is Data, Information, Knowledge? What is Data ? • “Data are symbols that represent the properties of objects and events” (Ackoff, 1999). • These symbols are the smallest building blocks of knowledge. • They are raw information such as numbers, letters, sounds, images, videos that we use frequently and are familiar with. • Farmers do not collect raw fruit; they know that this has no or very low value. • They wait for it to maturate. After the fruit matures, they collect and sell it as soon as possible. • At this point, with many internal and external factors, time is a very critical factor. On the way from data to knowledge, time is also critical. • Collecting early or belatedly may not be useful. • In order to let data mature, it must be processed. • The process of processing data occurs according to an algorithm consisting of a series of steps. • We implement algorithms through computers and work with experts; in other words, there are people at every stage of this process. • Although it may seem quite simple, it is a complex process, just like the maturing of fruit. So how do we distinguish data from knowledge? • Unfortunately, it is not understood simply by biting, as in the case of fruit, and does not turn into knowledge directly. • There is another step that we call the information step. • This process includes three stages: Data - Information - Knowledge. • In sum, data shows that something abstract or concrete exists. But we don’t know what that is. • When we get the answer to the question “what is this,” in other words, when we give the meaning of data, we transform data into information. • For example, when we ask “what is 3”, it can be answered that 3 is a number. • In this case, while 3 represents the data, the number is not information. • The fact that 3 is a number characterizes the data itself, whereas we expect it to give meaning to the events or objects it represents. • When the answers to the question “what is 3” are like the following examples, data transforms into information; • • • • The number of patients waiting in the line A period expressing how many days left for surgery The amount expressing how much medicine I should take The amount of new x-ray devices purchased for the hospital • 3 represents different elements such as human, time, medicine, and device, respectively, but this symbol can be the answer to all or even more questions. • Information gives us the meaning of the data; in other words, 3. It gives an identity. • Three as a number is not just a number anymore. • For example, 3 is a person in the first answer! • So, is this information valuable? Yes, of course, it is. • We often consume this information quickly. But there is one more thing that is more valuable and less available than information: Knowledge. • Knowledge includes the answer to the question “how” and allows us to understand the relationship between multiple information. • It contains a process and a result. • Let’s suppose we have information about a regional power outage in three days. • This information, when combined with the information that the generator in a hospital in the same area is out of order, turns into a decision that would delay the operation to be performed in three days at that hospital. • And this decision creates a correlation between the knowledge about the process and the information about how a surgical operation can be performed. • And as a result, it is decided that surgery should be postponed. • Thus, the information about how a surgical decision was taken includes the relationship of information related to the operation process, such as the suitability of the patient to the operation, the availability of an empty operating room, and the availability of the physician and assistant health personnel at that time. Figure 1: Data, information, and knowledge- Meaning and Value (Chaffey and Wood, 2005 in Rowley, 2007). As shown in Figure 1, there is a value relationship between the data-information, information pyramid. Knowledge is more valuable than information, and information is more valuable than data. The more knowledge you access, the more valuable it gets. On the other hand, while the knowledge has the most meaning, meaning decreases when stepping down to data. According to the information you obtain in this chapter, examine the relationship between “3” and “postponing the surgery” again. Data Types Data Types • We want to express the process of storing data using the metaphor of tidying up a room. • Your room is very messy, and you start to tidy it up. • If you take everything in the room and throw it in your wardrobe, does that equate to tidying up your room? • Yes, your room will certainly be tidied up. • But what happens to the things you threw into the wardrobe, and how long does it take you to find something when you need it? • Or will you even be able to find it? • The process of collecting and storing data is similar to that. • If you classify your items one by one and place them where they belong, it will be easier to access them when you need them. • Even if you put them into boxes, it will be a waste of time searching which item is in which box as time goes by. • Therefore, it is also useful to label the boxes. • We made a metaphor about your item, which stands for your data and the box you place it. • When we substitute the data for the item again, you will have data about your data, and we call it metadata. • We often use databases to store data. • We often use organized, ordered, i.e., structured data in databases (NoSQL databases have been used in recent years to store unstructured data). • We group our data into structured, semi-structured and unstructured data. • For example, an x-ray report of a patient or an e-mail from the head physician is called unstructured data. Figure 2 : Structured and unstructured data • The unstructured data (A) in Figure 2 is converted to structured data (B) and stored in the databases. • Apart from these, there is a semi-structured data type that is usually used on websites. • This type of data, as its name signifies, has a format between structured and unstructured data. • It is stated as labels (Figure 3). Figure 3: Semi-structured data • Also, the data types are divided into two according to the purpose of collection: primary data type and secondary data type. • The data that the researcher collects for the first time for a particular purpose is the primary data, while the secondary data is the data formed by converting it and making it ready for use again. • Figure 4 presents a comparison of the two data types. Figure 4 : Primary data vs. secondary data Primary data Data collected for research Secondary Data Data collected in the past The source of the data is certain The source of the data is uncertain Helps us find the solution to the problem Supports finding the solution to the problem Data is collected on demand; therefore, it can be structured according to the needs. The cost of data collection can be high It has more relevant costs Tipe data berdasarkan Sumber Data • Data dapat bersumber dari sang peneliti langsung lewat eksperimen, sensor, observasi langsung, atau survey. Sumber data seperti ini disebut sumber data primer. • Data juga dapat berasal repository data (database/data warehouse) atau data dari penelitian sebelumnya, data yang tidak diambil langsung oleh penelitinya ini disebut sebagai data sekunder. Sumber Data • Data dapat bersumber dari sang peneliti langsung lewat eksperimen, sensor, observasi langsung, atau survey. Sumber data seperti ini disebut sumber data primer. • Data juga dapat berasal repository data (database/data warehouse) atau data dari penelitian sebelumnya, data yang tidak diambil langsung oleh penelitinya ini disebut sebagai data sekunder. KELEBIHAN KEKURANGAN DATA PRIMER Interpretasi data (model) Mahal, butuh waktu lebih biasanya lebih baik & kuat lama, lebih sulit untuk karena pengambilan data mengumpulkannya. secara spesifik dilakukan untuk menjawab suatu hipotesis tertentu. Kualitas dan kontrol terhadap data juga cenderung lebih baik, dan jarang sekali terjadi masalah proprietary (kep emilikan data). DATA SEKUNDER Murah, cepat, dan mudah untuk melakukan benchmark (p erbandingan). Terkadang tidak sesuai dengan kebutuhan, kualitas data lebih rendah (garbage in-out), tidak selalu tersedia. When evaluating the quality of the information you are using, it is useful to identify if you are using a primary, secondary, or tertiary source. By doing so, you recognize if the author is reporting on his/her own first-hand experiences or relying on the views of others. • In a nutshell, primary research is original research conducted by you (or someone you hire) to collect data specifically for your current objective. • You might conduct a survey, run an interview or a focus group, observe behavior, or do an experiment. • You are going to be the person who obtains this raw data directly and it will be collected specifically for your current research need. • Conversely, secondary research involves searching for existing data that was originally collected by someone else. • You might look in journals, libraries, or go to online sources like the US census. • You will apply what you find to your personal research problem, but the data you are finding was not originally collected by you, nor was it obtained for the purpose you are using it for. Secondary Market Research • Sometimes called “desk research” (because it can be done from behind a desk), this technique involves research and analysis of existing research and data; hence the name, “secondary research.” • Conducting secondary research may not be so glamorous, but it often makes a lot of sense of start here. Why? • Well, for one thing, secondary research is often free. • Second, data is increasingly available thanks to the Internet; the US Census and the CDC (health data), for example, are two great sources of data that has already been collected by someone else. • Your job as a secondary researcher is to seek out these sources, organize and apply the data to your specific project, whether it’s market sizing or segmentation or whatever it may be, and then summarize/visualize it in a way that makes sense to you and your audience. • So, that’s what secondary market research is all about. • The downside, of course, is that you may not be able to find secondary market research information specific enough (or recent enough) for your objectives. If that’s the case, you’ll need to conduct your own primary research (hey, what a perfect segway!). Primary Market Research • Primary research is research that is conducted by you, or someone you pay to do original research on your behalf. • In the case of primary research, you are generating your own data from scratch as opposed to finding other people’s data. • You might choose to gather this data by running a survey, interviewing people, observing behavior, or by using some other market research method. Here’s a quick example that explains primary vs. secondary market research Both primary and secondary research can be either qualitative or quantitative in nature. Waktu (time series/runtun waktu) • Beberapa data tertentu bergantung terhadap waktu, sebut saja pergerakan nilai mata uang (kurs)/harga saham, suhu/temperature udara di suatu daerah tertentu, atau data logs suatu website • Saat nilai data di masa depan lebih banyak (dominan) hanya dipengaruhi dari nilai-nilainya di masa lalu, maka model-model runtun waktu univariate(satu peubah/variabel) seperti ARIMA (Autoregressive Integrated Moving Average) dapat digunakan • Namun bila satu atau beberapa peubah yang bergantung waktu dipengaruhi juga oleh variable lain selain nilai-nilainya di masa lalu, maka model runtun waktu peubah ganda (multivariate) seperti VaR (Vector autoRegression) dapat digunakan. Waktu (time series/runtun waktu) • Beberapa data tertentu bergantung terhadap waktu, sebut saja pergerakan nilai mata uang (kurs)/harga saham, suhu/temperature udara di suatu daerah tertentu, atau data logs suatu website • Saat nilai data di masa depan lebih banyak (dominan) hanya dipengaruhi dari nilainilainya di masa lalu, maka model-model runtun waktu univariate(satu peubah/variabel) seperti ARIMA (Autoregressive Integrated Moving Average) dapat digunakan • Namun bila satu atau beberapa peubah yang bergantung waktu dipengaruhi juga oleh variable lain selain nilai-nilainya di masa lalu, maka model runtun waktu peubah ganda (multivariate) seperti VaR (Vector autoRegression) dapat digunakan. (Geo)Spatial Data • Ada kalanya penelitian yang dilakukan bergantung pada lokasi/tempat, sebut saja penelitian yang berkenaan dengan kadar mineral/gas di suatu daerah tertentu, penelitian tentang penyebaran suatu penyakit menular tertentu (misal: flu burung dan HIV/AIDS), gempa bumi, atau penelitan tentang dukungan politik di suatu daerah tertentu • Saat datanya bergantung pada lokasi (GeoSpatial) maka model-model statistik Spatial Data Analysis seperti spatial autocorrelation, spatial interpolation, spatial regression, spatial interaction, dan multiplepoint geostatistics dapat digunakan. Contoh data spatial Gempa Bumi Struktur Data • Data yang biasanya kita ketahui berbentuk tabular (tabel/kolombaris/matriks/array/larik), data seperti ini disebut data terstruktur (structured data) • Data terstruktur dapat disimpan dengan baik di spreadsheet (misal: Excel) atau basis data (database) relasional dan secara umum dapat digunakan langsung oleh berbagai model/tools statistik/data mining konvensional. • Sebagian data yang lain memiliki “tags” yang menjelaskan elemen semantik yang berbeda di dalamnya dan cenderung tidak memiliki skema (struktur) yang statis. • Data seperti ini disebut data semi-structured, contohnya data dalam bentuk JSonatau XML. • Apa bedanya? • Apa maksudnya tidak memiliki skema yang statis? • Penjelasan mudahnya bayangkan sebuah data terstruktur (tabular), namun dalam setiap baris (record/instance)-nya tidak memiliki jumlah variabel (peubah) yang sama. • Tentu saja data seperti ini tidak sesuai jika disimpan dan diolah dengan tools/software yang mengasumsikan struktur yang statis pada setiap barisnya (misal: Excel dan SPSS). What is structured data? • So, structured data is the type of data that is well-organized and accurately formatted. This data exists in a format of relational databases (RDBMSs), meaning the information is stored in tables with rows and columns that are connected. In this way, structured data is arranged and recorded neatly, so it can be easily found and processed. As long as data fits within the structure of RDBMSs, we can easily search for specific information and single out the relationships between its pieces. Such data can only be used for its intended purpose. On top of that, structured data doesn’t normally require much storage space. • For analytical purposes, you can use data warehouses. DWs are central data storages used by companies for data analysis and reporting. • There is a special programming language used for handling relational databases and warehouses called SQL, which stands for Structured Query Language and was developed back in the 1970s by IBM. Structured data is familiar to most of us. Google Sheets and Microsoft Office Excel files are the first things that spring to mind concerning structured data examples. This data can comprise both text and numbers, such as employee names, contacts, ZIP codes, addresses, credit card numbers, etc. What is unstructured data? • It makes sense that if the definition of structured data implies a neat organization of components in a predetermined manner, the definition of unstructured data will be the opposite. The pieces of such data aren’t structured in a pre-defined way, meaning data is stored in its native formats. • The thing with unstructured data is that traditional methods and tools can’t be used to analyze and process it. One of the ways to manage unstructured data is to opt for non-relational databases, also known as NoSQL. • If there’s a need to keep data in its raw native formats for further analysis, storage repositories called data lakes will be the way to go. A data lake is a storage repository or system meant to store huge volumes of data in its natural/raw formats. • Taking into account the whole variety of file formats of unstructured data, it comes as no surprise that it makes up more than 80 percent of all data. Given this, companies ignoring unstructured data are left far behind as they don’t get enough valuable information. Unstructured data examples. There is a wide array of forms that make up unstructured data such as email, text files, social media posts, video, images, audio, sensor data, and so on.