Uploaded by mosikan tris

All About Data

advertisement
All About Data
Fakta, Data, Informasi,
Pengetahuan
Fakta ?
Fakta Vs Opini
Data dan Fakta
• Sesuatu yang telah terjadi disebut fakta
• Data adalah sekumpulan fakta berupa angka, teks, dokumen, gambar,
bagan, suara yang mewakili deskripsi verbal tertentu
• Data adalah bersifat majemuk
• Bentuk tunggalnya disebut Datum, dalam bahasa Inggris berarti suatu yang diketahui
atau dianggap
• Sedangkan menurut Austin CJ, data adalah fakta kasar atau gambaran yang
dikumpulkan dari keadaan tertentu, jadi data adalah fakta, belum diolah
dan kasar
• Data adalah serangkaian fakta dan angka yang dapat digunakan sebagai
bahan untuk menyusun informasi.
Data:
Korban meninggal 4 orang, dua orang
sopir dari masing-masing mobil, dua
orang penumpang dari mobil bercat
hitam.
Kecepatan mobil hitam: 130 km/jam
Kecepatan mobil silver 100 km/jam
Fakta: kecelakaan tabrakan dua buah kendaraan
di jalan tol yang mengakibatkan kerusakan berat
dan ada korban
Data dan Fakta
• Data merupakan suatu kumpulan yang terdiri dari fakta-fakta untuk
memberikan gambaran yang luas terkait dengan suatu keadaan.
• Seseorang yang akan mengambil sebuah kebijakan atau keputusan
umumnya akan menggunakan data sebagai bahan pertimbangan. Melalui
data seseorang dapat menganalisis, menggambarkan, atau menjelaskan
suatu keadaan.
• Di samping itu, data dikumpulkan melalui cara-cara tertentu kemudian
diolah menjadi suatu informasi yang jelas dan mudah dipahami setiap
orang.
• Data juga dibutuhkan di dalam berbagai macam keperluan, seperti
penjualan, penelitian hingga kependudukan.
• Data memiliki jenis dan fungsinya masing-masing, hal ini sesuai dengan
kebutuhan pengelola data.
Apa itu: Opini, Fakta, Data dan Informasi?
• Di dalam sebuah obrolan, mungkin Anda pernah mendengar dua orang saling berargumen seperti ini:
• “Itu kan opini Anda. Faktanya kan tidak begitu,” kata Si ABC.
• “Opini bagaimana. Informasinya kan sudah ada di mana-mana. Datanya seperti itu kok,” jawab Si XYZ.
•
•
•
•
Data, fakta, informasi dan opini sering campur aduk menjadi satu. Sehingga mereka sulit untuk dibedakan.
Apa itu data, fakta, informasi, dan opini?
Berikut ini adalah contoh perbedaannya:
Fakta
• PPKM diperpanjang
• Data
• Januari, PPKM diperpanjang
• Februari, PPKM diperpanjang
• Maret, PPKM diperpanjang
• Informasi
• PPKM diperpanjang tiga bulan berturut-turut
• Opini
• Pemerintah tidak baik masak PPKM diperpanjang terus
Makna dari Data
• Data belum dapat dikatakan mempunyai makna penting atau informasi
bagi penerima sebelum dilakukan pengolahan data
• Data adalah fakta yang dapat dicatat dan memiliki arti (Elmasri dan
Navathe, 2004, p4)
• Data adalah sesuatu yang mewakilkan objek dan peristiwa yang memiliki
arti dan sangat penting bagi pemakai (user) (Hoffer, Prescott dan
McFadden, 2004, p5)
• Objek dapat berupa gambar, suara, huruf, angka, bahasa, ataupun simbolsimbol lainnya yang bisa digunakan sebagai bahan untuk melihat
lingkungan, obyek, kejadian ataupun suatu konsep. (George, Hoffer dan
Valacich, 2004,46)
• Oleh karena itu, suatu data belum dapat berbicara banyak sebelum diolah
lebih lanjut
• Pengertian data ada bermacam-macam, secara umum menurut Kamus Umum
Bahasa Indonesia (KUBI),
• “Data adalah bukti yang ditemukan dari hasil penelitian yang dapat dijadikan dasar kajian
atau pendapat”.
• Secara teknis, data lebih berkaitan dengan pengumpulannya secara empiris.
• Dengan demikian, data merupakan satuan terkecil yang diwujudkan dalam
bentuk simbol angka, simbol huruf, atau simbol gambar yang menggambarkan
nilai suatu variabel tertentu sesuai dengan kondisi data di lapangan
• Simbol angka, huruf atau gambar sering disebut dengan data mentah atau
besaran yang belum menunjukkan suatu ukuran terhadap suatu konsep atau
gejala tertentu
• Besaran data tersebut belum memiliki arti apa pun jika belum dilakukan
pengolahan atau analisis lebih lanjut dalam bentuk informasi atau indikator
pendidikan.
• Pendapat lain menyatakan bahwa
• “Data adalah segala fakta dan angka yang dapat dijadikan bahan untuk menyusun
suatu informasi”.
• Selain itu, menurut Webster’s New World Dictionary.
• “Data adalah sesuatu yang diketahui dan dianggap”.
• Apabila istilah “fakta dan angka” dalam definisi yang kedua digabungkan
dengan definisi ketiga menurut Webster’s maka kedua definisi tersebut
dapat menghasilkan suatu pengertian “baru” sebagai berikut.
• “Data adalah segala fakta dan angka yang diketahui atau yang dianggap”.
• Pengertian baru ini tidak dimaksudkan untuk menggantikan definisi di atas
tetapi hanya sebagai usaha untuk menggali secara lebih mendalam
pengertian data.
Informasi: Data Yang Diproses
Definisi Data
• Data :
•
•
•
•
fakta,
rangkaian fakta yang mewakili suatu kejadian,
fakta singkat,
simbol yang terekam
• Contoh : umur, nilai test, kode matakuliah, nama orang tua, jumlah
pasien, warna mobil, luas tanah, ukuran sepatu, jenis rambut, harga
motor
Syarat dari sebuah data dianggap baik dan
berguna adalah sebagai berikut:
• Data harus obyektif, artinya data itu menggambarkan seperti apa adanya.
• Data harus mewakili.
• Data harus mempunyai kesalahan baku (standar error) yang kecil (apabila
data merupakan suatu perkiraan).
• Kesalahan baku merupakan simpangan baku suatu perkiraan dan digunakan untuk
mengukur tingkat ketelitian.
• Makin kecil kesalahan baku suatu perkiraan, makin telitilah perkiraan tersebut.
• Data harus tepat waktu, syarat tepat waktu penting sekali jika data
tersebut akan digunakan untuk mengontrol pelaksanaan dan perencanaan
sehingga persoalan yang terjadi dapat diketahui untuk segera diatasi,
dikoreksi dan dipecahkan.
• Data harus mempunyai hubungan dengan persoalan yang akan dipecahkan.
Informasi Sebagai Data
• Data adalah fakta-fakta mentah termasuk kumpulan angka dan huruf
serta kumpulan kata yang belum mengandung arti.
• Informasi adalah data atau sekumpulan data yang telah diinterpretasi
atau mengandung arti
• Contoh:
• Data : E4761836
• Informasi : Setelah diinterpretarsi sebagai NIM, maka kumpulan angka dan
huruf tersebut mengandung arti bahwa pemilik NIM tersebut adalah
Mahasiswa; Fakultas Teknik (E), Jurusan Elektronika (4), Mulai Kuliah Tahun
1976, dengan nomor urut 1836.
Informasi Sebagai Data Yang Telah Diproses
• Informasi :
•
•
•
•
•
Hasil pemrosesan data
Data yang terkumpul, terproses dan bermakna
Properti terstruktur hasil dari proses data
Data yang memiliki arti
Data dalam suatu konteks
• Contoh:
•
•
•
•
•
lulusan paling muda periode wisuda April,
rata-rata IPK lulusan periode wisuda Oktober,
jadwal kuliah semester genap,
Peringkat mobil terlaris th 2008,
Profil kredit motor 5 tahun, KRS, KTB, Slip ATM
Pengetahuan:
Kaitannya Dengan Data
Definisi Pengetahuan
• Hasil internalisasi informasi
• Informasi yang tersimpan tentang area perhatian tertentu
• Informasi dengan arah atau maksud yang mendukung suatu
keputusan atau aksi
• Hasil perkembangan dari hubungan orang dan hal yang dipahaminya
• Hasil dari memahami informasi
Hubungan
• Data : Suhu udara di ruang kelas saat ini 20 ° C
• Informasi : Ruang kelas dingin
• Pengetahuan:
• Mahasiswa yang sedang flu sebaiknya memakai jaket atau baju hangat di
kelas.
• Mahasiswa yang kedinginan memakai jaket
• Mahasiswa membawa jaket ke kelas
Hubungan
• Data: nilai PTI = D
• Informasi : tidak lulus PTI
• Pengetahuan: hanya bisa mengulang tahun depan, semester depan
mengambil matakuliah lain
Data, Informasi dan Pengetahuan
• Data adalah fakta-fakta mentah atau deskripsideskripsi dasar dari hal, event, aktivitas, dan
traksaksi yang ditangkap, direkam, disimpan,
diklasifikasikan, tetapi tidak diorganisasikan untuk
tujuan spesifik tertentu. Contoh data antara lain
terdiri dari saldo bank, atau jumlah jam pekerja
yang bekerja dalam periode pembayaran.
• Informasi adalah sekumpulan fakta (data) yang
diorganisir dengan cara tertentu sehingga mereka
mempunyai arti bagi si penerima. Sebagai contoh,
bila kita memasukkan nama-nama murid dengan
nilai rata-rata, nama-nama konsumen dengan saldo
bank, jumlah gaji dengan jumlah jam bekerja, kita
akan mendapatkan informasi yang berguna. Dengan
kata lain, informasi datang dari data yang akan
diproses.
• Pengetahuan terdiri dari informasi yang sudah
diorganisasikan dan diproses untuk memperoleh
pemahaman, pengalaman, pembelajaran yang
terakumulasi, sehingga dapat diaplikasikan dalam
masalah atau proses bisnis tertentu.
• Model yang hampir sama ditawarkan Mike
Powell
dalam
bukunya,
Information
Management for Development Organizations.
• Data adalah koleksi terstruktur dari kumpulan
fakta (structured collection of quantitative facts),
• Informasi adalah data atau fakta dengan arti
(data or facts with meaning)
• Pengetahuan merupakan hasil atau keluaran
atau nilai dari informasi (producing significance
or value from information)
• Menurut Teskey, data merupakan hasil
pengamatan langsung terhadap suatu
kejadian atau suatu keadaan; ia
merupakan entitas yang dilengkapi
dengan nilai tertentu.
• Informasi merupakan kumpulan data
yang terstruktur untuk
memperlihatkan adanya hubungan
antarentitas.
• Pengetahuan merupakan model yang
digunakan manusia untuk memahami
dunia, dan yang dapat diubah-ubah
oleh informasi yang diterima pikiran
manusia.
• Model lain yang mirip juga
dikemukakan Nathan Shedroff,
seperti dikutip oleh Richard Saul
Wurman dalam Information
Anxiety 2
• Bahkan Shedroff menambahkan
satu lagi tahap sesudah
pengetahuan, yaitu kebijaksanaan
(wisdom).
“If something exists, it exists in some amount. If it exists in some amount,
then it is capable of being measured.” Rene Descartes
• Pertanyaan penting yang sering muncul dalam
sebuah penelitian (baik di dunia akademik
maupun industri) adalah “data apa yang
harus saya ambil dan model statistika/data
science apa yang sesuai?”
• “Biarkan data yang berbicara“.
• Tentu saja sebagai seorang akademisi (pekerja
profesional), keputusan atau kesimpulan
haruslah diambil berdasarkan alasan logis
dan-atau fakta yang ada (i.e. data)
• Ketika dihadapkan dengan sebuah masalah,
maka kebanyakan dari kita ingin merubah
data menjadi informasi, lalu menjadi
pengetahuan atau kebijakan, dan kemudian
mengambil suatu manfaat (baru) darinya
• “Masalah” biasanya diformulasikan
dalam sebuah (atau
beberapa) hipotesis(dugaan), yang
kemudian dibuat sebuah
perencanaan untuk pengambilan
data, analisa data, dan terakhir
penarikan kesimpulan
• Untuk mendapatkan kesimpulan
yang kuat dan tepat, proses inipun
terkadang dilakukan berulangulang bahkan di setiap sub
langkahnya.
• Teknik analisa data yang akan dilakukan untuk mencari informasi yang
relevan terhadap dugaan (hipotesis) seringnya bergantung pada
jenis/tipe data yang kita miliki.
• Oleh karena itu sebelum membahas tentang model-model data
science, mari kita awali dulu dengan pembahasan mengenai jenis/tipe
data.
• Jenis data sendiri dapat dibedakan menurut sumber, tipe, struktur,
atau fitur/sifat lain dari data tersebut
What is Data, Information,
Knowledge?
What is Data ?
• “Data are symbols that represent the properties of objects and
events” (Ackoff, 1999).
• These symbols are the smallest building blocks of knowledge.
• They are raw information such as numbers, letters, sounds, images,
videos that we use frequently and are familiar with.
• Farmers do not collect raw fruit; they know that this has no or very
low value.
• They wait for it to maturate. After the fruit matures, they collect and
sell it as soon as possible.
• At this point, with many internal and external factors, time is a very critical
factor. On the way from data to knowledge, time is also critical.
• Collecting early or belatedly may not be useful.
• In order to let data mature, it must be processed.
• The process of processing data occurs according to an algorithm consisting
of a series of steps.
• We implement algorithms through computers and work with experts; in
other words, there are people at every stage of this process.
• Although it may seem quite simple, it is a complex process, just like the
maturing of fruit.
So how do we distinguish data from
knowledge?
• Unfortunately, it is not understood simply by biting, as in the case of fruit,
and does not turn into knowledge directly.
• There is another step that we call the information step.
• This process includes three stages: Data - Information - Knowledge.
• In sum, data shows that something abstract or concrete exists. But we
don’t know what that is.
• When we get the answer to the question “what is this,” in other words,
when we give the meaning of data, we transform data into information.
• For example, when we ask “what is 3”, it can be answered that 3 is a number.
• In this case, while 3 represents the data, the number is not information.
• The fact that 3 is a number characterizes the data itself, whereas we expect it to give
meaning to the events or objects it represents.
• When the answers to the question “what is 3” are like the following examples,
data transforms into information;
•
•
•
•
The number of patients waiting in the line
A period expressing how many days left for surgery
The amount expressing how much medicine I should take
The amount of new x-ray devices purchased for the hospital
• 3 represents different elements such as human, time, medicine, and device,
respectively, but this symbol can be the answer to all or even more questions.
• Information gives us the meaning of the data; in other words, 3. It gives an
identity.
• Three as a number is not just a number anymore.
• For example, 3 is a person in the first answer!
• So, is this information valuable? Yes, of course, it is.
• We often consume this information quickly. But there is one more
thing that is more valuable and less available than information:
Knowledge.
• Knowledge includes the answer to the question “how” and allows us
to understand the relationship between multiple information.
• It contains a process and a result.
• Let’s suppose we have information about a regional power outage in three days.
• This information, when combined with the information that the generator in a
hospital in the same area is out of order, turns into a decision that would delay
the operation to be performed in three days at that hospital.
• And this decision creates a correlation between the knowledge about the process
and the information about how a surgical operation can be performed.
• And as a result, it is decided that surgery should be postponed.
• Thus, the information about how a surgical decision was taken includes the
relationship of information related to the operation process, such as the
suitability of the patient to the operation, the availability of an empty operating
room, and the availability of the physician and assistant health personnel at that
time.
Figure 1: Data, information, and knowledge- Meaning and Value
(Chaffey and Wood, 2005 in Rowley, 2007).
As shown in Figure 1, there is a value relationship between the data-information, information pyramid.
Knowledge is more valuable than information, and information is more valuable than data.
The more knowledge you access, the more valuable it gets.
On the other hand, while the knowledge has the most meaning, meaning decreases when stepping down to data.
According to the information you obtain in this chapter, examine the relationship between “3” and “postponing the
surgery” again.
Data Types
Data Types
• We want to express the process of storing data using the metaphor of
tidying up a room.
• Your room is very messy, and you start to tidy it up.
• If you take everything in the room and throw it in your wardrobe,
does that equate to tidying up your room?
• Yes, your room will certainly be tidied up.
• But what happens to the things you threw into the wardrobe, and
how long does it take you to find something when you need it?
• Or will you even be able to find it?
• The process of collecting and storing data is similar to that.
• If you classify your items one by one and place them where they
belong, it will be easier to access them when you need them.
• Even if you put them into boxes, it will be a waste of time searching
which item is in which box as time goes by.
• Therefore, it is also useful to label the boxes.
• We made a metaphor about your item, which stands for your data and the
box you place it.
• When we substitute the data for the item again, you will have data about
your data, and we call it metadata.
• We often use databases to store data.
• We often use organized, ordered, i.e., structured data in databases (NoSQL
databases have been used in recent years to store unstructured data).
• We group our data into structured, semi-structured and unstructured data.
• For example, an x-ray report of a patient or an e-mail from the head
physician is called unstructured data.
Figure 2 : Structured and unstructured data
• The unstructured data (A) in Figure 2 is converted to structured data
(B) and stored in the databases.
• Apart from these, there is a semi-structured data type that is usually
used on websites.
• This type of data, as its name signifies, has a format between
structured and unstructured data.
• It is stated as labels (Figure 3).
Figure 3: Semi-structured data
• Also, the data types are divided into two according to the purpose of
collection: primary data type and secondary data type.
• The data that the researcher collects for the first time for a particular
purpose is the primary data, while the secondary data is the data
formed by converting it and making it ready for use again.
• Figure 4 presents a comparison of the two data types.
Figure 4 : Primary data vs. secondary data
Primary data
Data collected for research
Secondary Data
Data collected in the past
The source of the data is certain
The source of the data is uncertain
Helps us find the solution to the problem Supports finding the solution to the
problem
Data is collected on demand; therefore,
it can be structured according to the
needs.
The cost of data collection can be high
It has more relevant costs
Tipe data berdasarkan
Sumber Data
• Data dapat bersumber dari sang peneliti langsung lewat eksperimen,
sensor, observasi langsung, atau survey. Sumber data seperti ini
disebut sumber data primer.
• Data juga dapat berasal repository data
(database/data warehouse) atau data dari penelitian sebelumnya,
data yang tidak diambil langsung oleh penelitinya ini disebut
sebagai data sekunder.
Sumber Data
• Data dapat bersumber dari sang
peneliti langsung lewat
eksperimen, sensor, observasi
langsung, atau survey. Sumber
data seperti ini disebut
sumber data primer.
• Data juga dapat
berasal repository data
(database/data warehouse) atau
data dari penelitian sebelumnya,
data yang tidak diambil langsung
oleh penelitinya ini disebut
sebagai data sekunder.
KELEBIHAN
KEKURANGAN
DATA PRIMER
Interpretasi data (model) Mahal, butuh waktu lebih
biasanya lebih baik & kuat lama, lebih sulit untuk
karena pengambilan data mengumpulkannya.
secara spesifik dilakukan
untuk menjawab suatu
hipotesis tertentu.
Kualitas dan kontrol
terhadap data juga
cenderung lebih baik, dan
jarang sekali terjadi
masalah proprietary (kep
emilikan data).
DATA SEKUNDER
Murah, cepat, dan mudah
untuk
melakukan benchmark (p
erbandingan).
Terkadang tidak sesuai
dengan kebutuhan,
kualitas data lebih rendah
(garbage in-out), tidak
selalu tersedia.
When evaluating the quality of the
information you are using, it is useful to
identify if you are using a primary,
secondary, or tertiary source.
By doing so, you recognize if the author is
reporting on his/her own first-hand
experiences or relying on the views of
others.
• In a nutshell, primary research is original research conducted
by you (or someone you hire) to collect data specifically for
your current objective.
• You might conduct a survey, run an interview or a focus group,
observe behavior, or do an experiment.
• You are going to be the person who obtains this raw data
directly and it will be collected specifically for your current
research need.
• Conversely, secondary research involves searching for existing
data that was originally collected by someone else.
• You might look in journals, libraries, or go to online sources like
the US census.
• You will apply what you find to your personal research
problem, but the data you are finding was not originally
collected by you, nor was it obtained for the purpose you are
using it for.
Secondary Market Research
• Sometimes called “desk research” (because it can be done from behind a desk), this technique
involves research and analysis of existing research and data; hence the name, “secondary
research.”
• Conducting secondary research may not be so glamorous, but it often makes a lot of sense of
start here. Why?
• Well, for one thing, secondary research is often free.
• Second, data is increasingly available thanks to the Internet; the US Census and the CDC (health
data), for example, are two great sources of data that has already been collected by someone
else.
• Your job as a secondary researcher is to seek out these sources, organize and apply the data to
your specific project, whether it’s market sizing or segmentation or whatever it may be, and then
summarize/visualize it in a way that makes sense to you and your audience.
• So, that’s what secondary market research is all about.
• The downside, of course, is that you may not be able to find secondary market research
information specific enough (or recent enough) for your objectives. If that’s the case, you’ll need
to conduct your own primary research (hey, what a perfect segway!).
Primary Market Research
• Primary research is research that is conducted by you, or someone
you pay to do original research on your behalf.
• In the case of primary research, you are generating your own data
from scratch as opposed to finding other people’s data.
• You might choose to gather this data by running a survey,
interviewing people, observing behavior, or by using some
other market research method.
Here’s a quick example that explains primary
vs. secondary market research
Both primary and secondary research can be either qualitative or quantitative in nature.
Waktu (time series/runtun waktu)
• Beberapa data tertentu bergantung terhadap waktu, sebut saja
pergerakan nilai mata uang (kurs)/harga saham, suhu/temperature
udara di suatu daerah tertentu, atau data logs suatu website
• Saat nilai data di masa depan lebih banyak (dominan) hanya
dipengaruhi dari nilai-nilainya di masa lalu, maka model-model
runtun waktu univariate(satu peubah/variabel) seperti ARIMA
(Autoregressive Integrated Moving Average) dapat digunakan
• Namun bila satu atau beberapa peubah yang bergantung waktu
dipengaruhi juga oleh variable lain selain nilai-nilainya di masa lalu,
maka model runtun waktu peubah ganda (multivariate) seperti VaR
(Vector autoRegression) dapat digunakan.
Waktu (time series/runtun waktu)
• Beberapa data tertentu bergantung terhadap
waktu, sebut saja pergerakan nilai mata uang
(kurs)/harga saham, suhu/temperature udara
di suatu daerah tertentu, atau data logs suatu
website
• Saat nilai data di masa depan lebih banyak
(dominan) hanya dipengaruhi dari nilainilainya di masa lalu, maka model-model
runtun waktu univariate(satu
peubah/variabel) seperti ARIMA
(Autoregressive Integrated Moving Average)
dapat digunakan
• Namun bila satu atau beberapa peubah yang
bergantung waktu dipengaruhi juga oleh
variable lain selain nilai-nilainya di masa lalu,
maka model runtun waktu peubah ganda
(multivariate) seperti VaR (Vector
autoRegression) dapat digunakan.
(Geo)Spatial Data
• Ada kalanya penelitian yang dilakukan bergantung pada
lokasi/tempat, sebut saja penelitian yang berkenaan dengan kadar
mineral/gas di suatu daerah tertentu, penelitian tentang penyebaran
suatu penyakit menular tertentu (misal: flu burung dan HIV/AIDS),
gempa bumi, atau penelitan tentang dukungan politik di suatu daerah
tertentu
• Saat datanya bergantung pada lokasi (GeoSpatial) maka model-model
statistik Spatial Data Analysis seperti spatial autocorrelation, spatial
interpolation, spatial regression, spatial interaction, dan multiplepoint geostatistics dapat digunakan.
Contoh data spatial Gempa Bumi
Struktur Data
• Data yang biasanya kita ketahui
berbentuk tabular (tabel/kolombaris/matriks/array/larik), data
seperti ini disebut data terstruktur
(structured data)
• Data terstruktur dapat disimpan
dengan baik
di spreadsheet (misal: Excel) atau
basis data (database) relasional
dan secara umum dapat digunakan
langsung oleh berbagai
model/tools statistik/data mining
konvensional.
• Sebagian data yang lain memiliki “tags” yang menjelaskan elemen
semantik yang berbeda di dalamnya dan cenderung tidak memiliki skema
(struktur) yang statis.
• Data seperti ini disebut data semi-structured, contohnya data dalam
bentuk JSonatau XML.
• Apa bedanya?
• Apa maksudnya tidak memiliki skema yang statis?
• Penjelasan mudahnya bayangkan sebuah data terstruktur (tabular), namun
dalam setiap baris (record/instance)-nya tidak memiliki jumlah variabel
(peubah) yang sama.
• Tentu saja data seperti ini tidak sesuai jika disimpan dan diolah
dengan tools/software yang mengasumsikan struktur yang statis pada
setiap barisnya (misal: Excel dan SPSS).
What is structured data?
• So, structured data is the type of data that is well-organized and accurately
formatted. This data exists in a format of relational databases (RDBMSs),
meaning the information is stored in tables with rows and columns that are
connected. In this way, structured data is arranged and recorded neatly, so
it can be easily found and processed. As long as data fits within the
structure of RDBMSs, we can easily search for specific information and
single out the relationships between its pieces. Such data can only be used
for its intended purpose. On top of that, structured data doesn’t normally
require much storage space.
• For analytical purposes, you can use data warehouses. DWs are central
data storages used by companies for data analysis and reporting.
• There is a special programming language used for handling relational
databases and warehouses called SQL, which stands for Structured Query
Language and was developed back in the 1970s by IBM.
Structured data is familiar to most of us. Google Sheets and Microsoft Office Excel
files are the first things that spring to mind concerning structured data examples.
This data can comprise both text and numbers, such as employee names, contacts,
ZIP codes, addresses, credit card numbers, etc.
What is unstructured data?
• It makes sense that if the definition of structured data implies a neat organization
of components in a predetermined manner, the definition of unstructured data
will be the opposite. The pieces of such data aren’t structured in a pre-defined
way, meaning data is stored in its native formats.
• The thing with unstructured data is that traditional methods and tools can’t be
used to analyze and process it. One of the ways to manage unstructured data is to
opt for non-relational databases, also known as NoSQL.
• If there’s a need to keep data in its raw native formats for further analysis,
storage repositories called data lakes will be the way to go. A data lake is a
storage repository or system meant to store huge volumes of data in its
natural/raw formats.
• Taking into account the whole variety of file formats of unstructured data, it
comes as no surprise that it makes up more than 80 percent of all data. Given
this, companies ignoring unstructured data are left far behind as they don’t get
enough valuable information.
Unstructured data examples. There is a wide array of forms that make up
unstructured data such as email, text files, social media posts, video, images, audio,
sensor data, and so on.
Download