Day 1: Tolong Diantar
Hari ini merupakan hari pertama
kuliah Big Data. Kemarin baru pembukaan program Digital Talent Scholarship yang
diadakan oleh Kominfo. Hari ini lebih kepada pengantar Big Data, melihat Big
Data secara management, belum kepada tahap eksekusi.
Yang perlu kita ketahui,
pendekatan problem solving big data tentunya berbeda dibandingkan pendekatan
problem solving pada umumnya. Kita harus lebih terbuka lagi, sebab pendekatan
ini sedikit mendobrak pendekatan yang biasa kita lakukan. Semisal untuk masalah
big data, MySQL tidak cukup kuat, sebab besarnya data. Mungkin bisa saja gak
kuat. Tapi ini bisa di konversi dengan Big Data. Data yang besar di pecah
kepada beberapa komputer, sehingga mudah dalam memprosesnya.
Concepts
Untuk mengawalinya, terlebih
dahulu kita coba pahami tentang karakter dari Big data, biasa di sebut 5 V.
Mungkin kalian semua udah paham, itu tuh
1. Volume
Ini merupakan
problem utama dari big data, ukurannya yang begitu besar. Perlu kita ketahui
bahwa setiap interaksi kita dengan komputer akan di catat, di sebut dengan log
(bener gak sih tulisannya?). Setiap waktunya, catatan ini akan semakin
bertambah, otomatis akan semakin banyak data yang masuk. Bayangin aja, berapa
banyak data kalo semua data twit user twitter digabungin. Gak kebayang kan?
Sama. Yang perlu kita pahami ialah perilaku pengguna saat berinteraksi dengan komputer.
Setelah kita pahami dan kita olah datanya, kita bisa memberikan offering. Itu
semacam tindakan apa yang perlu kita lakukan terhadap tingkah laku pengguna
ini.
2. Velocity
Ini berkaitan
dengan laju pertambahan data. Setiap instalansi memiliki lajunya masing masing,
ada yang 278rb/hari ada yang 278rb/detik. Data itu gak harus sekita instan ada.
Yang terpenting, kenali karakteristik data kita yang kita punya. Ini akan
berimbas kepada sistem pengolahan datanya. Data dengan pertambahan 278rb/hari
tentu beda perlakuannya dengan 278rb/detik.
Ini maksudnya
keberagaman data yang kita punya. Ada yang terstruktur, ada yang tidak
terstruktur, ada yang semi terstruktur. Yang tidak memiliki struktur itu
contohnya ialah gambar dan video. Sedangkan yang semi terstruktur ialah radar.
Memang ada strukturnya, tapi beda merk beda struktur. Meskipun gak bisa di olah
lewat MySQL, tapi jangan pernah di abaikan ya.
Maksudnya bersih
tidaknya data kita. Oleh karenanya kita perlu memperhatikan sumber data yang
kita miliki. Beda sumber data berarti beda bobotnya. Semisal data yang
bersumber dari blog seperti ini, pastinya beda dibandingkan data yang sudah
dipublikasikan di Kompas. Jika data kita tidak bersih, maka perlu proses
pembersihan, atau cleansing.
Kenali apa yang
membuat data kita menjadi bernilai bagi yang berkepentingan. Biasanya semakin
segar dan semakin bersih data kita, itu menjadikannya semakin bernilai. Yang
menjadi PR ialah, cara kita menjadikan data perusahaan tempat kita bekerja itu
bermanfaat. Intinya kita bisa menemukan titik masalahnya dan menyelesaikan
dengan cara yang lebih efesien. Jadi temukan apa yang menjadi emas di dalam
datamu, apa yang menjadi ia begitu berharga.
Big data itu bergantung pada
metadata. Metadata itu semacam informasi informasi dari foto atau video yang
kita upload. Sementara itu yang menjadi tantangan ialah bagian mengekstraks
data dan mengolah data.
Data Analysis and Analytics
Data analysis : Segala hal yang
kita lakukan dengan cara apapun untuk mencari pola, keterkaitan satu sama lain
guna mengambil keputusan. Sementara itu data analytics ialah ketika analisis
yang kita lakukan mengikuti suatu metode ilmiah.
Kadang perusahaan menanyakan
kepada kita, kapan saatnya kita mempergunakan big data? Itu bergantung pada
kapabilitas yang hendak kita ciptakan.
Ini tentang apa
yang telah terjadi sebelumnya? Semisal berapa banyak orang yang terkena wabah
DB selama 6 bulan terakhir?
2. Diagnostic
Analysis
Ini tentang
kenapa itu bisa terjadi? Semisal mengapa bisa terjadi wabah DB selama 6 bulan
terakhir?
3. Predictive
Analysis
Ini tentang
memprediksi ke depannya apa yang akan terjadi? Semisal dengan melihat data 6
bulan terakhir wabah DB bisa menurun.
4. Prescriptive
Analysis
Ini tentang apa
apa yang harus dilakukan agar yang diprediksikan bisa terjadi. Kita bisa
membuat simulasi di dalam system sebelum akhirnya menentukan mana yang terbaik.
Semisal wabah DB dapat turun dengan cara sosialisasi ke masyarakat tentang
bahayanya DB, menutup sumber sarang nyamuk, dsb
Metode
1. Quantitave
Analysis
Data analisis
seperti mean, median, modus, nilai maksimal, nilai minimal dsb
2. Data
Mining
Memilih
model/metode yang tepat. Sebab banyak sekali metode yang bisa dipakai, tapi tak
semua metode perlu dipakai. Pilih yang memang sesuai dengan kebutuhan kita.
3. Statistical
Analysis
Ini
mempergunakan regresi liner dan korelasi. Korelasi merupakan hubungan satu data
dengan data yang lainnya. Ini bernilai dari -1 hingga 1. Semakin mendekati 1,
maka korelasi keduanya semakin baik. Misalkan korelasi antara berat badan dan
tinggi badan, korelasi antara suhu dengan jarak ke pantai. Korelasi ini bisa
direpresentasikan dengan grafik lho.
4. Statistical
Analysis
Dari regresi atau
korelasi yang sudah di lakukan, selanjutnya dapat digunakan untuk memprediksi
nilai nilai selanjutnya. Semisal kita memiliki model regresi untuk suhu dan
jarak ke pantai. Maka dengan mengetahui berapa jarak ke pantai, kita dapat
memperkirakan suhu di daerah tersebut.
Machine Learning
1. Classification
and Clustering
Pengelompokan
data, dengan du acara yakni unsupervise dan supervise. Unsupervise atau tidak
diajari, yakni mesin secara langsung memisahkan data tersebut tanpa diajari.
Sedangkan supervise atau diajari, mesin pertama tama diberikan contoh data yang
sudah dilabeli, selanjutnya di berikan data input. Mesin akan menggelompokkan
data berdasarkan contoh yang sudah diberikan.
2. Outlier
Detection
Mencari data
yang menjadi pencilan yang selanjutnya akan di cek manual oleh manusia
3. Filtering
Recommender
System : Based similary behavior user
4. Semantic
Analysis
Ini dengan NLP,
mengubah voice menjadi text.
Ini hanyalah catatan asal asalan
waktu kegiatan Digital Talent Scholarship. Sebuah kegiatan yang diselenggarakan
oleh Kominfo. Saya mengambil bidang Big Data yang dilaksanakan di UGM. Mohon
doanya ya semoga senatiasa dikuatkan. Maafkan jika kuping ini salah dengar,
tangan ini salah tulis, ataupun tulisannya kurang berbobot. Tapi semoga ada
kebermanfataan yang bisa sama sama diambil.
"Memilih model/metode yang tepat.
Sebab banyak sekali metode yang bisa dipakai, tapi tak semua metode perlu
dipakai. Pilih yang memang sesuai dengan kebutuhan kita."
"Galilah dirimu, temukan apa apa
yang menjadikan dirimu berharga 😊"
Komentar
Posting Komentar