Day 1: Tolong Diantar


Hari ini merupakan hari pertama kuliah Big Data. Kemarin baru pembukaan program Digital Talent Scholarship yang diadakan oleh Kominfo. Hari ini lebih kepada pengantar Big Data, melihat Big Data secara management, belum kepada tahap eksekusi.

Yang perlu kita ketahui, pendekatan problem solving big data tentunya berbeda dibandingkan pendekatan problem solving pada umumnya. Kita harus lebih terbuka lagi, sebab pendekatan ini sedikit mendobrak pendekatan yang biasa kita lakukan. Semisal untuk masalah big data, MySQL tidak cukup kuat, sebab besarnya data. Mungkin bisa saja gak kuat. Tapi ini bisa di konversi dengan Big Data. Data yang besar di pecah kepada beberapa komputer, sehingga mudah dalam memprosesnya.

Concepts
Untuk mengawalinya, terlebih dahulu kita coba pahami tentang karakter dari Big data, biasa di sebut 5 V. Mungkin kalian semua udah paham, itu tuh

1. Volume
Ini merupakan problem utama dari big data, ukurannya yang begitu besar. Perlu kita ketahui bahwa setiap interaksi kita dengan komputer akan di catat, di sebut dengan log (bener gak sih tulisannya?). Setiap waktunya, catatan ini akan semakin bertambah, otomatis akan semakin banyak data yang masuk. Bayangin aja, berapa banyak data kalo semua data twit user twitter digabungin. Gak kebayang kan? Sama. Yang perlu kita pahami ialah perilaku pengguna saat berinteraksi dengan komputer. Setelah kita pahami dan kita olah datanya, kita bisa memberikan offering. Itu semacam tindakan apa yang perlu kita lakukan terhadap tingkah laku pengguna ini.

2. Velocity
Ini berkaitan dengan laju pertambahan data. Setiap instalansi memiliki lajunya masing masing, ada yang 278rb/hari ada yang 278rb/detik. Data itu gak harus sekita instan ada. Yang terpenting, kenali karakteristik data kita yang kita punya. Ini akan berimbas kepada sistem pengolahan datanya. Data dengan pertambahan 278rb/hari tentu beda perlakuannya dengan 278rb/detik.

3. Variety
Ini maksudnya keberagaman data yang kita punya. Ada yang terstruktur, ada yang tidak terstruktur, ada yang semi terstruktur. Yang tidak memiliki struktur itu contohnya ialah gambar dan video. Sedangkan yang semi terstruktur ialah radar. Memang ada strukturnya, tapi beda merk beda struktur. Meskipun gak bisa di olah lewat MySQL, tapi jangan pernah di abaikan ya.

4. Veracity
Maksudnya bersih tidaknya data kita. Oleh karenanya kita perlu memperhatikan sumber data yang kita miliki. Beda sumber data berarti beda bobotnya. Semisal data yang bersumber dari blog seperti ini, pastinya beda dibandingkan data yang sudah dipublikasikan di Kompas. Jika data kita tidak bersih, maka perlu proses pembersihan, atau cleansing.

5. Value
Kenali apa yang membuat data kita menjadi bernilai bagi yang berkepentingan. Biasanya semakin segar dan semakin bersih data kita, itu menjadikannya semakin bernilai. Yang menjadi PR ialah, cara kita menjadikan data perusahaan tempat kita bekerja itu bermanfaat. Intinya kita bisa menemukan titik masalahnya dan menyelesaikan dengan cara yang lebih efesien. Jadi temukan apa yang menjadi emas di dalam datamu, apa yang menjadi ia begitu berharga.

Big data itu bergantung pada metadata. Metadata itu semacam informasi informasi dari foto atau video yang kita upload. Sementara itu yang menjadi tantangan ialah bagian mengekstraks data dan mengolah data.

Data Analysis and Analytics

Data analysis : Segala hal yang kita lakukan dengan cara apapun untuk mencari pola, keterkaitan satu sama lain guna mengambil keputusan. Sementara itu data analytics ialah ketika analisis yang kita lakukan mengikuti suatu metode ilmiah.
Kadang perusahaan menanyakan kepada kita, kapan saatnya kita mempergunakan big data? Itu bergantung pada kapabilitas yang hendak kita ciptakan.

1. (Lupa apa namanya)
Ini tentang apa yang telah terjadi sebelumnya? Semisal berapa banyak orang yang terkena wabah DB selama 6 bulan terakhir?

2. Diagnostic Analysis
Ini tentang kenapa itu bisa terjadi? Semisal mengapa bisa terjadi wabah DB selama 6 bulan terakhir?

3. Predictive Analysis
Ini tentang memprediksi ke depannya apa yang akan terjadi? Semisal dengan melihat data 6 bulan terakhir wabah DB bisa menurun.

4. Prescriptive Analysis
Ini tentang apa apa yang harus dilakukan agar yang diprediksikan bisa terjadi. Kita bisa membuat simulasi di dalam system sebelum akhirnya menentukan mana yang terbaik. Semisal wabah DB dapat turun dengan cara sosialisasi ke masyarakat tentang bahayanya DB, menutup sumber sarang nyamuk, dsb

Metode

1. Quantitave Analysis
Data analisis seperti mean, median, modus, nilai maksimal, nilai minimal dsb

2. Data Mining
Memilih model/metode yang tepat. Sebab banyak sekali metode yang bisa dipakai, tapi tak semua metode perlu dipakai. Pilih yang memang sesuai dengan kebutuhan kita.

3. Statistical Analysis
Ini mempergunakan regresi liner dan korelasi. Korelasi merupakan hubungan satu data dengan data yang lainnya. Ini bernilai dari -1 hingga 1. Semakin mendekati 1, maka korelasi keduanya semakin baik. Misalkan korelasi antara berat badan dan tinggi badan, korelasi antara suhu dengan jarak ke pantai. Korelasi ini bisa direpresentasikan dengan grafik lho.

4. Statistical Analysis
Dari regresi atau korelasi yang sudah di lakukan, selanjutnya dapat digunakan untuk memprediksi nilai nilai selanjutnya. Semisal kita memiliki model regresi untuk suhu dan jarak ke pantai. Maka dengan mengetahui berapa jarak ke pantai, kita dapat memperkirakan suhu di daerah tersebut.

Machine Learning

1. Classification and Clustering
Pengelompokan data, dengan du acara yakni unsupervise dan supervise. Unsupervise atau tidak diajari, yakni mesin secara langsung memisahkan data tersebut tanpa diajari. Sedangkan supervise atau diajari, mesin pertama tama diberikan contoh data yang sudah dilabeli, selanjutnya di berikan data input. Mesin akan menggelompokkan data berdasarkan contoh yang sudah diberikan.

2. Outlier Detection
Mencari data yang menjadi pencilan yang selanjutnya akan di cek manual oleh manusia

3. Filtering
Recommender System : Based similary behavior user

4. Semantic Analysis
Ini dengan NLP, mengubah voice menjadi text.

Ini hanyalah catatan asal asalan waktu kegiatan Digital Talent Scholarship. Sebuah kegiatan yang diselenggarakan oleh Kominfo. Saya mengambil bidang Big Data yang dilaksanakan di UGM. Mohon doanya ya semoga senatiasa dikuatkan. Maafkan jika kuping ini salah dengar, tangan ini salah tulis, ataupun tulisannya kurang berbobot. Tapi semoga ada kebermanfataan yang bisa sama sama diambil.

"Memilih model/metode yang tepat. Sebab banyak sekali metode yang bisa dipakai, tapi tak semua metode perlu dipakai. Pilih yang memang sesuai dengan kebutuhan kita."

"Galilah dirimu, temukan apa apa yang menjadikan dirimu berharga 😊"

Komentar

Postingan populer dari blog ini

Penerapan Hukum Archimedes

Garis Finish Lari Tadi

Menjagamu