Data Science

Standard

Tim Barness Lee, Inventor dari World Wide Web (WWW) sering dikutip quote-nya yang mengatakan “Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom“. Quote ini menunjukkan bahwa data adalah lapisan terbawah dari sebuah piramid dimana informasi, pengetahuan, dan kebijaksanaan masing-masing berada satu level diatasnya.

Berton-ton data dihasilkan dari berbagai macam bidang keilmuan, mulai dari  ekonomi, engineering, biologi, sensor, telekomunikasi, marketing, retail, perusahaan, dan sebagainya. Tampaknya tidak ada tanda-tanda produksi data menurun, bahkan dengan memasyarakatnya penggunaan Internet yang dapat dijangkau oleh semua kalangan, data diproduksi dengan kecepatan yang sangat menakjubkan.

Data perlu diolah, ditransformasi dan diberi makna agar memberikan informasi bagi yang memerlukan. Menerjemahkan data yang dikumpulkan menjadi informasi memerlukan
pengetahuan yang saat ini disebut sebagai Data Science.

Data Science adalah ilmu tentang metode, proses, dan sistem untuk mengekstrak pengetahuan (insight) dari berbagai macam bentuk data baik terstruktur maupun tidak terstruktur.

Data Science melibatkan banyak bidang (interdiciplinary field), mulai dari Matematika, Statistik, Computer Scince, Machine Learning, Data Processing, dan Domain Expertise.

Jika digambarkan dalam digram Venn terlihat sebagai berikut :

data_science

 

Proses analisis data, salah satu bagian penting dari task seorang data scientist menuntut kemampuan dalam meringkas data (data summarize), menggunakan sample untuk menarik kesimpulan (inference), dan menvisualisasikannya dalam bentuk grafik.

Walaupun memerlukan aspek teknikal, audiens dari proses ini adalah user biasa, sehingga dibutuhkan kemampuan komunikasi untuk menjelaskannya. Metode statistik canggih sama sekali tidak berguna jika hasil dari analisis data tidak dapat dikomunikasikan dengan baik.

Berikut ini beberapa skill yang dibutuhkan oleh seorang data scientist :

  1. Mempelajari Application Domain . Data scientist harus cepat mempelajari bagaimana data dipakai dalam konteks bersangkutan.
  2. Komunikasi . Memiliki kemampuan yang kuat dalam menjelaskan hasil analisis data. Mampu menterjemahkan aspek teknikal kedalam vocabulary yang dimengerti user biasa.
  3. Mengetahui bagaimana data direpresentasikan. Data scientist harus memiliki pemahaman yang jelas bagaimana data disimpan, meta data, dan relasi antar data.
  4.  Transformasi dan analisis data.  Ketika data tersedia, data scientist harus mengetahui bagaimana mentransformasi, meringkas, dan menarik
    kesimpulan dari data.
  5. Visualisasi dan presentasi. Visualisasi dari data dalam bentuk grafik jauh lebih baik untuk mengkomunikasikan kepada user.
  6. Perhatian terhadap kualitas data. Data scientsit harus menetahui keterbatasan dari data yang dimiliki. Karena pada dasarnya tidak ada data yang sempurna .

Melalui Blog ini saya akan menuliskan perjalanan dalam mempelajari Data Science terutama Statistik dan Machine Learning. Dalam Implementasinya saya akan banyak menggunakan bahasa R dan R Studio.

Tidak menutup kemungkinan dikesempatan lain akan dibahas penggunaan Python, karena dua bahasa ini (R dan Python) menjadi standar yang digunakan oleh kebanyakan data scientist di seluruh dunia.