#Datajourney — Rekap Pertanyaan Seputas ML/DL/Data Scientist

Sari Devi
2 min readApr 22, 2022

--

Hai guys, hope you all okay today. Aku rekap ini berdasarkan yang aku pelajari dan literatur di grup komunitas telegram data sains. Takut informasi-informasi yang menurutku penting “tenggelam” oleh lautan kehidupan, eh. Jadi, aku memutuskan untuk menulisnya di sini. Untuk tulisan ini akan aku edit terus setiap menemukan informasi penting terkait lainnya. Dan, maaf ya bahasaku kadang baku kadang gak :) tapi gak masalah-lah yaa. Tanpa basa basi lagi, ini dia rekapannya. enjoy

  1. Tantangan apa yang biasanya dihadapi seorang data scientist?
    Menghandle data dari berbagai macam sumber, memprediksi outcome dari data sesuai kebutuhan, dan mengkomunikasikan kepada stakeholder.
  2. Decision trees dan random forests?
    Decision tree itu salah satu tipe algoritma supervised learning (memerlukan variabel target). Kegunaannya lebih untuk masalah klasifikasi dan dapat bekerja pada data kategorik dan kontinu baik pada variabel input maupun output. Biasanya teknik ini dilakukan dengan men-split populasi. Random forest adalah algoritma multifungsi yang mampu mengatasi masalah regresi dan klasifikasi. Random forest dapat melakukan dimensional reduction, mengatasi missing value, outliers, dan langkah penting dalam data eksplorasi lainnya. Random forest merupakan tipe esemble learning dimana model yang lemah akan dikombinasikan untuk membentuk model yang powerful. Random forest dapat mengatasi masalah dengan cukup baik.
  3. Bagaimana recall dan presisi berhubungan dengan kurva ROC/AUC?
    ROC/AUC merupakan kurva probabilitas yang menunjukkan performa dari model klasifikasi terhadap seluruh threshold (ambang batas) dari klasifikasi. Kurva ROU dibentuk dari True Positive Rate (TPR) dan False Positive Rate (FPR). TPR adalah proporsi data positif (label “yes”) yang benar kelasnya, sedangkan FPR adalah data negatif (label “no”) yang salah kelas atau diprediksi sebagai positif (“yes”). Area di bawah kurva ROC atau disebut sebagai AUC (Area Under Curve) merupakan representasi area yang berada di bagian bawah dari kurva ROC. AUC menunjukkan seberapa baik model klasifikasi dalam membedakan kelas satu dengan kelas lainnya atau seberapa baik model dalam memprediksi kelas. Nilai AUC antara 0–1. Semakin tinggi nilai AUC maka model semakin baik dalam memprediksi kelas.
Kurva ROC (picture by writer)

--

--