#Datajourney — Exploratory Data Analysis pada Data Iris

Sari Devi
4 min readJan 8, 2022

--

Photo by Pawel Czerwinski on Unsplash

Hai, semoga harimu menyenangkan. Exploratory Data Analysis (EDA) pasti gak asing lagi bagi kamu yang menggeluti dunia data. EDA ini adalah tahapan yang wajib dalam analisis data karena tahapan ini sangat berpengaruh pada analisis berikutnya dan tahapan ini juga menentukan model prediksi seperti apa yang sesuai. Data yang aku gunakan adalah data Iris. Data ini sering banget dipakai saat praktik Machine Learning di kampus. Ya gak sih? Ya kan. Kali ini, aku bakal coba sharing gimana aku melakukan analisis EDA ini pada data Iris. Datanya aku unduh dari Kaggle di sini. Kalau gak mau ribet, data dan full source code-nya bisa diunduh pada link di bawah.

saridevi/exploratory-data-analysis-dengan-data-iris

Data iris yang digunakan terdiri 6 kolom termasuk kolom id dan 150 baris atau record yang masing-masing terdiri dari 50 setiap spesies. Untuk melakukan analisis ini, aku menggunakan Google Colaboratory. Kamu bisa menggunakan notebook (Python IDE) yang lain seperti Jupyter Notebook atau Jupyterlab. Let’s get started!

1. Read Data

Read data iris dengan bantuan library pandas. Setelah itu, lihat beberapa data dan informasi data.

Image by author

Dari hasil di atas, data iris memiliki 150 baris atau record dan memiliki 5 variabel atau kolom. Variabel dari data iris dapat dikelompokkan menjadi dua yaitu variabel dependent dan independent. Variabel dependent (bebas) yaitu variabel SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm, sedangkan variabel independent (terikat) yaitu variabel Species. Selain itu, diketahui pula tipe masing-masing variabel: numerik (integer dan float) dan objek (kategorik).

2. Analisis Statistik Sederhana

Dengan bantuan fungsi describe(), akan diperoleh nilai statistik sederhana dari data.

Image by author

Diperoleh nilai mean, standard deviasi, minimum, quartil, dan maximum dari masing-masing variabel numerik. Variabel Species tidak diproses karena merupakan variabel kategorik. Jika variabel Species ingin diproses juga, tambahkan parameter include=”all”.

3. Cek Missing Value

Image by author

Kebetulan tidak terdapat missing value pada masing-masing variabel. Jangan harap ini akan terjadi pada dunia nyata. Bila seandainya terdapat missing value harus dilakukan treatment seperti drop atau imputasi.

4. Visualisasi

Image by author

Untuk memudahkan melihat jumlah nilai unik pada variabel independent, dapat menggunakan bar chart. Diketahui bahwa jumlah setiap kategori pada variabel Species sama yaitu masing-masing 50.

Perbandingan sepal length dan width pada variabel Species.

Image by author

Dari gambar di atas dapat di ambil kesimpulan:

  1. Iris-setosa memiliki sepal length terendah dan sepal width terbesar.
  2. Iris-versicolor memiliki sepal width terendah.
  3. Iris-virginica memiliki sepal length tertinggi.

Perbandingan petal length dan width pada variabel Species.

Image by author

Dari gambar di atas dapat di ambil kesimpulan:

  1. Iris-setosa memiliki sepal length dan width terendah.
  2. Iris-versicolor memiliki sepal length dan width cenderung ditengah-tengah.
  3. Iris-virginica memiliki sepal length dan width tertinggi.

Cek Korelasi
Korelasi antarvariabel numerik dapat diperoleh dengan menggunakan fungsi corr(). Missing value, bila ada pada data, secara otomatis akan diabaikan. Nilai korelasi berada pada rentang -1 s.d. 1. Semakin mendekati 1 semakin kuat korelasi positif dan mendekati -1 semakin kuat korelasi negatif, sedangkan semakin mendekati 0 bearti semakin lemah korelasinya.

Image by author

Dari heatmap di atas dapat disimpulkan:

  1. Petal length dan petal width memiliki korelasi positif yang tinggi sebesar 0.96
  2. Petal length dan sepal length memiliki korelasi positif yang cukup tinggi sebesar 0.87
  3. Petal witdh dan sepal length memiliki korelasi positif yang cukup tinggi sebesar 0.82

Cek distribusi variabel dependent

Image by author

Dari histogram di atas, sepal length dan sepal width cenderung berdistribusi normal dibandingkan dengan petal length dan petal width.

Cek distribusi dan outlier variabel dependent berdasarkan variabel independent (Species)

Image by author

Dari box plot di atas dapat di ambil kesimpulan sebagai berikut.

  1. Spesies setosa memiliki beberapa outlier pada variabel petal width dan petal length.
  2. Spesies versicolor memiliki outlier pada variabel petal length.
  3. Species virginica memili outlier pada variabel sepal witdh dan length.
  4. Secara keseluruhan distribusi setiap species pada setiap variabel dependent cenderung normal hanya bervariasi pada nilai minimum, maximum, quartil, dan mean.

Outlier adalah data yang berbeda secara signifikan dari mayoritas data yang ada pada sampel atau populasi. Outlier dapat memengaruhi nilai mean.

--

--