Paket Soal 1: Fondasi R dan Manipulasi Data dengan dplyr |

Paket Soal 1: Fondasi R dan Manipulasi Data dengan dplyr

48 Soal Programming, R

Soal pengenalan pengolahan data dengan R.

Mode Latihan Mode Ujian

Soal #1

Di R, operator $<-$ dan $=$ memiliki fungsi yang sama persis dan dapat digunakan secara bergantian dalam semua situasi untuk assignment variabel.

A. Benar

B. Salah

Kunci Jawaban: B

Penjelasan

Meskipun dalam banyak kasus dapat berfungsi sama, praktik terbaik di R adalah menggunakan $<-$ untuk assignment variabel global/lokal. Operator $=$ sebaiknya digunakan untuk menamai argumen di dalam pemanggilan fungsi.

Soal #2

Fungsi `filter()` dari paket `dplyr` digunakan untuk memilih kolom tertentu dari sebuah data frame.

A. Benar

B. Salah

Kunci Jawaban: B

Penjelasan

Fungsi filter() digunakan untuk menyaring baris berdasarkan kondisi tertentu. Untuk memilih kolom, fungsi yang digunakan adalah select().

Soal #3

Perintah `library(tidyverse)` berfungsi untuk mengunduh dan memasang paket `tidyverse` dari internet ke komputer Anda.

A. Benar

B. Salah

Kunci Jawaban: B

Penjelasan

Perintah library() berfungsi untuk memuat paket yang sudah terpasang ke dalam sesi R agar fungsinya bisa digunakan. Untuk memasang paket, perintah yang digunakan adalah install.packages('tidyverse').

Soal #4

Menjalankan perintah `df %>% group_by(kategori)` akan langsung mengubah tampilan visual data frame `df` dengan mengurutkannya berdasarkan kolom `kategori`.

A. Benar

B. Salah

Kunci Jawaban: B

Penjelasan

Fungsi group_by() tidak mengubah tampilan data secara visual. Ia menambahkan metadata pengelompokan 'tak terlihat' yang akan memengaruhi cara kerja fungsi selanjutnya seperti summarise().

Soal #5

Setiap kali Anda menjalankan pipeline `dplyr` pada sebuah data frame, misalnya `penjualan %>% filter(kuartal == 4)`, data frame `penjualan` yang asli akan otomatis termodifikasi.

A. Benar

B. Salah

Kunci Jawaban: B

Penjelasan

Fungsi dplyr tidak pernah memodifikasi data frame asli. Mereka mengembalikan salinan data frame yang baru dan sudah dimodifikasi. Jika Anda ingin menyimpan perubahannya, Anda harus menyimpannya ke dalam variabel baru atau menimpa variabel lama.

Soal #6

Operator yang paling umum dan direkomendasikan untuk assignment variabel di R adalah...

A. =

B. <-

C. :=

D. ->

Kunci Jawaban: B

Penjelasan

Operator $<-$ adalah standar konvensional untuk assignment di R, membuatnya lebih mudah dibaca dan dibedakan dari assignment argumen fungsi yang menggunakan $=$.

Soal #7

Untuk membuat sebuah vector numerik yang berisi angka 10, 25, dan 30, perintah yang benar adalah...

A. vector(10, 25, 30)

B. list(10, 25, 30)

C. c(10, 25, 30)

D. create(10, 25, 30)

Kunci Jawaban: C

Penjelasan

Fungsi c() yang merupakan singkatan dari 'combine' atau 'concatenate' adalah fungsi standar untuk membuat vector di R.

Soal #8

Fungsi `str(my_data)` paling tepat digunakan untuk...

A. Mengubah semua kolom menjadi tipe data string/character.

B. Menampilkan ringkasan statistik dari data.

C. Menampilkan struktur (structure) dari objek data, termasuk nama kolom, tipe data, dan beberapa baris pertama.

D. Menghitung jumlah baris dalam data.

Kunci Jawaban: C

Penjelasan

str() adalah fungsi diagnostik yang sangat berguna untuk 'mengintip' struktur internal sebuah objek data, yang krusial sebelum melakukan analisis.

Soal #9

Apa tujuan utama dari RStudio?

A. Sebagai bahasa pemrograman baru untuk menggantikan R.

B. Sebagai satu-satunya cara untuk mengunduh paket R.

C. Sebagai Lingkungan Pengembangan Terpadu (IDE) yang membuat penggunaan R lebih mudah dan terorganisir.

D. Sebagai aplikasi untuk membuat visualisasi saja.

Kunci Jawaban: C

Penjelasan

RStudio menyediakan antarmuka dengan banyak fitur (editor kode, console, panel plot, dll.) yang berjalan di atas R (mesinnya) untuk mempermudah alur kerja analisis data.

Soal #10

Bagaimana cara menulis komentar di dalam skrip R?

A. Menggunakan // di awal baris.

B. Menggunakan # di awal baris.

C. Menggunakan untuk mengapit komentar.

D. Menggunakan / / untuk mengapit komentar.

Kunci Jawaban: B

Penjelasan

R menggunakan simbol # untuk menandai komentar. Teks apa pun setelah # di baris yang sama akan diabaikan oleh R, yang berguna untuk memberi penjelasan pada kode.

Soal #11

Perintah `df %>% filter(kategori == 'A')` akan...

A. Memilih kolom kategori dan A.

B. Menyebabkan error karena penggunaan tanda kutip.

C. Menyaring baris di mana nilai kolom kategori adalah string 'A'.

D. Menamai ulang kolom menjadi 'A'.

Kunci Jawaban: C

Penjelasan

filter() berfungsi untuk menyaring baris. Operator perbandingan $==$ digunakan untuk mengecek kesamaan, dan nilai character/string harus diapit tanda kutip.

Soal #12

Untuk menyaring data penjualan di mana kolom `jumlah` lebih dari 100 DAN (`AND`) kolom `status` adalah 'Lunas', kode yang benar adalah...

A. filter(jumlah > 100 | status == 'Lunas')

B. filter(jumlah > 100 & status == 'Lunas')

C. filter(jumlah > 100 AND status == 'Lunas')

D. select(jumlah > 100 & status == 'Lunas')

Kunci Jawaban: B

Penjelasan

Operator logis untuk 'DAN' di R adalah &. Operator | digunakan untuk 'ATAU'. Kondisi-kondisi ini ditempatkan di dalam fungsi filter().

Soal #13

Kode `data %>% select(-tahun)` akan menghasilkan...

A. Hanya kolom tahun.

B. Error karena tanda minus.

C. Semua kolom kecuali kolom tahun.

D. Baris di mana tahun bernilai negatif.

Kunci Jawaban: C

Penjelasan

Menggunakan tanda minus (-) di depan nama kolom di dalam select() adalah cara singkat untuk mengecualikan atau menghapus kolom tersebut dari hasil.

Soal #14

Fungsi pembantu `starts_with('harga_')` paling tepat digunakan di dalam fungsi...

A. filter()

B. select()

C. mutate()

D. arrange()

Kunci Jawaban: B

Penjelasan

Fungsi pembantu seperti starts_with(), ends_with(), dan contains() dirancang untuk digunakan di dalam select() untuk memilih sekelompok kolom berdasarkan pola namanya.

Soal #15

Untuk mengurutkan data frame `df` berdasarkan kolom `tanggal` dari yang paling baru ke paling lama, perintah yang benar adalah...

A. df %>% arrange(tanggal)

B. df %>% arrange(desc(tanggal))

C. df %>% sort(tanggal)

D. df %>% filter(desc(tanggal))

Kunci Jawaban: B

Penjelasan

arrange() adalah fungsi untuk mengurutkan. Secara default ia mengurutkan secara menaik (ascending). Untuk membaliknya (descending), kita perlu membungkus nama kolom dengan fungsi desc().

Soal #16

Apa yang dilakukan oleh perintah `df %>% mutate(harga_diskon = harga * 0.8)`?

A. Menyaring data di mana harga diskon adalah 80% dari harga.

B. Membuat kolom baru bernama harga_diskon yang nilainya adalah 80% dari kolom harga.

C. Mengganti semua nilai di kolom harga menjadi 80% dari nilai aslinya.

D. Menghitung total harga diskon untuk seluruh dataset.

Kunci Jawaban: B

Penjelasan

mutate() adalah fungsi yang digunakan untuk membuat kolom baru atau memodifikasi kolom yang sudah ada berdasarkan operasi pada kolom lain.

Soal #17

Manakah dari berikut ini yang merupakan tujuan utama dari fungsi `group_by()`?

A. Untuk meringkas data menjadi satu baris.

B. Untuk mengurutkan data berdasarkan grup.

C. Untuk menambahkan 'label' pengelompokan pada data, sehingga operasi selanjutnya dilakukan per grup.

D. Untuk menghapus grup dari data.

Kunci Jawaban: C

Penjelasan

group_by() sendiri tidak mengubah data secara visual, tetapi mempersiapkannya untuk analisis per grup oleh fungsi lain seperti summarise() atau mutate().

Soal #18

Di dalam `summarise()`, fungsi `n()` digunakan untuk...

A. Menghitung jumlah total baris di seluruh data frame.

B. Menamai ulang kolom.

C. Menghitung jumlah baris/observasi di dalam setiap grup.

D. Menghitung nilai rata-rata.

Kunci Jawaban: C

Penjelasan

n() adalah fungsi khusus dplyr yang sangat berguna di dalam summarise() untuk menghitung frekuensi atau jumlah data pada setiap grup yang telah dibuat oleh group_by().

Soal #19

Perhatikan kode: `hasil % group_by(produk) %>% summarise(penjualan_total = sum(unit_terjual))`. Variabel `hasil` akan berisi...

A. Data frame asli dengan kolom baru penjualan_total.

B. Satu nilai tunggal, yaitu total penjualan semua produk.

C. Sebuah data frame baru dengan satu baris untuk setiap produk unik, beserta total unit terjualnya.

D. Data frame yang diurutkan berdasarkan penjualan_total.

Kunci Jawaban: C

Penjelasan

Alur kerja group_by() diikuti summarise() menghasilkan sebuah data frame ringkasan baru, di mana setiap baris merepresentasikan satu grup.

Soal #20

Anda ingin menemukan 5 baris teratas (top 5) dari data frame `df` setelah mengurutkannya. Fungsi apa yang paling cocok ditambahkan di akhir pipeline Anda?

A. top_n(5)

B. filter(1:5)

C. head(n = 5)

D. summarise(n = 5)

Kunci Jawaban: C

Penjelasan

head(n = 5) adalah cara yang paling umum dan mudah dibaca untuk mengambil sejumlah baris pertama dari sebuah data frame. slice(1:5) juga bisa digunakan.

Soal #21

Struktur data di R yang paling mirip dengan spreadsheet Excel, dengan baris dan kolom di mana setiap kolom bisa memiliki tipe data yang berbeda, adalah...

A. vector

B. matrix

C. list

D. data.frame

Kunci Jawaban: D

Penjelasan

data.frame adalah struktur data sentral untuk analisis data di R, dirancang untuk menampung data tabular seperti spreadsheet.

Soal #22

Tipe data `character` di R digunakan untuk menyimpan...

A. Angka bulat

B. Nilai Logis (TRUE/FALSE)

C. Teks atau string

D. Faktor atau kategori

Kunci Jawaban: C

Penjelasan

Tipe data character digunakan untuk data teks, yang selalu diapit oleh tanda kutip tunggal ('') atau ganda ("").

Soal #23

Apa yang akan menjadi output dari `c(1, 2, 'tiga')`?

A. Sebuah vector numerik: 1, 2, 3

B. Sebuah vector character: '1', '2', 'tiga'

C. Error

D. Sebuah list

Kunci Jawaban: B

Penjelasan

Vector di R harus berisi elemen dengan tipe data yang sama. Jika tipe data dicampur, R akan melakukan 'koersi' (pemaksaan tipe) ke tipe yang paling fleksibel, dalam hal ini adalah character.

Soal #24

Anda ingin menyaring mobil yang jenis transmisinya (`am`) termasuk dalam grup manual (1) atau otomatis (0). Kode yang paling tepat menggunakan `%in%` adalah...

A. filter(am %in% c(0, 1))

B. filter(am == c(0, 1))

C. select(am %in% c(0, 1))

D. filter(am | c(0, 1))

Kunci Jawaban: A

Penjelasan

Operator %in% sangat berguna untuk menyaring baris di mana nilai sebuah kolom cocok dengan salah satu nilai di dalam sebuah vector.

Soal #25

Untuk mengurutkan data `df` pertama berdasarkan `kategori` (A-Z) dan kemudian di dalam setiap kategori diurutkan berdasarkan `penjualan` (tertinggi ke terendah), kodenya adalah...

A. arrange(df, kategori, desc(penjualan))

B. df %>% arrange(kategori, desc(penjualan))

C. df %>% arrange(desc(penjualan), kategori)

D. df %>% sort(kategori, desc(penjualan))

Kunci Jawaban: B

Penjelasan

arrange() dapat menerima beberapa nama kolom. Ia akan mengurutkan berdasarkan kolom pertama, lalu menggunakan kolom kedua untuk 'memecah seri' (tie-breaking) dari urutan pertama, dan seterusnya.

Soal #26

Perintah `df %>%` distinct(negara) akan...

A. Menghitung jumlah setiap negara.

B. Mengembalikan data frame dengan satu kolom negara yang berisi daftar nilai negara unik (tidak ada duplikat).

C. Menghapus kolom negara.

D. Mengurutkan data berdasarkan negara.

Kunci Jawaban: B

Penjelasan

distinct() adalah fungsi dplyr yang digunakan untuk menemukan dan menyimpan baris unik berdasarkan satu atau beberapa kolom.

Soal #27

Jika Anda menjalankan `summarise(df, rata2 = mean(nilai))`, apa yang terjadi jika kolom `nilai` memiliki nilai `NA`?

A. Rata-rata akan dihitung dengan mengabaikan NA.

B. Akan terjadi error.

C. Hasilnya akan menjadi NA.

D. NA akan dianggap sebagai nol.

Kunci Jawaban: C

Penjelasan

Secara default, fungsi agregasi seperti mean(), sum(), dll. di R akan menghasilkan NA jika ada satu saja nilai NA di dalam data inputnya. Untuk mengatasinya, gunakan argumen na.rm = TRUE, contoh: mean(nilai, na.rm = TRUE).

Soal #28

Fungsi `rename(df, nama_baru = nama_lama)` digunakan untuk...

A. Membuat salinan kolom nama_lama dengan nama baru.

B. Mengganti nama kolom nama_lama menjadi nama_baru.

C. Menyaring baris berdasarkan nama_lama.

D. Menyimpan seluruh data frame df sebagai nama_baru.

Kunci Jawaban: B

Penjelasan

rename() adalah fungsi dplyr yang didedikasikan untuk mengubah nama kolom. Sintaksnya adalah nama_baru = nama_lama.

Soal #29

Apa kegunaan utama dari RStudio Projects (.Rproj)?Ini adalah teks pertanyaan baru yang akan ditambahkan.Ini adalah teks pertanyaan baru yang akan ditambahkan.Ini adalah teks pertanyaan baru yang akan ditambahkan.Ini adalah teks pertanyaan baru yang akan ditambahkan.Ini adalah teks pertanyaan baru yang akan ditambahkan.Ini adalah teks pertanyaan baru yang akan ditambahkan.

A. Untuk menyimpan hasil plot secara otomatis.

B. Untuk membuat skrip R berjalan lebih cepat.

C. Untuk menjaga semua file terkait suatu analisis (data, skrip, output) dalam satu direktori kerja yang mandiri.

D. Untuk membagikan kode ke GitHub secara otomatis.

Kunci Jawaban: C

Penjelasan

Menggunakan Projects adalah praktik terbaik untuk menjaga keteraturan. Ini mengikat direktori kerja ke proyek tersebut, sehingga path file menjadi lebih mudah dikelola dan proyek lebih portabel.

Soal #30

Fungsi `ifelse(kondisi, nilai_jika_benar, nilai_jika_salah)` paling cocok digunakan di dalam...

A. summarise()

B. filter()

C. arrange()

D. mutate()

Kunci Jawaban: D

Penjelasan

ifelse() sangat berguna di dalam mutate() untuk membuat kolom baru yang nilainya bergantung pada suatu kondisi logis. Misalnya, membuat kolom kategori 'Laris'/'Tidak Laris' berdasarkan jumlah penjualan.

Soal #31

Manakah dari berikut ini yang akan menghasilkan error?

A. df %>% select(kolom1, kolom2)

B. df %>% filter(kolom1 > 10)

C. df %>% arrange(kolom1)

D. df %>% summarise(kolom1)

Kunci Jawaban: D

Penjelasan

summarise() harus digunakan dengan fungsi agregasi (seperti mean, sum, n, dll.). Menuliskan nama kolom saja di dalamnya tidak valid karena summarise tidak tahu bagaimana cara meringkas kolom tersebut.

Soal #32

Anda ingin mengambil baris ke-10 hingga ke-15 dari data frame `df`. Perintah `dplyr` yang tepat adalah...

A. df %>% head(15) %>% tail(5)

B. df %>% filter(10:15)

C. df %>% slice(10:15)

D. df %>% select(10:15)

Kunci Jawaban: C

Penjelasan

Fungsi slice() secara spesifik digunakan untuk memilih baris berdasarkan posisi integer-nya. filter() digunakan untuk memilih baris berdasarkan nilai/kondisinya.

Soal #33

Operator pipa (pipe) `%>%` berfungsi untuk...

A. Menyimpan hasil ke sebuah variabel.

B. Membandingkan dua objek.

C. Mengalirkan output dari perintah di sebelah kiri sebagai argumen pertama dari perintah di sebelah kanan.

D. Membuat fungsi baru.

Kunci Jawaban: C

Penjelasan

Pipa membuat kode lebih mudah dibaca dengan mengubah fungsi bersarang (nested) menjadi rangkaian langkah linear yang logis.

Soal #34

Untuk menggunakan fungsi-fungsi dari paket `dplyr`, Anda harus memuatnya terlebih dahulu menggunakan perintah ...(`dplyr`).

Kunci Jawaban: library

Penjelasan

Perintah library(nama_paket) digunakan untuk memuat paket yang sudah terpasang ke dalam sesi R agar dapat digunakan.

Soal #35

Operator yang digunakan untuk merangkai beberapa perintah `dplyr` menjadi satu alur kerja yang mudah dibaca adalah $...$.

Kunci Jawaban: %>%

Penjelasan

Operator pipa (pipe), %>%, mengambil output dari sisi kiri dan 'memasukkannya' sebagai input pertama ke fungsi di sisi kanan.

Soal #36

Untuk mengurutkan baris data frame secara menurun (descending), Anda menggunakan fungsi `...()` di dalam `arrange()`.

Kunci Jawaban: desc

Penjelasan

desc() adalah fungsi pembantu yang digunakan di dalam arrange() untuk membalik urutan pengurutan dari menaik menjadi menurun.

Soal #37

Untuk menghitung jumlah observasi per grup di dalam fungsi `summarise()`, Anda menggunakan fungsi khusus yaitu $...()$.

Kunci Jawaban: n

Penjelasan

n() adalah fungsi dplyr yang tidak mengambil argumen dan secara otomatis menghitung jumlah baris pada grup saat ini.

Soal #38

Operator perbandingan untuk 'sama dengan' yang digunakan dalam `filter()` adalah $...$.

Kunci Jawaban: ==

Penjelasan

Di R, $==$ digunakan untuk tes perbandingan kesamaan, sedangkan $=$ digunakan untuk assignment argumen fungsi.

Soal #39

Untuk mengubah nama kolom `nama.lama` menjadi `nama_baru`, Anda menggunakan fungsi `... (nama_baru = nama.lama)`.

Kunci Jawaban: rename

Penjelasan

Fungsi rename() digunakan untuk mengubah nama kolom dengan sintaks nama_baru = nama_lama.

Soal #40

Fungsi untuk menyaring baris berdasarkan kondisi logis adalah `...()`.

Kunci Jawaban: filter

Penjelasan

filter() mempertahankan baris yang memenuhi kondisi yang diberikan dan membuang sisanya.

Soal #41

Fungsi untuk memilih kolom berdasarkan namanya adalah `...()`.

Kunci Jawaban: select

Penjelasan

select() digunakan untuk memilih atau mengecualikan kolom dari sebuah data frame.

Soal #42

Untuk melihat 6 baris pertama dari data frame `df`, Anda bisa menggunakan fungsi `... (df)`.

Kunci Jawaban: head

Penjelasan

head() adalah fungsi cepat untuk memeriksa beberapa baris pertama dari sebuah objek data untuk memastikan data dimuat dengan benar.

Soal #43

Tipe data yang digunakan untuk menyimpan nilai kebenaran `TRUE` atau `FALSE` adalah `...`.

Kunci Jawaban: logical

Penjelasan

Tipe data logical adalah fundamental untuk operasi kondisional seperti filter() dan ifelse().

Soal #44

Jelaskan dengan kata-kata Anda sendiri perbedaan fundamental antara fungsi `filter()` dan `select()` dalam paket `dplyr`. Berikan contoh sederhana untuk masing-masing.

Penjelasan

Perbedaan fundamentalnya terletak pada dimensi data yang mereka operasikan: 1. filter() bekerja pada BARIS. Fungsi ini digunakan untuk menyaring atau memilih baris mana yang akan dipertahankan berdasarkan kondisi logis tertentu. Hasilnya adalah subset dari baris data asli, tetapi jumlah kolomnya tetap sama. Contoh: filter(mtcars, cyl > 6) akan mengambil semua baris mobil yang memiliki lebih dari 6 silinder. 2. select() bekerja pada KOLOM. Fungsi ini digunakan untuk memilih kolom mana yang ingin Anda lihat atau gunakan dalam analisis selanjutnya. Hasilnya adalah subset dari kolom data asli, tetapi jumlah barisnya tetap sama. Contoh: select(mtcars, mpg, hp) akan mengambil hanya kolom mpg dan hp dari semua mobil.

Soal #45

Jelaskan alur kerja dari kombinasi `group_by()` dan `summarise()` untuk analisis data. Mengapa kombinasi ini dianggap sangat kuat? Berikan satu contoh skenario penelitian kapan Anda akan menggunakannya.

Penjelasan

Alur kerja group_by() dan summarise() adalah 'split-apply-combine' untuk analisis data agregat. 1. Split (group_by()): Langkah pertama adalah memecah dataset besar menjadi sub-grup yang lebih kecil berdasarkan satu atau beberapa variabel kategori. group_by() tidak mengubah data secara fisik, tetapi menambahkan 'label' grup. 2. Apply (summarise()): Setelah data dikelompokkan, kita menerapkan fungsi agregasi (seperti mean(), sum(), n()) pada setiap sub-grup secara terpisah. 3. Combine (summarise()): Hasil dari setiap sub-grup kemudian digabungkan menjadi sebuah data frame ringkasan yang baru dan rapi. Kombinasi ini sangat kuat karena memungkinkan kita untuk beralih dari melihat data individual menjadi melihat tren dan pola pada tingkat kelompok dengan sangat efisien. Contoh Skenario: Seorang peneliti medis ingin mengetahui efektivitas rata-rata dari tiga jenis obat (Obat A, B, C) dalam menurunkan tekanan darah. Data berisi ID pasien, jenis obat yang diterima, dan penurunan tekanan darah. Peneliti akan menggunakan data %>% group_by(jenis_obat) %>% summarise(penurunan_rata2 = mean(penurunan_tekanan_darah)) untuk mendapatkan satu tabel ringkas yang menunjukkan efektivitas rata-rata per obat, yang memudahkannya untuk membandingkan.

Soal #46

Seorang rekan kerja menjalankan kode `df %>% filter(kategori == 'X')` dan terkejut melihat variabel `df` yang asli tidak berubah. Jelaskan kepadanya mengapa ini terjadi (konsep immutability) dan apa yang harus dia lakukan jika ingin menyimpan hasilnya.

Penjelasan

Perilaku ini adalah salah satu konsep inti dan fitur keamanan di R dan dplyr, yang disebut immutability (kekekalan). Penjelasan: Fungsi-fungsi dplyr (dan sebagian besar fungsi di R) tidak pernah memodifikasi objek data asli. Sebaliknya, mereka bekerja pada salinan data. Saat Anda menjalankan df %>% filter(...), R akan: 1. Mengambil data frame df. 2. Membuat salinan sementara di memori. 3. Melakukan operasi filter pada salinan tersebut. 4. Mengembalikan salinan yang sudah dimodifikasi sebagai hasilnya. Hasil ini ditampilkan di console, tetapi karena tidak disimpan di mana pun, ia akan hilang. Data frame df yang asli tidak pernah tersentuh, sehingga mencegah perubahan yang tidak disengaja. Solusi: Jika rekan kerja Anda ingin menyimpan hasilnya, dia harus secara eksplisit menugaskannya (assign) ke sebuah variabel menggunakan operator $<-$. Dia bisa menyimpannya ke variabel baru atau menimpa variabel lama. Menyimpan ke variabel baru (disarankan): df_kategori_x % filter(kategori == 'X') Menimpa variabel lama: df % filter(kategori == 'X')

Soal #47

Anda diberi data frame `data_penjualan` dengan kolom: `nama_produk`, `kategori_produk` (misal: 'Elektronik', 'Pakaian'), `unit_terjual`, dan `tahun`. Tuliskan satu rangkaian kode `dplyr` lengkap untuk menemukan 3 produk teratas (berdasarkan total unit terjual) dalam kategori 'Elektronik' pada tahun 2023.

Kunci Jawaban: r # Pastikan dplyr sudah dimuat library(dplyr) # Asumsikan data_penjualan sudah ada hasil % # 1. Saring data hanya untuk kategori 'Elektronik' dan tahun 2023 filter(kategori_produk == 'Elektronik' & tahun == 2023) %>% # 2. Kelompokkan berdasarkan nama produk untuk menjumlahkan unit group_by(nama_produk) %>% # 3. Hitung total unit terjual untuk setiap produk summarise(total_unit = sum(unit_terjual)) %>% # 4. Urutkan dari total unit tertinggi ke terendah arrange(desc(total_unit)) %>% # 5. Ambil 3 baris teratas slice(1:3) # atau head(n=3) # Tampilkan hasilnya print(hasil)

Soal #48

Jelaskan konsep 'Tidy Data'. Mengapa format ini sangat penting untuk analisis dan visualisasi data di ekosistem `tidyverse` (misalnya dengan `dplyr` dan `ggplot2`)?

Penjelasan

Tidy Data adalah sebuah filosofi atau standar untuk menata data tabular agar konsisten dan mudah diproses oleh mesin. Aturannya sederhana:

Setiap variabel harus memiliki kolomnya sendiri.
Setiap observasi harus memiliki barisnya sendiri.
Setiap nilai harus memiliki selnya sendiri. Pentingnya untuk tidyverse: Format Tidy Data sangat krusial karena seluruh ekosistem tidyverse dirancang untuk bekerja dengan format ini. Untuk dplyr: Fungsi-fungsi seperti group_by(), summarise(), dan mutate() mengasumsikan bahwa Anda dapat merujuk pada variabel secara langsung sebagai nama kolom. Jika data tidak 'tidy' (misalnya, nama tahun menjadi header kolom, bukan nilai dalam satu kolom 'tahun'), operasi menjadi sangat rumit. Untuk ggplot2 (visualisasi): ggplot2 bergantung pada pemetaan (mapping) variabel (kolom) ke estetika visual (seperti sumbu x, y, warna, ukuran). Jika data Anda 'tidy', Anda bisa dengan mudah mengatakan aes(x = tahun, y = penjualan, color = negara). Jika data tidak 'tidy', pemetaan ini menjadi tidak mungkin dilakukan secara langsung, dan data harus dirapikan terlebih dahulu (misalnya menggunakan pivot_longer()). Singkatnya, Tidy Data membuat data menjadi 'gramatikal', memungkinkan fungsi tidyverse untuk bekerja secara efisien dan intuitif.