Apa itu Collaborative Filtering?

Collaborative Filtering adalah teknik rekomendasi yang memprediksi preferensi pengguna berdasarkan preferensi pengguna lain yang serupa. Implementasi umum: user-based dan item-based CF.

Kenapa menggabungkan SVM dan Decision Tree?

SVM kuat pada klasifikasi high-dimensional dan margin-based; Decision Tree memberikan interpretabilitas (aturan) yang mudah dibaca. Kombinasi keduanya memberi keseimbangan antara akurasi dan explainability.

Bagaimana cara menilai model rekomendasi?

Metode evaluasi meliputi RMSE/MAE untuk prediksi rating, Precision@K, Recall@K, dan AUC untuk task ranking. Untuk rule-based, gunakan Confusion Matrix dan support/coverage dari aturan.

Studi Jumat: Mendesain Sistem Rekomendasi Produk Menggunakan Collaborative Filtering, SVM, dan Decision Tree

Studi Jumat - Ilustrasi Mendesain Sistem Rekomendasi Produk

Studi Jumat: Mendesain Sistem Rekomendasi Produk Menggunakan Collaborative Filtering, SVM, dan Decision Tree

Penulis: Teknologi Nalar | Dipublikasikan: 5 Desember 2025 | Kategori: Analisa Sistem » Perancangan Sistem

Ringkasan Isi (TOC)

Pendahuluan & Tujuan
Arsitektur Sistem & Data Flow
Collaborative Filtering (Teori, Rumus, Implementasi)
Support Vector Machine (Formulasi, Kernel, Penerapan)
Decision Tree (Entropy, IG, Gini & Pohon Keputusan)
Integrasi Multi-algoritma & Strategi Ensemble
Evaluasi Model (Metrics & Studi Kasus)
Contoh Implementasi pada Toko Sembako (Walkthrough Numerik)
SVG: Pohon Keputusan & Arsitektur (Embed)
Kesimpulan & Rekomendasi
FAQ Teknis

I. Pendahuluan & Tujuan

Artikel ini ditulis dengan gaya teknis akademis. Pembaca diasumsikan memiliki pemahaman dasar statistik, aljabar linear, dan machine learning.

Rekomendasi produk adalah pusat pengalaman pengguna pada banyak sistem e-commerce dan sistem informasi ritel. Tujuan dari artikel ini adalah memaparkan prosedur perancangan sistem rekomendasi yang menggabungkan Collaborative Filtering (CF), Support Vector Machine (SVM) untuk segmentasi/pemfilteran, dan Decision Tree untuk menghasilkan aturan rekomendasi yang interpretable (rule-based tree). Artikel ini menyertakan rumus matematis, contoh perhitungan, serta representasi visual (SVG) pohon keputusan dan arsitektur sistem yang siap disematkan ke halaman blog Anda.

II. Arsitektur Sistem & Alur Data (System Design)

Arsitektur dirancang sebagai modular microservice yang memisahkan tanggung jawab: data ingestion, preprocessing, model training, inference, dan recommendation API. Berikut komponen utama:

Data Source Layer: Database transaksi (order history), log perilaku (view, click), metadata produk (kategori, harga), dan atribut pelanggan (demografi bila tersedia).
Preprocessing Layer: Pembersihan data, normalisasi fitur, imputasi missing values, encoding (one-hot / embedding) untuk atribut kategorikal.
ML Engines: CF Engine (user/item similarity), SVM Engine (klasifikasi/segmentasi), Decision Tree Engine (rule induction).
Recommendation API: Menyajikan rekomendasi terpersonalisasi melalui endpoint REST/GraphQL.

Alur data (ringkas): Transaksi → Preprocessing → Kandidat produk (CF) → Filter segmen (SVM) → Rule selection (DT) → Output API.

Diagram Arsitektur (Embed SVG)

III. Collaborative Filtering (CF)

CF mengasumsikan bahwa pengguna yang memiliki preferensi serupa di masa lalu akan memiliki preferensi serupa di masa mendatang. Implementasi umum: user-based CF dan item-based CF. Berikut definisi matematis, normalisasi, dan prediksi rating.

1. Representasi Matriks

Data transaksi diubah menjadi matriks R berukuran m × n (m = jumlah pengguna, n = jumlah item). Elemen r_{u,i} mewakili rating atau frekuensi/interaksi pengguna u pada item i. Untuk toko sembako, rating bisa berupa frekuensi pembelian atau implicit feedback (0/1 untuk non/purchase).

2. Cosine Similarity

sim(A,B) = (Σ_{i} A_i B_i) / ( \sqrt{Σ A_i^2} \cdot \sqrt{Σ B_i^2} )

Cosine similarity mengukur sudut antara dua vektor preferensi. Nilai berkisar [-1,1] (untuk TF-IDF atau vektor centered) atau [0,1] untuk vektor non-negatif.

3. Pearson Correlation

$$ sim(A,B) = (Σ (A_i - Ā)(B_i - B̄)) / (sqrt(Σ (A_i - Ā)^2) * sqrt(Σ (B_i - B̄)^2)) $$

Pearson mempertimbangkan deviasi dari rata-rata rating pengguna sehingga lebih robust terhadap pergeseran skala rating antar pengguna.

4. Prediksi Rating (User-Based)

\hat{r}_{u,i} = \bar{r}_u + (Σ_{v ∈ N(u)} sim(u,v) (r_{v,i} - \bar{r}_v)) / (Σ_{v ∈ N(u)} |sim(u,v)|)

Di sini N(u) adalah set tetangga paling mirip (k-nearest neighbors) terhadap pengguna u. Untuk dataset yang sparsity tinggi, gunakan shrinkage atau regularisasi.

5. Item-Based CF (Alternatif)

Item-based seringkali lebih stabil ketika jumlah pengguna sangat besar. Prediksi rating berdasarkan kesamaan item:

\hat{r}_{u,i} = (Σ_{j ∈ N(i)} sim(i,j) * r_{u,j}) / (Σ_{j ∈ N(i)} |sim(i,j)|)

6. Praktik Implementasi & Optimasi

Gunakan sparse matrix (CSR/COO) untuk efisiensi memori.
Approximate nearest neighbors (Annoy, Faiss) untuk skala besar.
Penanganan cold-start: gabungkan content-based features atau default popular items.

IV. Support Vector Machine (SVM)

SVM adalah algoritma margin-based untuk klasifikasi. Di sistem rekomendasi, SVM digunakan untuk memfilter atau mengklasifikasikan pengguna ke segmen perilaku tertentu (mis. frequent buyer, bargain seeker, seasonal buyer).

1. Formulasi Dasar

$$ Hyperplane: w \cdot x - b = 0 Optimization: minimize (1/2) ||w||^2 Subject to: y_i (w \cdot x_i - b) \geq 1 $$

Solusi optimal dicapai melalui Lagrange multipliers dan dual problem. Support vectors adalah contoh yang menentukan margin.

2. Kernel Trick

Untuk data yang tidak linear, gunakan kernel. Contoh RBF (Gaussian):

$$ K(x_i,x_j) = exp(-γ ||x_i - x_j||^2) $$

3. Fitur untuk SVM pada Ritel

Frekuensi belanja (per minggu/bulan)
Rata-rata nilai transaksi
Proporsi pembelian kategori (beras, minyak, gula)
Click-through rate (CTR) pada rekomendasi

4. Output SVM

Label segmen digunakan untuk memfilter kandidat CF. Contoh: jika SVM memprediksi pengguna sebagai Frequent Buyer, maka rekomendasi akan memprioritaskan paket hemat dan produk bulk.

V. Decision Tree: Rule Induction & Pohon Keputusan

Decision Tree (DT) memberikan interpretasi berbasis aturan yang mudah dipahami pengguna bisnis. DT berguna untuk membuat aturan final yang akan dieksekusi oleh sistem ketika memilih produk rekomendasi.

1. Entropy & Information Gain

$$ Entropy: H(S) = - Σ p_i log2 p_i Information Gain: IG(S,A)=H(S)-Σ (|S_v|/|S|) H(S_v) $$

2. Gini Index

$$ Gini(S) = 1 - Σ p_i^2 $$

Pemilihan atribut pohon bisa berdasarkan IG atau Gini. Pruning diperlukan untuk menghindari overfitting (pre-pruning: max_depth, min_samples_leaf; post-pruning: cost-complexity).

3. Contoh Rule-Based Tree (Ilustrasi)

Contoh aturan yang dihasilkan:


IF freq_belanja <= 1 AND prop_snack > 0.4 THEN rekomendasi = 'Snack Pack'
IF freq_belanja > 3 AND avg_order_value >= 150000 THEN rekomendasi = 'Paket Hemat Bulk'

4. Interpretability & Explainability

DT memudahkan tim bisnis untuk meninjau aturan, menambah kondisi bisnis, serta melakukan audit terhadap rekomendasi yang diberikan.

VI. Integrasi & Strategi Ensemble

Strategi integrasi yang kami sarankan adalah pipeline bertingkat:

Candidate Generation (CF): CF menghasilkan top-N kandidat berdasarkan skor prediksi atau similarity.
Filtering (SVM): SVM menyaring kandidat berdasarkan segmen pengguna (mis. keluarkan produk yang tidak relevan untuk segmen tertentu).
Reranking (Decision Tree): Decision Tree memilih/menaikkan prioritas kandidat yang sesuai aturan bisnis (mis. paket hemat untuk frequent buyer).

Selain pipeline di atas, Anda dapat menerapkan weighted hybrid atau stacking ensemble untuk menggabungkan skor dari berbagai model (mis. skor_CF * α + skor_SVM * β + skor_DT * γ).

Weighted Score (Contoh)

$$ score_final(item) = α * score_CF(item) + β * score_SVM(item) + γ * score_DT(item) where α+β+γ = 1 $$

VII. Evaluasi Model & Metrics

Evaluasi harus memerhatikan tujuan sistem: prediksi rating atau ranking. Berikut metric yang umum digunakan:

RMSE / MAE: Untuk prediksi rating (regression).
Precision@K / Recall@K: Untuk tugas top-K recommendation.
NDCG@K: Weighted ranking metric tahan terhadap posisi item.
AUC: Untuk menilai klasifikasi/pemeringkatan global.

Untuk rule-based tree, ukur juga support (berapa banyak kasus yang memenuhi suatu rule) dan coverage (proporsi rekomendasi yang dikontrol rule tersebut).

VIII. Studi Kasus Numerik: Toko Sembako (Walkthrough)

Untuk memberikan contoh konkret, kita gunakan dataset sederhana (hipotetik) dengan 8 pengguna dan 6 produk: Beras (P1), Minyak (P2), Gula (P3), Garam (P4), Snack (P5), Sabun (P6). Matriks interaksi (frekuensi pembelian per bulan):


    P1 P2 P3 P4 P5 P6
U1  4  3  0  1  2  0
U2  0  1  4  0  1  2
U3  3  2  1  1  0  0
U4  0  0  0  0  5  1
U5  5  4  2  0  0  0
U6  0  1  0  0  1  3
U7  2  2  1  0  3  0
U8  1  0  0  0  2  1

Langkah singkat (user-based CF):

Vektorkan setiap user sebagai u_i.
Hitung cosine similarity antar user.
Pilih k=2 tetangga terdekat untuk prediksi.

Contoh perhitungan (ringkas): similarity(U1,U3) dihitung via rumus cosine. Setelah perhitungan, kandidat produk untuk U6 yang belum dibeli (P1, P3, P4) diberikan skor prediksi dan disusun top-3.

Setelah kandidat dihasilkan, SVM memprediksi bahwa U6 termasuk segmen budget-conscious (berdasarkan fitur avg_order_value rendah dan proporsi snack tinggi), sehingga Decision Tree rules akan memilih produk berlabel 'promo' atau 'small-pack'.

IX. SVG: Pohon Keputusan (Embed)

X. Praktik Deploy & Skala

Beberapa catatan praktis untuk produksi:

Batch retraining untuk CF (daily/weekly) dan realtime incremental update untuk event-driven features.
Gunakan caching (Redis) untuk menyajikan rekomendasi top-N cepat.
Monitoring: drift detection pada distribusi fitur dan A/B testing pada rekomendasi.
Keamanan: anonimisasi PII dan kepatuhan privasi.

XI. Kesimpulan & Rekomendasi

Gabungan Collaborative Filtering, SVM, dan Decision Tree memberikan kombinasi yang kuat: CF menangkap preferensi kolektif, SVM memfilter sesuai segmen, dan Decision Tree memberikan aturan interpretatif. Untuk implementasi pada toko sembako/UMKM, rekomendasi praktis kami:

Mulai dengan item-based CF dan gunakan implicit feedback bila rating tidak tersedia.
Bangun fitur segmen sederhana dan latih SVM untuk memfilter kandidat.
Pelihara Decision Tree untuk aturan bisnis (promo, paket hemat) yang dapat di-review tim operasional.

XII. FAQ Teknis

Apa metrik terbaik untuk sistem rekomendasi top-K?: Precision@K, Recall@K, dan NDCG@K adalah metrik yang umum. Untuk fokus pada pengalaman pengguna, Precision@K dan NDCG seringkali lebih relevan.
Bagaimana menangani cold-start user?: Gunakan content-based features (profil produk) atau onboarding questionnaire. Alternatif lain: hybrid dengan popular items atau rule-based default untuk segmen baru.
Apakah Decision Tree cocok untuk data besar?: Decision Tree dasar rentan terhadap overfitting pada data besar dan noisy; gunakan ensemble seperti Random Forest atau XGBoost untuk performa lebih baik, dan gunakan DT tunggal untuk interpretasi aturan bisnis.

XIII. Referensi Singkat & Bacaan Lanjut

Ricci, F., Rokach, L., & Shapira, B. (2011). Recommender Systems Handbook.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning.
Provost, F., & Fawcett, T. (2013). Data Science for Business.