MerQur'da Sınıflandırma: ROC Eğrisinden Gradient Boosting'e Modern Sınıflandırıcılar

Ömer K. Örücü

doi:10.53463/merqur.20260449

Yazarlar

Ömer K. Örücü Süleyman Demirel Üniversitesi Mimarlık Fakültesi Peyzaj Mimarlığı Bölümü Yazar

DOI:

https://doi.org/10.53463/merqur.20260449

Anahtar Kelimeler:

sınıflandırma- ROC- AUC- TSS

Özet

Sınıflandırma, akademik araştırmanın ve uygulamalı veri biliminin en yaygın görevlerinden biridir: bir gözlemi önceden tanımlı kategorilerden birine atamak. Klasik istatistik (lojistik regresyon) ile modern makine öğrenmesi (random forest, gradient boosting, SVM) arasındaki köprünün üzerinde, sınıflandırma performansının doğru ölçülmesi ve raporlanması ayrı bir metodolojik özen gerektirir. Bu çalışmada MerQur masaüstü yazılımının Sınıflandırma kategorisinde sunulan 6 analiz ayrıntılı olarak tanıtılmıştır: ROC Eğrisi, TSS (True Skill Statistic), Karmaşıklık (Confusion) Matrisi Metrikleri, Random Forest Sınıflandırma, Support Vector Machine (SVM) ve Gradient Boosting Sınıflandırma. Her analiz için (i) yöntemin temeli ve sınıflandırma görevinde nereye uyduğu, (ii) hiperparametreler ve seçim stratejileri, (iii) MerQur’daki form alanları ve seçenekler, (iv) raporlanan performans metrikleri (doğruluk, kesinlik, duyarlılık, F1, AUC, TSS, kappa, Matthews correlation), ve (v) tipik bir araştırma sorusu için yorumlama önerisi sunulmuştur. ROC ve AUC’nin eşik-bağımsız değerlendirmedeki rolü, dengesiz sınıflarda doğru metriğin seçimi (F1 / MCC / TSS), Random Forest’in değişken önemi yorumlanması, SVM’in çekirdek seçimi ve Gradient Boosting’in ardışık ağaçlarla aşırı uydurma kontrolü tartışılmıştır. MerQur’un Sınıflandırma kategorisi, klasik tanılayıcı eşik analizinden modern ensemble yöntemlerine uzanan kapsamı tek bir grafik arayüzde sunmakta ve k-katlı çapraz doğrulamayı standart olarak içermektedir.

Referanslar

Allouche, O., Tsoar, A., & Kadmon, R. (2006). Assessing the accuracy of species distribution models: Prevalence, kappa and the true skill statistic (TSS). Journal of Applied Ecology, 43(6), 1223–1232. https://doi.org/10.1111/j.1365-2664.2006.01214.x

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324

Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). ACM. https://doi.org/10.1145/2939672.2939785

Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics, 21, 6. https://doi.org/10.1186/s12864-019-6413-7

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297. https://doi.org/10.1007/BF00994018

DeLong, E. R., DeLong, D. M., & Clarke-Pearson, D. L. (1988). Comparing the areas under two or more correlated receiver operating characteristic curves: A nonparametric approach. Biometrics, 44(3), 837–845. https://doi.org/10.2307/2531595

Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874. https://doi.org/10.1016/j.patrec.2005.10.010

Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232. https://doi.org/10.1214/aos/1013203451

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning (2nd ed.). Springer.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3rd ed.). Wiley.

Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T.-Y. (2017). LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30, 3146–3154.

Liaw, A., & Wiener, M. (2002). Classification and regression by randomForest. R News, 2(3), 18–22.

Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta, 405(2), 442–451.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825–2830.

Saito, T., & Rehmsmeier, M. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. https://doi.org/10.1371/journal.pone.0118432

Youden, W. J. (1950). Index for rating diagnostic tests. Cancer, 3(1), 32–35. https://doi.org/10.1002/1097-0142(1950)3:1<32::AID-CNCR2820030106>3.0.CO;2-3

MerQur'da Sınıflandırma: ROC Eğrisinden Gradient Boosting'e Modern Sınıflandırıcılar

Yazarlar

DOI:

Anahtar Kelimeler:

Özet

Referanslar

Yayınlandı

Sayı

Bölüm

Lisans

Bilgi

Dil