SMOTEMD: UN ALGORITMO DE BALANCEO DE DATOS MIXTOS PARA BIG DATA EN R.

Autores/as

  • Víctor Morales Oñate Banco Solidario, Riesgos, Analítica de Datos, Quito, Ecuador.
  • Luis Moreta Escuela Politécnica Nacional, Faculty of Sciences, Department of Quantitative Economicsa, Quito, Ecuador.
  • Bolívar Morales-Oñate Escuela Superior Politécnica de Chimborazo, Facultad de Ciencias, Ingeniería Química/Grupo de investigación Data Science Research Group, Riobamba, Ecuador.

DOI:

https://doi.org/10.47187/perf.v1i24.75

Palabras clave:

SMOTE, Clasificación, Muestras desbalanceadas

Resumen

Analizar muestras con datos desbalanceados es un desafío para quien debe utilizarlos en términos de modelización. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequeña en proporción respecto al total. Para la modelización de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos presentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusión de  donde se evalúa el poder predictivo del modelo. Una técnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numéricos exclusivamente. Este trabajo es una extensión de SMOTE tal que permite el uso de datos mixtos (numéricos y categóricos). Al usar datos mixtos, la presente propuesta también permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de datos categóricos. Mediante un estudio de simulación, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

W. Wei, J. Li, L. Cao, Y. Ou y J. Chen, Effective detection of sophisticated online banking fraud on extremely imbalanced data, World Wide Web. 2013: 449–475.

P. Van Deusen y L. Irwin, A robust weighted EM algorithm for use-availability. Environ Ecol Stat. 2012: 205–217.

G. King y L. Zeng, Logistic Regression in Rare Events Data. The Socieciety For Political Methodo- logy, 9 (2) 2001. 137-163.

B. Kitchenham, A procedure for analyzing unbalanced datasets. IEEE transactions on Software Engineering, 24 (4) 1998: 278-301.

B. Baesens, V. Van Vlasselaer y W. Verbeke, Fraud analytics using descriptive, predictive, and social network techniques: a guide to data science for fraud detection, Estados Unidos: John Wiley & Sons, 2015.

G. M. Weiss, Mining with rarity: a unifying framework. ACM SIGKDD Explorations Newsletter. 2004: 7-19.

A. P. Bradley, The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern recognition, 30 (7) 1997: 1145-1159.

H. He, Y. Bai, E. A. Garcia y S. Li, ADASYN: Adaptive Synthetic Sampling Approach for Imbalan- ced Learning. InternationalJoint Conference on Neural Networks. 2008: 1322-1328.

C. Drummond y R. C. Holte, C4.5, Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling, de Workshop on learning from imbalanced datasets II, Washington, DC: Citeseer., 2003.

N. V. Chawla, K. W. Bowyer, L. O. Hall y W. Philip Kegelmeye, SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research. 2002: 321–357.

C. Manski y S. Lerman, The Estimation of Choice Probabilities from Choice Based Samples. Eco- nometrica 45, 1977.

H. He y E. A. Garcia, Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, 21 (9) 2009: 1263-1284.

C. Lynch, How do your data grow? Nature; 2008: 1-2.

J. Hurtado, N. Taweewitchakreeya, X. Kong y X. Zhu, A Classifier Ensembling Approach For Imbalanced Social Link Prediction, de International Conference on Machine Learning and Applications, 2013.

H.-J. Yoon, Development of Contents on the Marine Meteorology Service by Meteorology and Climate Big Data. The Journal of the Korea institute of electronic communication sciences. 2016: 125-138.

A. S. Shirkhorshidi, S. Aghabozorgi, T. Y. Wah y T. Herawan, Big Data Clustering: A Review, de Murgante B. et al. (eds) Computational Science and Its Applications – ICCSA 2014. ICCSA 2014, Cham, 2014.

Y. Sahin y E. Duman, Detecting credit card fraud by ANN and logistic regression, de 2011 Interna- tional Symposium on Innovations in Intelligent Systems and Applications, Istanbul, IEEE, 201: 315-319.

B. Krawczyk, Learning from imbalanced data: open challenges and future directions. Prog Artif

Intell, 2016.

A. Fernández, V. López, M. Galar, M. J. del Jesus y F. Herrera, Analysing the classification of imba- lanced data-sets with multiple classes: Binarization techniques and ad-hoc approaches. Knowledge-Based Systems. 2013: 97-110.

B. W. Silverman y M. C. Jones, (1951): An important contribution to nonparametric discriminant analysis and density estimation: Commentary on Fix and Hodges (1951). International Statistical Review/ Revue Internationale de Statistique, 57 (3) 1989: 233-238.

Descargas

Publicado

2020-08-17

Cómo citar

Morales Oñate, V., Moreta, L., & Morales-Oñate, B. . (2020). SMOTEMD: UN ALGORITMO DE BALANCEO DE DATOS MIXTOS PARA BIG DATA EN R. Perfiles, 1(24), 20-26. https://doi.org/10.47187/perf.v1i24.75