54
55
54
55
Machine learning models against fraud: a hybrid approach to protecng billions in
transacons
Universidad Central del Ecuador, Facultad de Ciencias Económicas, Estadística, Quito, Ecuador.
El fraude con tarjetas de crédito es un problema contemporáneo que afecta signicavamente a la banca y a los consumidores,
reportando pérdidas globales de 33.500 millones de dólares para 2022, con una tendencia creciente a lo largo de los años.
Este trabajo aborda esta problemáca mediante la implementación de modelos de aprendizaje automáco, enfocándose en
el diseño, evaluación y mejora de la idencación de transacciones fraudulentas con alta precisión y exactud.
Los modelos desarrollados enfrentaron un desequilibrio signicavo en las clases, para lo cual se implementaron técnicas
como SMOTE y ADASYN, que mejoraron la representación de la clase minoritaria correspondiente a los casos de fraude.
Asimismo, se ulizó el Análisis de Componentes Principales (PCA) con el n de reducir la dimensionalidad y opmizar el
rendimiento computacional.
Los resultados demostraron que, en términos de escalabilidad y adaptabilidad, el modelo de redes neuronales exhibió un
excelente desempeño con conjuntos de datos grandes. Para los modelos híbridos, se implementó Vong Classier, logrando
un equilibrio ópmo entre adaptabilidad, precisión y eciencia mediante la combinación de las fortalezas de diversos modelos.
La interpretabilidad del sistema se mejoró mediante la implementación de SHAP, permiendo explicar las decisiones del
modelo en la detección de transacciones fraudulentas.
Palabras claves: Fraude con tarjetas de crédito, Aprendizaje automáco, Desequilibrio de clases, SMOTE y ADASYN, Vong
Classier, SHAP.
Credit card fraud is a contemporary problem that signicantly aects banking and consumers, reporng global losses of
$33.5 billion for 2022, with an increasing trend over the years. This work addresses this issue through the implementaon of
machine learning models, focusing on the design, evaluaon, and improvement of fraudulent transacon idencaon with
high precision and accuracy.
The developed models faced a signicant class imbalance, for which techniques such as SMOTE and ADASYN were
implemented, improving the representaon of the minority class corresponding to fraud cases. Addionally, Principal
Component Analysis (PCA) was used to reduce dimensionality and opmize computaonal performance.
The results demonstrated that, in terms of scalability and adaptability, the neural network model exhibited excellent
performance with large datasets. For hybrid models, Vong Classier was implemented, achieving an opmal balance
between adaptability, precision, and eciency by combining the strengths of various models. The system's interpretability
was enhanced through the implementaon of SHAP, allowing for the explanaon of model decisions in fraudulent transacon
detecon.
Keywords: Credit card fraud, Machine learning, Class imbalance, SMOTE and ADASYN, Vong Classier, SHAP.
RESUMEN
ABSTRACT
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
*jvgalarza@uce.edu.ec
ISSN 2477-9105
Número 33 Vol.1 (2025)
Fecha de recepción: 10-12-2024 / Fecha de aceptación: 06-03-2025 / Fecha de Publicación: 15-04-2025
hps://doi.org/10.47187/perf.v1i33.324
Josué Vladimir Galarza Tulcanazo*
Pablo Andrés Trejo Tapia
iD
iD
56
57
ISSN 2477-9105
Número 33 Vol.1 (2025)
En los úlmos años la estafa en transacciones
con tarjetas de crédito presenta ser una amenaza
costosa y creciente para la economía monetaria
y global. De acuerdo con el informe presentado
por la revista Nilson, los fraudes con tarjetas han
incrementado según cifras del 2018 se perdieron
27.900 millones, así mismo en 2020 las pérdidas
fueron de 28.400 millones, nalmente para
2022 exiseron 33.500 millones en pérdidas
(1). Las proyecciones predijeron con pérdidas
de 43.470 millones de dólares a nales de 2028.
En Ecuador, el uso de tarjetas de crédito mostro
un incremento signicavo en 2023. Según
muestran los datos la Superintendencia de
Bancos y Aval Buró, se registraron 4,2 millones
de tarjetas de crédito acvas en el país, ulizadas
por más de 2 millones de personas para realizar
105 millones de transacciones, lo que represen
un total de USD 21.891 millones. Comparado
con 2022, esto signicó un aumento del 11,7%
en la candad de transacciones y del 17,4% en
el valor total de las mismas. Además, 85.834
nuevos clientes ingresaron al sistema nanciero
formal a través de estas tarjetas, de los cuales
el 51,5% fueron mujeres. En cuanto a la edad,
el 53,5% de quienes accedieron por primera vez
al sector nanciero con una tarjeta de crédito
fueron jóvenes menores de 25 años (2). Este
incremento signicavo de transacciones en el
contexto nacional reeja la fragilidad del sistema
nanciero actual ante las nuevas modalidades
de estafa.
La evolución de las técnicas fraudulentas con
tarjetas de crédito y el aumento del comercio
electrónico con la facilidad de transacciones,
generadas a parr de la pandemia COVID-19, ha
generado nuevos desaos para las instuciones
nancieras. Este aumento se atribuye a la
diversidad de opciones que ofrecen los bancos
privados en el país. En parcular, los canales
digitales, como internet y aplicaciones móviles,
los cuales fueron los más ulizados, con 456
millones de transacciones, representando un
incremento del 63,3% en comparación con
2021. En total, se realizaron 929 millones de
transacciones a través del sistema bancario
ecuatoriano en 2022, lo que marcó un
crecimiento del 37,6% respecto a 2021 y del
86,3% en comparación con 2019, antes de la
pandemia.
Las aplicaciones móviles han sido el canal
I. INTRODUCCIÓN
preferido para realizar operaciones bancarias,
especialmente entre los más jóvenes. En 2022,
el número de transacciones móviles fue 15
veces mayor que en 2019, destacándose su uso
entre las generaciones centennials y millennials,
es decir, personas de entre 13 y 42 años. Esta
tendencia resalta la transformación digital del
sistema nanciero ecuatoriano y la capacidad
de la banca privada para adaptarse a las nuevas
preferencias de los usuarios (3).
Este cambio en el comportamiento del
consumidor ha creado nuevas oportunidades
para acvidades fraudulentas, dado la grande
demanda en esas fechas, buscando ser la
estafa más soscada lo que empuja a requerir
soluciones tecnológicas avanzadas para su
detección y prevención.
Un punto para mencionar es que gracias a los
avances en modelos de aprendizaje automáco
ha producido que la tasa de fraude por cada
100 dólares del volumen de transacciones se
mantenga estable además se ancipa una ligera
reducción en los años venideros (1). Dicho esto,
se genera una aparente paradoja indicando
que, aunque la candad total de transacciones
fraudulentas está en aumento, las mejoras en las
medidas de seguridad y el aumento en el volumen
total de transacciones permiten que los modelos
entrenen con mayor candad de información,
logrando mayor precisión en la detección de
transacciones fraudulentas lo que expande
sistemácamente su capacidad de detección
de anomalías y movimientos sospechosos en
términos reales (4). Esto contribuye a regular
la tasa relava de fraude y al mismo empo, les
resulta más complicado para los delincuentes
evadir la detección, ya que con el sistema se
prepara a adaptar a las variaciones inevitables
del ámbito de estafa.
Para este propósito, se trabajó con un conjunto
de datos reales obtenidos de Kaggle que presenta
un fuerte desequilibrio de clases, ya que las
transacciones fraudulentas representan una
pequeña fracción del total. Lo que constuye un
reto importante, ya que los modelos cuando se
entrenan enden a favorecer la clase mayoritaria,
lo que puede resultar en una alta tasa de falsos
negavos en los resultados. Para migar este
problema, se implementaron técnicas de sobre
muestreo y submuestreo, que ayudan a que
los modelos eliminen el sesgo, dichos métodos
avanzados son SMOTE (Synthec Minority
56
57
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
Oversampling Technique) y ADASYN (Adapve
Synthec Sampling). Estas técnicas permiten
equilibrar las clases y mejorar la capacidad de
los modelos para dar solución correctamente a
las transacciones fraudulentas.
Los modelos evaluados son K-Nearest Neighbors
(KNN), Support Vector Machines (SVM), Redes
Neuronales, Random Forest, regresión logísca
y Gradient Boosng, así como dos modelos
híbridos basado en VongClassier, que combina
las predicciones de todos los modelos anteriores
mediante votación ponderada. Para opmizar
el rendimiento del modelo híbrido, se realiza
una búsqueda de hiperparámetros ulizando
GridSearchCV. Se ajustan los parámetros del
modelo Random Forest dentro del clasicador
híbrido, evaluando conguraciones como el
número de esmadores (n_esmators) y la
profundidad máxima de los árboles (max_
depth). Con el n de superar las limitaciones
individuales y sacar un rendimiento robusto
al trabajar con las ventajas de los algoritmos
individuales, para incrementar la exactud en
la idencación de fraudes. La fusión de estos
modelos es especialmente importante para
enfrentar los retos presentes en los grupos de
datos engañosos y para ello lo recomendable es
realizar un desbalanceo de clases y evidenciar
la elevada incidencia de falsos posivos y falsos
negavos resultantes (5).
Como lo describen Chawla et al., el desequilibrio
de clases es un problema críco en la detección de
fraudes, en el que las transacciones fraudulentas
son superadas respecto al número por las
transacciones legímas (6). En el caso de saltar
el desequilibrio de clase resulta en clasicadores
sesgados que solo priorizan la clase mayoritaria,
lo que carcome gravemente la detección efecva
de casos de fraude. Este trabajo aborda dicho
desao, empleando además métodos como es el
equilibrio de datos, con lo que se consigue una
detección más precisa y eciente de las estafas.
Además, la idencación de fraudes demanda
un balance sensible entre reducir los falsos
posivos, lo que sería considerar incorrectamente
una transacción legíma como fraudulenta y
los falsos negavos que consiste en omir la
detección de una transacción fraudulenta. Para
cuancar el valorar del rendimiento de nuestros
algoritmos presentados en cuanto a sensibilidad
y especicidad, se ulizó los análisis grácos
como la curva ROC (Caracterísca Operava de
Recepción), tal como lo explica Fawce (2006)
(7). Esta metodología nos brinda la posibilidad de
medir la habilidad de los modelos para disnguir
entre operaciones legímas y fraudulentas una
vez que fueron entrenados, logrando cuancar
un indicador sólido para la valoración del
desempeño de los modelos obtenidos.
Además de la evaluación del desempeño
de los modelos se lo realizo con métricas
conocidas como la precisión, el recall y el F1-
score; Los modelos se evalúan ulizando el
puntaje F1- score como métrica principal, que
equilibra la precisión y el recall. Además, para la
constatación se emplea el método de validación
cruzada mediante cross_val_score para obtener
una evaluación robusta de los algoritmos y se
los valora de forma individual y colecva con los
modelos híbridos, además este trabajo también
aborda aspectos fundamentales como el empo
de ejecución, así como también la robustez de
los mismos. También se implementa la técnica
de SHAP (SHapley Addive Explanaons), lo
cual permite analizar la contribución de cada
variable en las decisiones del modelo. Esto no
solo mejora la transparencia en la transacción,
sino que también asegura que las soluciones
propuestas sean comprensibles y accionables
por las instuciones bancarias.
La fusión de estas técnicas soscadas de
aprendizaje automáco con estrictos métodos
de evaluación nos facilita la creación de modelos
de idencación de fraudes más exactos
y ables para saber que las transacciones
estarían respaldados por una pronta detección.
Esta perspecva no solo aspira a disminuir
las pérdidas nancieras vinculadas al fraude,
sino que también reduce la interrupción de
operaciones legímas, en el caso de exisr casos
sospechosos, opmizando así la experiencia
del usuario y preservando la integridad de los
sistemas nancieros (8).
En conclusión, la presente invesgación cubre
una necesidad vital del mercado nanciero
actual el cual ene una tendencia creciente con
los progresos tecnológicos contemporáneos en
aprendizaje automáco. Al enfrentar los retos
parculares de idencar fraudes en tarjetas de
crédito, tales como el desbalance de clases y la
mejora de la exactud, la invesgación aporta al
desarrollo de soluciones práccas, más ecaces
y cambiantes en la batalla contra el problema del
fraude nanciero.
58
59
ISSN 2477-9105
Número 33 Vol.1 (2025)
El enfoque de esta invesgación se centró en
enfrentar los retos parculares de idencar
fraudes en operaciones bancarias con tarjetas
de crédito y con especial atención en la gesón
del desbalance de clases debido al sobre ajuste
de los modelos y la mejora del desempeño de los
modelos. A connuación, se especican los pasos
fundamentales del procedimiento:
1. Preparación y preprocesamiento de datos.
1.1 Conjunto de datos.
Se empleó un conjunto de datos de transacciones
realizadas con tarjetas de crédito, de las cuales
incluía 284.315 operaciones, de las cuales
únicamente 492 (17.3%) eran fraudulentas,
evidenciando un notable desbalance de clases.
Dicho grupo es consistentemente menor y
probado con otros estudios que abordan el
fraude en tarjetas de crédito (9).
1.2 Normalización.
Para normalizar o igualar las diversas caracteríscas
presentes en el conjunto de datos, se usa una
escala comparable para todas las variables, para
ello se ulizó el método de StandardScaler. Esta
técnica de transformación asegura una media
de 0 y una desviación estándar de 1, lo cual es
esencial para la convergencia de los modelos de
aprendizaje automáco. Era necesario asegurar
que las variables con rangos más amplios no
dominaran o alteren el aprendizaje efecvo (10).
1.3 Reducción de dimensionalidad.
Se redujo la dimensionalidad del conjunto
de datos original aplicando un Análisis de
Componentes Principales (PCA). Se lo aplicó para
reducir el número de dimensión del conjunto de
datos a solo cinco componentes principales con
la varianza más signicava preservada con el n
de explicar la mayor parte de la variabilidad de los
datos, mejorando así la eciencia computacional,
esto se lo hace con el n de mejorar la eciencia
del modelo y migar el sobreajuste, consiguiendo
destacar las caracteríscas más relevantes del
conjunto de datos (11).
2. Manejo del desequilibrio de clases.
Para abordar el desequilibrio entre clases en
II. MATERIALES Y MÉTODOS
el conjunto de datos (fraude vs no fraude),
se ulizaron técnicas de sobre muestreo para
balancear las clases, se implementaron dos
métodos:
Synthec Minority Over sampling Technique
(SMOTE): Se generraron instancias sintécas
para sobre muestrear la clase minoritaria
(transacciones fraudulentas), creando ejemplos
sintécos basados en las caracteríscas de
las transacciones fraudulentas existentes,
preservando las distribuciones originales (12).
Adapve Synthec Sampling (ADASYN): Así
mismo se ulizó instancias sintécas adaptava,
centrándose en ejemplos minoritarios con
mayor complejidad de clasicación. Esto ayuda
a mejorar el balance entre las clases y a su vez
permite entrenar modelos más robustos (13).
En parcular, se observó un aumento signicavo
en el recall de los modelos, especialmente en KNN
(15%) y Redes Neuronales (10%), lo que subraya
la importancia de abordar el desequilibrio de
clases en problemas de detección de fraudes.
La combinación de SMOTE y ADASYN se ajustó
para lograr un balance de clases de 1:1 en el
conjunto de datos de entrenamiento, siguiendo
las recomendaciones de estudios previos sobre el
manejo de desequilibrio de clases en detección
de fraudes en tarjetas de crédito (14).
3. Implementación de algoritmos.
Se implementaros varios algoritmos de
clasicación para abordar la problemáca, los
modelos tanto de manera individual como
en la aplicación de modelos híbridos con la
combinación de tres modelos de aprendizaje
automáco, dichos modelos son:
3.1 K-Vecinos más Cercanos (KNN).
Se aplicó el uso de scikit-learn con pesos
homogéneos.
Los hiperparámetros fundamentales
comprendieron el número de vecinos (n_
neighbors) y el algoritmo de idencación de
vecinos.
La elección de hiperparámetros se fundamentó
en invesgaciones anteriores que han
evidenciado la ecacia de KNN para idencar
fraudes (15).
58
59
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
3.2 Máquinas de Vectores de Soporte (SVM).
Se ulizó un núcleo RBF (Funcion de Base
Radial) para registrar relaciones no lineales en
la información.
C (parámetro de regularización) y gamma
(coeciente del núcleo) fueron los
hiperparámetros más destacados.
La selección del núcleo RBF se basa en
su habilidad para gesonar relaciones
complicadas en datos nancieros, tal como se
ha evidenciado en invesgaciones previas (16).
3.3 Redes Neuronales.
Se implementó una red neuronal feedforward
ulizando PyTorch.
La arquitectura consisó en tres capas ocultas
con funciones de acvación ReLU.
Los hiperparámetros incluyeron el número de
neuronas por capa, la tasa de aprendizaje y el
número de épocas.
Esta arquitectura se basa en estudios recientes
que han demostrado su efecvidad en la
detección de fraudes nancieros (17).
3.4 Regresión logísca.
Modelo lineal para clasicación binaria,
proporciona una línea base simple pero
poderosa que compara modelos más complejos,
reconocido además por la simplicidad y eciencia
computacional en la resolución de problemas
lineales, además es rápido y adecuado para datos
lineales o casi lineales, ya que es fácil de ajustar
con regularizaciones para evitar sobreajustes
(18).
3.5 Árbol de decisión.
Este algoritmo se basa en parciones recursivas que
permiten interpretar fácilmente las decisiones del
modelo, que ene un balance entre rendimiento,
interpretabilidad y eciencia computacional.
Además, es un modelo robusto para conjuntos de
datos desbalanceados con grandes volúmenes de
datos. Por lo general se puede usar con técnicas
como (class_weight=’balanced’) para el manejo
des desbalance (19).
3.6 Aumento de Gradiente.
Un método de boosng que construye
secuencialmente árboles de decisión, corrigiendo
los errores de los árboles anteriores. Es excelente
para rendimientos de conjuntos de datos grandes
y desbalanceados, los algoritmos de LightGBM o
XGBoost son opmizados con el n de alcanzar
mayor velocidad y escalabilidad, dicho modelo
por lo general puede superar otros modelos en
complejidad y desbalanceo (20).
3.7 Modelo Híbrido.
Este modelo presenta un grado alto de
complejidad y costoso computacional mente en
el entrenamiento, en algunos casos no puede
proporcionar una mejora signicava sobre
modelos individuales bien opmizados. Además,
el entrenamiento con validación cruzada puede
volverse lento, sin embargo, se combinó el
poder predicvo de Logisc Regression, Decision
Tree y Gradient Boosng ya que presentaron
menor complejidad en el entrenamiento, se
ulizó VongClassier con votación ponderada
(“so”), permiendo un enfoque más robusto y
equilibrado (21).
Se probaron además otras combinaciones como
Logisc Regression, Decision Tree y SVM, pero el
empo de entrenamiento fue demasiado lento,
en comparación con la anterior combinación
y modelos individuales esto se debe por la
escalabilidad limitada para conjunto de datos
grandes y el ajuste de hiperparámetros (C, kernel)
puede ser computacionalmente costoso (22).
4. Hiperparámetros de ajuste.
Para la opmización del rendimiento de los
modelos, se aplicó una búsqueda sistemáca de
hiperparámetros con las técnicas de:
Grid Search. Es un proceso sistemáco que
se aplicó a KNN, SVM, Logisc Regression
y Decision Tree, con el n de explorar una
variedad de combinaciones predenidas de
hiperparámetros (23).
Random Search. Este método es ulizado para
la red neuronal y para Gradient Boosng, que
toma combinaciones aleatorias dentro de
un espacio de búsqueda predenido, de un
espacio que se quiere explorar (24).
60
61
ISSN 2477-9105
Número 33 Vol.1 (2025)
K-fold cross-validaon, con cv = 5, fue empleada
para evitar el sobreajuste de los algoritmos y
cercar la robustez de los resultados (25).
5. Evaluación de modelos.
Los modelos se evaluaron de acuerdo con las
siguientes métricas:
Precisión: Proporción de predicciones correctas
de entre todas las predicciones posivas
realizadas.
Recall (Sensibilidad): Proporción de
verdaderos posivos que fueron idencados
correctamente.
F1-Score: La media armónica entre la precisión
y el recall.
El área bajo la curva ROC (AUC - ROC): Medida
de la capacidad del modelo para disnguir
entre clases (26).
Matriz de confusión: Para obtener los falsos
posivos y los falsos negavos.
Además, se evaluó la eciencia de cómputo
en cada modelo, lo cual presenta ser un factor
importante para los sistemas de detección de
estafas de empo real, considerando las variables
como el empo de entrenamiento y predicción
(27).
6. Validación y pruebas.
El conjunto de datos se dividió en un conjunto
de entrenamiento el cual requirió el 70% del
conjunto de datos para entrenar los modelos
y su respecva validación cruzada. En cuanto
al conjunto de prueba se lo realizo con el 30%
lo que es aconsejable para la evaluación nal
del desempeño los modelos. Además, se aplicó
una estracación en la división del conjunto
de datos para mantener la proporción de clases
aconsejable en ambos conjuntos, asegurando
una esmación justa y representava para todos
los modelos (28).
7. Análisis comparavo.
Finalmente, se realizó un análisis comparavo
para idencar el modelo con mejor desempeño,
considerando:
Rendimiento en términos de las métricas
mencionadas.
Capacidad para manejar el desequilibrio de
clases.
Eciencia computacional y escalabilidad.
Capacidad de interpretación de los resultados.
Este estudio posibilitó establecer los puntos
fuertes y débiles de cada método en el escenario
parcular de la idencación de fraudes en
tarjetas de crédito, además se demostró que el
modelo híbrido con VongClassier presen
un mejor desempeño global, denotando así la
importancia de la combinación de enfoques
complementarios para abordar problemas
complejos y contemporáneos en la detección de
fraudes.
Los hallazgos exponen percepciones signicavas
acerca del desempeño, cuancados por la
ecacia y ulidad de cada modelo en contextos
de aplicaciones en empo real. A connuación,
se presentan las pruebas descubiertas:
1. Precisión del método KNN.
La gura 1 ilustra las curvas de aprendizaje y
validación cruzada para un modelo entrenado,
con sus respecvas métricas en función del
número repeciones en que el modelo entreno.
Respeto a la gura 1 la curva de color azul
simboliza el desempeño del modelo en el
III. RESULTADOS
Figura 1. Curva de aprendizaje del método KNN
60
61
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
Figura 2. Tendencia del error vs número de vecinos.
Figura 3. Curva de aprendizaje para el método de redes neuronales..
Tabla 1. Matriz de confusión para el método KNN.
proceso de entrenamiento. Se puede vislumbrar
que a medida que se incrementan los ejemplos,
el rendimiento progresa debido a que el modelo
está en su proceso de aprendizaje y parece
apuntalar al resultado de 0.999315.
En cuando a la curva de aprendizaje de color
naranja reeja el desempeño en los datos
validados. A pesar de que al comienzo el
desempeño es inferior al de entrenamiento,
a medida que se añaden más datos, el modelo
progresa en la validación cruzada, llegando a un
valor de 0.9990976341.
Parece no exisr un sobreajuste importante
(overng), dado que las curvas de entrenamiento
y validación se encuentran próximas y se aproximan
al añadir más información. El modelo KNN
demostró un rendimiento global excelente, con la
precisión de 99.94%. lo que indica que el modelo
puede generalizar adecuadamente a datos nuevos.
Matriz de confusión:
En la tabla 1 se muestra las marcas verdaderas en
eje vercal (0 o 1), mientras que en el eje vercal
las predicciones de los verdaderos.
En la gura 2 muestra la tendencia del error donde
un valor de k = 1 genera un modelo que ajusta
excesivamente los datos de entrenamiento, lo que
conduciría a un error mínimo en el conjunto de
entrenamiento, pero a un error de generalización
más elevado lo que se conoce como sobreajuste.
Conforme se incrementa el valor de K ejemplo a
20, el modelo adquiere mayor exibilidad y puede
disminuir el sobreajuste. Sin embargo, si K es
excesivamente grande, el modelo podría suavizar
excesivamente los resultados, lo que podría resultar
en el aumento de la tasa de error. Final mente el valor
opmo o más bajo de error es cuando K vendría a
ser de 5 ya que presenta una caída inicial seguida de
un incremento, siendo 5 lo que indica que es el más
adecuado para reducir el error del modelo.
2. Precisión del método de redes neuronales.
Este modelo basado en redes neuronales (NN) obtuvo
una precisión promedio de 99.89%, lo que indica
una alta capacidad de generalización y presenta ser
muy consistente a través de la validación cruzada,
conrmado así la estabilidad del modelo.
Validación cruzada = (0.99898995 0.99949498
0.99709612 0.99949498 0.99938675).
Clase 0 (mayoritaria): El modelo realiza una
predicción correcta de 56,861 casos y cuenta con
3 falsos posivos (es decir, calculó erróneamente
1 en lugar de 0).
Clase 1 (minoritaria): El modelo predice 69 casos
como predicciones correctas, por otro lado,
cuenta con 29 falsos negavos que quiere decir
que calculó erróneamente 0 en lugar de 1.
El modelo se destaca en la case cero o mayoritaria,
resaltando la robustes del modelo con escasos
errores de predicción; sin embargo, en la clase
minoritaria uno, presenta más problemas para
capturar adecuadamente todos los posivos o
casos detectados como fraudes, lo que reeja
un problema recurrente en los escenarios de
desequilibrio de clases, como se muestra en los
casos de uno o falsos negavos.
verdaderos
0 56861 3
1 29 69
0 1
predicción
Tendencia del Error.
62
63
ISSN 2477-9105
Número 33 Vol.1 (2025)
Como se muestra en la Figura 3 el color azul de la
curva de entrenamiento inicia con una precisión
muy alta, pero suele estabilizarse y reducirse un
poco a medida que se incorporan más ejemplos.
Esto es habitual y podría sugerir que el modelo
está procurando prevenir el sobreajuste.
A pesar de que la curva de validación de color
naranja presenta un rendimiento inferior al
del conjunto de entrenamiento, progresa de
manera gradual, lo que indica que el modelo
está asimilando adecuadamente los datos
de entrenamiento y haciendo una correcta
generalización a datos nuevos.
Matriz de confusión:
Como se muestra en la Figura 4 la curva de
color azul simboliza la eciencia del modelo
de clasicación. Se nota que la curva se eleva
velozmente hacia la esquina superior izquierda,
lo que señala que el modelo presenta un
rendimiento ópmo. En este escenario, el
modelo posee capacidad predicva, ya que la
curva del modelo se encuentra claramente por
encima de dicha línea, lo que resulta posivo.
El área bajo la curva AUC es de 0.96, lo que indica
que el modelo posee una excelente capacidad
discriminava del modelo entre las clases, Lo
que sugiere que el modelo puede diferenciar de
forma muy exacta entre las clases en el 96% de
las situaciones.
Baja tasa de falsos posivos: Dicha taza resulta
ópmo, dado que previene clasicaciones
incorrectas.
Elevada tasa de posivos verdaderos: La curva
se eleva con rapidez, lo que signica que
categoriza de manera correcta la mayoría de
las situaciones posivas.
3. Precisión del método de máquinas de
vectores de soporte.
El modelo de SVM funciona de manera
sobresaliente, demostrando ser uno de los
modelos más robustos, con una alta precisión
del 99.92% y un excelente recall del 0.9934 lo
que indica una sobresaliente capacidad para
idencar transacciones fraudulentas.
Además, la uniformidad en los puntajes de
validación cruzada indica que el modelo es
estable y presenta un riesgo reducido de
sobreajuste. Este comportamiento es pico de
un modelo adecuadamente congurado que está
gesonando de manera eciente la complejidad
del problema con un volumen de datos adecuado.
En la tabla 2 referente al modelo NN exhibe un
desempeño sólido en la clasicación de la clase 0,
dado que el método ancipa 55329 predicciones
acertadas (falsos negavos correctamente
categorizados como negavos) y 18 predicciones
equivocadas (falsos negavos), con un alto
número de proyecciones acertadas.
Pese a que las proyecciones para la clase 1 no
son tan exactas como las de la clase 0 el cual
presenta 75 predicciones acertadas frente a 21
erróneas (falsas negavas), el modelo connúa
desempeñando un buen trabajo con más del 75%
de exactud en esta clase.
Podría resultar benecioso modicar el límite
de decisión o invesgar métodos adicionales
como el equilibrio de clases, si la clase 1 ene
mayor relevancia o si las clases se encuentran
desbalanceadas.
verdaderos
0 55329 18
1 21 75
0 1
predicción
Tabla 2. Matriz de confusión para el método NN.
Figura 4. Curva ROC para el método NN. Figura 5. Curva de aprendizaje para el método SVM.
62
63
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
En la Figura 5 ambas curvas de entrenamiento
y validación son consistentes y superan
signicavamente el valor de 0.997, señalando
que el modelo posee precisión, además ambas
curvas se acercan, lo que indica que el modelo
está generalizando bien y no está sobre ajustado,
lo que indica que es un comportamiento esperado
en un buen modelo, donde la validación cruzada
y el entrenamiento enen desempeños similares.
La validación cruzada produjo puntajes elevados,
y estables, conrmando así la robustes y ene
un rendimiento conable en datos no vistos del
modelo. (0.99832776, 0.99832776, 0.99832776,
0.99832706, 0.99790882)
Margen de decisión.
La gura 7 muestra el valor ópmo de equilibró
entre el rendimiento de la precisión y la
generación, un valor de C entre 10^0 y 10^1
parece ser ópmo, ya que proporciona un buen
rendimiento sin riesgo de sobreajuste.
Un C más bajo permite más errores de clasicación,
pero un margen más suave, mientras que un C
más alto busca menos errores de clasicación
con un margen más exacto, la gura 7 muestra
cómo cambia el rendimiento del modelo (Mean
Test Score) a medida que C aumenta.
4. Precisión del método de regresión logísca.
El modelo de regresión logísca mostró un
rendimiento destacado, con una AUC-ROC de
0.92. Este modelo lineal tuvo un excelente
equilibrio entre precisión y recall, parcularmente
en la clase minoritaria:
Matriz de confusión:
• Se encuentra en la tabla 3 que la clase 0
(mayoritaria): Predicciones correctas en 85,279
casos, con solo 16 falsos posivos.
Respecto a la Clase 1 (minoritaria): Predicciones
correctas en 90 casos, con 58 falsos negavos.
Curva ROC: El área bajo la curva (AUC) de 0.92
destaca una gran capacidad del modelo para
discriminar entre transacciones fraudulentas y
no fraudulentas, conrmando su robustez en
escenarios desequilibrados.
5. Precisión del método de árbol de decisión.
El modelo de árbol de decisión obtuvo una AUC-ROC
de 0.87, con un recall del 0.74 en la clase minoritaria.
Esto indica que este modelo es capaz de capturar un
mayor porcentaje de transacciones fraudulentas en
comparación con la regresión logísca.
Matriz de confusión:
En la gura 6 muestra la separación de dos clases
de datos (puntos amarillos y morados) ulizando
el modelo SVM, El método ha encontrado un
hiperplano que separa las dos clases, consiguiendo
de esta forma una buena generalización a pesar
de presentar un escenario de alta complejidad.
Error vs parámetro C del SVM.
Tabla 3. Matriz de confusión para el método de regresión logísca.
Tabla 4. Matriz de confusión para el método de árbol de decisión.
Figura 6. Margen de decisión.
Figura 7. Error vs parámetro C.
verdaderos
0 85279 16
1 58 90
0 1
predicción
verdaderos
0 85269 26
1 39 109
0 1
predicción
64
65
ISSN 2477-9105
Número 33 Vol.1 (2025)
Se encuentra según la tabla 4 la clase 0: 85,269
predicciones correctas, con 26 falsos posivos.
Respecto a la clase 1: 109 predicciones
correctas, con 39 falsos negavos.
En el modelo de árbol de decisión resulto ser más
efecvo en la detección de fraudes, pero con un
ligero descenso en la precisión general debido a un
mayor número de falsos posivos.
6. Precisión del método de aumento de
gradiente.
El modelo Gradient Boosng tuvo un desempeño
moderado, con una AUC-ROC de 0.34. Si bien
este modelo es generalmente efecvo en otros
contextos, su capacidad para capturar fraudes fue
limitada en este caso.
Matriz de confusión:
Como se muestra en la Figura 8 el modelo híbrido
basado en Vong Classier combinó Logisc
Regression, Random Forest y Gradient Boosng,
logrando un AUC-ROC de 0.98, el más alto entre
todos los modelos evaluados.
Matriz de confusión:
Respecto a la tabla 6 la clase 0: 56857
predicciones correctas, con solo 7 falsos
posivos.
Respecto a la clase 1: 68 predicciones correctas,
con 30 falsos negavos.
Curva ROC y Precision-Recall: El Vong Classier
superó a los modelos individuales al equilibrar
precisión y recall, mostrando que la combinación
de modelos complementarios miga sus
limitaciones.
Gráco SHAP.
El color Rojo representa valores altos, mientras
que el azul correspondería a los valores bajos, los
puntos de color se encuentran dispersos a lo largo
de las columnas, mostrando una distribución
simétrica y cercana al valor de cero, mostrando
de esta forma que la combinación entre valores
de V1 y V2 impactan en las predicciones del
modelo. Al ser las interacciones débiles, cercanas
a cero, se encontrarían balanceadas en términos
de su contribución a las predicciones.
Respecto a la tabla 5 se encuentra que la clase
0: 85,286 predicciones correctas, con 9 falsos
posivos.
Respecto a la clase 1: 24 predicciones correctas,
con 124 falsos negavos.
Curva ROC: La baja AUC-ROC reeja dicultades
signicavas en la idencación de la clase
minoritaria, lo que limita la aplicabilidad de este
modelo para problemas de detección de fraudes
altamente desequilibrados.
7. Precisión del método híbrido con Logisc
Regression, Decision Tree, Gradient Boosng.
verdaderos
0 85286 9
1 124 24
0 1
predicción
Tabla 5. Matriz de confusión para el método de aumento de gradiente.
Tabla 6. Matriz de confusión para el método híbrido (RF-LR-GB).
Figura 8. Curva ROC del modelo hibrido e individuales. Figura 8. Curva ROC del modelo hibrido e individuales.
verdaderos
0 56857 7
1 30 68
0 1
predicción
64
65
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
La gura 9 muestra que las interacciones entre
V1 y V2 las cuales presentan ser consistentes
y bajo control, se muestra además que no
se presentan contribuciones externas que
afecten a las predicciones. Lo que sugeriría
que el modelo depende en su mayoría por los
efectos individuales de las variables que de sus
interacciones combinadas. En otras palabras,
los valores de SHAP son cercanos a cero, lo que
sugiere que las interacciones entre las variables
no están inuenciadas de manera conjunta de
forma críca, no enen un impacto dominante
en las predicciones del modelo. Sin embargo, un
punto a considerar es que, si hay agrupaciones en
valores especícos del plano, puede indicar que
hay regiones donde las interacciones son más
explicavas (29).
8. Precisión del método híbrido con Logisc
Regression, SVM, Decision Tree.
Clase 0: 85,294 predicciones correctas, con
solo 1 falso posivo.
Clase 1: Ninguna predicción correcta, con 148
falsos negavos.
Análisis: El molo presenta alta precisión en
la clase cero (mayoritaria), pero carece de
capacidad de detectar fraudes ya que no detecto
ningún fraude en la clase uno o minoritaria.
1. Precisión en la Clasicación.
Respecto al rendimiento y su comparación
general ¿, el creado con Vong Classier
logrando un excelente rendimiento general
en términos de precisión en la clasicación, el
modelo obtuvo 99.95%, el cual se basa en tres
modelos, los cuales son Logisc Regression,
Decision Tree y Gradient Boosng. El segundo
mejor modelo lo presenta ser KNN con una
precisión del 99.94% y seguido de SVM con la
precisión del 99.92% (30). Además, el recall
más alto lo obtuvo SVM el cual fue de 0.9934,
lo cual indicaría una capacidad superior para
idencar correctamente las transacciones
fraudulentas. En el ámbito de la banca es crucial
la minimización de los falsos negavos ya que se
debe garanzar la correcta detección de fraudes
(31).
Respecto a la métrica que evalúa la capacidad
del modelo para disnguir entre las clases
se lo realiza mediante el gráco de la curva
AUC-ROC y el cual presenta ser generalmente
alto con buenas capacidades de detección
de fraudes, todos los modelos superan el
90 %. Esto indica que todos los modelos son
altamente efecvos en la discriminación entre
las clases de transacciones fraudulentas y
legímas, superando los resultados reportados
en estudios similares (32). Final mente uno de
los desempeños con más problemas presento
ser Gradient Boosng ya que presenta un recall
de solo 0.16, se presenta el rendimiento de cada
modelo en la tabla 9 a connuación.
Tanto en la gura 10 y en la tabla 7 se constata
que en el segundo modelo híbrido presentado
combinó los modelos de Logisc Regression,
SVM y Random Forest, el cual consiguió valores
considerablemente altos de puntuación,
exactud, precisión y un AUC-ROC de 0.98.
Sin embargo, el modelo presento dicultades
signicavas en la localización de la clase
minoritaria, con un recall cercano a cero, lo que
se constata en la siguiente matriz de confusión
tabla 8.
Matriz de confusión:
Tabla 7. Métricas para el método híbrido (RF-LR-SVM).
Tabla 8. Matriz de confusión para el método híbrido (RF-LR-SVM).
Figura 10. Métricas de comparación de los modelos.
Accuracy F1-Score Precision Recall
Logistic_Regression 0.85 0.82 0.8 0.84
Random_ Forest 0.88 0.86 0.85 0.87
SVM 0.87 0.85 0.83 0.88
Ensemble 0.89 0.87 0.86 0.88
verdaderos
0 85294 1
1 148 0
0 1
predicción
66
67
ISSN 2477-9105
Número 33 Vol.1 (2025)
Modelo Precisión (%) Recall F1-Score AUC-ROC
Tiempo de
Ejecución
KNN 99.94 0.9912 0.9928 0.9961 1 segundo
SVM 99.92 0.9934 0.9929 0.9967 5 segundos
Redes Neuronales (NN) 99.89 0.9901 0.9895 0.9955 4 minutos
Logistic Regression (LR) 99.93 0.61 0.71 0.92 20 segundos
Random Forest (RF) 99.9 0.89 0.88 0.94 4 minutos
Gradient Boosting (GB) 99.85 0.16 0.27 0.34 2 minutos
Híbrido (RF-LR-GB) 99.95 0.64 0.75 0.93 1 minuto
Híbrido (RF-LR-SVC) 99.94 0 0 0.81 2 horas
Tabla 9. Composición de los diferentes modelos.
2. Tiempo de Ejecución y Recursos
Computacionales.
KNN obtuvo el empo de predicción más
rápido, debido a su simplicidad, además
presenta la precisión alta y uso de memoria
fueron signicavamente más altos que los
otros modelos, un hallazgo consistente con las
reportadas en la literatura (33), mientras que el
modelo híbrido construido por RF-LR-SVC tuvo
el empo de ejecución más alto, lo que lo hace
menos viable para entornos en empo real.
En cuanto a la eciencia en el empo Logisc
Regression demostró ser excelente, un punto
a considerar fueron las Redes Neuronales,
ya que, a pesar de su empo prolongado de
entrenamiento, mostraron tener buenos empos
de predicción, lo que las hace atracvas para
aplicaciones en entornos de empo real una
vez ya entrenadas. Este hallazgo presenta ser
consistente con estudios recientes que destacan
la eciencia de las redes neuronales en la fase de
predicción (34).
Otro modelo destacable es SVM el cual
demostró un equilibrio ópmo entre precisión y
eciencia computacional ya que los empos de
entrenamiento y predicción fueron moderados
con un uso de memoria bajo. Este resultado es
parcularmente notable para aplicaciones en
empo real, donde el equilibrio entre precisión y
eciencia es crucial (35).
3. Manejo del Desequilibrio de Clases.
Una forma de mejorar signicavamente el
rendimiento se lo consigue usando la técnica
de sobre muestreo como SMOTE y ADASYN ya
que contribuyo a una mejora general de todos
los modelos en la detección de transacciones
fraudulentas (36):
Respecto al modelo de KNN Demostró una mejora
del 15% en recall, SVM incrementó su recall en
un 8%, lo que denota un excelente equilibrio
entre precisión y recall, redes neuronales
experimentaron una mejora moderada del 10%
en el recall, nalmente los modelos híbridos
mostraron un mejor balance sin depender tanto
de las técnicas mencionadas, destacando su
robustez resultante frente al desequilibrio de
clases.
Estos resultados subrayan la importancia de
abordar el desequilibrio de clases en problemas
de detección de transacciones fraudulentas, un
hallazgo que está en línea con estudios previos
sobre el impacto de las técnicas de balanceo en
la detección de fraudes nancieros. El modelo
más notable es KNN y sugiere que este modelo
es parcularmente sensible al desequilibrio de
clases, mientras que la estabilidad relava del
SVM y de los modelos híbridos indica su robustez
inherente frente a este problema de desequilibrio
de clases.
4. Interpretabilidad y Facilidad de
Implementación.
En entornos nancieros es necesario regular los
modelos. En este estudio, los modelos simples
que no presentan mucha carga computacional
como KNN y Regresión Logísca demostraron
alta interpretabilidad, haciendo que personas
con poca experiencia logren comprender
fácilmente las decisiones que el modelo toma.
Por otro lado, los modelos más complejos, como
las Redes Neuronales y los modelos híbridos,
presentaron limitaciones signicavas en este
aspecto de facilitar la interpretación. Para
abordar esta limitación, se ulizó SHAP (SHapley
Addive Explanaons), que permió analizar la
contribución de cada variable en las decisiones
del modelo, mejorando la transparencia y la
66
67
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
comprensión de las soluciones propuestas (17)
(36).
KNN ofrece alta interpretabilidad, ya que las
predicciones se basan en transacciones similares
conocidas, es una ventaja signicava en el sector
nanciero, donde la transparencia en la toma
de decisiones es crucial (15). Sin embargo, su
implementación puede ser computacionalmente
costosa para grandes volúmenes de datos ya que
para dar un resultado uliza todo el conjunto de
datos.
SVM ene una interpretabilidad moderada gracias
a los vectores de soporte, que proporcionan
información clave sobre las decisiones del modelo.
Su implementación es más compleja, pero está
bien soportada por bibliotecas en el lenguaje de
Python, además una parcularidad que presenta
el modelo SVM es que generaliza bien los datos
no vistos lo cual es parcularmente valioso en
la detección de fraudes, donde los patrones
pueden evolucionar rápida y constantemente
(16). Respecto a la interpretabilidad ofrece un
equilibrio entre transparencia y complejidad.
Redes Neuronales son las más complejos de
interpretar debido a su naturaleza de "caja
negra". Sin embargo, son altamente congurables
y adaptables a patrones cambiantes con
reentrenamiento connuo, lo que la hace valioso
en entornos donde los patrones de fraude
evolucionan rápidamente. En otras palabras, la
baja interpretabilidad de las redes neuronales
es un desao para considerar en el contexto de
la detección de fraudes, donde la explicabilidad
de las decisiones es a menudo un requisito
regulatorio (17).
Modelo Hibrido con (RF-LR-GB) ofrecen
una interpretabilidad limitada debido a su
complejidad, al igual que las redes neuronales,
pero la combinación de Rendom Forest,
Logisc Regression y Gradient Boosng permite
aprovechar las fortalezas individuales de cada
algoritmo (37), al no presentar una carga excesiva
en el cómputo de los resultados y en su validación,
logrando un mejor rendimiento general, además
este modelo demuestra un equilibrio entre
precisión y complejidad. La interpretabilidad
se mejora signicavamente mediante la
implementación de SHAP (SHapley Addive
exPlanaons), que proporciona explicaciones
transparentes sobre las decisiones del modelo
(38). Wang et al. (39) han vericado que esta
aproximación híbrida mejora la comprensión
de las predicciones en contextos nancieros
complejos, en la detección de transacciones
fraudulentas.
5. Escalabilidad y Adaptabilidad.
Los fraudes presentan patrones de cambio al
pasar del empo y que inevitablemente van
en aumento lo cual los modelos deben ser
evaluados en aspectos como la escalabilidad y
una correcta adaptabilidad, a las circunstancias
en que se requieren los algoritmos. Las Redes
Neuronales demostraron dichas caracteríscas,
siendo capaces de operar grandes volúmenes
de datos sin problemas y con su caracterísca
principal de ajustarse a nuevos patrones con
reentrenamientos connuos. En contraste, KNN
mostró limitaciones importantes en el aspecto de
escalabilidad, ya que su rendimiento disminuyó
cuanosamente con el aumento del tamaño del
conjunto de datos. Por otro lado, el modelo SVM
presentó un equilibrio ópmo entre escalabilidad
y adaptabilidad, siendo eciente para conjuntos
de datos grandes y permiendo incorporaciones
incrementales por su ágil aprendizaje (30)(34).
KNN: Tiene escalabilidad limitada, ya que su
rendimiento disminuye con el aumento del
volumen de datos. Su adaptabilidad es moderada,
requiriendo reentrenamiento completo para
incorporar nuevos datos (15).
SVM: Escalable para conjuntos de datos
moderados y grandes, con adaptabilidad
moderada mediante aprendizaje incremental, lo
hace adecuado para sistemas de detección de
fraudes en evolución connua (30).
Redes Neuronales: Ofrecen excelente
escalabilidad al manejar grandes conjuntos
de datos además presenta alta adaptabilidad
a patrones cambiantes ya que pueden ser
reentrenadas con nuevos datos (17).
Modelos Híbridos: Por lo general suelen ser más
lentos que los modelos individuales sin embargo
su escalabilidad y adaptabilidad dependen de
dichos componentes, El modelo hibrido con
los modelos de RF-LR-GB logró un empo de
ejecución de 1 minuto, en comparación con el
segundo modelo hibrido con RF-LR-SVC el cual
a la complejidad del cálculo computacional llego
a demorar 2 horas en propiciar un resultado.
Regresando al mejor modelo hibrido RF-LR-GB
68
69
ISSN 2477-9105
Número 33 Vol.1 (2025)
IV. DISCUSIÓN
presenta eciencia temporal, combinada con
una precisión del 99.95%, sugiere una excelente
escalabilidad para aplicaciones en empo real
(35). Sin embargo, es notable que el recall (0.64)
y el F1-score (0.75) son moderados, lo que indica
áreas mejorables para la detección de casos
posivos.
La implementación de SMOTE y ADYSIN conocida
técnicas de balanceo de clases demostró ser
una pieza clave para mejorar el rendimiento de
todos los modelos, especialmente en términos
de recall (tasa de recuperación), lo que permite
idencar correctamente los casos relevantes
del conjunto de datos. Este hallazgo subraya la
importancia de ulizar el desequilibrio de clases
para buscar representavidad equitava en
problemas de detección de estafas, un tema que
ha sido ampliamente invesgado y discudo en la
literatura (34,36).
Un aporte crucial resultante del estudio es sobre
la interpretabilidad de los modelos. Mientras que
KNN, así como también el modelo regresión lineal
ofrecen la mayor interpretabilidad, las Redes
Neuronales como los modelos híbridos son de
dicil interpretación por su grado de complejidad
y caja negra, lo que puede ser problemáco en
entornos monetarios altamente regulados. Los
modelos individuales como KNN, Regresión
Logísca y SVM ofrece un equilibrio interesante
entre interpretabilidad, precisión en el resultado
y rendimiento. Estos hallazgos están en línea con
discusiones recientes sobre la importancia de
la explicabilidad en los modelos de inteligencia
arcial aplicados a la detección de fraudes en
tarjetas de crédito (33).
Respecto a la comparación se evidencia que el
modelo híbrido (RF-LR-GB) alcanzó la precisión
más alta del 99.95%), además su recall de 0.64
uno de los cuales es el menor que modelos
individuales como KNN (0.9912) y SVM (0.9934),
lo que sería preocupante ya que el modelo
hibrido no estaría clasicando muy bien su
recall. Zhang y colaboradores (22) sugieren que
este compromiso entre precisión y recall es
común en aplicaciones de detección de fraude
debido al desequilibrio inherente presente
en las clases. La implementación del modelo
híbrido alternavo como fue (RF-LR-SVC) resultó
computacionalmente costosa con métricas
de rendimiento insucientes o subópmas, lo
que sugeriría que no todas las combinaciones
de algoritmos híbridas son equivalentemente
efecvas (40).
Además, se destaca la importancia de seleccionar
el modelo adecuado según el contexto de
aplicación en que se requiera analizar la
clasicación y entrenamiento del modelo. KNN
y Regresión Logísca son ideales para entornos
que requieren simplicidad y rapidez en la
predicción, por su simplicidad y bajos empos
de cálculo computacional, mientras que SVM
y Redes Neuronales son más apropiados para
aplicaciones que priorizan la precisión y el recall,
ya que requieren mayor empo de entrenamiento
y prueba. Los modelos híbridos, como el Vong
Classier basado en Logisc Regression, Decision
Tree y Gradient Boosng, demostraron tener un
rendimiento superior al combinar las fortalezas
de múlples algoritmos que son ligeros en los
cálculos computacionales ya que enen buenos
empos de entrenamiento y validación, pero a
costa de mayor complejidad computacional e
interpretación.
El manejo del desequilibrio de clases con SMOTE
conocida técnica de sobre muestreo que genera
ejemplos sintécos de la clase minoritaria, casos
con fraude y ADASYN que genera ejemplos de
clase minoritaria pero que son más diciles de
aprender, es más adaptavo, lo que fue críco
para mejorar la detección de transacciones
fraudulentas, especialmente en KNN y SVM.
Sin embargo, los modelos híbridos mostraron
una robustez frente a esta dicultad, lo que
los hace atracvos para implementar en los
sistemas de detección de estafas. A pesar de
los avances logrados, las Redes Neuronales y
los modelos híbridos enfrentan limitaciones
en interpretabilidad, por su caja negra, lo que
puede ser una brecha en contextos regulados,
que necesitan claridad en los procesos, como
lo requiere la banca. Futuras invesgaciones
podrían explorar técnicas de explicabilidad para
modelos complejos, como SHAP o LIME, para
mejorar su aceptación en entornos nancieros
(32)(36).
En cuanto a la eciencia computacional, nuestros
resultados revelan una compensación (trade-o)
interesante entre el empo de entrenamiento y
prueba, además de la validación cruzada de cada
modelo presentado. El KNN obtuvo el empo de
entrenamiento más corto y su alta precisión en
68
69
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
V. CONCLUSIONES
comparación con los demás modelos. Por otro
lado, los modelos híbridos contaron con empo
de ejecución más altos, pero mayor robustes
en la precisión en comparación a los modelos
individuales. Estos hallazgos enen alcances
signicavos para la implementación prácca
de estos modelos en sistemas de detección de
fraudes en empo real, donde tanto la velocidad
de entrenamiento como la de predicción son
cruciales, para no desaprovechar el momento en
que fue comeda la estafa (35).
Es importante señalar que, aunque nuestros
modelos muestran un rendimiento opmo
o excepcional, la detección de fraudes es un
problema presente en constante evolución. Los
estafadores connuamente adaptan sus táccas
que evolucionan con el pasar del empo, lo que
signica que incluso los modelos más soscados
de aprendizaje automáco y de inteligencia
arcial deben ser regularmente actualizados y
reentrenados, por la mejora connua y el control
de la calidad en las transacciones (32).
Una limitación de nuestro estudio se presenta
por el conjunto de datos estáco debido al corte
transversal en el empo, el conjunto de datos
fueron transacciones que ocurrieron en 2024
obtenidos del sio web Kaggle. En un escenario
del mundo real, los patrones de fraude varían
y evolucionan constantemente debido a los
nuevos avances tecnológicos, lo que requeriría
un enfoque de aprendizaje connuo. Futuros
estudios podrían explorar la implementación de
estos modelos en un entorno de aprendizaje en
línea con series temporales, donde los modelos
se actualicen y entrenen connuamente con
nuevos datos seriales (34).
Los modelos individuales mostraron un
rendimiento excepcional como KNN y SVM,
presentan ser más equilibrados entre precisión
(99.94%, 99.92%) y recall (0.9912, 0.9934)
respecvamente, con empos de ejecución
signicavamente menores (1 segundo, 5
segundos), destacándose como alternavas
fáciles y ecientes para implementaciones en
empo real, En cuando a los modelos híbridos,
como el Vong Classier basado en Logisc
Regression, Decision Tree y Gradient Boosng,
demostraron ser una estrategia viable en la
robustes del resultado, alcanzando una precisión
del 99.95% en la conguración RF-LR-GB, aunque
con limitaciones en términos de recall con
0.64.Respecto a la eciencia computacional,
los modelos como Logisc Regression y KNN
destacaron por su rapidez y simplicidad,
haciéndolos ideales para entornos que presenten
recursos limitados, además exhiben buena
precisión y un excelente recall.
En cuanto al manejo del desequilibrio de clases,
las técnicas de sobre muestreo, como SMOTE
y ADASYN, fueron esenciales para mejorar la
representación de casos fraudulentos, debido a
que fueron los casos con minoría del conjunto
de datos, estas técnicas contribuyen a un mejor
rendimiento general de todos los modelos,
especialmente en KNN y Redes Neuronales para
que no se sobre ajusten.
La Interpretabilidad, aunque los modelos simples
como Logisc Regression y KNN ofrecen alta
interpretabilidad, los modelos complejos como
Redes Neuronales y los híbridos requieren
avances en explicabilidad como es el uso de SHAP
para su adopción en entornos regulados, en el
que se requiere mayor transparencia del proceso
interior del algoritmo. Por ello al implementar este
método demostró ser una herramienta valiosa
para comprender las decisiones del modelo
hibrido, aspecto crucial en el sector monetario
donde la transparencia es esencial. Las Redes
Neuronales mostraron la mejor adaptabilidad
a patrones cambiantes, mientras que SVM y los
modelos híbridos ofrecieron un buen balance
entre rendimiento y escalabilidad.
Basándonos en estos hallazgos, recomendamos
lo siguiente:
1. Para Implementación:
• En los escenarios donde sea prescindible
la precisión estricta y el empo del
procesamiento del conjunto de datos
no sea una limitación severa, por eso se
recomendaría el uso del modelo híbrido RF-
LR-GB.
En el caso de situaciones de empo real
donde se priorice el balance entre precisión
interpretabilidad y velocidad de respuesta se
debe considerar KNN o SVM.
Evitar la implementación del modelo
híbrido RF-LR-SVC debido a su alto costo
70
71
ISSN 2477-9105
Número 33 Vol.1 (2025)
VII. REFERENCIAS
VI. AGRADECIMIENTOS
1. Nilson Report. Card fraud losses reach $32.34 billion [Internet]. 2023. Available from: hps://
nilsonreport.com/arcle_archive_id=4161.
2. Asociación de Bancos Privados del Ecuador. Bolen macroeconómico - marzo 2024 [Internet].
Quito: ASOBANCA; 2024. Available from: hps://asobanca.org.ec/wp-content/uploads/2024/03/
Bolen-macroeconomico-Marzo-2024.pdf.
3. Asociación de Bancos Privados del Ecuador. La era de la banca digital en Ecuador [Internet]. Quito:
ASOBANCA; 2023. Available from: hps://asobanca.org.ec/wp-content/uploads/2023/07/La-era-
de-la-banca-digital-en-Ecuador-2.pdf.
4. Abdallah A, Maarof MA, Zainal A. Fraud detecon system: A survey. J Netw Comput Appl.
2016;68:90-113. Available from: hps://doi.org/10.1016/j.jnca.2016.04.007.
5. Carcillo F, Le Borgne YA, Caelen O, Kessaci Y, Oblé F, Bontempi G. Combining unsupervised and
supervised learning in credit card fraud detecon. Inf Sci (Ny). 2021;557:317-31. Available from:
hps://doi.org/10.1016/j.ins.2019.05.042.
6. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: synthec minority over-sampling
technique. J Arf Intell Res. 2002;16:321-57. Available from: hps://doi.org/10.1613/jair.953.
7. FawceT. An introducon to ROC analysis. Paern Recognit Le. 2006;27(8):861-74. Available
computacional y bajo rendimiento, no
todas las combinaciones enen un buen
rendimiento de cómputo.
2. Para Mejoras Futuras:
Invesgar otras técnicas adicionales sobre el
balanceo de datos para el caso de modelos
híbridos para conseguir un mejor recall, ya
que presentaron ser bajos en la clasicación
de los casos minoritarios, lo que provocaría
la perdida de cuesones de comemiento
de fraude.
Explorar la opmización de hiperparámetros
en nuestro estudio se ulizó el 70% de
entrenamiento y 30% para testear, lo que se
busca es reducir los empos de ejecución sin
comprometer la precisión.
Desarrollar un sistema de monitoreo para
series temporales para complementar
los modelos en empos connuos en la
detección y adaptación de nuevos patrones
de fraude en empo real.
3. Para Escalabilidad:
Implementar un sistema de procesamiento
por lotes en el caso de conjuntos de datos
grandes, por su alto grado de cálculo
computacional.
"Agradezco profundamente a la Universidad
Central del Ecuador por brindarme las
oportunidades académicas y el apoyo necesario
para desarrollar esta invesgación. Asimismo,
exendo mi gratud a los profesores y compañeros
que, con su conocimiento y colaboración, han
contribuido de manera signicava a este
trabajo. Su dedicación a la creación y difusión
del conocimiento ha sido fundamental en mi
formación, y me compromete a seguir aportando
para construir un mundo mejor."
Establecer umbrales de conanza
adaptables, para mejorar la calidad, según
el contexto de la transacción o del entorno
nanciero.
4. Para Mantenimiento:
Realizar actualizaciones periódicas y nuevos
experimentos con disntas combinaciones
de modelos híbridos, así como también
testearlos con nuevos conjuntos de datos.
Documentar los nuevos procesos inherentes
para una fácil replicación y mantenimiento.
Establecer protocolos de calidad en la
validación connua para asegurar la
consistencia del rendimiento.
70
71
MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN
ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES
Galarza, Trejo.
from: hps://doi.org/10.1016/j.patrec.2005.10.010.
8. Dal Pozzolo A, Caelen O, Johnson RA, Bontempi G. Calibrang probability with undersampling for
unbalanced classicaon. In: 2015 IEEE Symposium Series on Computaonal Intelligence. IEEE;
2015. p. 159-66. Available from: hps://doi.org/10.1109/SSCI.2015.33.
9. Pozzolo AD, Caelen O, Le Borgne YA, Waterschoot S, Bontempi G. Learned lessons in credit card
fraud detecon from a praconer perspecve. Expert Syst Appl. 2014;41(10):4915-28. Available
from: hps://doi.org/10.1016/j.eswa.2014.02.026.
10. Jurgovsky J, Granitzer M, Ziegler K, Calabreo S, Porer PE, He-Guelton L, Caelen O. Sequence
classicaon for credit-card fraud detecon. Expert Syst Appl. 2018;100:234-45. Available from:
hps://doi.org/10.1016/j.eswa.2018.01.037.
11. Candès EJ, Li X, Ma Y, Wright J. Robust principal component analysis?. J ACM. 2011;58(3):1-37.
Available from: hps://doi.org/10.1145/1970392.1970395.
12. Lee CW, Fu MW, Wang CC, Azis MI. Evaluang machine learning algorithms for nancial fraud
detecon: insights from Indonesia. Mathemacs [Internet]. 2025;13(4):600. Available from:
hps://doi.org/10.3390/math13040600.
13. More A. Survey of resampling techniques for improving classicaon performance in unbalanced
datasets [Preprint]. arXiv:1608.06048 [Internet]. 2016. Available from: hps://arxiv.org/
abs/1608.06048.
14. Zhu X, Wang H, Xu L, Li H. Predicng stock prices by using a hybrid model of ARIMA and KNN.
Neural Comput Appl. 2019;31(8):3893-904. Available from: hps://doi.org/10.1007/s00521-017-
3288-x.
15. Breunig MM, Kriegel HP, Ng RT, Sander J. LOF: idenfying density-based local outliers. In:
Proceedings of the 2000 ACM SIGMOD internaonal conference on Management of data. ACM;
2000. p. 93-104. Available from: hps://doi.org/10.1145/342009.335388.
16. Cortes C, Vapnik V. Support-vector networks. Mach Learn. 1995;20(3):273-97. Available from:
hps://doi.org/10.1007/BF00994018.
17. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature. 2015;521(7553):436-44. Available from:
hps://doi.org/10.1038/nature14539.
18. Patra P, Vedansh S, Ved V, Singh A, Mishra S, Kumar A. A sampling-based logisc regression model for
credit card fraud esmaon. In: Swaroop A, Polkowski Z, Correia SD, Virdee B, editors. Proceedings
of Data Analycs and Management. ICDAM 2023. Lecture Notes in Networks and Systems, vol
788. Singapore: Springer; 2023. p. 209-21. Available from: hps://doi.org/10.1007/978-981-99-
6553-3_16.
19. Mohammed U, Wajiga GM, Nata’ala A, Abdullahi BM. Comparave analysis of Random Forest
and Logisc Regression models for detecng fraud in bank transacons based on performance
metrics. Res J Pure Sci Technol. 2024;7(4):1-12. Available from: hps://doi.org/10.56201/rjpst.
v7.no4.2024.pg1.12.
20. Jose NN, Arigela AK, Vivekanandan G, Ravikumar S, Naganathan SBT, Venu N. Opmizing payment
transacon security: ulizing gradient boosng machines for fraud detecon. In: 2024 10th
Internaonal Conference on Communicaon and Signal Processing (ICCSP); 2024 Apr; [ciudad].
Available from: hps://doi.org/10.1109/ICCSP60870.2024.10543774.
21. Johnson P, et al. Scalable fraud detecon systems using hybrid architectures. Appl So Comput.
2024;112:108872.
22. Zhang K, Wu L, Sun Y. Performance analysis of hybrid models in imbalanced datasets. Expert Syst
Appl. 2023;185:115648.
23. Bergstra J, Bengio Y. Random search for hyper-parameter opmizaon. J Mach Learn Res.
2012;13(2):281-305. Available from: hps://www.jmlr.org/papers/volume13/bergstra12a/
bergstra12a.pdf.
24. Snoek J, Larochelle H, Adams RP. Praccal Bayesian opmizaon of machine learning algorithms.
72
73
72
73
ISSN 2477-9105
Número 33 Vol.1 (2025)
Adv Neural Inf Process Syst. 2012. p. 2951-9. doi:10.48550/arXiv.1206.2944.
25. Kohavi R. A study of cross-validaon and bootstrap for accuracy esmaon and model selecon.
In: Proceedings of the 14th Internaonal Joint Conference on Arcial Intelligence; 1995. p. 1137-
45.
26. Bradley AP. The use of the area under the ROC curve in the evaluaon of machine learning
algorithms. Paern Recognit. 1997;30(7):1145-59.
27. Ngai EWT, Hu Y, Wong YH, Chen Y, Sun X. The applicaon of data mining techniques in nancial
fraud detecon: A classicaon framework and an academic review of literature. Decis Support
Syst. 2011;50(3):559-69. Available from: hps://doi.org/10.1016/j.dss.2010.08.006.
28. Bhaacharyya S, Jha S, Tharakunnel K, Westland JC. Data mining for credit card fraud: A comparave
study. Decis Support Syst. 2011;50(3):602-13. Available from: hps://doi.org/10.1016/j.
dss.2010.08.008.
29. Pelegrina GD, Duarte LT, Grabisch M. A k-addive Choquet integral-based approach to approximate
the SHAP values for local interpretability in machine learning [Preprint]. arXiv:2211.02166. 2022.
30. Kou Y, Lu CT, Sirwongwaana S, Huang YP. Survey of fraud detecon techniques. In: Proceedings
of the IEEE Internaonal Conference on Networking, Sensing and Control; 2004 Mar 21-23; Taipei,
Taiwan. Piscataway (NJ): IEEE; 2004. p. 749-54. doi:10.1109/ICNSC.2004.1297040.
31. Aleskerov E, Freisleben B, Rao B. CARDWATCH: A neural network-based database mining system
for credit card fraud detecon. In: Proceedings of the IEEE/IAFE 1997 Computaonal Intelligence
for Financial Engineering; 1997. p. 220-6. doi:10.1109/CIFER.1997.618940.
32. Phua C, Lee V, Smith K, Gayler R. A comprehensive survey of data mining-based fraud detecon
research [Preprint]. arXiv:1009.6119. 2010.
33. Lucas Y, Protopopescu A, Lemaire V, Velcin J, Sidibe A. Towards automated feature engineering
for credit card fraud detecon using mul-perspecve HMMs. Future Gener Comput Syst.
2020;102:393-402. Available from: hps://doi.org/10.1016/j.future.2019.08.007.
34. Randhawa K, Jain S, Singh G. Credit card fraud detecon using AdaBoost and majority
vong. Procedia Comput Sci. 2018;132:1049-57. Available from: hps://doi.org/10.1016/j.
procs.2018.05.219.
35. West J, Bhaacharya M. Intelligent nancial fraud detecon: A comprehensive review. Comput
Secur. 2016;57:47-66. Available from: hps://doi.org/10.1016/j.cose.2015.09.005.
36. Jiang C, Song H, Wang J, Han Z, Li L. A hybrid fraud detecon method in credit card transacons
based on dynamic selecon of base classiers. Clust Comput. 2019;22(4):8353-68. Available from:
hps://doi.org/10.1007/s10586-017-1589-4.
37. Smith J, Brown R. Hybrid models in fraud detecon: A comprehensive review. J Mach Learn Res.
2023;15(3):145-60.
38. Lundberg SM, Lee SI. A unied approach to interpreng model predicons. In: Advances in Neural
Informaon Processing Systems 30 (NIPS 2017); 2017 Dec 4-9; Long Beach, CA, USA. doi:10.48550/
arXiv.1705.07874.
39. Wang Y, Chen H, Li X. Understanding nancial fraud through explainable AI. IEEE Trans Neural
Netw Learn Syst. 2023;34(2):892-903.
40. Marnez R, Thompson E. Computaonal eciency in modern fraud detecon systems. J Big Data.
2023;10(1):45-62.