Machine learning models against fraud: a hybrid approach to protecng billions in

transacons

Universidad Central del Ecuador, Facultad de Ciencias Económicas, Estadística, Quito, Ecuador.

El fraude con tarjetas de crédito es un problema contemporáneo que afecta signicavamente a la banca y a los consumidores,

reportando pérdidas globales de 33.500 millones de dólares para 2022, con una tendencia creciente a lo largo de los años.

Este trabajo aborda esta problemáca mediante la implementación de modelos de aprendizaje automáco, enfocándose en

el diseño, evaluación y mejora de la idencación de transacciones fraudulentas con alta precisión y exactud.

Los modelos desarrollados enfrentaron un desequilibrio signicavo en las clases, para lo cual se implementaron técnicas

como SMOTE y ADASYN, que mejoraron la representación de la clase minoritaria correspondiente a los casos de fraude.

Asimismo, se ulizó el Análisis de Componentes Principales (PCA) con el n de reducir la dimensionalidad y opmizar el

rendimiento computacional.

Los resultados demostraron que, en términos de escalabilidad y adaptabilidad, el modelo de redes neuronales exhibió un

excelente desempeño con conjuntos de datos grandes. Para los modelos híbridos, se implementó Vong Classier, logrando

un equilibrio ópmo entre adaptabilidad, precisión y eciencia mediante la combinación de las fortalezas de diversos modelos.

La interpretabilidad del sistema se mejoró mediante la implementación de SHAP, permiendo explicar las decisiones del

modelo en la detección de transacciones fraudulentas.

Palabras claves: Fraude con tarjetas de crédito, Aprendizaje automáco, Desequilibrio de clases, SMOTE y ADASYN, Vong

Classier, SHAP.

Credit card fraud is a contemporary problem that signicantly aects banking and consumers, reporng global losses of

$33.5 billion for 2022, with an increasing trend over the years. This work addresses this issue through the implementaon of

machine learning models, focusing on the design, evaluaon, and improvement of fraudulent transacon idencaon with

high precision and accuracy.

The developed models faced a signicant class imbalance, for which techniques such as SMOTE and ADASYN were

implemented, improving the representaon of the minority class corresponding to fraud cases. Addionally, Principal

Component Analysis (PCA) was used to reduce dimensionality and opmize computaonal performance.

The results demonstrated that, in terms of scalability and adaptability, the neural network model exhibited excellent

performance with large datasets. For hybrid models, Vong Classier was implemented, achieving an opmal balance

between adaptability, precision, and eciency by combining the strengths of various models. The system's interpretability

was enhanced through the implementaon of SHAP, allowing for the explanaon of model decisions in fraudulent transacon

detecon.

Keywords: Credit card fraud, Machine learning, Class imbalance, SMOTE and ADASYN, Vong Classier, SHAP.

RESUMEN

ABSTRACT

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

*jvgalarza@uce.edu.ec

ISSN 2477-9105

Número 33 Vol.1 (2025)

Fecha de recepción: 10-12-2024 / Fecha de aceptación: 06-03-2025 / Fecha de Publicación: 15-04-2025

hps://doi.org/10.47187/perf.v1i33.324

Josué Vladimir Galarza Tulcanazo*

Pablo Andrés Trejo Tapia

ISSN 2477-9105

Número 33 Vol.1 (2025)

En los úlmos años la estafa en transacciones

con tarjetas de crédito presenta ser una amenaza

costosa y creciente para la economía monetaria

y global. De acuerdo con el informe presentado

por la revista Nilson, los fraudes con tarjetas han

incrementado según cifras del 2018 se perdieron

27.900 millones, así mismo en 2020 las pérdidas

fueron de 28.400 millones, nalmente para

2022 exiseron 33.500 millones en pérdidas

(1). Las proyecciones predijeron con pérdidas

de 43.470 millones de dólares a nales de 2028.

En Ecuador, el uso de tarjetas de crédito mostro

un incremento signicavo en 2023. Según

muestran los datos la Superintendencia de

Bancos y Aval Buró, se registraron 4,2 millones

de tarjetas de crédito acvas en el país, ulizadas

por más de 2 millones de personas para realizar

105 millones de transacciones, lo que representó

un total de USD 21.891 millones. Comparado

con 2022, esto signicó un aumento del 11,7%

en la candad de transacciones y del 17,4% en

el valor total de las mismas. Además, 85.834

nuevos clientes ingresaron al sistema nanciero

formal a través de estas tarjetas, de los cuales

el 51,5% fueron mujeres. En cuanto a la edad,

el 53,5% de quienes accedieron por primera vez

al sector nanciero con una tarjeta de crédito

fueron jóvenes menores de 25 años (2). Este

incremento signicavo de transacciones en el

contexto nacional reeja la fragilidad del sistema

nanciero actual ante las nuevas modalidades

de estafa.

La evolución de las técnicas fraudulentas con

tarjetas de crédito y el aumento del comercio

electrónico con la facilidad de transacciones,

generadas a parr de la pandemia COVID-19, ha

generado nuevos desaos para las instuciones

nancieras. Este aumento se atribuye a la

diversidad de opciones que ofrecen los bancos

privados en el país. En parcular, los canales

digitales, como internet y aplicaciones móviles,

los cuales fueron los más ulizados, con 456

millones de transacciones, representando un

incremento del 63,3% en comparación con

2021. En total, se realizaron 929 millones de

transacciones a través del sistema bancario

ecuatoriano en 2022, lo que marcó un

crecimiento del 37,6% respecto a 2021 y del

86,3% en comparación con 2019, antes de la

pandemia.

Las aplicaciones móviles han sido el canal

I. INTRODUCCIÓN

preferido para realizar operaciones bancarias,

especialmente entre los más jóvenes. En 2022,

el número de transacciones móviles fue 15

veces mayor que en 2019, destacándose su uso

entre las generaciones centennials y millennials,

es decir, personas de entre 13 y 42 años. Esta

tendencia resalta la transformación digital del

sistema nanciero ecuatoriano y la capacidad

de la banca privada para adaptarse a las nuevas

preferencias de los usuarios (3).

Este cambio en el comportamiento del

consumidor ha creado nuevas oportunidades

para acvidades fraudulentas, dado la grande

demanda en esas fechas, buscando ser la

estafa más soscada lo que empuja a requerir

soluciones tecnológicas avanzadas para su

detección y prevención.

Un punto para mencionar es que gracias a los

avances en modelos de aprendizaje automáco

ha producido que la tasa de fraude por cada

100 dólares del volumen de transacciones se

mantenga estable además se ancipa una ligera

reducción en los años venideros (1). Dicho esto,

se genera una aparente paradoja indicando

que, aunque la candad total de transacciones

fraudulentas está en aumento, las mejoras en las

medidas de seguridad y el aumento en el volumen

total de transacciones permiten que los modelos

entrenen con mayor candad de información,

logrando mayor precisión en la detección de

transacciones fraudulentas lo que expande

sistemácamente su capacidad de detección

de anomalías y movimientos sospechosos en

términos reales (4). Esto contribuye a regular

la tasa relava de fraude y al mismo empo, les

resulta más complicado para los delincuentes

evadir la detección, ya que con el sistema se

prepara a adaptar a las variaciones inevitables

del ámbito de estafa.

Para este propósito, se trabajó con un conjunto

de datos reales obtenidos de Kaggle que presenta

un fuerte desequilibrio de clases, ya que las

transacciones fraudulentas representan una

pequeña fracción del total. Lo que constuye un

reto importante, ya que los modelos cuando se

entrenan enden a favorecer la clase mayoritaria,

lo que puede resultar en una alta tasa de falsos

negavos en los resultados. Para migar este

problema, se implementaron técnicas de sobre

muestreo y submuestreo, que ayudan a que

los modelos eliminen el sesgo, dichos métodos

avanzados son SMOTE (Synthec Minority

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

Oversampling Technique) y ADASYN (Adapve

Synthec Sampling). Estas técnicas permiten

equilibrar las clases y mejorar la capacidad de

los modelos para dar solución correctamente a

las transacciones fraudulentas.

Los modelos evaluados son K-Nearest Neighbors

(KNN), Support Vector Machines (SVM), Redes

Neuronales, Random Forest, regresión logísca

y Gradient Boosng, así como dos modelos

híbridos basado en VongClassier, que combina

las predicciones de todos los modelos anteriores

mediante votación ponderada. Para opmizar

el rendimiento del modelo híbrido, se realiza

una búsqueda de hiperparámetros ulizando

GridSearchCV. Se ajustan los parámetros del

modelo Random Forest dentro del clasicador

híbrido, evaluando conguraciones como el

número de esmadores (n_esmators) y la

profundidad máxima de los árboles (max_

depth). Con el n de superar las limitaciones

individuales y sacar un rendimiento robusto

al trabajar con las ventajas de los algoritmos

individuales, para incrementar la exactud en

la idencación de fraudes. La fusión de estos

modelos es especialmente importante para

enfrentar los retos presentes en los grupos de

datos engañosos y para ello lo recomendable es

realizar un desbalanceo de clases y evidenciar

la elevada incidencia de falsos posivos y falsos

negavos resultantes (5).

Como lo describen Chawla et al., el desequilibrio

de clases es un problema críco en la detección de

fraudes, en el que las transacciones fraudulentas

son superadas respecto al número por las

transacciones legímas (6). En el caso de saltar

el desequilibrio de clase resulta en clasicadores

sesgados que solo priorizan la clase mayoritaria,

lo que carcome gravemente la detección efecva

de casos de fraude. Este trabajo aborda dicho

desao, empleando además métodos como es el

equilibrio de datos, con lo que se consigue una

detección más precisa y eciente de las estafas.

Además, la idencación de fraudes demanda

un balance sensible entre reducir los falsos

posivos, lo que sería considerar incorrectamente

una transacción legíma como fraudulenta y

los falsos negavos que consiste en omir la

detección de una transacción fraudulenta. Para

cuancar el valorar del rendimiento de nuestros

algoritmos presentados en cuanto a sensibilidad

y especicidad, se ulizó los análisis grácos

como la curva ROC (Caracterísca Operava de

Recepción), tal como lo explica Fawce (2006)

(7). Esta metodología nos brinda la posibilidad de

medir la habilidad de los modelos para disnguir

entre operaciones legímas y fraudulentas una

vez que fueron entrenados, logrando cuancar

un indicador sólido para la valoración del

desempeño de los modelos obtenidos.

Además de la evaluación del desempeño

de los modelos se lo realizo con métricas

conocidas como la precisión, el recall y el F1-

score; Los modelos se evalúan ulizando el

puntaje F1- score como métrica principal, que

equilibra la precisión y el recall. Además, para la

constatación se emplea el método de validación

cruzada mediante cross_val_score para obtener

una evaluación robusta de los algoritmos y se

los valora de forma individual y colecva con los

modelos híbridos, además este trabajo también

aborda aspectos fundamentales como el empo

de ejecución, así como también la robustez de

los mismos. También se implementa la técnica

de SHAP (SHapley Addive Explanaons), lo

cual permite analizar la contribución de cada

variable en las decisiones del modelo. Esto no

solo mejora la transparencia en la transacción,

sino que también asegura que las soluciones

propuestas sean comprensibles y accionables

por las instuciones bancarias.

La fusión de estas técnicas soscadas de

aprendizaje automáco con estrictos métodos

de evaluación nos facilita la creación de modelos

de idencación de fraudes más exactos

y ables para saber que las transacciones

estarían respaldados por una pronta detección.

Esta perspecva no solo aspira a disminuir

las pérdidas nancieras vinculadas al fraude,

sino que también reduce la interrupción de

operaciones legímas, en el caso de exisr casos

sospechosos, opmizando así la experiencia

del usuario y preservando la integridad de los

sistemas nancieros (8).

En conclusión, la presente invesgación cubre

una necesidad vital del mercado nanciero

actual el cual ene una tendencia creciente con

los progresos tecnológicos contemporáneos en

aprendizaje automáco. Al enfrentar los retos

parculares de idencar fraudes en tarjetas de

crédito, tales como el desbalance de clases y la

mejora de la exactud, la invesgación aporta al

desarrollo de soluciones práccas, más ecaces

y cambiantes en la batalla contra el problema del

fraude nanciero.

ISSN 2477-9105

Número 33 Vol.1 (2025)

El enfoque de esta invesgación se centró en

enfrentar los retos parculares de idencar

fraudes en operaciones bancarias con tarjetas

de crédito y con especial atención en la gesón

del desbalance de clases debido al sobre ajuste

de los modelos y la mejora del desempeño de los

modelos. A connuación, se especican los pasos

fundamentales del procedimiento:

1. Preparación y preprocesamiento de datos.

1.1 Conjunto de datos.

Se empleó un conjunto de datos de transacciones

realizadas con tarjetas de crédito, de las cuales

incluía 284.315 operaciones, de las cuales

únicamente 492 (17.3%) eran fraudulentas,

evidenciando un notable desbalance de clases.

Dicho grupo es consistentemente menor y

probado con otros estudios que abordan el

fraude en tarjetas de crédito (9).

1.2 Normalización.

Para normalizar o igualar las diversas caracteríscas

presentes en el conjunto de datos, se usa una

escala comparable para todas las variables, para

ello se ulizó el método de StandardScaler. Esta

técnica de transformación asegura una media

de 0 y una desviación estándar de 1, lo cual es

esencial para la convergencia de los modelos de

aprendizaje automáco. Era necesario asegurar

que las variables con rangos más amplios no

dominaran o alteren el aprendizaje efecvo (10).

1.3 Reducción de dimensionalidad.

Se redujo la dimensionalidad del conjunto

de datos original aplicando un Análisis de

Componentes Principales (PCA). Se lo aplicó para

reducir el número de dimensión del conjunto de

datos a solo cinco componentes principales con

la varianza más signicava preservada con el n

de explicar la mayor parte de la variabilidad de los

datos, mejorando así la eciencia computacional,

esto se lo hace con el n de mejorar la eciencia

del modelo y migar el sobreajuste, consiguiendo

destacar las caracteríscas más relevantes del

conjunto de datos (11).

2. Manejo del desequilibrio de clases.

Para abordar el desequilibrio entre clases en

II. MATERIALES Y MÉTODOS

el conjunto de datos (fraude vs no fraude),

se ulizaron técnicas de sobre muestreo para

balancear las clases, se implementaron dos

métodos:

• Synthec Minority Over sampling Technique

(SMOTE): Se generraron instancias sintécas

para sobre muestrear la clase minoritaria

(transacciones fraudulentas), creando ejemplos

sintécos basados en las caracteríscas de

las transacciones fraudulentas existentes,

preservando las distribuciones originales (12).

• Adapve Synthec Sampling (ADASYN): Así

mismo se ulizó instancias sintécas adaptava,

centrándose en ejemplos minoritarios con

mayor complejidad de clasicación. Esto ayuda

a mejorar el balance entre las clases y a su vez

permite entrenar modelos más robustos (13).

En parcular, se observó un aumento signicavo

en el recall de los modelos, especialmente en KNN

(15%) y Redes Neuronales (10%), lo que subraya

la importancia de abordar el desequilibrio de

clases en problemas de detección de fraudes.

La combinación de SMOTE y ADASYN se ajustó

para lograr un balance de clases de 1:1 en el

conjunto de datos de entrenamiento, siguiendo

las recomendaciones de estudios previos sobre el

manejo de desequilibrio de clases en detección

de fraudes en tarjetas de crédito (14).

3. Implementación de algoritmos.

Se implementaros varios algoritmos de

clasicación para abordar la problemáca, los

modelos tanto de manera individual como

en la aplicación de modelos híbridos con la

combinación de tres modelos de aprendizaje

automáco, dichos modelos son:

3.1 K-Vecinos más Cercanos (KNN).

• Se aplicó el uso de scikit-learn con pesos

homogéneos.

• Los hiperparámetros fundamentales

comprendieron el número de vecinos (n_

neighbors) y el algoritmo de idencación de

vecinos.

• La elección de hiperparámetros se fundamentó

en invesgaciones anteriores que han

evidenciado la ecacia de KNN para idencar

fraudes (15).

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

3.2 Máquinas de Vectores de Soporte (SVM).

• Se ulizó un núcleo RBF (Funcion de Base

Radial) para registrar relaciones no lineales en

la información.

• C (parámetro de regularización) y gamma

(coeciente del núcleo) fueron los

hiperparámetros más destacados.

• La selección del núcleo RBF se basa en

su habilidad para gesonar relaciones

complicadas en datos nancieros, tal como se

ha evidenciado en invesgaciones previas (16).

3.3 Redes Neuronales.

• Se implementó una red neuronal feedforward

ulizando PyTorch.

• La arquitectura consisó en tres capas ocultas

con funciones de acvación ReLU.

• Los hiperparámetros incluyeron el número de

neuronas por capa, la tasa de aprendizaje y el

número de épocas.

• Esta arquitectura se basa en estudios recientes

que han demostrado su efecvidad en la

detección de fraudes nancieros (17).

3.4 Regresión logísca.

Modelo lineal para clasicación binaria,

proporciona una línea base simple pero

poderosa que compara modelos más complejos,

reconocido además por la simplicidad y eciencia

computacional en la resolución de problemas

lineales, además es rápido y adecuado para datos

lineales o casi lineales, ya que es fácil de ajustar

con regularizaciones para evitar sobreajustes

(18).

3.5 Árbol de decisión.

Este algoritmo se basa en parciones recursivas que

permiten interpretar fácilmente las decisiones del

modelo, que ene un balance entre rendimiento,

interpretabilidad y eciencia computacional.

Además, es un modelo robusto para conjuntos de

datos desbalanceados con grandes volúmenes de

datos. Por lo general se puede usar con técnicas

como (class_weight=’balanced’) para el manejo

des desbalance (19).

3.6 Aumento de Gradiente.

Un método de boosng que construye

secuencialmente árboles de decisión, corrigiendo

los errores de los árboles anteriores. Es excelente

para rendimientos de conjuntos de datos grandes

y desbalanceados, los algoritmos de LightGBM o

XGBoost son opmizados con el n de alcanzar

mayor velocidad y escalabilidad, dicho modelo

por lo general puede superar otros modelos en

complejidad y desbalanceo (20).

3.7 Modelo Híbrido.

Este modelo presenta un grado alto de

complejidad y costoso computacional mente en

el entrenamiento, en algunos casos no puede

proporcionar una mejora signicava sobre

modelos individuales bien opmizados. Además,

el entrenamiento con validación cruzada puede

volverse lento, sin embargo, se combinó el

poder predicvo de Logisc Regression, Decision

Tree y Gradient Boosng ya que presentaron

menor complejidad en el entrenamiento, se

ulizó VongClassier con votación ponderada

(“so”), permiendo un enfoque más robusto y

equilibrado (21).

Se probaron además otras combinaciones como

Logisc Regression, Decision Tree y SVM, pero el

empo de entrenamiento fue demasiado lento,

en comparación con la anterior combinación

y modelos individuales esto se debe por la

escalabilidad limitada para conjunto de datos

grandes y el ajuste de hiperparámetros (C, kernel)

puede ser computacionalmente costoso (22).

4. Hiperparámetros de ajuste.

Para la opmización del rendimiento de los

modelos, se aplicó una búsqueda sistemáca de

hiperparámetros con las técnicas de:

• Grid Search. Es un proceso sistemáco que

se aplicó a KNN, SVM, Logisc Regression

y Decision Tree, con el n de explorar una

variedad de combinaciones predenidas de

hiperparámetros (23).

• Random Search. Este método es ulizado para

la red neuronal y para Gradient Boosng, que

toma combinaciones aleatorias dentro de

un espacio de búsqueda predenido, de un

espacio que se quiere explorar (24).

ISSN 2477-9105

Número 33 Vol.1 (2025)

• K-fold cross-validaon, con cv = 5, fue empleada

para evitar el sobreajuste de los algoritmos y

cercar la robustez de los resultados (25).

5. Evaluación de modelos.

Los modelos se evaluaron de acuerdo con las

siguientes métricas:

• Precisión: Proporción de predicciones correctas

de entre todas las predicciones posivas

realizadas.

• Recall (Sensibilidad): Proporción de

verdaderos posivos que fueron idencados

correctamente.

• F1-Score: La media armónica entre la precisión

y el recall.

• El área bajo la curva ROC (AUC - ROC): Medida

de la capacidad del modelo para disnguir

entre clases (26).

• Matriz de confusión: Para obtener los falsos

posivos y los falsos negavos.

Además, se evaluó la eciencia de cómputo

en cada modelo, lo cual presenta ser un factor

importante para los sistemas de detección de

estafas de empo real, considerando las variables

como el empo de entrenamiento y predicción

(27).

6. Validación y pruebas.

El conjunto de datos se dividió en un conjunto

de entrenamiento el cual requirió el 70% del

conjunto de datos para entrenar los modelos

y su respecva validación cruzada. En cuanto

al conjunto de prueba se lo realizo con el 30%

lo que es aconsejable para la evaluación nal

del desempeño los modelos. Además, se aplicó

una estracación en la división del conjunto

de datos para mantener la proporción de clases

aconsejable en ambos conjuntos, asegurando

una esmación justa y representava para todos

los modelos (28).

7. Análisis comparavo.

Finalmente, se realizó un análisis comparavo

para idencar el modelo con mejor desempeño,

considerando:

• Rendimiento en términos de las métricas

mencionadas.

• Capacidad para manejar el desequilibrio de

clases.

• Eciencia computacional y escalabilidad.

• Capacidad de interpretación de los resultados.

Este estudio posibilitó establecer los puntos

fuertes y débiles de cada método en el escenario

parcular de la idencación de fraudes en

tarjetas de crédito, además se demostró que el

modelo híbrido con VongClassier presentó

un mejor desempeño global, denotando así la

importancia de la combinación de enfoques

complementarios para abordar problemas

complejos y contemporáneos en la detección de

fraudes.

Los hallazgos exponen percepciones signicavas

acerca del desempeño, cuancados por la

ecacia y ulidad de cada modelo en contextos

de aplicaciones en empo real. A connuación,

se presentan las pruebas descubiertas:

1. Precisión del método KNN.

La gura 1 ilustra las curvas de aprendizaje y

validación cruzada para un modelo entrenado,

con sus respecvas métricas en función del

número repeciones en que el modelo entreno.

Respeto a la gura 1 la curva de color azul

simboliza el desempeño del modelo en el

III. RESULTADOS

Figura 1. Curva de aprendizaje del método KNN

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

Figura 2. Tendencia del error vs número de vecinos.

Figura 3. Curva de aprendizaje para el método de redes neuronales..

Tabla 1. Matriz de confusión para el método KNN.

proceso de entrenamiento. Se puede vislumbrar

que a medida que se incrementan los ejemplos,

el rendimiento progresa debido a que el modelo

está en su proceso de aprendizaje y parece

apuntalar al resultado de 0.999315.

En cuando a la curva de aprendizaje de color

naranja reeja el desempeño en los datos

validados. A pesar de que al comienzo el

desempeño es inferior al de entrenamiento,

a medida que se añaden más datos, el modelo

progresa en la validación cruzada, llegando a un

valor de 0.9990976341.

Parece no exisr un sobreajuste importante

(overng), dado que las curvas de entrenamiento

y validación se encuentran próximas y se aproximan

al añadir más información. El modelo KNN

demostró un rendimiento global excelente, con la

precisión de 99.94%. lo que indica que el modelo

puede generalizar adecuadamente a datos nuevos.

Matriz de confusión:

En la tabla 1 se muestra las marcas verdaderas en

eje vercal (0 o 1), mientras que en el eje vercal

las predicciones de los verdaderos.

En la gura 2 muestra la tendencia del error donde

un valor de k = 1 genera un modelo que ajusta

excesivamente los datos de entrenamiento, lo que

conduciría a un error mínimo en el conjunto de

entrenamiento, pero a un error de generalización

más elevado lo que se conoce como sobreajuste.

Conforme se incrementa el valor de K ejemplo a

20, el modelo adquiere mayor exibilidad y puede

disminuir el sobreajuste. Sin embargo, si K es

excesivamente grande, el modelo podría suavizar

excesivamente los resultados, lo que podría resultar

en el aumento de la tasa de error. Final mente el valor

opmo o más bajo de error es cuando K vendría a

ser de 5 ya que presenta una caída inicial seguida de

un incremento, siendo 5 lo que indica que es el más

adecuado para reducir el error del modelo.

2. Precisión del método de redes neuronales.

Este modelo basado en redes neuronales (NN) obtuvo

una precisión promedio de 99.89%, lo que indica

una alta capacidad de generalización y presenta ser

muy consistente a través de la validación cruzada,

conrmado así la estabilidad del modelo.

Validación cruzada = (0.99898995 0.99949498

0.99709612 0.99949498 0.99938675).

Clase 0 (mayoritaria): El modelo realiza una

predicción correcta de 56,861 casos y cuenta con

3 falsos posivos (es decir, calculó erróneamente

1 en lugar de 0).

Clase 1 (minoritaria): El modelo predice 69 casos

como predicciones correctas, por otro lado,

cuenta con 29 falsos negavos que quiere decir

que calculó erróneamente 0 en lugar de 1.

El modelo se destaca en la case cero o mayoritaria,

resaltando la robustes del modelo con escasos

errores de predicción; sin embargo, en la clase

minoritaria uno, presenta más problemas para

capturar adecuadamente todos los posivos o

casos detectados como fraudes, lo que reeja

un problema recurrente en los escenarios de

desequilibrio de clases, como se muestra en los

casos de uno o falsos negavos.

verdaderos

0 56861 3

1 29 69

0 1

predicción

Tendencia del Error.

ISSN 2477-9105

Número 33 Vol.1 (2025)

Como se muestra en la Figura 3 el color azul de la

curva de entrenamiento inicia con una precisión

muy alta, pero suele estabilizarse y reducirse un

poco a medida que se incorporan más ejemplos.

Esto es habitual y podría sugerir que el modelo

está procurando prevenir el sobreajuste.

A pesar de que la curva de validación de color

naranja presenta un rendimiento inferior al

del conjunto de entrenamiento, progresa de

manera gradual, lo que indica que el modelo

está asimilando adecuadamente los datos

de entrenamiento y haciendo una correcta

generalización a datos nuevos.

Matriz de confusión:

Como se muestra en la Figura 4 la curva de

color azul simboliza la eciencia del modelo

de clasicación. Se nota que la curva se eleva

velozmente hacia la esquina superior izquierda,

lo que señala que el modelo presenta un

rendimiento ópmo. En este escenario, el

modelo posee capacidad predicva, ya que la

curva del modelo se encuentra claramente por

encima de dicha línea, lo que resulta posivo.

El área bajo la curva AUC es de 0.96, lo que indica

que el modelo posee una excelente capacidad

discriminava del modelo entre las clases, Lo

que sugiere que el modelo puede diferenciar de

forma muy exacta entre las clases en el 96% de

las situaciones.

• Baja tasa de falsos posivos: Dicha taza resulta

ópmo, dado que previene clasicaciones

incorrectas.

• Elevada tasa de posivos verdaderos: La curva

se eleva con rapidez, lo que signica que

categoriza de manera correcta la mayoría de

las situaciones posivas.

3. Precisión del método de máquinas de

vectores de soporte.

El modelo de SVM funciona de manera

sobresaliente, demostrando ser uno de los

modelos más robustos, con una alta precisión

del 99.92% y un excelente recall del 0.9934 lo

que indica una sobresaliente capacidad para

idencar transacciones fraudulentas.

Además, la uniformidad en los puntajes de

validación cruzada indica que el modelo es

estable y presenta un riesgo reducido de

sobreajuste. Este comportamiento es pico de

un modelo adecuadamente congurado que está

gesonando de manera eciente la complejidad

del problema con un volumen de datos adecuado.

En la tabla 2 referente al modelo NN exhibe un

desempeño sólido en la clasicación de la clase 0,

dado que el método ancipa 55329 predicciones

acertadas (falsos negavos correctamente

categorizados como negavos) y 18 predicciones

equivocadas (falsos negavos), con un alto

número de proyecciones acertadas.

Pese a que las proyecciones para la clase 1 no

son tan exactas como las de la clase 0 el cual

presenta 75 predicciones acertadas frente a 21

erróneas (falsas negavas), el modelo connúa

desempeñando un buen trabajo con más del 75%

de exactud en esta clase.

Podría resultar benecioso modicar el límite

de decisión o invesgar métodos adicionales

como el equilibrio de clases, si la clase 1 ene

mayor relevancia o si las clases se encuentran

desbalanceadas.

verdaderos

0 55329 18

1 21 75

0 1

predicción

Tabla 2. Matriz de confusión para el método NN.

Figura 4. Curva ROC para el método NN. Figura 5. Curva de aprendizaje para el método SVM.

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

En la Figura 5 ambas curvas de entrenamiento

y validación son consistentes y superan

signicavamente el valor de 0.997, señalando

que el modelo posee precisión, además ambas

curvas se acercan, lo que indica que el modelo

está generalizando bien y no está sobre ajustado,

lo que indica que es un comportamiento esperado

en un buen modelo, donde la validación cruzada

y el entrenamiento enen desempeños similares.

La validación cruzada produjo puntajes elevados,

y estables, conrmando así la robustes y ene

un rendimiento conable en datos no vistos del

modelo. (0.99832776, 0.99832776, 0.99832776,

0.99832706, 0.99790882)

Margen de decisión.

La gura 7 muestra el valor ópmo de equilibró

entre el rendimiento de la precisión y la

generación, un valor de C entre 10^0 y 10^1

parece ser ópmo, ya que proporciona un buen

rendimiento sin riesgo de sobreajuste.

Un C más bajo permite más errores de clasicación,

pero un margen más suave, mientras que un C

más alto busca menos errores de clasicación

con un margen más exacto, la gura 7 muestra

cómo cambia el rendimiento del modelo (Mean

Test Score) a medida que C aumenta.

4. Precisión del método de regresión logísca.

El modelo de regresión logísca mostró un

rendimiento destacado, con una AUC-ROC de

0.92. Este modelo lineal tuvo un excelente

equilibrio entre precisión y recall, parcularmente

en la clase minoritaria:

Matriz de confusión:

• Se encuentra en la tabla 3 que la clase 0

(mayoritaria): Predicciones correctas en 85,279

casos, con solo 16 falsos posivos.

• Respecto a la Clase 1 (minoritaria): Predicciones

correctas en 90 casos, con 58 falsos negavos.

Curva ROC: El área bajo la curva (AUC) de 0.92

destaca una gran capacidad del modelo para

discriminar entre transacciones fraudulentas y

no fraudulentas, conrmando su robustez en

escenarios desequilibrados.

5. Precisión del método de árbol de decisión.

El modelo de árbol de decisión obtuvo una AUC-ROC

de 0.87, con un recall del 0.74 en la clase minoritaria.

Esto indica que este modelo es capaz de capturar un

mayor porcentaje de transacciones fraudulentas en

comparación con la regresión logísca.

Matriz de confusión:

En la gura 6 muestra la separación de dos clases

de datos (puntos amarillos y morados) ulizando

el modelo SVM, El método ha encontrado un

hiperplano que separa las dos clases, consiguiendo

de esta forma una buena generalización a pesar

de presentar un escenario de alta complejidad.

Error vs parámetro C del SVM.

Tabla 3. Matriz de confusión para el método de regresión logísca.

Tabla 4. Matriz de confusión para el método de árbol de decisión.

Figura 6. Margen de decisión.

Figura 7. Error vs parámetro C.

verdaderos

0 85279 16

1 58 90

0 1

predicción

verdaderos

0 85269 26

1 39 109

0 1

predicción

ISSN 2477-9105

Número 33 Vol.1 (2025)

• Se encuentra según la tabla 4 la clase 0: 85,269

predicciones correctas, con 26 falsos posivos.

• Respecto a la clase 1: 109 predicciones

correctas, con 39 falsos negavos.

En el modelo de árbol de decisión resulto ser más

efecvo en la detección de fraudes, pero con un

ligero descenso en la precisión general debido a un

mayor número de falsos posivos.

6. Precisión del método de aumento de

gradiente.

El modelo Gradient Boosng tuvo un desempeño

moderado, con una AUC-ROC de 0.34. Si bien

este modelo es generalmente efecvo en otros

contextos, su capacidad para capturar fraudes fue

limitada en este caso.

Matriz de confusión:

Como se muestra en la Figura 8 el modelo híbrido

basado en Vong Classier combinó Logisc

Regression, Random Forest y Gradient Boosng,

logrando un AUC-ROC de 0.98, el más alto entre

todos los modelos evaluados.

Matriz de confusión:

• Respecto a la tabla 6 la clase 0: 56857

predicciones correctas, con solo 7 falsos

posivos.

• Respecto a la clase 1: 68 predicciones correctas,

con 30 falsos negavos.

Curva ROC y Precision-Recall: El Vong Classier

superó a los modelos individuales al equilibrar

precisión y recall, mostrando que la combinación

de modelos complementarios miga sus

limitaciones.

Gráco SHAP.

El color Rojo representa valores altos, mientras

que el azul correspondería a los valores bajos, los

puntos de color se encuentran dispersos a lo largo

de las columnas, mostrando una distribución

simétrica y cercana al valor de cero, mostrando

de esta forma que la combinación entre valores

de V1 y V2 impactan en las predicciones del

modelo. Al ser las interacciones débiles, cercanas

a cero, se encontrarían balanceadas en términos

de su contribución a las predicciones.

• Respecto a la tabla 5 se encuentra que la clase

0: 85,286 predicciones correctas, con 9 falsos

posivos.

• Respecto a la clase 1: 24 predicciones correctas,

con 124 falsos negavos.

Curva ROC: La baja AUC-ROC reeja dicultades

signicavas en la idencación de la clase

minoritaria, lo que limita la aplicabilidad de este

modelo para problemas de detección de fraudes

altamente desequilibrados.

7. Precisión del método híbrido con Logisc

Regression, Decision Tree, Gradient Boosng.

verdaderos

0 85286 9

1 124 24

0 1

predicción

Tabla 5. Matriz de confusión para el método de aumento de gradiente.

Tabla 6. Matriz de confusión para el método híbrido (RF-LR-GB).

Figura 8. Curva ROC del modelo hibrido e individuales. Figura 8. Curva ROC del modelo hibrido e individuales.

verdaderos

0 56857 7

1 30 68

0 1

predicción

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

La gura 9 muestra que las interacciones entre

V1 y V2 las cuales presentan ser consistentes

y bajo control, se muestra además que no

se presentan contribuciones externas que

afecten a las predicciones. Lo que sugeriría

que el modelo depende en su mayoría por los

efectos individuales de las variables que de sus

interacciones combinadas. En otras palabras,

los valores de SHAP son cercanos a cero, lo que

sugiere que las interacciones entre las variables

no están inuenciadas de manera conjunta de

forma críca, no enen un impacto dominante

en las predicciones del modelo. Sin embargo, un

punto a considerar es que, si hay agrupaciones en

valores especícos del plano, puede indicar que

hay regiones donde las interacciones son más

explicavas (29).

8. Precisión del método híbrido con Logisc

Regression, SVM, Decision Tree.

• Clase 0: 85,294 predicciones correctas, con

solo 1 falso posivo.

• Clase 1: Ninguna predicción correcta, con 148

falsos negavos.

Análisis: El molo presenta alta precisión en

la clase cero (mayoritaria), pero carece de

capacidad de detectar fraudes ya que no detecto

ningún fraude en la clase uno o minoritaria.

1. Precisión en la Clasicación.

Respecto al rendimiento y su comparación

general ¿, el creado con Vong Classier

logrando un excelente rendimiento general

en términos de precisión en la clasicación, el

modelo obtuvo 99.95%, el cual se basa en tres

modelos, los cuales son Logisc Regression,

Decision Tree y Gradient Boosng. El segundo

mejor modelo lo presenta ser KNN con una

precisión del 99.94% y seguido de SVM con la

precisión del 99.92% (30). Además, el recall

más alto lo obtuvo SVM el cual fue de 0.9934,

lo cual indicaría una capacidad superior para

idencar correctamente las transacciones

fraudulentas. En el ámbito de la banca es crucial

la minimización de los falsos negavos ya que se

debe garanzar la correcta detección de fraudes

(31).

Respecto a la métrica que evalúa la capacidad

del modelo para disnguir entre las clases

se lo realiza mediante el gráco de la curva

AUC-ROC y el cual presenta ser generalmente

alto con buenas capacidades de detección

de fraudes, todos los modelos superan el

90 %. Esto indica que todos los modelos son

altamente efecvos en la discriminación entre

las clases de transacciones fraudulentas y

legímas, superando los resultados reportados

en estudios similares (32). Final mente uno de

los desempeños con más problemas presento

ser Gradient Boosng ya que presenta un recall

de solo 0.16, se presenta el rendimiento de cada

modelo en la tabla 9 a connuación.

Tanto en la gura 10 y en la tabla 7 se constata

que en el segundo modelo híbrido presentado

combinó los modelos de Logisc Regression,

SVM y Random Forest, el cual consiguió valores

considerablemente altos de puntuación,

exactud, precisión y un AUC-ROC de 0.98.

Sin embargo, el modelo presento dicultades

signicavas en la localización de la clase

minoritaria, con un recall cercano a cero, lo que

se constata en la siguiente matriz de confusión

tabla 8.

Matriz de confusión:

Tabla 7. Métricas para el método híbrido (RF-LR-SVM).

Tabla 8. Matriz de confusión para el método híbrido (RF-LR-SVM).

Figura 10. Métricas de comparación de los modelos.

Accuracy F1-Score Precision Recall

Logistic_Regression 0.85 0.82 0.8 0.84

Random_ Forest 0.88 0.86 0.85 0.87

SVM 0.87 0.85 0.83 0.88

Ensemble 0.89 0.87 0.86 0.88

verdaderos

0 85294 1

1 148 0

0 1

predicción

ISSN 2477-9105

Número 33 Vol.1 (2025)

Modelo Precisión (%) Recall F1-Score AUC-ROC

Tiempo de

Ejecución

KNN 99.94 0.9912 0.9928 0.9961 1 segundo

SVM 99.92 0.9934 0.9929 0.9967 5 segundos

Redes Neuronales (NN) 99.89 0.9901 0.9895 0.9955 4 minutos

Logistic Regression (LR) 99.93 0.61 0.71 0.92 20 segundos

Random Forest (RF) 99.9 0.89 0.88 0.94 4 minutos

Gradient Boosting (GB) 99.85 0.16 0.27 0.34 2 minutos

Híbrido (RF-LR-GB) 99.95 0.64 0.75 0.93 1 minuto

Híbrido (RF-LR-SVC) 99.94 0 0 0.81 2 horas

Tabla 9. Composición de los diferentes modelos.

2. Tiempo de Ejecución y Recursos

Computacionales.

KNN obtuvo el empo de predicción más

rápido, debido a su simplicidad, además

presenta la precisión alta y uso de memoria

fueron signicavamente más altos que los

otros modelos, un hallazgo consistente con las

reportadas en la literatura (33), mientras que el

modelo híbrido construido por RF-LR-SVC tuvo

el empo de ejecución más alto, lo que lo hace

menos viable para entornos en empo real.

En cuanto a la eciencia en el empo Logisc

Regression demostró ser excelente, un punto

a considerar fueron las Redes Neuronales,

ya que, a pesar de su empo prolongado de

entrenamiento, mostraron tener buenos empos

de predicción, lo que las hace atracvas para

aplicaciones en entornos de empo real una

vez ya entrenadas. Este hallazgo presenta ser

consistente con estudios recientes que destacan

la eciencia de las redes neuronales en la fase de

predicción (34).

Otro modelo destacable es SVM el cual

demostró un equilibrio ópmo entre precisión y

eciencia computacional ya que los empos de

entrenamiento y predicción fueron moderados

con un uso de memoria bajo. Este resultado es

parcularmente notable para aplicaciones en

empo real, donde el equilibrio entre precisión y

eciencia es crucial (35).

3. Manejo del Desequilibrio de Clases.

Una forma de mejorar signicavamente el

rendimiento se lo consigue usando la técnica

de sobre muestreo como SMOTE y ADASYN ya

que contribuyo a una mejora general de todos

los modelos en la detección de transacciones

fraudulentas (36):

Respecto al modelo de KNN Demostró una mejora

del 15% en recall, SVM incrementó su recall en

un 8%, lo que denota un excelente equilibrio

entre precisión y recall, redes neuronales

experimentaron una mejora moderada del 10%

en el recall, nalmente los modelos híbridos

mostraron un mejor balance sin depender tanto

de las técnicas mencionadas, destacando su

robustez resultante frente al desequilibrio de

clases.

Estos resultados subrayan la importancia de

abordar el desequilibrio de clases en problemas

de detección de transacciones fraudulentas, un

hallazgo que está en línea con estudios previos

sobre el impacto de las técnicas de balanceo en

la detección de fraudes nancieros. El modelo

más notable es KNN y sugiere que este modelo

es parcularmente sensible al desequilibrio de

clases, mientras que la estabilidad relava del

SVM y de los modelos híbridos indica su robustez

inherente frente a este problema de desequilibrio

de clases.

4. Interpretabilidad y Facilidad de

Implementación.

En entornos nancieros es necesario regular los

modelos. En este estudio, los modelos simples

que no presentan mucha carga computacional

como KNN y Regresión Logísca demostraron

alta interpretabilidad, haciendo que personas

con poca experiencia logren comprender

fácilmente las decisiones que el modelo toma.

Por otro lado, los modelos más complejos, como

las Redes Neuronales y los modelos híbridos,

presentaron limitaciones signicavas en este

aspecto de facilitar la interpretación. Para

abordar esta limitación, se ulizó SHAP (SHapley

Addive Explanaons), que permió analizar la

contribución de cada variable en las decisiones

del modelo, mejorando la transparencia y la

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

comprensión de las soluciones propuestas (17)

(36).

KNN ofrece alta interpretabilidad, ya que las

predicciones se basan en transacciones similares

conocidas, es una ventaja signicava en el sector

nanciero, donde la transparencia en la toma

de decisiones es crucial (15). Sin embargo, su

implementación puede ser computacionalmente

costosa para grandes volúmenes de datos ya que

para dar un resultado uliza todo el conjunto de

datos.

SVM ene una interpretabilidad moderada gracias

a los vectores de soporte, que proporcionan

información clave sobre las decisiones del modelo.

Su implementación es más compleja, pero está

bien soportada por bibliotecas en el lenguaje de

Python, además una parcularidad que presenta

el modelo SVM es que generaliza bien los datos

no vistos lo cual es parcularmente valioso en

la detección de fraudes, donde los patrones

pueden evolucionar rápida y constantemente

(16). Respecto a la interpretabilidad ofrece un

equilibrio entre transparencia y complejidad.

Redes Neuronales son las más complejos de

interpretar debido a su naturaleza de "caja

negra". Sin embargo, son altamente congurables

y adaptables a patrones cambiantes con

reentrenamiento connuo, lo que la hace valioso

en entornos donde los patrones de fraude

evolucionan rápidamente. En otras palabras, la

baja interpretabilidad de las redes neuronales

es un desao para considerar en el contexto de

la detección de fraudes, donde la explicabilidad

de las decisiones es a menudo un requisito

regulatorio (17).

Modelo Hibrido con (RF-LR-GB) ofrecen

una interpretabilidad limitada debido a su

complejidad, al igual que las redes neuronales,

pero la combinación de Rendom Forest,

Logisc Regression y Gradient Boosng permite

aprovechar las fortalezas individuales de cada

algoritmo (37), al no presentar una carga excesiva

en el cómputo de los resultados y en su validación,

logrando un mejor rendimiento general, además

este modelo demuestra un equilibrio entre

precisión y complejidad. La interpretabilidad

se mejora signicavamente mediante la

implementación de SHAP (SHapley Addive

exPlanaons), que proporciona explicaciones

transparentes sobre las decisiones del modelo

(38). Wang et al. (39) han vericado que esta

aproximación híbrida mejora la comprensión

de las predicciones en contextos nancieros

complejos, en la detección de transacciones

fraudulentas.

5. Escalabilidad y Adaptabilidad.

Los fraudes presentan patrones de cambio al

pasar del empo y que inevitablemente van

en aumento lo cual los modelos deben ser

evaluados en aspectos como la escalabilidad y

una correcta adaptabilidad, a las circunstancias

en que se requieren los algoritmos. Las Redes

Neuronales demostraron dichas caracteríscas,

siendo capaces de operar grandes volúmenes

de datos sin problemas y con su caracterísca

principal de ajustarse a nuevos patrones con

reentrenamientos connuos. En contraste, KNN

mostró limitaciones importantes en el aspecto de

escalabilidad, ya que su rendimiento disminuyó

cuanosamente con el aumento del tamaño del

conjunto de datos. Por otro lado, el modelo SVM

presentó un equilibrio ópmo entre escalabilidad

y adaptabilidad, siendo eciente para conjuntos

de datos grandes y permiendo incorporaciones

incrementales por su ágil aprendizaje (30)(34).

KNN: Tiene escalabilidad limitada, ya que su

rendimiento disminuye con el aumento del

volumen de datos. Su adaptabilidad es moderada,

requiriendo reentrenamiento completo para

incorporar nuevos datos (15).

SVM: Escalable para conjuntos de datos

moderados y grandes, con adaptabilidad

moderada mediante aprendizaje incremental, lo

hace adecuado para sistemas de detección de

fraudes en evolución connua (30).

Redes Neuronales: Ofrecen excelente

escalabilidad al manejar grandes conjuntos

de datos además presenta alta adaptabilidad

a patrones cambiantes ya que pueden ser

reentrenadas con nuevos datos (17).

Modelos Híbridos: Por lo general suelen ser más

lentos que los modelos individuales sin embargo

su escalabilidad y adaptabilidad dependen de

dichos componentes, El modelo hibrido con

los modelos de RF-LR-GB logró un empo de

ejecución de 1 minuto, en comparación con el

segundo modelo hibrido con RF-LR-SVC el cual

a la complejidad del cálculo computacional llego

a demorar 2 horas en propiciar un resultado.

Regresando al mejor modelo hibrido RF-LR-GB

ISSN 2477-9105

Número 33 Vol.1 (2025)

IV. DISCUSIÓN

presenta eciencia temporal, combinada con

una precisión del 99.95%, sugiere una excelente

escalabilidad para aplicaciones en empo real

(35). Sin embargo, es notable que el recall (0.64)

y el F1-score (0.75) son moderados, lo que indica

áreas mejorables para la detección de casos

posivos.

La implementación de SMOTE y ADYSIN conocida

técnicas de balanceo de clases demostró ser

una pieza clave para mejorar el rendimiento de

todos los modelos, especialmente en términos

de recall (tasa de recuperación), lo que permite

idencar correctamente los casos relevantes

del conjunto de datos. Este hallazgo subraya la

importancia de ulizar el desequilibrio de clases

para buscar representavidad equitava en

problemas de detección de estafas, un tema que

ha sido ampliamente invesgado y discudo en la

literatura (34,36).

Un aporte crucial resultante del estudio es sobre

la interpretabilidad de los modelos. Mientras que

KNN, así como también el modelo regresión lineal

ofrecen la mayor interpretabilidad, las Redes

Neuronales como los modelos híbridos son de

dicil interpretación por su grado de complejidad

y caja negra, lo que puede ser problemáco en

entornos monetarios altamente regulados. Los

modelos individuales como KNN, Regresión

Logísca y SVM ofrece un equilibrio interesante

entre interpretabilidad, precisión en el resultado

y rendimiento. Estos hallazgos están en línea con

discusiones recientes sobre la importancia de

la explicabilidad en los modelos de inteligencia

arcial aplicados a la detección de fraudes en

tarjetas de crédito (33).

Respecto a la comparación se evidencia que el

modelo híbrido (RF-LR-GB) alcanzó la precisión

más alta del 99.95%), además su recall de 0.64

uno de los cuales es el menor que modelos

individuales como KNN (0.9912) y SVM (0.9934),

lo que sería preocupante ya que el modelo

hibrido no estaría clasicando muy bien su

recall. Zhang y colaboradores (22) sugieren que

este compromiso entre precisión y recall es

común en aplicaciones de detección de fraude

debido al desequilibrio inherente presente

en las clases. La implementación del modelo

híbrido alternavo como fue (RF-LR-SVC) resultó

computacionalmente costosa con métricas

de rendimiento insucientes o subópmas, lo

que sugeriría que no todas las combinaciones

de algoritmos híbridas son equivalentemente

efecvas (40).

Además, se destaca la importancia de seleccionar

el modelo adecuado según el contexto de

aplicación en que se requiera analizar la

clasicación y entrenamiento del modelo. KNN

y Regresión Logísca son ideales para entornos

que requieren simplicidad y rapidez en la

predicción, por su simplicidad y bajos empos

de cálculo computacional, mientras que SVM

y Redes Neuronales son más apropiados para

aplicaciones que priorizan la precisión y el recall,

ya que requieren mayor empo de entrenamiento

y prueba. Los modelos híbridos, como el Vong

Classier basado en Logisc Regression, Decision

Tree y Gradient Boosng, demostraron tener un

rendimiento superior al combinar las fortalezas

de múlples algoritmos que son ligeros en los

cálculos computacionales ya que enen buenos

empos de entrenamiento y validación, pero a

costa de mayor complejidad computacional e

interpretación.

El manejo del desequilibrio de clases con SMOTE

conocida técnica de sobre muestreo que genera

ejemplos sintécos de la clase minoritaria, casos

con fraude y ADASYN que genera ejemplos de

clase minoritaria pero que son más diciles de

aprender, es más adaptavo, lo que fue críco

para mejorar la detección de transacciones

fraudulentas, especialmente en KNN y SVM.

Sin embargo, los modelos híbridos mostraron

una robustez frente a esta dicultad, lo que

los hace atracvos para implementar en los

sistemas de detección de estafas. A pesar de

los avances logrados, las Redes Neuronales y

los modelos híbridos enfrentan limitaciones

en interpretabilidad, por su caja negra, lo que

puede ser una brecha en contextos regulados,

que necesitan claridad en los procesos, como

lo requiere la banca. Futuras invesgaciones

podrían explorar técnicas de explicabilidad para

modelos complejos, como SHAP o LIME, para

mejorar su aceptación en entornos nancieros

(32)(36).

En cuanto a la eciencia computacional, nuestros

resultados revelan una compensación (trade-o)

interesante entre el empo de entrenamiento y

prueba, además de la validación cruzada de cada

modelo presentado. El KNN obtuvo el empo de

entrenamiento más corto y su alta precisión en

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

V. CONCLUSIONES

comparación con los demás modelos. Por otro

lado, los modelos híbridos contaron con empo

de ejecución más altos, pero mayor robustes

en la precisión en comparación a los modelos

individuales. Estos hallazgos enen alcances

signicavos para la implementación prácca

de estos modelos en sistemas de detección de

fraudes en empo real, donde tanto la velocidad

de entrenamiento como la de predicción son

cruciales, para no desaprovechar el momento en

que fue comeda la estafa (35).

Es importante señalar que, aunque nuestros

modelos muestran un rendimiento opmo

o excepcional, la detección de fraudes es un

problema presente en constante evolución. Los

estafadores connuamente adaptan sus táccas

que evolucionan con el pasar del empo, lo que

signica que incluso los modelos más soscados

de aprendizaje automáco y de inteligencia

arcial deben ser regularmente actualizados y

reentrenados, por la mejora connua y el control

de la calidad en las transacciones (32).

Una limitación de nuestro estudio se presenta

por el conjunto de datos estáco debido al corte

transversal en el empo, el conjunto de datos

fueron transacciones que ocurrieron en 2024

obtenidos del sio web Kaggle. En un escenario

del mundo real, los patrones de fraude varían

y evolucionan constantemente debido a los

nuevos avances tecnológicos, lo que requeriría

un enfoque de aprendizaje connuo. Futuros

estudios podrían explorar la implementación de

estos modelos en un entorno de aprendizaje en

línea con series temporales, donde los modelos

se actualicen y entrenen connuamente con

nuevos datos seriales (34).

Los modelos individuales mostraron un

rendimiento excepcional como KNN y SVM,

presentan ser más equilibrados entre precisión

(99.94%, 99.92%) y recall (0.9912, 0.9934)

respecvamente, con empos de ejecución

signicavamente menores (1 segundo, 5

segundos), destacándose como alternavas

fáciles y ecientes para implementaciones en

empo real, En cuando a los modelos híbridos,

como el Vong Classier basado en Logisc

Regression, Decision Tree y Gradient Boosng,

demostraron ser una estrategia viable en la

robustes del resultado, alcanzando una precisión

del 99.95% en la conguración RF-LR-GB, aunque

con limitaciones en términos de recall con

0.64.Respecto a la eciencia computacional,

los modelos como Logisc Regression y KNN

destacaron por su rapidez y simplicidad,

haciéndolos ideales para entornos que presenten

recursos limitados, además exhiben buena

precisión y un excelente recall.

En cuanto al manejo del desequilibrio de clases,

las técnicas de sobre muestreo, como SMOTE

y ADASYN, fueron esenciales para mejorar la

representación de casos fraudulentos, debido a

que fueron los casos con minoría del conjunto

de datos, estas técnicas contribuyen a un mejor

rendimiento general de todos los modelos,

especialmente en KNN y Redes Neuronales para

que no se sobre ajusten.

La Interpretabilidad, aunque los modelos simples

como Logisc Regression y KNN ofrecen alta

interpretabilidad, los modelos complejos como

Redes Neuronales y los híbridos requieren

avances en explicabilidad como es el uso de SHAP

para su adopción en entornos regulados, en el

que se requiere mayor transparencia del proceso

interior del algoritmo. Por ello al implementar este

método demostró ser una herramienta valiosa

para comprender las decisiones del modelo

hibrido, aspecto crucial en el sector monetario

donde la transparencia es esencial. Las Redes

Neuronales mostraron la mejor adaptabilidad

a patrones cambiantes, mientras que SVM y los

modelos híbridos ofrecieron un buen balance

entre rendimiento y escalabilidad.

Basándonos en estos hallazgos, recomendamos

lo siguiente:

1. Para Implementación:

• En los escenarios donde sea prescindible

la precisión estricta y el empo del

procesamiento del conjunto de datos

no sea una limitación severa, por eso se

recomendaría el uso del modelo híbrido RF-

LR-GB.

• En el caso de situaciones de empo real

donde se priorice el balance entre precisión

interpretabilidad y velocidad de respuesta se

debe considerar KNN o SVM.

• Evitar la implementación del modelo

híbrido RF-LR-SVC debido a su alto costo

ISSN 2477-9105

Número 33 Vol.1 (2025)

VII. REFERENCIAS

VI. AGRADECIMIENTOS

1. Nilson Report. Card fraud losses reach $32.34 billion [Internet]. 2023. Available from: hps://

nilsonreport.com/arcle_archive_id=4161.

2. Asociación de Bancos Privados del Ecuador. Bolen macroeconómico - marzo 2024 [Internet].

Quito: ASOBANCA; 2024. Available from: hps://asobanca.org.ec/wp-content/uploads/2024/03/

Bolen-macroeconomico-Marzo-2024.pdf.

3. Asociación de Bancos Privados del Ecuador. La era de la banca digital en Ecuador [Internet]. Quito:

ASOBANCA; 2023. Available from: hps://asobanca.org.ec/wp-content/uploads/2023/07/La-era-

de-la-banca-digital-en-Ecuador-2.pdf.

4. Abdallah A, Maarof MA, Zainal A. Fraud detecon system: A survey. J Netw Comput Appl.

2016;68:90-113. Available from: hps://doi.org/10.1016/j.jnca.2016.04.007.

5. Carcillo F, Le Borgne YA, Caelen O, Kessaci Y, Oblé F, Bontempi G. Combining unsupervised and

supervised learning in credit card fraud detecon. Inf Sci (Ny). 2021;557:317-31. Available from:

hps://doi.org/10.1016/j.ins.2019.05.042.

6. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: synthec minority over-sampling

technique. J Arf Intell Res. 2002;16:321-57. Available from: hps://doi.org/10.1613/jair.953.

7. Fawce T. An introducon to ROC analysis. Paern Recognit Le. 2006;27(8):861-74. Available

computacional y bajo rendimiento, no

todas las combinaciones enen un buen

rendimiento de cómputo.

2. Para Mejoras Futuras:

• Invesgar otras técnicas adicionales sobre el

balanceo de datos para el caso de modelos

híbridos para conseguir un mejor recall, ya

que presentaron ser bajos en la clasicación

de los casos minoritarios, lo que provocaría

la perdida de cuesones de comemiento

de fraude.

• Explorar la opmización de hiperparámetros

en nuestro estudio se ulizó el 70% de

entrenamiento y 30% para testear, lo que se

busca es reducir los empos de ejecución sin

comprometer la precisión.

• Desarrollar un sistema de monitoreo para

series temporales para complementar

los modelos en empos connuos en la

detección y adaptación de nuevos patrones

de fraude en empo real.

3. Para Escalabilidad:

• Implementar un sistema de procesamiento

por lotes en el caso de conjuntos de datos

grandes, por su alto grado de cálculo

computacional.

"Agradezco profundamente a la Universidad

Central del Ecuador por brindarme las

oportunidades académicas y el apoyo necesario

para desarrollar esta invesgación. Asimismo,

exendo mi gratud a los profesores y compañeros

que, con su conocimiento y colaboración, han

contribuido de manera signicava a este

trabajo. Su dedicación a la creación y difusión

del conocimiento ha sido fundamental en mi

formación, y me compromete a seguir aportando

para construir un mundo mejor."

• Establecer umbrales de conanza

adaptables, para mejorar la calidad, según

el contexto de la transacción o del entorno

nanciero.

4. Para Mantenimiento:

• Realizar actualizaciones periódicas y nuevos

experimentos con disntas combinaciones

de modelos híbridos, así como también

testearlos con nuevos conjuntos de datos.

• Documentar los nuevos procesos inherentes

para una fácil replicación y mantenimiento.

• Establecer protocolos de calidad en la

validación connua para asegurar la

consistencia del rendimiento.

MODELOS DE APRENDIZAJE AUTOMÁTICO CONTRA EL FRAUDE: UN

ENFOQUE HÍBRIDO PARA PROTEGER BILLONES EN TRANSACCIONES

Galarza, Trejo.

from: hps://doi.org/10.1016/j.patrec.2005.10.010.

8. Dal Pozzolo A, Caelen O, Johnson RA, Bontempi G. Calibrang probability with undersampling for

unbalanced classicaon. In: 2015 IEEE Symposium Series on Computaonal Intelligence. IEEE;

2015. p. 159-66. Available from: hps://doi.org/10.1109/SSCI.2015.33.

9. Pozzolo AD, Caelen O, Le Borgne YA, Waterschoot S, Bontempi G. Learned lessons in credit card

fraud detecon from a praconer perspecve. Expert Syst Appl. 2014;41(10):4915-28. Available

from: hps://doi.org/10.1016/j.eswa.2014.02.026.

10. Jurgovsky J, Granitzer M, Ziegler K, Calabreo S, Porer PE, He-Guelton L, Caelen O. Sequence

classicaon for credit-card fraud detecon. Expert Syst Appl. 2018;100:234-45. Available from:

hps://doi.org/10.1016/j.eswa.2018.01.037.

11. Candès EJ, Li X, Ma Y, Wright J. Robust principal component analysis?. J ACM. 2011;58(3):1-37.

Available from: hps://doi.org/10.1145/1970392.1970395.

12. Lee CW, Fu MW, Wang CC, Azis MI. Evaluang machine learning algorithms for nancial fraud

detecon: insights from Indonesia. Mathemacs [Internet]. 2025;13(4):600. Available from:

hps://doi.org/10.3390/math13040600.

13. More A. Survey of resampling techniques for improving classicaon performance in unbalanced

datasets [Preprint]. arXiv:1608.06048 [Internet]. 2016. Available from: hps://arxiv.org/

abs/1608.06048.

14. Zhu X, Wang H, Xu L, Li H. Predicng stock prices by using a hybrid model of ARIMA and KNN.

Neural Comput Appl. 2019;31(8):3893-904. Available from: hps://doi.org/10.1007/s00521-017-

3288-x.

15. Breunig MM, Kriegel HP, Ng RT, Sander J. LOF: idenfying density-based local outliers. In:

Proceedings of the 2000 ACM SIGMOD internaonal conference on Management of data. ACM;

2000. p. 93-104. Available from: hps://doi.org/10.1145/342009.335388.

16. Cortes C, Vapnik V. Support-vector networks. Mach Learn. 1995;20(3):273-97. Available from:

hps://doi.org/10.1007/BF00994018.

17. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature. 2015;521(7553):436-44. Available from:

hps://doi.org/10.1038/nature14539.

18. Patra P, Vedansh S, Ved V, Singh A, Mishra S, Kumar A. A sampling-based logisc regression model for

credit card fraud esmaon. In: Swaroop A, Polkowski Z, Correia SD, Virdee B, editors. Proceedings

of Data Analycs and Management. ICDAM 2023. Lecture Notes in Networks and Systems, vol

788. Singapore: Springer; 2023. p. 209-21. Available from: hps://doi.org/10.1007/978-981-99-

6553-3_16.

19. Mohammed U, Wajiga GM, Nata’ala A, Abdullahi BM. Comparave analysis of Random Forest

and Logisc Regression models for detecng fraud in bank transacons based on performance

metrics. Res J Pure Sci Technol. 2024;7(4):1-12. Available from: hps://doi.org/10.56201/rjpst.

v7.no4.2024.pg1.12.

20. Jose NN, Arigela AK, Vivekanandan G, Ravikumar S, Naganathan SBT, Venu N. Opmizing payment

transacon security: ulizing gradient boosng machines for fraud detecon. In: 2024 10th

Internaonal Conference on Communicaon and Signal Processing (ICCSP); 2024 Apr; [ciudad].

Available from: hps://doi.org/10.1109/ICCSP60870.2024.10543774.

21. Johnson P, et al. Scalable fraud detecon systems using hybrid architectures. Appl So Comput.

2024;112:108872.

22. Zhang K, Wu L, Sun Y. Performance analysis of hybrid models in imbalanced datasets. Expert Syst

Appl. 2023;185:115648.

23. Bergstra J, Bengio Y. Random search for hyper-parameter opmizaon. J Mach Learn Res.

2012;13(2):281-305. Available from: hps://www.jmlr.org/papers/volume13/bergstra12a/

bergstra12a.pdf.

24. Snoek J, Larochelle H, Adams RP. Praccal Bayesian opmizaon of machine learning algorithms.

ISSN 2477-9105

Número 33 Vol.1 (2025)

Adv Neural Inf Process Syst. 2012. p. 2951-9. doi:10.48550/arXiv.1206.2944.

25. Kohavi R. A study of cross-validaon and bootstrap for accuracy esmaon and model selecon.

In: Proceedings of the 14th Internaonal Joint Conference on Arcial Intelligence; 1995. p. 1137-

45.

26. Bradley AP. The use of the area under the ROC curve in the evaluaon of machine learning

algorithms. Paern Recognit. 1997;30(7):1145-59.

27. Ngai EWT, Hu Y, Wong YH, Chen Y, Sun X. The applicaon of data mining techniques in nancial

fraud detecon: A classicaon framework and an academic review of literature. Decis Support

Syst. 2011;50(3):559-69. Available from: hps://doi.org/10.1016/j.dss.2010.08.006.

28. Bhaacharyya S, Jha S, Tharakunnel K, Westland JC. Data mining for credit card fraud: A comparave

study. Decis Support Syst. 2011;50(3):602-13. Available from: hps://doi.org/10.1016/j.

dss.2010.08.008.

29. Pelegrina GD, Duarte LT, Grabisch M. A k-addive Choquet integral-based approach to approximate

the SHAP values for local interpretability in machine learning [Preprint]. arXiv:2211.02166. 2022.

30. Kou Y, Lu CT, Sirwongwaana S, Huang YP. Survey of fraud detecon techniques. In: Proceedings

of the IEEE Internaonal Conference on Networking, Sensing and Control; 2004 Mar 21-23; Taipei,

Taiwan. Piscataway (NJ): IEEE; 2004. p. 749-54. doi:10.1109/ICNSC.2004.1297040.

31. Aleskerov E, Freisleben B, Rao B. CARDWATCH: A neural network-based database mining system

for credit card fraud detecon. In: Proceedings of the IEEE/IAFE 1997 Computaonal Intelligence

for Financial Engineering; 1997. p. 220-6. doi:10.1109/CIFER.1997.618940.

32. Phua C, Lee V, Smith K, Gayler R. A comprehensive survey of data mining-based fraud detecon

research [Preprint]. arXiv:1009.6119. 2010.

33. Lucas Y, Protopopescu A, Lemaire V, Velcin J, Sidibe A. Towards automated feature engineering

for credit card fraud detecon using mul-perspecve HMMs. Future Gener Comput Syst.

2020;102:393-402. Available from: hps://doi.org/10.1016/j.future.2019.08.007.

34. Randhawa K, Jain S, Singh G. Credit card fraud detecon using AdaBoost and majority

vong. Procedia Comput Sci. 2018;132:1049-57. Available from: hps://doi.org/10.1016/j.

procs.2018.05.219.

35. West J, Bhaacharya M. Intelligent nancial fraud detecon: A comprehensive review. Comput

Secur. 2016;57:47-66. Available from: hps://doi.org/10.1016/j.cose.2015.09.005.

36. Jiang C, Song H, Wang J, Han Z, Li L. A hybrid fraud detecon method in credit card transacons

based on dynamic selecon of base classiers. Clust Comput. 2019;22(4):8353-68. Available from:

hps://doi.org/10.1007/s10586-017-1589-4.

37. Smith J, Brown R. Hybrid models in fraud detecon: A comprehensive review. J Mach Learn Res.

2023;15(3):145-60.

38. Lundberg SM, Lee SI. A unied approach to interpreng model predicons. In: Advances in Neural

Informaon Processing Systems 30 (NIPS 2017); 2017 Dec 4-9; Long Beach, CA, USA. doi:10.48550/

arXiv.1705.07874.

39. Wang Y, Chen H, Li X. Understanding nancial fraud through explainable AI. IEEE Trans Neural

Netw Learn Syst. 2023;34(2):892-903.

40. Marnez R, Thompson E. Computaonal eciency in modern fraud detecon systems. J Big Data.

2023;10(1):45-62.