Minería de Datos y Detección de Fraude Aylin Briones, Lady Pitty
1. Intr Introd oduc ucció ción n
La Minería de Datos es el proceso analítico de exploración de los datos en la búsqueda de patrones consistentes, o relaciones sistemáticas entre las ariables y para poder alidar y aplicar los patrones encontrados a un nueo con!unto de datos" Las t#cnicas de la Minería de Datos $an sido aplicadas en los más ariados entornos desde la educación, las relaciones con clientes, la inteli%encia de ne%ocios" &l estudio del 'raude y su inesti%ación es un campo natural para la aplicación de las t#cnicas de la Minería de Datos" La detección de anomalías en los procesos de creación, almacenamiento, re%istro y transmisión de un con!unto de datos de un punto a otro es otro escenario para la aplicación de las t#cnicas de Minería de Datos" &l escenario económico actual en que se presentan distintos tipos de 'raudes en las 'inan(as 'inan(as y la contabil contabilidad idad $a propiciad propiciado o la aplicació aplicación n de las t#cnicas t#cnicas de la Minería Minería de Datos para la detección de las posibles 'allas en los sistemas contables" Dentro de esta problemática esta inesti%ación tuo como como ob!etio anali(ar el tema de la aplicación de las t#cnicas de la Minería de Datos en la detección del 'raude contable" La reisión de la de la in'ormación y los sistemas permite comprobar que la aplicación de las t#cnicas de la Minería de datos puede ser de %ran utilidad para la detección de los distintos tipos de 'raude contable y una línea de inesti%ación de %ran perspectia" La Minería de Datos permite la clasi' clasi'ica icació ción, n, detecc detección ión de alore aloress anómal anómalos" os",, el a%rupa a%rupamie miento nto,, la predic predicció ción n y la re%res re%resión ión necesarios para poder tratar los datos contables" )radicionalmente, las t#cnicas de minería de datos se aplicaban sobre in'ormación contenida en almacenes de datos" De $ec$o, muc$as %randes empresas e instituciones $an creado y alimentan bases de datos especialmente dise*adas para proyectos de minería de datos en las que centrali(an in'ormación potencialmente útil de todas sus áreas de ne%ocio" +o obstante, actualmente está cobrando una importancia cada e( mayor la minería de datos desestructurados como in'ormación contenida en 'ic$eros de texto, en nternet, etc"
2. Minería de datos y detección de fraude
&l termino 'raude $ace re'erencia al abuso de los bene'icios de una or%ani(ación sin deriar directamente en consecuencias le%ales para los autores, lo cual puede conertirse en un problema critico si ocurre de manera recurrente o los mecanismos de preención no son lo su'icientemente blindados ante 'allos" -eneralmente, el mayor es'uer(o se en'oca en brindar $erramientas para el monitoreo y c$equeo de procesos, los cuales de reali(arse de manera manual implica un inmenso es'uer(o y estarían su!eto a numerosas sub!etiidades" .e debe tener en cuenta que es absolutamente imposible tener la certe(a respecto a la intención o le%itimidad detrás de una aplicación o transacción, lo que se busca en realidad, es acotar el espacio de aplicaciones y/o transacciones que puedan ser 'raudulentas teniendo en cuenta la eidencia obtenida mediante la aplicación de al%oritmo 0abe destacar que el aporte de la Minería De Datos a la detección de 'raude no se limita únicamente el $ec$o de detectar casos potencialmente 'raudulentos, minimi(ando el espectro del con!unto de datos, sino que tambi#n permite la obtención de patrones que describan las características de los casos detectados, lo cual puede, con la colaboración de expertos en el área de estudio, a acotar y/o detectar de manera más e'iciente aquellos potenciales casos 'raudulento" La detección de anomalías no es un tema noel de inesti%ación, sino que se cuentan con re%istros de 'ines del si%lo 11, lo que $a eolucionado y sobre en lo que actualmente se centran las inesti%aciones son las t#cnicas aplicables para su detección, como por e!emplo la utili(ación de MDD" &l punto de unión entre la MDD y la detección de 'raude contable o 'inanciero, es la introducción de la MDD como una $erramienta analítica aan(ada que puede asistir al auditor en la toma de decisiones al momento de detectar casos de 'raude y tiene el potencial para resoler la tan mencionada contradicción entre los e'ectos y la e'iciencia de la detección de 'raude" A simple ista se puede plantear que la detección de anomalías es simplemente aislar aquellas instancias que no presentan las mismas características que la mayoría de las instancias anali(adas, sin embar%o, esta tarea presenta una serie de desa'íos que de'inen su comple!idad2 3 De'inir la re%ión 4normal5 de tal manera que represente a todos y cada uno de los comportamientos normales resulta sumamente di'ícil, esto sumado al $ec$o de que la di'erencia entre el comportamiento normal y el anómalo puede ser insi%ni'icante, contribuye al $ec$o de poder identi'icar a las instancias normales como anómalas o ice ersa" 3 0uando las anomalías son resultado de acciones maliciosas pre meditadas, los in'ractores suelen adaptarse y/o eolucionar las t#cnicas utili(adas para cometer la irre%ularidad, de 'orma de emular de manera casi per'ecta a las instancias normales" 3 La naturale(a de los dominios de estudio es eolutia, es decir, que a medida que a pasando el tiempo an tomando características distintas, esto representa un desa'ío importante, ya que el identi'icar los comportamientos normales en el presente, puede no representar las características en el 'uturo" 6tro punto relacionado a la naturale(a del dominio se relaciona con la escala con la cual se miden, un alor num#rico puede ser insi%ni'icante en un dominio pero totalmente drástico en otro, $e aquí la importancia en la selección de la t#cnica y los parámetros disponibles para la misma" 3 La no disponibilidad de datos etiquetados, como con!untos para entrenamiento alidación de modelos, contra los cuales pueda alidarse la e'iciencia de los procesos aplicados representa otro inconeniente a solucionar"70)A)6+ 8at9: ;l <=:> ?
2.1. Fraude con tarjeta de crédito
&xisten arias 'ormas de 'raude con tar!etas de cr#dito como son la clonación o el p$is$in%" Pero el patrón de conducta es siempre el mismo" Por norma %eneral, una e( se $acen con los datos de nuestra tar!eta de cr#dito, los esta'adores sacan peque*as cantidades de dinero sin que apenas seamos capaces de darnos cuenta" Por un lado, la policía es capa( de establecer patrones de conducta a partir de los datos reco%idos en los $istóricos" Por otro lado, el data minin% reúne t#cnicas que abarcan desde la estadística o la inteli%encia arti'icial, $asta el procesamiento masio de datos, que ayudan a establecer patrones de comportamiento de las transacciones que incitan al 'raude 'inanciero" &l data minin% 'unciona de una 'orma simple" Anali(a las transacciones $istóricas que se reali(an con tar!etas de cr#dito, establece un patrón de comportamiento del esta'ador y crea un per'il" A partir de aquí, el sistema clasi'ica y da la 4alarma5 cada e( que se produce un patrón similar en el sistema" De esta 'orma, se detecta una esta'a de 'orma inmediata y puede bloquearse la tar!eta para 'renar el 'raude" 7 0)A)6+ Ana=< ;l <=:> ? 2.2. Modelos sospechosos Del Fraude
Para detectar el 'raude es necesario establecer el per'il del esta'ador" &l data minin% establece modelos de patrones de conducta2 Modelos de datos inusuales2 Determina comportamientos raros en un dato concreto respecto al resto de su %rupo de comparación" Por e!emplo, moimientos de sumas de dinero en e'ectio" Modelos de relaciones inexplicables2 &stablece relaciones entre re%istros que tienen alores i%uales para determinados campos" Por e!emplo, una trans'erencia de 'ondos entre dos o más compa*ías con la misma dirección de enío" Modelos de características %enerales de 'raude2 .ire para $acer predicciones de 'uturos in%resos de transacciones sospec$osas"
La 'inalidad es encontrar patrones de conducta que están relacionados con los datos en cuestión, es decir, con transacciones o pa%os" Aunque tambi#n se puede predecir situaciones que son susceptibles de acabar en 'raude" 7 0)A)6+ Ana=< ;l <=:> ? 2.3. ANAI!I! "#$DI%&I'( D$ F#A)D$!
A !uicio de la or%ani(ación, la analítica y arquitectura de bi% data proeen distintas soluciones para crímenes 'inancieros, siendo capaces de o'recer ealuaciones rápidas y distintos escenarios anti laado de dinero, permitiendo moderni(ar procesos, isuali(ar exposiciones al ries%o y alidar estrate%ias" &stos sericios, caracteri(ados por ser un modelo $íbrido en el que se utili(an re%las del ne%ocio, detección de anomalías, modelos predictios, minería de texto y análisis de redes, son mayormente utili(ados por entidades 'inancieras porque ayudan a reducir costos e incrementar la e'ectiidad de sus pro%ramas" Al mismo tiempo, permite uni'icar el en'oque de las empresas en asuntos de 'raude, cumplimiento y se%uridad mientras potencian los es'uer(os de detección y preención, ra(ón por la que cada e( más autoridades 'iscales implementan estas $erramientas"
Pese a que los m#todos tradicionales para abordar ries%os $an sido e'ectios, al%unos %obiernos están apostando por tecnolo%ías más aan(adas para combatir el 'raude" @n e!emplo de ello es el ris$ )ax and 0ustoms" Las autoridades irlandesas decidieron luc$ar contra el 'raude a tra#s de la analítica predictia, con los sericios de .A., utili(ando la minería de datos y análisis para me!orar sus procesos, lo que dio como resultado un me!or cumplimiento de nueas normas y re%ulaciones, me!or sericio al cliente y reducción los costos a los contribuyentes irlandeses"7 0)A)6+ Dia=> ;l <=:> ? 3. Aplicaciones de la *inería de datos
Al%unas de las tareas importantes de la minería de datos incluyen la identi'icación de aplicaciones para las t#cnicas existentes, y desarrollar nueas t#cnicas para dominios tradicionales o de nuea aplicación, como el comercio electrónico y la bioin'ormática" &xisten numerosas áreas donde la minería de datos se puede aplicar, prácticamente en todas las actiidades $umanas que %eneren datos2 3 0omercio y banca2 se%mentación de clientes, preisión de entas, análisis de ries%o" 3 Medicina y Farmacia2 dia%nóstico de en'ermedades y la e'ectiidad de los tratamientos" 3 .e%uridad y detección de 'raude2 reconocimiento 'acial, identi'icaciones biom#tricas, accesos a redes no permitidos, etc" 3 ecuperación de in'ormación no num#rica2 minería de texto, minería eb, búsqueda e identi'icación de ima%en, ideo, o( y texto de bases de datos multimedia" 3 Astronomía2 identi'icación de nueas estrellas y %alaxias" 3 -eolo%ía, minería, a%ricultura y pesca2 identi'icación de áreas de uso para distintos cultios o de pesca o de explotación minera en bases de datos de imá%enes de sat#lites 3 0iencias Ambientales2 identi'icación de modelos de 'uncionamiento de ecosistemas naturales y/o arti'iciales Cp"e" plantas depuradoras de a%uas residuales para me!orar su obseración, %estión y/o control" 3 0iencias .ociales2 &studio de los 'lu!os de la opinión pública" Plani'icación de ciudades2 identi'icar barrios con con'licto en 'unción de alores sociodemo%rá'icos" 70)A)6+ .an9< ;l <=:> ? &n la actualidad se puede a'irmar que la Minería De Datos $a demostrado la alide( de una primera %eneración de al%oritmos mediante di'erentes aplicaciones al mundo real" .in embar%o estas t#cnicas todaía están limitadas por bases de datos simples, donde los datos se describen mediante atributos num#ricos o simbólicos, no conteniendo atributos de tipo texto o imá%enes, y los datos se preparan con una tarea Eoy en día los sistemas de in'ormación modernos, son capaces de %enerar olúmenes siderales de datos, re%istrando los conceptos más diersos, desde las más triiales como el acceso a un sitio eb, el acceso a un edi'icio, imá%enes de cámaras de se%uridad, pasando por moimientos bancarios, transacciones con tar!etas de cr#dito e inclusie documento y patentes %enerados en centros de inesti%ación, laboratorios, o centros de obseración del espacio" La %estión de estos datos $a acompa*ado esta eolución desde dos %randes ramas, por un lado las colecciones de datos, la creación y mantenimiento de estos datos, y por otro lado el análisis y la comprensión de los
mismos" La eolución del $ardare, sumada al desarrollo de so'tare de control, tra!o apare!ada un sin 'in de me!oras en lo relacionado al almacenamiento y %estión de los datos, pasando de arc$ios planos simples y de peque*o tama*o a comple!os sistemas de %estión de base de datos, con un %ran olumen de in'ormación sobre ellos, con una %ran $etero%eneidad en el 'ormato, ori%en y medios de almacenamiento" .i bien la %estión e'iciente de un alto olumen de in'ormación es competitiamente enta!osa para todas las or%ani(aciones, lo que resulta aún más importante se relaciona con la capacidad de trans'ormar este marcado olumen de in'ormación en conocimiento potencialmente útil para la toma de decisiones, disminuyendo la probabilidad de cometer errores en el proceso decisorio aproec$ando el %ran actio que representa la in'ormación para la or%ani(ación" La Minería De Datos es el análisis de con!untos de datos, %eneralmente de %ran tama*o, para encontrar relaciones insospec$adas y para sumariar los datos en nueas maneras de modo que sean útiles y comprensibles para el propietario de los datos los resultados de este análisis dependen de la t#cnica y del ob!etio que se persi%ue, pueden conertirse en modelos o patrones, representados por ecuaciones lineales, re%las, clusters, %rá'icos, árboles de decisión, patrones recurrentes en series de tiempo, entre otro"70)A)6+ 8at9: ;l <=:> ? +. %lasificación de técnicas de Minería De Datos
&n el niel de mayor abstracción las t#cnicas de Minería De Datos pueden enmarcarse en dos %randes %rupos, por un lado las t#cnicas descriptias, las cuales buscan, como su nombre lo indica, expresar las características del con!unto de datos a tra#s de un modelo, el cual sumari(a las características de los datos anali(ados y por el otro lado las t#cnicas predictias, las cuales tienen por ob!etio, teniendo como base los datos disponibles, predecir el alor o el comportamiento que tendrá un con!unto de datos teniendo en cuenta un ran%o de alores para ciertos atributos" La principal di'erencia que se plantea entre las t#cnicas descriptias y las predictias, esta en que en las primeras el análisis no se encuentra en'ocado en un atributo o ariable en particular, mientras que en las se%undas si, conirti#ndose #sta en el centro del análisis" &sta caracteri(ación de alto niel, resulta super'icial y poco práctica, por lo que es recomendable disminuir el niel de abstracción utili(ando taxonomías que ten%an en cuenta el ob!etio de estas, 'acilitando la elección de las mismas al momento de aplicarlas al análisis, una de las que resulta interesante es la propuesta en la cual lo plantea de la si%uiente manera"
Figura 1 %lasificación de las &écnicas de Minería de Datos
a"
An,lisis de datos e-ploratorio consiste básicamente en t#cnicas que permiten explorar el con!unto de datos disponible sin tener bases y/o ideas solidas o especí'icas sobre qu# es lo que se está buscando" &stas t#cnicas son principalmente interactias y isuales, las cuales permiten proyectar los puntos del con!unto de datos en el espacio, para espacios $asta G o > ariables existen t#cnicas simples y e'ectias de isuali(ación, pero a medida que la cantidad de ariables aumenta, resulta comple!a su isuali(ación $e aquí en donde cobran importancia las t#cnicas de proyección"
b" Modelos descripti/os en estas t#cnicas el ob!etio es describir a todos los datos anali(ados, para lo%rarlo se utili(an t#cnicas relacionadas a la estimación de la probabilidad de atributos, se%mentación del con!unto de datos en unidades más peque*as que poseen características similares, análisis de la relación entre los atributos del con!unto de datos" c"
Modelos predicti/os0 clasificación y reresión la meta en estos casos es, mediante el análisis y modelado a partir de los datos disponibles, permitir la predicción de los alores de ciertos atributos" &n la clasi'icación la ariable a predecir es cate%órica, mientras que en la re%resión la ariable es cuantitatia" Dentro de este %rupo podemos mencionar2 arboles de decisión, redes bayesianas, redes neuronales, re%resión lo%ística, entre las más popular
d" Descuri*iento de patrones y relas2 las tareas mencionadas en los tres puntos anteriores se re'ieren a la construcción de modelos, en este %rupo, en cambio, el ob!etio es el descubrimiento de patrones o re%las que de'inan el comportamiento de los datos, como así tambi#n la relación que existe entre los datos en si" @na tarea la cual en la actualidad posee un incipiente desarrollo y se encuentra enmarcada en este %rupo de t#cnicas, se relaciona con la detección de transacciones 'raudulentas, la cual $a sido ampliamente estudiada en el campo de la estadística, planteando un %ran número de desa'íos, principalmente en cuanto a la di'erenciación entre
aquellas transacciones 'raudulentas y las erdaderas esta tarea en %eneral es dele%ada a expertos en el área de estudio, aunque esta pericia por parte del experto resulta prácticamente nula al anali(ar un %ran olumen de datos"
e.
#ecuperación por contenido2 en esta cate%oría se enmarcan aquellas t#cnicas, las cuales parten de un patrón de in'ormación conocido y se buscan r#plicas de ese comportamiento y/o modelo en un %ran olumen de datos" &ste %rupo posee dos %randes diisiones, por un lado la búsqueda de patrones sobre texto y por el otro, sobre imá%enes" &n el primer sub %rupo, mediante la obtención de palabras claes, se buscan textos que posean ocurrencias de estas palabras claes o combinaciones de las mismas"70)A)6+ 8at9: ;l <=:> ?
. Metodoloía de i*ple*entación de MDD
&l proceso de Minería De Datos está constituido por una serie de tareas relacionadas ló%icamente las cuales son e!ecutadas sobre un con!unto de in'ormación ya existente en la or%ani(ación, y que tiene por ob!etio a*adir un nueo con!unto de in'ormación de mayor alor que el con!unto inicial" &n el ámbito de la in%eniería de so'tare, la utili(ación de modelos y metodolo%ías se basa en el se%uimiento de proyectos de tecnolo%ía de la in'ormación para dotarlos de una alta cuota de predictibilidad y calidad mediante la incorporación de puntos de control en las di'erentes 'ases que 'orman parte del proceso productio, no limitándose únicamente a los productos de cada una de estas 'ases, sino tambi#n a los procesos asociados a los mismos" )eniendo en cuenta este proceso in%enieril relacionado al proceso de de Minería De Datos, sur%e la importancia en la utili(ación de metodolo%ías que doten de mayor calidad al proceso y en consecuencia al producto obtenido de este proceso de calidad" &n el desarrollo de so'tare existe una %ran cantidad de modelos y metodolo%ías que tienen por ob!etio el aporte de calidad al producto a tra#s de la me!ora de los procesos, dentro de las mismas podemos mencionar 0MM" la me!ora que aportan estos modelos es ampliamente conocida en el ámbito de desarrollo de so'tare, el inconeniente que se plantea es que los procesos de Minería De Datos tienen características particulares que lo di'erencian de los desarrollos de productos so'tare, teniendo en cuenta este punto sur%e la necesidad de utili(ar metodolo%ías y/o modelos especí'icamente destinados a procesos de Minería De Datos Diariamente se reali(an millones de transacciones con tar!etas bancarias" @no de los ries%os más altos que corre la banca es el 'raude con tar!etas de cr#dito" Los de'raudadores $an desarrollado m#todos so'isticados para robar la in'ormación de los clientes contenidos en las bandas ma%n#ticas de los plásticos a tra#s del sHimmin% y la clonación de #stos en tar!etas apócri'as para reali(ar la compra de productos o sericios de manera ilícita" 0ada banco cuenta con área dedicada exclusiamente a la preención del 'raude buscando reducir las p#rdidas su'ridas a*o con a*o" Los sistemas de preención $an sido bastante útiles para la detección en línea pero resultan insu'icientes pues muc$as eces no lo%ran detectar el cambiante
comportamiento del de'raudador que busca no ser atrapado y se las in%enia para me(clarse entre los patrones de compra $abituales de los clientes pasando desapercibidos dentro de la $erramienta cali'icadora de las transacciones al reali(ar la compra" &n promedio se re%istran más de =99 millones de transacciones diariamente a niel mundial con una enta anual de más de I=J9 millones de dólares donde el 'raude obtiene %anancias por IK" millones" &n M#xico, Am#rica Latina y el 0aribe el 'raude por clonación representa un <9 con un monto anual de =99 millones de dólares en promedio cada a*o" Los datos anteriores dan una idea del impacto que tiene el 'raude en el sector bancario, además del costo por mantenimiento del área" &ste %asto lo absorben tanto el banco como los usuarios pues el precio de los sericios se e incrementado para absorber la p#rdida su'rida" &l impacto del 'raude a más allá dentro de la institución ya que a'ecta de manera directa a sus clientes" &s necesario considerar los puntos clae del ne%ocio como mantener la enta e incrementarla y el sericio al cliente, que se e a'ectado cuando su transacción es cali'icada como 'raude deteniendo al%una de sus compras con la tar!eta lo que prooca malestar y puede llear a la cancelación de la cuenta por recibir un mal sericio" Mantener en equilibrio este trián%ulo es muy importante para alcan(ar las metas de ne%ocio propuestas por la dirección"
La tendencia actual es utili(ar sistemas analíticos y predictios que ayudan a me!orar el desempe*o de las $erramientas cali'icadoras del 'raude de manera si%ni'icatia" @na de estas tecnolo%ías es la minería de datos CDataMinin% que reúne t#cnicas proenientes de diersas disciplinas como la estadística, la inteli%encia arti'icial, la computación %rá'ica y el procesamiento masio de datos y que ayudan de manera rápida y 'ácil a desarrollar las re%las para de'inir un patrón de comportamiento del 'raude para identi'icar y detener las transacciones de este tipo al momento que son $ec$as en el punto de enta" )eniendo en cuenta los obstáculos que son necesarios traspasar para la detección de 'raude se anali(an las si%uientes t#cnicas en pro'undidad2 .1. Mapas Auto (rani4ados constituye un m#todo de red neuronal con aprendi(a!e no superisado, que produce como resultado un %rá'ico de similitud de los datos de entrada" 0onsiste en un con!unto 'inito de modelos, que aproxima el con!unto de datos de entrada inicial, y los modelos son asociados con nodos Cneuronas que son or%ani(adas en un %rilla re%ular de dos dimensiones" Los modelos son producidos por un proceso de aprendi(a!e automático que ordena las instancias sobre una %rilla de dos dimensiones teniendo en cuenta su similaridad, este al%oritmos es un proceso de re%resión recursio" .2.Aroles de decisión2 un árbol de decisión es un m#todo de aprendi(a!e superisado no param#trico construido a partir se un set de entrenamiento que consiste en una serie de ob!etos, cada uno de estos ob!etos es descripto por un con!unto de atributos y una etiqueta de clase, estos atributos a su e( pueden ser ordenables o no ordenables, el m#todo busca 'ormar todos los pares posibles y combinación de cate%orías, a%rupando aquellas que se comportan de manera similar con respecto a una ariable en un %rupo y manteni#ndolas separadas de aquellas que se comportan de 'orma distinto" .3. #edes ayesiana estas redes son %rá'icos a cíclicos que permiten una representación e'iciente y e'ectia de la distribución de probabilidad con!unta sobre un con!unto de ariables aleatorias" 0ada #rtice en el %rá'ico representa una ariable aleatoria y las líneas representan relaciones directas entre las ariables, más precisamente, la red codi'ica las si%uientes sentencias de
independencia condicional2 cada ariable es independiente de sus no descendientes en el %rá'ico dado el estado de sus padres" &stas independencias son lue%o explotadas pare reducir el número de parámetros necesarios para caracteri(ar a una distribución de probabilidad, a para procesar e'icientemente probabilidades posteriores dada la eidencia" Los parámetros probabilísticos con codi'icados en un con!unto de tablas, una para cada ariable, en la 'orma de distribuciones condicionales locales de una ariable dados sus padres" @sando las sentencias de independencia codi'icadas en la red, la distribución con!unta es uníocamente determinada por estas distribuciones condicionales locales"
Figura 2 Di/isión de Minería de Datos
5. Aplicaciones de *inería de datos
La minería de datos intenta extraer alor de la in'ormación a tra#s de distintas aplicaciones, entre las que destacan2
edes neurales2 clasi'icación y secuenciación" 0lusterin%2 se%mentación de mercado o comunidades de social netorHs" 0lasi'icación por se%mentación2 'iltros de spam y análisis de sentimiento de )itter" Minería en tiempo real2 recomendaciones de compra o marHet basHet minin%"
Precisamente esta última está %anando en importancia en la nuea era, dadas las posibilidades de la interacción de las empresas con bi% data y el niel de exi%encia al que se $a sometido a la toma de decisiones $oy día" La aceleración de los ne%ocios $ace necesario ser capa( de tomar acción en tiempo real y, para eso, $ace 'alta poder contar con un buen conocimiento de la situación, que minimice el ries%o de errores"
&sta eolución $a $ec$o que el en'oque de minería de datos real time se ea impulsada, rele%ando a un se%undo plano la concepción más tradicional de data minin% que se basaba en la creación de modelos a tra#s del análisis de muestras de datos o de re%istros $istóricos" Eoy día es preciso que la introspección en la in'ormación se d# a ritmo de streamin% para poder dar soporte a la estrate%ia de ne%ocio en lo concerniente a2
Análisis del trá'ico eb para las acciones del marHetin% online en tiempo real" Detección del 'raude en transacciones en línea" Minimi(ación del ries%o en las operaciones 'inancieras e intercambios comerciales"
Para conse%uirlo, es preciso contar con el soporte de 'uentes de %randes datos como son los sensores o los sat#lites" Ambos, con elocidades extremas y una 'iabilidad máxima, permiten %anar en precisión y rapide( aunque, al mismo tiempo, complican la maniobrabilidad de las compa*ías al di'icultar la selección de muestras representatias del %lobal de datos, por tratarse de olúmenes impracticables" +o obstante, los aances $an salado estos obstáculos %racias a acciones como el muestreo múltiple o la implementación de t#cnicas cuantitatias autoNoptimi(adas, que a tra#s del aprendi(a!e automático consi%uen resoler muc$as de estas situaciones" Según Big Data Stream Minning Tutorial, el enfoque estándar ya no es suciente para tratar con big data analycs en las condiciones que se precisan oy d!a. "ecoger, limpiar, modelar y reali#ar el despliegue de la informaci$n es un proceso que no puede dar de s!, ni en cuanto a su escalabilidad ni en cuanto a su %elocidad de respuesta, para adaptarse a los requisitos de negocio actuales. &onnuar con este po de m'todos es desperdiciar el %alor de los datos y, por eso, la miner!a de datos debe adaptarse a los nue%os empos para poder e(primir las posibilidades de big data. ) &*T+T*- *st/ 0l /12 3 5.1.a nue/a corriente de data *inin
&s capa( de mantener modelos en línea" Permite incorporar datos sobre la marc$a" .e adapta a con!untos de entrenamiento sin límites" &s e'ectia a la $ora de detectar cambios y a!ustarse a ellos" Proporciona modelos dinámicos"
Actuali(aciones de )itter, estados de FacebooH, transacciones reali(adas online usando tar!etas de cr#dito, imá%enes posteadas en FlicHr o nsta%ram, búsquedas lan(adas a los motores online, emails intercambiados y clicHs de los usuarios son sólo al%unas de las 'uentes de datos que no de!an de %enerar re%istros cada se%undo" .in embar%o, $ay que tener en cuenta que esta minería de datos en tiempo real o streamin% data minin% optimi(a su alor cuando se aplica a la búsqueda de soluciones aproximadas dentro de un mar%en de tiempo limitado y $aciendo un uso muy co$erente de los recursos disponibles" Para %enerar conocimiento de mayor alor en el lar%o pla(o, sobre asuntos críticos desde el punto de ista estrat#%ico o en materias que no requieran de una solución en cuestión de se%undos, merece más la pena e traba!o en base a al%oritmos para la clasi'icación, re%resión o clusterin%, por e!emplo" 8, desde el plano práctico, se pueden emplear sistemas de computación simple para traba!ar con
streams de olúmenes reducidos pero, siempre que se escale, $ay que plantearse el optar por sistemas distribuidos"7 0)A)6+ st=< ;l <=:> ?
%onclusión
La tendencia actual es utili(ar sistemas analíticos y predictios que ayudan a me!orar el desempe*o de las $erramientas cali'icadoras del 'raude de manera si%ni'icatia" @na de estas tecnolo%ías es la minería de datos que reúne t#cnicas proenientes de diersas disciplinas como la estadística, la inteli%encia arti'icial, la computación %rá'ica y el procesamiento masio de datos y que ayudan de manera rápida y 'ácil a desarrollar las re%las para de'inir un patrón de comportamiento del 'raude para identi'icar y detener las transacciones de este tipo al momento que son $ec$as en el punto de enta" Los análisis de ries%o 'uera de pla(o, 'raudes no detectados y las inesti%aciones pobremente e!ecutadas, así como el 'racaso en el se%uimiento de los controles internos, únicamente exacerban el ries%o al que se en'rentan las empresas" Para los encar%ados de la preención, detección e inesti%ación del 'raude, la minería de datos puede ser una $erramienta e'ica( en el cumplimiento %lobal y los es'uer(os anti'raude, aunque tambi#n representa un reto importante ante la carencia, en muc$os casos, de experiencia t#cnica en el mane!o de instrumentos aan(ados" La minería de datos $a cambiado la perspectia de cómo detectar y preenir el 'raude en tar!etas de cr#dito ya que mediante t#cnicas analíticas y una metodolo%ía, es posible determinar el patrón de comportamiento del de'raudador y que sumado a una estrate%ia de ne%ocio bien de'inida llea a minimi(ar el impacto ocasionado por el 'raude" &l impacto del 'raude a más allá dentro de la institución ya que a'ecta de manera directa a sus clientes" &s necesario considerar los puntos clae del ne%ocio como mantener la enta e incrementarla y el sericio al cliente, que se e a'ectado cuando su transacción es cali'icada como 'raude deteniendo al%una de sus compras con la tar!eta lo que prooca malestar y puede llear a la cancelación de la cuenta por recibir un mal sericio" Mantener en equilibrio este trián%ulo es muy importante para alcan(ar las metas de ne%ocio propuestas por la dirección"
Bibliografía +na, 4. 567/8. Google. btenido de 9p:;;culturacrm.com;data. 567718. Google . btenido de 9p:;;sistemas.unla.edu.ar;sistemas;gisi;T=?S;>atcesen