Search
Home
Saved
0
26 views
Sign In
Upload
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
investigacion Las Estructuras
1
Download
News
Documents
Sheet Music
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Métodos de Minería de Datos para Aplicaciones en Tiempo Real Alix E. Rojas Hernández Hernández Facultad de Ingeniería de Sistemas, Universidad Nacional de Colombia Avenida Carrera 30 No. 45 – 03, Bogotá D.C., Colombia
[email protected]
RESUMEN En este artículo se presenta una visión general de algunos métodos usados en minería de datos para ambientes de tiempo real. Se identifica una clasificación a priori de los métodos de minería, enfocados en el tema para narrar de una forma ordenada este estado del arte.
Palabras Clave Minería de Datos, aplicaciones, tiempo real, en línea, algoritmos, flujos de Datos (Data Streams).
CONTENIDO 1.
INTRODUCCIÓN
2.
EL CONCEPTO DE TIEMPO REAL 2.1. 2.2.
3.
CONTEXTO TERMINOLOGÍA
GENERALIDADES
ORÍGENES Master 3.1. your semester with Scribd 3.2. CUADRO SINÓPTICO SOBRE LA MINERÍA DE EAL DATOS EN TIEMPOTimes R EAL & The New York 3.3. LO QUE NO ESTÁ CUBIERTO Special offer for students: Only $4.99/month.
4.
MINERÍA EN TIEMPO REAL
4.2.1.3. de datos
Árboles de decisión para miner
4.2.2 Métodos que encuentran Reglas de Asociación
4.2.2.1. Encontrando conjuntos de ítem frecuentes sobre flujos de datos en línea líne a 4.2.2.2. Un simple algoritmo para enco elementos frecuentes en flujos de datos y bol 4.2.2.3. Tópicos de investigación en reg asociación de minería para flujos de datos
4.2.3
Métodos Agrupadores
4.2.3.1. Un marco de trabajo para agru en flujos de datos 4.2.3.2. Agrupamiento Proyectado sobr Datos Altamente Dimensionales 4.2.3.3. Un marco de trabajo para agru proyectado sobre flujos de datos altamente alta mente dimensionales 4.2.3.4. Agrupamiento en línea de flujos paralelos 4.2.3.5. Un marco de trabajo para diag cambios en flujos de datos que evolucionan 4.2.3.6. Agrupamiento binario: Flujos d con K-means 4.2.3.7. Algoritmos de flujos de datos p agrupamiento refinado 4.2.4 Métodos que Descubren Patrones Read Free Foron 30this Days Sign up to vote title para 4.2.4.1. Algoritmos de tiempo real Useful Not useful y reconocimien de cadenas correspondencia Cancel anytime. palíndromos 4.2.4.2. Un marco de trabajo intuitivo p entender cambios en flujos de datos
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real
2
2.2. Terminología
1. INTRODUCCIÓN El concepto de tiempo real, en lo que tiene que ver con minería de datos, es un tema relativamente reciente. Sin embargo, es una noción transversal para la gran mayoría de métodos de minería que existen; es decir, se pueden tener aplicaciones que respondan en cualquier momento, y que basen su arquitectura en algoritmos de clasificación o agrupamiento, indistintamente. En este estado del arte se mostrarán varios trabajos realizados hasta el momento sobre minería de datos en ambientes de tiempo real, con el único objeto de saber que hay hasta el momento en cuanto a investigaciones sobre el tema, cual es la tendencia, grupos e investigadores especialistas, y sobre todo, llegar a plantear una idea esquemática de qué, cómo y por qué el concepto de ‘tiempo real’ en la metodología de minería de datos. El artículo se compone inicialmente por la definición del tema a tratar, para luego pasar a mencionar y discutir los trabajos de investigación alrededor del área, y por último, terminar con lo que se podría seguir investigando sobre este tema.
Dentro de una búsqueda normal, sobre minería de tiempo real, es normal que aparezcan términos com tiempo real, aprendizaje de máquina o su término t familiar en inglés ‘machine learning’, flujos de equivalencia anglosajona ‘data streams’, entre otros, momento, serán mencionados de acuerdo a su contexto
De manera concreta se puede decir que el término “ti se emplea para definir métodos o aplicaciones que req respuesta casi inmediata durante su procesamiento. pensar en la ejecución continua de algún proceso que de datos externos que afectan su comportamiento. Este podría bautizar, como uno, de tiempo-real.
También se ha empleado el término “en línea” en es Este trae consigo todo el contexto ‘web’, pues la may procesos o aplicaciones montadas en Internet, característica de ser altamente transaccionales e implíc relacionan al concepto de tiempo-real; por ello, aunqu misma idea, para este caso, se tomarán de manera indis
Por otra parte, los flujos de datos o “data streams” concepto concreto del término “en línea”; porque so Con el fin de ubicar el contexto del cual se hablará de aquí en que usados para recibir y transmitir información en la adelante, se planteará de forma concreta que ambientes son referidos al mismo contexto. Obsérvese que los tre relevantes para este artículo. Además se definirá que significa mencionados, tienen inherente a así mismos, el co tiempo real y una serie de terminología común para evitar, en lo tiempo. Por último, se menciona el término “apre posible, ambigüedades. You're Readingmáquina” a Preview o “machine learning” que es como el p minería de datos; y que por ello, también se tuvo en cue
2. EL CONCEPTO DE TIEMPO REAL
2.1. Contexto
Unlock full access with a free trial.
Cuando se toca el tema de aplicaciones en tiempo real (y ello no 3. GENERALIDADES Download Trial significa que sea absoluto) hay dos posibles puntos de vista∗: WithAFree continuación se expone una serie de ideas que son b 1) minería sobre modelos preconstruidos y 2) minería sobre continuar con la definición del tema en cuestión. modelos en construcción. Ahora, lo más lógico es explicar en que consiste cada uno de ellos.
3.1. Orígenes
Un modelo en construcción cumple las siguientes condiciones: a) Aplicaciones en línea que se están alimentando constantemente de diferentes modalidades: por múltiples usuarios que acceden de una u otra forma a la aplicación ó porque reciben datos de la red ó de otros medios; b) realizan predicciones o reconocen ciertos patrones en losOnly datos a través de un modelo que se va Special offer for students: $4.99/month. construyendo a medida que los datos van llegando y c) con los nuevos datos se espera que el modelo se actualice y que los
Master your semester with Scribd & The New York Times
El tema de interés se ubica a mediados de los años n después del nacimiento de la minería de datos, y agents’, conceptos ‘Adaptive software Read Free Foron 30this Days Signcomo: up to vote title refinamiento, programación de lógica inductiva, Not‘boosting’, useful Useful redes bayesianas, ‘bagging’, ‘stacking’ y Cancel anytime. Con el nacimiento de la minería de datos y el ‘boom’ d se abre paso a nuevas investigaciones enfocadas a riqueza de la minería de datos, en ámbitos donde una
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
investigacion Las Estructuras
1
Download
News
Documents
Sheet Music
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real
3.2. Cuadro Sinóptico sobre la Minería de Datos en Tiempo Real El siguiente esquema (ver Ilustración 1) no es una conclusión propia, pero si es una posible compilación del trabajo de muchas personas alrededor de este tema [2][3]. A continuación se muestra una clasificación compacta de la minería de datos, en la que se ha trabajado el tema de métodos en tiempo real.
−
s o t a D e d a í r e n i M
Modelos para DS
−
Patrones para DS
Resultado
s o d o t é M
− − − − −
−
Objetivo
−
−
−
Predicción para DS Clasificación de DS Agrupamiento de DS Asociación de DS Detección de Anomalías en DS Búsqueda y Recuperación de DS Descubrimiento de Patrones en DS
3
4.1. Investigadores
El objetivo de identificar diferentes investigadores, e conocer las tendencias en este medio académico directamente a las fuentes de conocimiento. A conti relacionan algunos autores representativos y una desc su trabajo; para otros solo se menciona el no investigador ∗∗:
4.1.1 Charu Aggarwal
Investigador miembro de la IBM T. J, Centro de In Watson en Yorktown Heights, Nueva York. Realizó su en el MIT en 1996. El tema de sus tesis fue algoritmo de redes y el director de su trabajo fue el Profesor Jame Desde entonces ha trabajado en el campo de a desempeño de la Minería de Datos. Ha publicado c artículos en conferencias y revistas especializadas, obtener alrededor de 40 patentes. Y a parte del valor co los patentes mencionados, él ha sido nombrado inven en IBM desde el año 2.000. Con su trabajo sobre tie detección de bio-ataques en flujos de datos, ganó corporativo de IBM por excelencia en el 2003. É asociado de la IEEE Transactions on Knowledge Engineering Journal y editor activo de Data M Knowledge Discovery Journal. Sus intereses incluyen datos, privacidad, recuperación de información y flujos
Ilustración 1. Se define el marco de trabajo de la Minería de Datos en tiempo real. Nótese que es tansversal a las diferentes técnicas 4.1.2 Jiawei Han empleadas en la Minería de Datos convencional. Se abrevió el Profesor del Departamento de Ciencia de la Univ You're Reading a Preview término ‘Data Streams’ como DS para facilitar el despliegue.
Illinois en Urbana-Champaign del Centro Siebel para C la Computación Unlock full access with a free trial. y Doctor de Ciencias de la Comput Universidad Wisconsin-Madison. Actualmente tiene u 3.3. Lo que no está cubierto investigación en Minería de Datos y Sistemas de Base el Trial que adelanta proyectos de investigación en: Aunque en este artículo se hace bastante referencia aDownload aplicaciones Withcon Free ∗ Biological Databases with Analytical Power: Indexing y ambientes de tiempo real, no se hablará de OLAP (On-Line and Mining of Complex Biological Structures ( Analytical Processing): 1) porque no es un tema que está MotionEye: Querying and Mining Large Datasets relacionado con el interés particular de este artículo. 2) OLAP es Objects (NSF/SEIII) y Automatic On-the-fly una solución, valga la aclaración, que hace parte de otra rama que Characterization, Recovery, and Correction of Softwa no nace precisamente del ‘aprendizaje de máquina’; su contexto Production Runs (NSF/ITR). es el de `Inteligencia de negocios’. La única forma en la que se relaciona con el tema de minería de datos, es en su presencia Read Free Foron 30this Days Sign up to vote title opcional, dentro del proceso completo del ‘descubrimiento de 4.1.3 Pedro Domingos conocimiento’. Investigador del Departamento de Ciencias de la Com Not useful Useful anytime. Ingeniería de Cancel la Universidad de Washington. Special offerPor forotra students: Only $4.99/month. parte, aun cuando se mencionan los métodos de minería principales intereses se encuentra la investigación en como parte del enfoque de este artículo, ello no significa que se Minería de Datos y Aprendizaje de Máquina. Proyecto
Master your semester with Scribd & The New York Times
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real 4.1.5 João Gama Es investigador en LIACC y hace parte del grupo de investigación sobre Aprendizaje de Máquina del laboratorio de Inteligencia Artificial y Ciencias de la Computación de la Universidad de Porto en Portugal. Su tesis de doctorado fue sobre Combinación de Algoritmos de Clasificación. Entre sus intereses de investigación están Aprendizaje de máquina, Combinación de clasificadores, aprendizaje de flujos de datos en línea, Inducción Constructiva, Caracterización de aprendizaje de algoritmos y razonamiento probabilístico.
4.1.6 Otros autores destacados Otros autores destacados: Venkatesh Ganti, Minos N. Garofalakis, Johannes Gehrke, Sudipto Guha, Geoff Hulten, Hillol Kargupta, Eamonn Keogh, Ralf Klinkenberg, Nikos Koudas, Nina Mishra, Rajeev Motwani, Muthu Muthukrishnan, Olfa Nasraoui, Rajeev Rastogi, Haixun Wang, Qian Weining,
4
4.2.1.2. Árboles de decisión de flujos espaciales usando “Peano Count T
Cuando se lee la palabra Peano, se podría pensar, que de un método específico, así como el caso anterio Bayes; pero realmente, “Peano Count Trees” es una que organiza datos espaciales y que los representa de comprimida y sin pérdida de datos, de tal forma que f clasificación del conjunto de datos más eficiente, otras técnicas de minería. Para probar la efectividad del modelo realizan prueba método clásico de inducción de árboles de decisión; que la construcción del modelo es significativamente con la nueva estructura [10]. Es un artículo muy ilustrativo, y las fórmulas y dem empleados por los investigadores, ayuda en la comp todo el proceso.
4.2.1.3. Árboles de decisión para minería de datos
4.2. Métodos investigados
Se describe en gran detalle la construcción de árboles Los métodos fueron escogidos por los siguientes criterios: 1) Los de flujos de datos usando un algoritmo mejorado del V más recientes; 2) que fueran reconocidos; 3) por su disponibilidad Fast Decisión Tree learner). Tópicos importantes del a y 4) que tocaran ítems específicos en la clasificación propuesta. la clasificación de nuevos datos en línea con buenos De tal forma que para abarcar las diferentes investigaciones respuestas; el análisis de datos reales que muestran un alrededor del tema de enfoque, se trata de seguir el orden interesante y la demostración del uso de este alg propuesto en el esquema de la sección 3.2. Específicamente se conjuntos de datos grandes y medianos. Este es un bu retomarán los métodos clasificados por obj etivo, ya que es mucho incursionar sobre el tema en cuestión, pues más amplia y fácil de seguir. You're Reading para a Preview manera sencilla como se hace la construcción de l resaltando en cada paso la relevancia de los flujos de da 4.2.1 Métodos Clasificadores Unlock full access with a free trial. Previamente se consultaron algunos artículos para identificar este tema en particular [4], [5], [6], [7], [8].
que encuentran Reglas de As Download With4.2.2 Free Métodos Trial
4.2.1.1. Un modelo de clasificación bayesiano para la detección de intrusos en tiempo real Clasificar este artículo en este primer grupo, podría parecer injusto, pues por la finalidad de los autores y la forma en la que este se encuentra escrito, podría identificarse en el grupo de los detectores de anomalías; sin embargo, se dejó aquí, porque la estrategia de solución es un método netamente de clasificación y, definitivamente es el hecho, de lo flexible que esta macro-técnica a la Only clasificación) lo que hace que se sienta cierta Special offer(me forrefiero students: $4.99/month. dependencia con otros temas [9].
Master your semester with Scribd & The New York Times
Para la comprensión de ciertos artículos se hizo nece consultas adicionales en otros textos [12][13], comprender el contexto de algunas investigaciones e También fue necesario identificar que es lo que ya investigando con tanto auge; y lo que definitivamente, ganar interés entre los medios académicos de específico [14]. Read Free Foron 30this Days Sign up to vote title A continuación se dan a Not conocer usefulun grupo de artí Useful Cancel anytime. interesantes y que coinciden en este grupo de métodos.
4.2.2.1. Encontrando conjuntos de ítems
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real En las pruebas realizadas por el equipo no hay una comparación explícita con otro algoritmo, pero muestran gráficas de escalabilidad y desempeño variando el tamaño de los flujos de datos.
4.2.2.2. Un simple algoritmo para encontrar elementos frecuentes en flujos de datos y bolsas Los autores presentan un algoritmo para hallar ítems frecuentes en flujos de datos y grupos de elementos que pueden repetirse, en el que definen un parámetro θ que identifica el espacio en el que trabajará el algoritmo. La idea es que usando el algoritmo para encontrar el mayor elemento, se pueda identificar un conjunto de al menos 1/θ ítems que incluyen todos los elementos con una frecuencia mayor a θ. Finalmente, hacen una demostración formal para probar la correctitud del algoritmo; sin embargo, no hacen pruebas de desempeño ni escalabilidad, ni comparaciones con otros algoritmos de la misma clase [16].
4.2.2.3. Tópicos de investigación en reglas de asociación de minería para flujos de datos
5
solución: El algoritmo HPStream. Y antes de comen explicación definen varios conceptos alrededor de esto “flujos de datos proyectados”, “la estructura atenuante” de vida media de los datos”. Así, para cada registr conjunto de datos, existe un tiempo T relacionado con X, ya que los flujos de datos están cambiando rápidam tiempo y es necesario asociarles una prioridad de pe que consiste en asignarle un peso a cada reg conservando los más jóvenes (de menor peso) y desech antiguos. Por ello los autores asocian el término tiem media como f(t 0) = ½ f(0), de tal forma que se reduce cada registro a la mitad por cada procesamiento. Desp término proyectado para asumir el número de grupos de dimensiones que serán calculadas por el algoritmo se cierra el algoritmo completo HPStream que agrup datos vía distancia ecludiana. Finalmente, se com algoritmo con CluStream (su predecesor) y co incremento significativo en cuanto a desempeño y calid
Este artículo fue de gran utilidad académica. Pude id problemática existente alrededor de los flujos de embargo, algunos conceptos se tienden a tornar comple a su fuerte contexto matemático.
4.2.3.3. Un marco de trabajo para agru La idea principal de este artículo es identificar aquellos tópicos que deben ser tenidos en cuenta cuando se quiere investigar sobre proyectado sobre flujos de datos reglas de asociación para flujos de datos. Presentan varios dimensionales algoritmos para implementar las reglas de asociación, pero sobre Este fue un You're Reading a Previewtrabajo previo al artículo presentado ant todo hacen un gran énfasis en las aplicaciones y motivaciones q ue realizado por el mismo equipo. Aquí se definen la m conllevan a empezar una investigación en esta área tan específica de conceptos empleados en la siguiente etapa Unlock full access with a free trial. [17]. investigación [22]. La principal razón para adic conjunto de artículos seleccionados, fue el hecho de 4.2.3 Métodos Agrupadores motivaciones para realizar la investigación y una in Download Free más Trial Se puede definir agrupamiento [18] como una división de datos Withmucho amplia del nacimiento del algoritmo HPStr en grupos de objetos similares. Al representar los datos en varios cluster necesariamente se pierden ciertos detalles finos de los 4.2.3.4. Agrupamiento en línea de flujos elementos, pero se gana simplificación. Y esto es justamente lo paralelos que se mostrará en los siguientes artículos [19]. El enfoque de este artículo es el problema de agrupa datos. El autor proporciona un ligero contexto a 4.2.3.1. Un marco de trabajo para agrupamiento en información sobre flujos de datos y agrupamiento. Read Free Foron 30this Days Sign up to vote title flujos de datos menciona el preprocesamiento y mantenimiento de lo En resumen se puede decir que la solución propuesta empieza con datos, para pasar a explicar la versión en línea del k-m Useful Not useful Cancel anytime.al que le adiciona lóg el marco de trabajo para agrupamiento de flujos de datos: extensión de este último, Special offer for students: Only $4.99/month. primero, la separación del enfoque del agrupamiento en línea y de Finalmente, se discuten partes específicas sus componentes que también están en línea. Segundo, el implementaciones de la solución a partir de
Master your semester with Scribd & The New York Times
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real 4.2.3.6. Agrupamiento binario: Flujos de datos con K-means En este artículo se proponen tres extensiones para el clásico algoritmo del k-means. Estos son: k-means en línea, k-means incremental y k-means escalable. Estos no solo tienen la característica de ser más rápidos que el algoritmo clásico, sino que presentan soluciones de mayor calidad. Las tres extensiones se basan en una información estadística adicional que se convierten en un parámetro de entrada para los algoritmos. Al final del artículo presentan diferentes pruebas realizadas con los tres nuevos algoritmos, y se comprueba en la mayoría de ilustraciones la efectividad de los mismos [25].
4.2.3.7. Algoritmos de flujos de datos para un agrupamiento refinado En la parte introductoria de este artículo se hace toda una reflexión sobre la problemática de los flujos de datos. De aquí, los autores rescatan principalmente el consumo desmesurado de memoria, que requiere el procesamiento de cantidades de datos tan altamente cambiantes. Entonces proponen, el algoritmo de flujos (en inglés, the streaming algorithm) que propone solventar, en parte, el problema crítico de los recursos que intervienen en el proceso. Después de definir el algoritmo, proporcionan varias pruebas empíricas con conjuntos de datos creados, y por otra parte, conjunto de datos reales; con los cuales hacen comparaciones de desempeño y calidad [26].
6
No se tuvo la versión final y completa de este artícu que se leyó someramente de este, gustó tanto, que s adicionarlo con los demás.
4.2.5 Métodos Detectores de anomalías
A continuación se adicionan artículos en los que el en investigación es la detección de valores atípicos conjuntos de datos en un contexto de tiempo real.
4.2.5.1. Detección de cambio en flujos de d
El artículo se enfoca principalmente en resaltar la aplic encontrar cambios en los conjuntos de datos. De esas a se destacan: Control de calidad, para analizar la c productos defectuosas en el tiempo para la toma de de la minería de datos, en el que el cambio func reestructuran el modelo y desvincular datos desactua podrían ser removidos, de ser detectados. Después, re requisitos básicos para alimentar los algoritmos, pre posteriori, que son: las probabilidades de densidad Luego, enuncian diferentes propuestas de algoritmos algoritmo final para la detección del cambio en flujo Para demostrar la correctitud de los algoritmos definiciones y pruebas formales, junto con una serie d que corroboran la funcionalidad de la técnica [29].
4.2.5.2. Clasificación en línea de flujos de estacionarios
enfoca en el funcionamiento y pruebas empíricas de You're ReadingSe a Preview
OLIN (On Line Information Network). El supuesto co estea se crea, Unlock full access with free trial.es la problemática que existe al trabajar reales, y el hecho de ignorar los cambios inherente a e 4.2.4 Métodos que Descubren Patrones fenómeno se conoce como ‘concept drift’. Las caracter En esta sección se presentan artículos relacionados con relevantes de investigaciones enfocadas en el hallazgo de p atronesDownload para grandes With Free Trialeste sistema es el ajuste dinámico del ta ventana de entrenamiento y el número de nuevos ejem volúmenes de datos en tiempo real. re-construcción del modelo [30].
4.2.4.1. Algoritmos de tiempo real para correspondencia de cadenas y reconocimiento de palíndromos
En layour primera parte resaltan específicamente dos conceptos: uno, Master semester with Scribd el modelo computacional RAM (Random Access Machine) y la de Turing. Dos, la definición de maquinas en el tiempo. & Themáquina New York Este artículo tratanTimes un tema especifico: Los palíndromos.
fue seleccionado por esta aplicación tan específica, sino Special offerPero for no students: Only $4.99/month. por una la característica de pasar de un algoritmo en línea a uno
4.2.5.3. Algoritmos incrementales Info-Difu minería de datos en tiempo real de datos no estacionarios
Como ca Este artículo latocontinuación deltitle anterior. Read Free Foron 30this Days Signes up vote principal, este nuevo y renovado sistema adiciona Notcomputacional useful Useful para contrarrestar el esfuerzo en el pro Cancel anytime. de los datos. Para ello, se incorpora un algoritmo que como el “algoritmo IFN”, que se basa en una estructu
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real al uso de técnicas que generen resultados muy buenos, que al ser probados se compruebe la precisión de sus predicciones. [34] Tres, Transferencia de resultados de minería sobre medio inalámbricos con ancho de banda limitados. [35] Cuatro, Modelado de cambios en resultados de minería en el tiempo: La adaptabilidad de modelos generados en el proceso de minería que deben ajustarse a la variación de los datos para su uso en diferentes aplicaciones de análisis. Cinco, Visualización de los resultados de minería en dispositivos móviles. Seis, Pre procesamiento: Específicamente, como deben estar los datos a la hora de trabajar con ellos. [36] Siete, Modelos sobre-ajustados: No hay mucha literatura que se enfoque específicamente sobre los modelos de flujos de datos que presenten estos inconvenientes. [37] Ocho, Tecnología: las plataformas, los diferentes ambientes de ejecución y varias particularidades físicas, son importantes a la hora de procesar grandes cantidades de datos. [38] Nueve, Formalización: Es importante entrar a definir formalmente los flujos de datos y su contexto para hallar algoritmos óptimos y precisos.
6. OPINIÓN Y CONCLUSIONES
7
implemented on system SO-NN (Symbolic Obje Neighbor). It's useful for my job. But the author often co SO-NN, because that is like the application re for my case is irrelevant. Principal keys: symbolic objects, lazzy-learning.
[7] Murthy, S. K. (1998), Automatic Construction o Trees from Data: A Multi-Disciplinary Sur Mining and Knowledge Discovery 2, 345. This article review three ways for data explor description: To reduce a volume of d classification: Discovering whether the data co separated classes of objects. Three, general make a mapping from independent to dependen for predicting the value of the dependent vari future (It's part is not so clear). After, they ment advantages of decision tree-based cla Knowatledge acquisition, Hierarchical trees can be used with the same ease in deter well as incomplete problems, and their use in d probles (maybe the most important for me). ideas they show the entire process to begin tr last sections, they talk about real-world da commentairs: it's complex and imperfect).
El área de minería de datos es relativamente nueva, y no por ello, carece de información o de interés en su investigación. Pero es aún más motivante, no dejar de encontrar información con una de sus ramas: La minería de datos en aplicaciones de tiempo real. [8] Fu, B. L. L. S. R. S. W. E. (2006), Diversification En esta exhaustiva consulta, he encontrado diferentes trabajos You're Reading a Preview classification trees , Computers & Operation relacionados con el tema, y de todos ellos he aprendido bastante; 33(11), 3185-3202. por eso espero que a los lectores les resulte muy útil. Unlock full access with a free Thetrial. principal idea of this article is decision tree a different mechanism for building trees w 7. REFERENCIAS algorithms and changing the mean value Download With Free percetiles. Trial They shows the wholy process to [1] Domingos, P. & Hulten, G. (2001), Catching Up with the proposal. Data: Research Issues in Mining Data Streams. The author is clear to explain the advanta new way to make decision trees. Howe [2] Srivatsan Laxman And P S Sastry. A survey of temporal data procedures are no obvious and have short expla mining. Department of Electrical Engineering, Indian Institute of Science, Bangalore 560 012, India. Sadhana Vol. [9] Puttini, Z.M.L. (2003), A Bayesian Classification 31, Part 2, pp. 173–198. April 2006. Real-Time Intrusion Detection , in C. J. Read Free For 30this Days Sign up to vote on title Bayesian Infe ed.,'AIP Conf. Proc. 659: [3] Agrawal, R., Mannila, H., Srikant, H. et al. (1996), Fast Maximum Entropy Methods in Science and En Not useful Useful Cancel anytime. discovery of association rules, in Fayyad, U.M., Piatetsky pp. 150-162. Special offer forShapiro, students: Only $4.99/month. G., Smy, P. et al. (eds), ‘Advances in Knowledge Discovery and Data Mining’, AAAI Press/The MIT Press, [10] Ding, Q. and Perrizo, W. (2002), Dec
Master your semester with Scribd & The New York Times
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Upload
Sign In
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real
8
[14] Cormode, S. (2005), What's Hot and What's Not: Clustering; Density-Based Partitioning; Methods; Co-Occurrence of Categorical; Tracking Most Frequent Items Dynamically , ACM Transactions on Database Systems 30(1), 249-278. Based Clustering; Relation to Supervised I think topics more important are: Gradient Descent and Artificial Neural - Onepass algorithms with limited storage, has reopened Evolutionary Methods; Scalability and VLDB interest in this problem (Author recomendation. Surveys Clustering High Dimensional Data; and such as those by Muthukrishnan and Garofalakis). Algorithmic Issues. - Insert-Only Algorithms with Item Counts. The earliest work on finding frequent items considered the problem of [19] Aggarwal, R.; Gehrke, J.; Gunopulos, D. & Ra finding an item which occurred more than half of the time. (1998), Automatic subspace clustering - All the methods discussed thus far have certain features dimensional data for data mining applic in common: in particular, they all hold some number of 'SIGMOD '98: Proceedings of the 1998 ACM counters, each of which counts the number of times a international conference on Management of d single item is seen in the sequence. Press, New York, NY, USA, pp. 94--105. -Insert-Only Algorithms with Filters. An alternative approach to finding frequent items is based on [20] C. Aggarwal, J.W.P.S.Y. (2003), A Frame constructing a data structure which can be used as a filter. Clustering Evolving Data Streams, Proc. 2003 This has been suggested several times to construct such on Very Large Data Bases (VLDB'03), Berlin, G filters being suggested. - Insert and Delete Algorithms. Previous work that studied [21] Aggarwal, C., Han, J., Wang, J. & Yu, P.S. ( hot items in the presence of both of inserts and deletes is High Dimensional Projected Clustering sparse. These articles have proposed methods to maintain Streams, Data Mining and Knowledge Disco a sample of items and count of the number of times each 273. item occurs in the data set, and focused on the harder problem of monitoring the k most frequent items. [22] Aggarwal, C.; Han, J.; Wang, J. & Yu, P.S. - They propose some new approaches to this problem, Framework for Projected Clustering based on ideas from group testing and error-correcting Dimensional Data Streams , Proceedings, 852You're Reading a Preview codes. Our algorithms depend on ideas drawn from group testing. The idea of group testing is to arrange a number of [23] Beringer, J. & Hьllermeier, E. (2006), Online cl full access with a free trial. data streams , Data Knowl. Eng. 58(2) tests, each of which groups together aUnlock number of parallel themitems in order to find up to k items which test “positive.” [24] Aggarwal, C. (2003), A Framework for D Download With FreeChanges Trial in Evolving Data Streams , Proceed [15] Chang, W.S. (2006), Finding frequent itemsets over ACM SIGMOD online data streams , Information & Software Technology 48(7), 606-618. [25] Ordonez, C. (2003), Clustering binary data str K-means, in 'DMKD '03: Proceedings of the [16] Karp, R. M., Shenker, S. and Papadimitriou, C. H. (2003), A SIGMOD workshop on Research issues in data knowledge discovery', ACM Press, New York, simple algorithm for finding frequent elements in pp. 12-19. streams and bags, ACM Trans. Database Syst. 28(1), 51Read Free Foron 30this Days Sign up to vote title 55. [26] Oapos Callaghan, N. M. G. S. M. R. (2002), NotA.useful Useful Cancel anytime. [17] Jiang, N. & Gruenwald, L. (2006), Research issues in data data algorithms for high-quality cluster Special offer for students: Only $4.99/month. Engineering, 2002. Proceedings. 18th In stream association rule mining , SIGMOD Rec. 35(1), 1419. Conference on', 685-694.
Master your semester with Scribd & The New York Times
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join
Search
Home
Saved
0
26 views
Sign In
Upload
Join
RELATED TITLES
0
Material Metodos Mineria Datos Aplicaciones Tiempo Real
Uploaded by Henrry Manuel Rayme Ventura
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
investigacion Las Estructuras
1
of 9
SistemasInteligentesINTRODUCCIÓ1
Search document
Algoritmos de Minería de Datos para Aplicaciones en Tiempo Real
9
[31] L. Cohen, G.A. & Last, M. (2004), Incremental Info-Fuzzy Algorithm for Real Time Data Mining of NonStationary Data Streams, Proceedings of TDM 2004 ICDM 2004 Workshop on Temporal Data Mining: Algorithms, Theory and Applications. [32] Gaber, M. M.; Zaslavsky, A., and Krishnaswamy, S. (2005), Mining data streams: A review , SIGMOD Rec. 34(2), 18-26. [33] Cannataro, A. P. A. T. D. T. P. (2004), Distributed Data Mining on Grids: Services, Tools, and Applications , IEEE Transactions on Systems, Man & Cybernetics: Part B 34(6), 2451-2465. [34] Guozhu Dong, L.V.L.J.P.H.W. & Yu., P.S. (2003), Online mining of changes from data streams: Research problems and preliminary results , In ACM SIGMOD MPDS . [35] Berberidis, I. (2005), Mining for weak periodic signals in time series databases , Intelligent Data Analysis 9(1), 2942. [36] Bull, B. (2005), Exemplar Sampling: Nonrandom Methods of Selecting a Sample Which Characterizes a Reading a Preview Statistician Finite Multivariate Population , AmericanYou're 59(2), 166-172.
Unlock full access with a free trial.
[37] Connolly, B. (2004), SQL, Data Mining & Genetic Programming, Dr. Dobb's Journal: Software Tools for the Professional Programmer 29(4), 34-39. Download With Free Trial [38] Babcock, S. B. M. D. R. M. J. W. (2002), Models and Issues in Data Stream Systems, Madison, Wisconsin.
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Read Free Foron 30this Days Sign up to vote title
Not useful Cancel anytime.
Useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Master your semester with Scribd & The New York Times Special offer for students: Only $4.99/month.
Upload
Sign In
Read Free For 30 Days Cancel anytime.
Join