Clustering Agrupamientos

Clustering Agrupamientos Aprendizaje automático

Minería de Datos • ¿Qué es ? • ¿Para que usar Minería de Datos? • Datawarehouse y Datamining • Tools – Clustering

Minería de Datos • ¿Qué es? – Consiste en la extracción no trivial de información que reside de manera implícita en los datos.(wikipedia) – El Data Mining (DM; minería de datos) es un proceso para descubrir, a partir de una base de datos, nuevos conocimientos que sean válidos, potencialmente útiles y, sobre todo, comprensibles.(ebook DataMinig)

Minería de Datos • ¿Para que usar Minería de Datos? – La minería de datos es una herramienta fundamental para la toma de decisiones. El proceso de aprendizaje de los datos juega un papel muy importante en muchas áreas de la ciencia, las finanzas y la indústria, dónde las entidades o empresas han de minimizar los riesgos en la toma de decisiones estratégicas.

Minería de Datos • Datawarehouse y Datamining Las empresas establecen relaciones con sus clientes, recogiendo sus necesidades, recordando sus preferencias e interaccionando personalmente, lo que les debería permitir analizar cómo servirles mejor en el futuro.

Minería de Datos • Tool • ¿Qué es Clustering? • Algoritmos • Ejemplo Practico filas

columnas

Clustering Definiciones(1/2) • Los algoritmos de clustering permiten clasificar un conjunto de elementos de muestra en un determinado número de grupos basándose en las semejanzas y diferencias existentes entre los componentes de la muestra.

Clustering Definiciones(2/2) • Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Un algoritmo de clustering permite extraer representantes de un conjunto de datos, que pueden ser posteriormente usados para transmisión, para eliminación de ruido o con una fase posterior de calibración, para clasificación de vectores en diferentes conjuntos.

Algoritmos • K-means – Es probablemente el algoritmo de agrupamiento más conocido. – El algoritmo está basado en la minimización de la distancia interna (la suma de las distancias de los patrones asignados a un agrupamiento al centroide de dicho agrupamiento)

Algoritmos • K-means Ejemplo

Algoritmos • ISODATA – Iterative Self-Organizing Data Analysis Techniques (con la A añadida para hacer pronunciable el nombre), un iterativo método de agrupamiento que, como ya sucedía con el método de agrupamiento secuencial, requiere un considerable esfuerzo para ajustar adecuadamente todos sus parámetros. Además, éstos pueden modificarse en cada iteración del algoritmo.

Algoritmos • Algoritmo adaptativo – El método adaptativo es un algoritmo heurístico de agrupamiento que se puede utilizar cuando no se conoce de antemano el número de clases del problema

Algoritmos • Algoritmo de Batchelor y Wilkins – Como el método adaptativo, el algoritmo de Batchelor y Wilkins es un método de agrupamiento con número de clases desconocido.

Algoritmos • Algoritmo GRASP – GRASP es una técnica de los años 80 que tiene como objetivo resolver problemas difíciles en el campo de la optimización combinatoria. Esta técnica dirige la mayor parte de su esfuerzo a construir soluciones de alta calidad que son posteriormente procesadas para obtener otras aún mejores.

Algoritmos • Matriz de similaridad – Los métodos basados en grafos, igual que los algoritmos GRASP, intentan evitar este hecho pero su coste computacional los hace inaplicables en muchas ocasiones.

Clustering Jerárquico Ejemplo

1−clustering

5

2−clustering

1

3−clustering

4

2

4−clustering

3

5−clustering

1

2

3

4

5

Clustering-Ejemplo http://www.lsi.us.es/~ndiaz/proyectosFinCarrera.html http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html

Clustering-Ejemplo Un ejemplo practico Datos para cada una de las 52 provincias. Los datos son: Nombre de la provincia Población Ratio varones/mujeres Ratio extranjeros/españoles Extensión de la provincia (en Km2) Paro Número de teléfonos fijos registrados Número de vehículos de motor matriculados Número de oficinas bancarias Precio medio del m2 de vivienda

Clustering Agrupamientos

Recommend Documents