El Proceso Genérico de Minería de Datos La minería de datos es un proceso iterativo que típicamente involucra las siguientes fases: Definición del Problema
Un proyecto de minería de datos comienza con la comprensión del problema del negocio. Los expertos en minería de datos, expertos en negocios y expertos en dominios trabajan en estrecha colaboración para definir los objetivos del proyecto y los requisitos desde una perspectiva empresarial. El objetivo del proyecto se traduce luego en una definición de problema de minería de datos. En la fase de definición del problema, las herramientas de minería de datos aún no son necesarias. Objetivos y requerimientos desde una perspectiva no técnica:
Establecimiento Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito) Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
Establecimiento Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito) Generación del plan del proyecto (plan, herramientas, equipo y técnicas )
Exploración de datos
Los expertos en dominios entienden el significado de los metadatos. Recopilan, describen y exploran los datos. También identifican problemas de calidad de los datos. Un intercambio frecuente con los expertos en minería de datos y los expertos en negocios de la fase de definición del problema es vital. En la fase de exploración de datos, las herramientas tradicionales de análisis de datos, por ejemplo, estadísticas, se utilizan para explorar los datos. La exploración de los datos facilita la familiarización de los mismos para así tener en cuenta los objetivos del negocio. La familiarización con los datos consta en las siguientes fases:
Recopilación inicial de datos Descripción de los datos Exploración de los datos Verificación de calidad de datos
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Preparación de datos
Los expertos en dominios construyen el modelo de datos para el proceso de modelado. Recopilan, limpian y formatean los datos porque algunas de las funciones de minería de datos solo aceptan datos en un formato determinado. También crean nuevos atributos derivados, por ejemplo, un valor promedio. En la fase de preparación de datos, los datos se ajustan varias veces sin ningún orden prescrito. La preparación de los datos para la herramienta de modelado seleccionando tablas, registros y atributos, son tareas típicas en esta fase. El significado de los datos no se cambia. Proceso enumerado para obtener la vista minable o dataset: d ataset: 1. 2. 3. 4. 5.
Selección de los datos Limpieza de datos Construcción de datos Integración de datos Formateo de datos
Modelado
Se seleccionan y aplican varias funciones de minería porque puede usar diferentes funciones de minería para el mismo tipo de problema de minería de datos. Algunas de las funciones de minería requieren tipos de datos específicos. Los expertos en minería de datos deben evaluar cada modelo. En la fase de modelado, se requiere un intercambio frecuente con los expertos en el dominio de la fase de preparación de datos. La fase de modelado y la fase de evaluación están acopladas. Se pueden repetir varias veces para cambiar los parámetros hasta lograr los valores óptimos. Cuando se completa la fase final de modelado, se ha construido un modelo de alta calidad. Aplicar las técnicas de minería de datos a los dataset:
Selección de la técnica de modelado Diseño de la evaluación Construcción del modelo Evaluación del modelo
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Evaluación
Expertos en minería de datos evalúan el modelo. Si el modelo no satisface sus expectativas, regresan regresan a la fase de modelado y reconstruyen el modelo cambiando sus parámetros hasta lograr los valores óptimos. Cuando finalmente estén satisfechos con el modelo, pueden extraer explicaciones de negocios y evaluar las siguientes preguntas:
¿El modelo logra el objetivo de negocio? ¿Se han considerado todos los problemas de negocios?
Al final de la fase de evaluación, se decide cómo usar los resultados de la minería de datos. Para determinar si los modelos de la fase anterior son útiles a las necesidades del negocio se llevan a cabo las siguientes etapas:
Evaluación de resultados Revisar el proceso Establecimiento Establecimiento de los siguientes pasos o acciones
Despliegue
En esta fase utilizan los resultados de la minería exportando los resultados a tablas de bases de datos o a otras aplicaciones, por ejemplo, hojas de cálculo. Los productos Intelligent Miner ayudan a completar este proceso. Las funciones de los productos de Intelligent Miner se pueden aplicar de forma independiente, iterativa o en combinación. Explotar la utilidad de los modelos, integrándolos en las tareas de toma de de decisiones de la organización:
Planificación de despliegue Planificación de la monitorización y del mantenimiento Generación de informe final Revisión del proyecto
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
CRISP-DM (del inglés Cross Industry Standard Process for Data D ata Mining) se trata de un modelo estándar abierto del proceso que describe los enfoques comunes que utilizan los expertos en minería de datos. Es el modelo analítico más usado. CRISP-DM divide el proceso de minería de datos en seis fases principales. Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continúa después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores. La siguiente figura muestra las fases de dicho proceso.
Algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Selección de Datos La selección de datos es el proceso p roceso donde los datos relevantes para la tarea de análisis se recuperan de la base de datos. d atos. A veces, la transformación y consolidación de datos se realiza antes del proceso de selección de datos. Pre-procesamiento de Datos
Los datos disponibles para la minería son datos sin procesar. Los datos pueden estar en diferentes formatos, ya que provienen de distintas fuentes, los datos pueden ser ruidosos, también pueden tener atributos irrelevantes, datos faltantes, etc. Los datos deben procesarse previamente antes de aplicar cualquier tipo de algoritmo de minería de datos que se realiza mediante los siguientes pasos: Integración de Datos Si los datos que se deben minar provienen de diferentes fuentes estos necesitan ser integrados, este proceso implica eliminar las inconsistencias en los atributos. Limpieza de Datos Este paso puede involucrar la detección y corrección de errores en los datos, completar los valores faltantes, etc. Discretización La Discretización se aplica cuando el algoritmo para minar no puede con los atributos continuos. Este paso consiste en transformar un atributo continuo en un atributo categórico, tomando solo unos pocos valores discretos. La discreción a menudo mejora la comprensibilidad comprensibilidad del conocimiento descubierto. Selección de Atributos No todos los atributos son relevantes, por lo que para seleccionar un subconjunto de atributos relevantes para la minería, entre todos los atributos originales, se requiere la selección de atributos.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Selección de Atributos
Muchos atributos irrelevantes pueden estar presentes presentes en los datos a ser minados. Por lo que necesitan ser eliminados. Además, muchos algoritmos de minería de datos no funcionan bien con grandes cantidades de características características o atributos. Por lo tanto, las técnicas de selección deben aplicarse antes de que se aplique cualquier tipo de algoritmo. Los métodos de selección de atributos pueden dividirse ampliamente en enfoques de Filtro y Wrapper (en minería de datos, Wrapper se refiere a un programa que extrae el contenido de una fuente de información particular y lo traduce a una forma relacional). En el enfoque de Filtro, el método de selección de atributos es independiente del algoritmo de extracción de datos que se aplicará a los atributos seleccionados y evalúa la relevancia de los atributos al observar solo las propiedades intrínsecas de los datos. En la mayoría de los casos, se calcula una puntuación de relevancia del atributo y se eliminan las características de puntuación baja. El subconjunto de características que quedan después de la eliminación de atributos se presenta como entrada al algoritmo de clasificación. Las Ventajas de las técnicas de Filtro son que las escalas a los conjuntos de datos de alta dimensión son computacionalmente simples y rápidas, y como el enfoque del filtro es independiente del algoritmo de minería, la selección de atributos solo debe realizarse una vez, y luego se pueden evaluar diferentes clasificadores. Las Desventajas de los métodos de Filtro son que ignoran la interacción con el clasificador y que la mayoría de las técnicas propuestas son univariadas, lo que significa que cada atributo se considera por separado, ignorando así las dependencias de los atributos. Lo que puede llevar a un peor rendimiento de clasificación en comparación con otros tipos de técnicas de selección de atributos. En el enfoque Wrapper, el método de selección de atributos usa el resultado del algoritmo de extracción de datos para determinar qué tan bueno es un subconjunto de atributos dado. En esta configuración, se define un procedimiento de búsqueda en el espacio de posibles subconjuntos de atributos. La característica principal de este enfoque es que la calidad de un subconjunto de atributos se mide directamente por el rendimiento del algoritmo de extracción de datos aplicado a ese subconjunto de atributos. Este método tiende a ser mucho más lento que el enfoque de Filtro, ya que el algoritmo de minería de datos se aplica a cada subconjunto de atributos considerado por la búsqueda.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Las Ventajas de estos enfoques incluyen la interacción entre la búsqueda de subconjuntos de atributos, la selección de modelos, y la capacidad de tener en cuenta las dependencias de características. Un inconveniente común de estas técnicas es que tienen un mayor riesgo de sobrealimentación que las técnicas de Filtro y son muy computacionales. También se introdujo otra categoría de técnica de selección de características, características, denominada Técnica Integrada, en la que la búsqueda de un subconjunto óptimo de atributos está incorporada en la construcción del clasificador, y puede verse como una búsqueda en el espacio combinado de subconjuntos de atributos e hipótesis. Al igual que el enfoque Wrapper, los enfoques Integrados son específicos para un determinado algoritmo de aprendizaje. Los métodos Integrados tienen la ventaja de que incluyen la interacción con el modelo de clasificación, mientras que al mismo tiempo son mucho menos intensivos computacionalmente que los Wrapper.
Clasificación
Los algoritmos de minería de datos pueden seguir tres enfoques de aprendizaje diferentes: supervisado, sin supervisión, o semi-supervisado. En el Aprendizaje Supervisado, el algoritmo funciona con un conjunto de ejemplos cuyas etiquetas son conocidas. Las etiquetas pueden ser valores nominales en el caso de la tarea de clasificación, o valores numéricos en el caso de la tarea de regresión. En el Aprendizaje no Supervisado, en contraste, las etiquetas de los ejemplos en el conjunto de datos son desconocidas, y el algoritmo generalmente apunta a agrupar los ejemplos de acuerdo con la similitud de sus valores de atributos, caracterizando una tarea de agrupamiento. Finalmente, el Aprendizaje Semi-supervisado se usa generalmente cuando está disponible un pequeño subconjunto de ejemplos etiquetados, junto con un gran número de ejemplos sin etiquetar.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Técnicas de Clasificación
Clasificadores Basados en Reglas Los clasificadores basados en reglas se ocupan del descubrimiento de reglas de clasificación de alto nivel y fáciles de interpretar. Redes Bayesianas Una red bayesiana (BN) consiste en un gráfico a-cíclico a -cíclico dirigido y una distribución de probabilidad para cada nodo en ese gráfico dados sus antecesores inmediatos. Árbol de Decisión Un clasificador de árbol de decisión consiste en un árbol de decisión generado en base a las instancias. El árbol de decisión tiene dos tipos de nodos:
La raíz y los nodos internos Los nodos de hoja.
El Vecino más Cercano Un clasificador de vecino más cercano asume que todas las instancias corresponden a puntos en el espacio n-dimensional. n -dimensional. Red Neuronal Artificial Una red neuronal artificial, a menudo llamada red neuronal, es un modelo matemático o un modelo computacional basado en redes neuronales biológicas; en otras palabras, es una emulación del sistema neuronal biológico. Máquinas de Vectores de Apoyo Las máquinas de vectores de soporte son básicamente algoritmos de clasificación binaria. SVM (por sus siglas en inglés Support Vector Machines) es un sistema de clasificación derivado de la teoría del aprendizaje estadístico. Conjuntos en Bruto
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Algoritmos Genéticos Los algoritmos genéticos (GA) son algoritmos de búsqueda basados en genética natural que proporcionan capacidades de búsqueda sólidas en espacios complejos, ofreciendo así un enfoque válido para problemas que requieren procesos de búsqueda eficientes y efectivos. Lógica Difusa La lógica difusa es una lógica multi-valuada diferente de la "lógica nítida", donde los conjuntos binarios tienen dos lógicas valiosas. Las variables lógicas difusas tienen un valor de verdad en el rango entre 0 y 1.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Transformación de Datos La transformación de datos forma parte del procesamiento procesamiento previo. Esto ayuda a transformar o consolidar los datos para que el proceso de minería resultante sea más eficiente y los patrones encontrados sean más fáciles de entender. En el proceso de transformación de datos, los datos se transforman de un formato a otro que sea más apropiado para la minería de datos. Las estrategias populares para la transformación de datos incluyen: Suavizado
Funciona para eliminar el ruido de los datos. Las técnicas incluyen agrupación, regresión y agrupamiento. Tal técnica incluye agrupamiento y regresión. Construcción de Atributos
Esto implica un nuevo atributo construido y agregado a partir de una lista dada de atributos para ayudar al proceso de minería. Agregación
Esto implica procedimientos de resumen o agregación que se aplican a los datos. Los datos diarios de las transacciones de stock se pueden agregar para calcular el monto de la transacción mensual y anual. Normalización
La normalización implica escalar todos los valores para un atributo dado para que caigan dentro de un rango específico pequeño. La normalización se usa cuando, en el paso de aprendizaje, se usan las redes neuronales o los métodos que involucran mediciones. Discretización
Donde el valor sin procesar del atributo numérico se sustituye por variables de intervalo.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Minería de Datos Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Intuitivamente, se podría pensar que la "minería" "minería" de datos se refiere refiere a la extracción de datos nuevos, pero este no es el caso; en su lugar, la extracción de datos consiste en extrapolar patrones y nuevos conocimientos a partir de los datos d atos que ya ha recopilado. Básicamente, el Data Mining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Aunque en Data Mining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:
Determinación de los objetivos: Trata de la delimitación de los objetivos que el
cliente desea bajo la orientación del especialista en Data Mining. Pre-procesamiento de los datos: Se refiere a la selección, la limpieza, el enriquecimiento, la reducción reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de Data Mining. Determinación del modelo: Se comienza realizando unos análisis estadísticos
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
En resumen, el Data Mining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas n uevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones". En términos básicos la toma de decisiones es el proceso de definiciones de problemas, recopilaciones de datos, generaciones de alternativas y selecciones de un curso de acción y se define como “el proceso para identificar y solucionar un curso de acción para resolver un problema específico”.
La toma de decisiones se refiere a la elección correcta entre diversas opciones para concretar un proyecto. La toma de decisiones a nivel individual se caracteriza por el hecho de que una persona razone para así elegir una solución frente a un problema determinado; es decir, si una persona enfrenta algún problema, deberá ser capaz de resolverlo individualmente tomando decisiones. En la toma de decisiones importa la elección de un camino a seguir, por lo que en un estado anterior deben evaluarse alternativas de acción. Si estas últimas no están presentes, no existirá decisión.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Interpretación de Resultados Los resultados del modelo de minería de datos deben interpretarse en el contexto del problema comercial que se está intentando resolver. Cualquier transformación realizada a las medidas de entrada debe ajustarse de forma apropiada al intentar interpretar los resultados. El resultado siempre será analizado por el usuario de negocio. Los datos faltantes o incorrectos, las entradas duplicadas, la información mal identificada y las relaciones sin documentar entre elementos de datos son solo algunos de los problemas que empañan los datos cada día en empresas alrededor del mundo, muy a menudo debido a errores de los usuarios de negocio. Al sumarlos, todos estos pequeños problemas en la calidad de los datos pueden causar grandes problemas en los procesos de negocio y resultar en pérdidas importantes tanto de dinero como de productividad laboral.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Operaciones y técnicas de minería de datos Operaciones:
Clasificación Esta función de minería de datos se utiliza para clasificar los datos en diferentes grupos / clases según las restricciones. La técnica se utiliza en grandes conjuntos de datos para predecir la categoría de etiquetas de clase en función de los conjuntos de datos de entrenamiento. entrenamiento. Algunos de los casos comerciales que utilizan estas técnicas son el diagnóstico de la condición médica del paciente para seleccionar el tratamiento tratamiento médico, clasificar a las personas en diferentes grupos de crédito según sus datos financieros y separar a los solicitantes de préstamos individuales en diferentes parámetros de riesgo de crédito. Los algoritmos de clasificación más utilizados son Naive Bayes, SVM (Su pport Vector Machines), el clasificador de vecino más cercano y ANN (Artificial Neural Network). Determinar el algoritmo de clasificación es crucial y confuso a veces; se requiere que los expertos evalúen lo mejor para un proyecto dado. Por ejemplo, el algoritmo de Naive Bayes, aunque simple de implementar, requería un gran conjunto de datos para la capacitación. ANN se puede utilizar con menos parámetros, pero requiere un alto tiempo de procesamiento. Regresión Esta operación se utiliza para predecir la variable de valor real. Los modelos de
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Segmentación El objetivo principal aquí es identificar grupos de registros, que pueden ser mutuamente excluyentes excluyentes y exhaustivos y pueden tener categorías jerárquicas, con los mismos comportamientos. Es ampliamente utilizado en marketing para descubrir grupos homogéneos de clientes y segmentarlos según su estilo de vida, geografía, etc. Análisis de enlaces El análisis de enlaces se utiliza para evaluar conexiones o relaciones entre nodos / registros. Se utiliza u tiliza en la comercialización de afinidad de productos, donde el vendedor podría estar interesado en saber qué artículos se pueden vender juntos. En seguros, esta técnica se usa para la detección de fraudes al identificar los patrones de reclamaciones a través de la visualización de la red. Esta operación se utiliza principalmente en conjunto con el análisis de segmentación. Desviación Esta operación se utiliza para determinar cualquier desviación en los datos debido a anomalías o excepciones. Se utiliza principalmente para determinar patrones inusuales, cambios de datos en una serie de tiempo fija, discrepancias de datos anteriores y puntos de datos en un conjunto de datos que no pertenecen pertenecen a ningún grupo. Seguir un enfoque sistemático para la implementación de la extracción de datos puede reducir en gran medida los riesgos de fracaso del proyecto. Además, puede ayudar a las personas de negocios y técnicas a determinar la necesidad de
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Técnicas:
La minería de datos es altamente efectiva, efectiva, siempre y cuando se base en una o más de estas técnicas: Patrones de seguimiento Una de las técnicas más básicas en la minería de datos es aprender a reconocer patrones en sus conjuntos de datos. Esto suele ser un reconocimiento de alguna anomalía en sus datos que ocurren a intervalos regulares, o un flujo y reflujo de una determinada variable a lo largo del tiempo. Por Po r ejemplo, puede ver que sus ventas de un determinado producto parecen aumentar justo antes de las vacaciones, o notar que el clima más cálido lleva a más personas a su sitio web. Asociación La asociación está relacionada con los patrones de seguimiento, pero es más específica para las variables vinculadas de forma dependiente. En este caso, buscará eventos o atributos específicos que estén altamente correlacionados con otro evento o atributo; por ejemplo, puede notar que cuando sus clientes compran un artículo específico, a menudo también compran un segundo artículo relacionado. Esto suele ser lo que se usa para rellenar las secciones de "tiendas que también compraron" de las tiendas en línea. Detección de valores atípicos. En muchos casos, el simple hecho de reconocer el patrón general no puede brindarle una comprensión clara de su conjunto de datos. También debe poder
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Predicción La predicción es una de las técnicas de extracción de datos más valiosas, ya que se utiliza para proyectar los tipos de datos que verá en el futuro. f uturo. En muchos casos, solo reconocer y comprender las tendencias históricas es suficiente para trazar una predicción algo precisa de lo que sucederá en el futuro. Por ejemplo, puede revisar el historial crediticio de los consumidores y las compras pasadas para predecir si serán un riesgo crediticio en el futuro.
Herramientas de minería de datos
Entonces, ¿necesita la última y mejor tecnología de aprendizaje automático para poder aplicar estas técnicas? No necesariamente. De hecho, es probable que pueda lograr una extracción de datos de vanguardia con sistemas de bases de datos relativamente modestos y herramientas simples que casi cualquier empresa tendrá. Y si no tiene las herramientas adecuadas adecuadas para el