La inducción reúne las técnicas estadísticas predictivas más usadas en Data Mining. En este curso se han reunido una serie de técnicas procedentes de distintos campos como el análisis multivariante. Además el aprendizaje estadístico, la inteligencia artificial y técnicas de machine learning. La mayoría de las técnicas presentadas son técnicas predictivas, cuyo objetivo principal es desarrollar un modelo matemático que permita obtener predicciones. Pero en una variable de interés en observaciones no incluidas en la construcción del modelo. Se han seleccionado las técnicas predictivas más importantes y cuyo uso está más extendido: regresión lineal y logística, métodos penalizados (LASSO). Y métodos basados en árboles (CART), support vector machines (SVM), redes neuronales, random forest, etc.
El curso incluye los aspectos más importantes para la construcción de modelos predictivos: preprocesamiento y descripción básica de los datos. Así como optimización de los parámetros involucrados en cada una de las técnicas, evaluación de la capacidad predictiva de los modelos mediante técnicas de remuestreo. Selección de variables que van a formar parte del modelo, comportamiento de cada técnica en problemas de alta dimensión, etc.
Temario Del Curso De Data Mining
- Introducción. Data Mining. Aprendizaje Supervisado y No Supervisado.
- Además modelos. Predictivos. Clasificación y Regresión.
- Nociones de R. Funciones y programación. Tratamiento de datos.
- Análisis descriptivo. Pre-procesamiento de datos.
- Pero también análisis de Componentes Principales (PCA).
- Análisis Clúster. Métodos Jerárquicos. K-means.
- Así como el análisis Discriminante Lineal (LDA). Clasificador Naïve Bayes.
- Regresión Logística.
- Medidas de Evaluación de Modelos. Medidas de capacidad predictiva.
- Curvas ROC.
- Por otra parte, técnicas de Evaluación de Modelos. Validación cruzada. Muestras
- Regresión Lineal. Métodos de Regresión por pasos.
- Regresión sobre Componentes Principales. Mínimos Cuadrados Parciales (PLS).
- Métodos de Regresión Penalizados. Ridge Regression. LASSO.
- Por otro lado, métodos basados en Vecindad y Núcleos. k-NN.
- Redes Neuronales (NN).
- Support Vector Machines (SVM).
- Árboles de Regresión y Clasificación (CART).
- Lo más importante, multiclasificadores. Bagging. Boosting.
- Random Forest (RF).
- Selección de Variables. Filter. Wrapper. Recursive Feature Elimination.
- Caso práctico: Comparación de Modelos Predictivos.
- En definitiva, caso práctico: Evaluación de la Significación Estadística de un Clasificador mediante Test de Permutaciones.
Requisitos del curso Data Mining
Para el máximo aprovechamiento del módulo, son necesarios conocimientos de R y de Estadística. Pero incluido modelos de regresión (en caso de duda contacten con los profesores del módulo).
Para Qué Sirve El Data Mining
El Data mining tiene como finalidad revelar información que no podría encontrarse de otra forma. En las bases de datos, se usa para encontrar patrones. Pero también puede usarse en ficheros, carpetas o conjuntos de información para dar con detalles omitidos. También pautas e incluso realizar predicciones en base al análisis de los datos que se hayan podido obtener. Es una de las técnicas más empleadas hoy en día en numerosos ámbitos, sobre todo dentro del marketing digital. Campos como el SEO, por ejemplo, pueden beneficiarse de este conjunto de técnicas a la hora de elaborar estrategias con las que escalar puestos.
Pasos Que Deben Usar Los Analistas De Data Mining
Valor de los objetivos: El cliente determina qué objetivos quiere conseguir gracias al uso del Data Mining. Proceso de los datos: Selección, limpieza, enriquecimiento, reducción y transformación de la base de datos. Determinación del modelo: Primero se debe hacer un análisis estadístico de los datos y después visualización gráfica de los mismos. Análisis de los resultados: En este paso se deberán verificar si los resultados obtenidos son coherentes.
Ventajas Del Data Mining
Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con algoritmos, ya que permite hacer muchas combinaciones distintas. Es capaz de analizar bases de datos con una enorme cantidad de datos. Permite encontrar, atraer y retener clientes. La empresa puede mejorar la atención al cliente a partir de la información obtenida. Da a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan. Antes de usar los modelos, estos son comprobados mediante estadísticas para verificar que las predicciones obtenidas son válidas. Ahorra costes a la empresa y abre nuevas oportunidades de negocio.