CURSO | Aprendizaje automático aplicado a la selección de atributos

Actividad del plan formativo del programa de doctorado en Estatística e Investigación Operativa, aunque pueden asistir alumnos del Máster en Técnicas Estadísticas y alumnado del CITIUS. Este curso está coorganizado por el Instituto de Matemáticas de la Universidad de Santiago de Compostela.

Modalidad online (mediante TEAMS).

Fechas: 21, 22 y 25 de junio de 2021. El horario será de 15:00h a 17:00h.


Docente: Néstor Barraza Universidad Nacional de Tres de Febrero (UNTREF). Profesor visitante en la USC a través del Programa Xeral de mobilidade fóra do EEES (USC).

Objetivos: El problema de selección de atributos cumple un importante rol en Análisis de datos (Data analytics) y grandes datos (Big Data), ya sea tanto para determinar las principales características y sus relaciones en un dataset como para simplificar los algoritmos de aprendizaje automático a los efectos de reducir probabilidades de error y velocidad de procesamiento. La aplicación de diferentes métodos de selección de atributos sobre un determinado dataset arroja diferentes resultados. El objetivo de este curso es la de revisar y comparar diferentes métodos de selección de atributos tanto en sus fundamentos como en sus aplicaciones remarcando la importancia de la necesidad de un experto en el dominio de conocimiento para guiar los algoritmos. Dado que en las últimas décadas se ha puesto énfasis en los algoritmos, determinado por la gran capacidad de almacenamiento y procesamiento alcanzados, como otro de los objetivos de este curso, revisaremos los fundamentos teóricos en los que se basan esos algoritmos, principalmente en lo que respecta a la teoría Bayesiana y la Teoría de Información. Se mostrarán ejemplos de aplicación sobre datasets reales.

Modalidad: 3 clases de 2 hs. Cada una

Clase 1. Introducción
El problema de la selección de atributos. Algoritmos de aprendizaje automático, Teoría Bayesiana y Teoría de Información. Métodos paramétricos, no paramétricos y sin métrica. Aprendizaje supervisado y no supervisado.

Clase 2. Algoritmos y su fundamentación teórica
Revisión de Teoría Bayesiana y Teoría de Información. Naive Bayes. Estimador empírico de Bayes. Entropía e Información mutua. Árboles de decisión: CART, ID3 y C4.5

Clase 3. Aplicaciones
Aplicaciones y ejemplos sobre datasets reales. Resumen. Discusión

Bibliografía:
- Pattern classification 2nd edition RO Duda, PE Hart, DG Stork New York, USA: John Wiley&Sons, 35, 2001
- Machine learning: a probabilistic perspective. Murphy, K. P. Cambridge, MA: MIT Press. Chicago. 2012
- An Introduction to Statistical Learning : with Applications in R.Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. New York :Springer, 2013.
- Mutual information and sensitivity analysis for feature selection in customer targeting: A comparative study. Nestor R. Barraza; Sergio Moro; Marcelo Ferreyra; Adolfo De La Peña. JOURNAL OF INFORMATION SCIENCE. London: SAGE PUBLICATIONS LTD. 2018 vol.45 n°1. p53 - 67. issn 0165-5515.
- The Empirical Bayes Estimator and Mixed Distributions. Nestor R. Barraza. AIP CONFERENCE PROCEEDINGS.: AIP Conference Proceedings. 2008 vol.1073 n°. p103 - 110. issn 0094-243X
- On the Statistical Comparison of Feature Selection Methods and the Role of Experts. The case of Las Vegas strip. Nestor R. Barraza; Antonio Alfredo Moreno. Argentina. Buenos Aires. 2020. Revista. Artículo Completo. Congreso. 49 JAIIO. Jornadas Argentinas e Informática. SADIO