![]() |
LABORATORIO
DE SISTEMAS INTELIGENTES |
REDES BAYESIANAS APLICADAS A MINERIA DE DATOS INTELIGENTE
Tesista: Pablo Ezequiel Felgaer
Radicación: Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería
1. INTRODUCCIÓN
Se denomina Minería de Datos al conjunto de técnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implícito,
previamente desconocido, potencialmente últil y humanamente comprensible,
a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada
tendencias y comportamientos; y describir de forma automatizada modelos previamente
desconocidos [Piatetski-Shapiro et al., 1991; Chen et al., 1996; Mannila, 1997].
Cuando hablamos de Minería de Datos Inteligente [Evangelos & Han, 1996; Michalski et al., 1998] nos referimos específicamente a la aplicación de métodos de aprendizaje automático [Michalski et al., 1983; Holsheimer & Siebes, 1991], para descubrir y enumerar patrones presentes en los datos.
A lo largo de varios años, se desarrollaron un gran número de métodos de análisis de datos basados en la estadística [Michalski et al., 1982]. Sin embargo, en la medida en que se incrementaba la cantidad de información almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de eficiencia y escalabilidad y es aquí donde aparece el concepto de minería de datos. Una de las diferencias entre al análisis de datos tradicional y la minería de datos es que el análisis de datos tradicional supone que las hipótesis ya están contruidas y validadas contra los datos, mientras que la minería de datos supone que los patrones e hipótesis son automáticamente extraidos de los datos [Hernández Orallo, 2000].
En general, las tareas de la minería de datos se pueden clasificar en dos categorías: minería de datos descriptiva y minería de datos predictiva [Piatetski-Shapiro et al., 1996; Han, 1999]. Algunas de las técnicas más comunes de minería de datos son los árboles de decisión (TDIDT), las reglas de producción y las redes neuronales.
Las redes bayesianas [Pearl, 1988] son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico [Beinlinch et al., 1989]. Las mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento - basados en las teorías probabilísticas - capaces de predecir el valor de variables no observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten combinar conocimiento con datos [Heckerman et al., 1995; Díaz & Corchado, 1999], evitan el sobre-ajuste de los datos y pueden manejar bases de datos incompletas [Heckerman, 1995; Heckerman & Chickering, 1996; Ramoni & Sebastiani, 1996].
Una red bayesiana es un grafo acíclico dirigido en el que cada nodo representa una variable y cada arco una dependencia probabilística, en la cual se especifica la probabilidad condicional de cada variable dados sus padres. La variable a la que apunta el arco es dependiente (causa-efecto) de la que está en el origen de éste. La topología o estructura de la red nos da información sobre las dependencias probabilísticas entre las variables pero también sobre las independencias condicionales de una variable (o conjunto de variables) dada otra variable(s). Dichas independencias, simplifican la representación del conocimiento (menos parámetros) y el razonamiento (propagación de las probabilidades).
El obtener una red bayesiana a partir de datos, es un proceso de aprendizaje que se divide en dos etapas: el aprendizaje estructural y el aprendizaje paramétrico [Pearl, 1988]. La primera de ellas, consiste en obtener la estructura de la red bayesiana, es decir, las relaciones de dependencia e independencia entre las variables involucradas. La segunda etapa, tiene como finalidad obtener las probabilidades a priori y condicionales requeridas a partir de una estructura dada.
En las redes bayesianas, la dependencia se da a nivel estructural (dependencias e independencias entre variables) y cuantitativa (fuerza de las dependencias).
En este contexto, el propósito de este proyecto es determinar la aplicabilidad de las redes bayesianas para llevar a cabo minería de datos sobre un conjunto de bases de datos y establecer en que medida es posible articular en forma simbólica (reglas) los patrones de relación que la red bayesiana descubre. El resultado que se pretende es hacer explícito a través del uso de redes bayesianas, el conocimiento contenido en forma implícita en la base de datos bajo estudio.
2. OBJETIVOS DEL TRABAJO
2.1. Definir un marco teórico que permita determinar de qué manera,
las redes bayesianas pueden utilizarse para descubrir automáticamente
reglas de negocio de una base de datos.
2.2. Especificar, diseñar, implementar y evaluar un ambiente de minería de datos inteligente basada en redes bayesianas.
2.3. Determinar
la calidad de las reglas inferidas automáticamente por el ambiente de
minería de datos inteligentes desarrollado, contrastándolas con
expertos del dominio.
3. PLAN DE TRABAJO
3.1. Estudio de las redes bayesianas y su potencial aplicación a minería
de Datos.
Tiempo estimado: 4 meses
3.2. Desarrollo de un ambiente inteligente que soporte a la implementación
de una red bayesiana. Se tratará que el ambiente propuesto se oriente
a tratar de resolver el problema de descubrir automáticamente reglas
de negocio a partir de la información disponible en una base de datos.
Tiempo
estimado: 4 meses
3.3. Establecido el ambiente y los mecanismos de descubrimiento automático
de reglas se procederá al diseño experimental y su posterior ejecución
para verificar que las suposiciones teóricas subyacentes en la propuesta
son consistentes.
Tiempo estimado: 2 meses
3.4. Identificación de las limitaciones del trabajo realizado y planteo
de futuras líneas de investigación.
Tiempo estimado: 1 mes
3.5. Compaginación final de la Tesis.
Tiempo estimado: 1 mes
4. BIBLIOGRAFIA
Beinlich, I.A., Suermondt, H.J., Chavez, R.M., Cooper, G.F. (1989). The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks. In proceedings of the 2nd European Conference on Artificial Intelligence in Medicine.
Chen, M., Han, J., Yu, P. (1996). Data mining: An overview from database perspective. IEEE Transactions on Knowledge and Data Eng.
Diaz, F., Corchado, J.M. (1999). Rough sets bases learning for bayesian networks. International workshop on objetive bayesian methodology, Valencia, Spain.
Evangelos, S., Han, J. (1996). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Portland, EE.UU.
Han, J. (1999). Data Mining. Urban and Dasgupta (eds.), Encyclopedia of Distributed Computing, Kluwer Academic Publishers.
Heckerman, D. (1995). A tutorial on learning bayesian networks. Technical report MSR-TR-95-06, Microsoft research, Redmond, WA.
Heckerman, D., Chickering, M., Geiger, D. (1995). Learning bayesian networks, the combination of knowledge and statistical data. Machine learning 20: 197-243
Heckerman, D., Chickering, M. (1996). Efficient approximation for the marginal likelihood of incomplete data given a bayesian network. Technical report MSR-TR-96-08, Microsoft Research, Microsoft Corporation.
Hernández Orallo, J. (2000). Extracción automática de conocimiento de bases de datos e ingeniería de software. Programación declarativa e ingeniería de la programación.
Holsheimer, M., Siebes, A. (1991). Data Mining: The Search for Knowledge in Databases. Report CS-R9406, ISSN 0169-118X, Amersterdam, The Netherlands.
Mannila, H. (1997). Methods and problems in data mining. In Proc. of International Conference on Database Theory, Delphi, Greece.
Michalski, R.S., Baskin, A.B., Spackman, K.A. (1982). A Logic-Based Approach to Conceptual Database Analysis. Sixth Annual Symposium on Computer Applications on Medical Care, George Washington University, Medical Center, Washington, DC, EE.UU.
Michalski, R.S., Carbonell, J.G., Mitchell, T.M. (1983). Machine learning I: An AI Approach. Morgan Kaufmann, Los Altos, CA.
Michalski, R.S., Bratko, I., Kubat, M. (1998). Machine Learning and Data Mining, Methods and Applications. John Wiley & Sons Ltd, West Sussex, England.
Pearl, J. (1988). Probabilisic reasoning in intelligent systems. Morgan Kaufmann, San Mateo, CA.
Piatetski-Shapiro,
G., Frawley, W.J., Matheus, C.J. (1991). Knowledge discovery in databases: an
overview. AAAI-MIT Press, Menlo Park, California.
Piatetsky-Shapiro, G., Fayyad, U.M., Smyth, P. (1996). From data mining to knowledge
discovery. AAAI Press/MIT Press, CA.
Ramoni, M., Sebastiani, P. (1996). Learning bayesian networks from incomplete databases. Technical report KMI-TR-43, Knowledge Media Institute, The Open University.