Laboratoire de Génie Informatique et d’Automatique de l’Artois

Séminaire

Fouille de données : des bases binaires aux bases évidentielles

Le 8 janvier 2013 à 14h00 Salle des séminaires du LGI2A, FSA, Béthune
Ahmed SAMET Doctorant LGI2A

L’extraction d’informations pertinentes à partir d’un volume important de données, est une discipline qui suscite l’engouement des chercheurs depuis plusieurs décennies. Elle s’est accentuée ces dernières années avec l’apparition des entrepôts de données et bien d’autres bases très volumineuses. C’est dans ce contexte que la fouille de données (en anglais Data mining) s’est développée et a proposé des solutions pour gérer ce type de données. En effet, grâce à la fouille de données, il est possible d’exploiter de données et ainsi d’extraire des informations sous formes de règle.
Depuis son introduction par Agrawal et Srikant en 1994, la fouille de données s’est attaquée au problème d’analyse des paniers de la ménagère (Market Basket Analysis) qui définisse les bases crisp. Dans ce type de base, un article n’a que deux états (existant ou inexistant). Des solutions pour représenter les informations et des algorithmes de génération de règles ont été proposés dans ce contexte.
Dans la plupart des situations réelles, travailler sur une base binaire n’est pas possible. L’incertitude et le manque d’informations représentent quelques un des facteurs qui peuvent perturber l’analyse des bases. Le concept de base incertaine et floue est apparu poussant la communauté de la fouille de données à proposer des solutions sur ce genre de base. Récemment, d’autres bases moins informatives et plus complexes ont vu le jour comme les bases évidentielles. Dans ce cas, l’’imprécision et l’incertitude sont formalisées selon la théorie de l’évidence. Chaque élément de cette base est représenté par une fonction de masse décrivant son appartenance.
Dans cet exposé, nous présenterons le concept de fouille de données et les différentes notions qu’elle comporte. Nous étudierons les notions de représentation concise de données ainsi que les bases génériques. Nous présenterons, avec exemples à l’appui, la fouille de données dans le cadre
flou et évidentiel en utilisant des approches classiques de la bibliographie.

Mots clés

Data mining, Théorie de l’évidence, Théorie des ensembles flous, Représentation Concise, Base Générique.

In english

Title :
Data mining : from binary to evidential bases

Abstract
The extraction of pertinent information from a high number of data set, has attracted the interest of many researchers. The interest has taken another dimension since the introduction of data warehouse and other data supports. In this context, the data mining domain has developed and has proven its efficiency in those recent years. Thanks to data mining and its rules generation, exploiting data bases has become an easier task.
Since its introduction by Agrawal and Srikant in 1994, the data mining has initially tackled Market Basket Analysis problem (MBA). In those crisp (binary) bases, an item can only have two states (exist or does not exist). Several solutions for data representation and associative rule generation algorithms have been proposed.
In reality, working with this kind of data (binary) is not that obvious. An information may contains uncertainty or lack precision, therefore working with the usual data mining approach becomes ineffective. The apparition of a new kind of base (fuzzy base) has led the data mining research community to propose new solutions.
Recently, the evidential base has been introduced formalized with Dempster-Shafer theory. Thanks to its formalism support, this base introduce new type of data lacking precision and adding complexity where each item is represented by a belief function.
In this presentation, we demonstrate the main concept of data mining domain. We study several aspects of concise data representation and generic bases. We present, with examples, the fuzzy and evidential data mining and several referenced approaches.

Keywords :
Data mining, Evidence theory, Fuzzy Theory, Concise Representation, Generic base.