En classification, les événements rares sont difficiles à identifier en raison de leur rareté parmi les données d’apprentissage. Il s’agit d’un problème important car la mauvaise classification des événements rares peut être très coûteuse. Par exemple, ne pas détecter une transaction financière frauduleuse peut entraîner d’énormes pertes pour une organisation. Ce type de situation peut être qualifié de problème de classification avec des données déséquilibrées, où dans la base d’apprentissage l’une des classes représente une minorité des données et la classe la plus répandue est appelée la classe majoritaire. Pour résoudre le problème du déséquilibre, de nombreuses approches ont été proposées au fil des ans, dont la plupart sont basées sur le rééchantillonnage des données, les adaptations des algorithmes de classifications, l’adaptation des coûts de décision, ainsi que différentes combinaisons de ces approches.
Malgré l’attrait que les données déséquilibrées reçoivent dans la littérature, il reste encore de nombreux problèmes liés à ce sujet qui ne sont pas encore abordés. L’incertitude est l’un de ces problèmes. Ce problème est courant dans l’apprentissage supervisé. En fait, on peut le trouver à chaque étape du processus d’apprentissage, du prétraitement des données à la sélection du modèle. Dans la classification déséquilibrée, on peut distinguer différentes sources d’incertitudes. Pour y faire face, cette thèse se concentrera sur le développement de méthodes basées sur la théorie des fonctions de croyance.