Théorie de l'apprentissage statistique

La théorie de l'apprentissage statistique est un système d'apprentissage automatique à partir des domaines de la statistique et de l'analyse fonctionnelle[1],[2]. La théorie de l'apprentissage statistique traite du problème de la recherche d'une fonction prédictive basée sur des données. La théorie de l'apprentissage statistique a conduit à des applications dans des domaines tels que la vision par ordinateur, la reconnaissance de la parole, la bioinformatique.

Introduction

Les objectifs de l'apprentissage sont la prédiction et la compréhension. L'apprentissage relève de plusieurs catégories, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage en ligne et l'apprentissage par renforcement. Du point de vue de la théorie de l'apprentissage statistique, l'apprentissage supervisé est le mieux approprié[3]. L'apprentissage supervisé consiste à apprendre à partir d'un ensemble de données de formation. Chaque point de la formation est une paire d'entrées-sorties, où l'entrée correspond à une sortie. Le problème d'apprentissage consiste à déduire la fonction qui mappe entre l'entrée et la sortie, de sorte que la fonction apprise peut être utilisée pour prédire la sortie d'une entrée future.

Selon le type de sortie, les problèmes d'apprentissage supervisés sont soit des problèmes de régression, soit des problèmes de classification. Si la sortie prend une plage continue de valeurs, c'est un problème de régression. En utilisant la loi d'Ohm comme exemple, une régression pourrait être effectuée avec la tension comme entrée et le courant comme sortie. La régression permettrait de trouver la relation fonctionnelle entre la tension et le courant   1 R {\displaystyle {\frac {1}{R}}} , tel que

I = 1 R V {\displaystyle I={\frac {1}{R}}V}

Les problèmes de classification sont ceux pour lesquels la sortie sera un élément d'un ensemble discret. La classification est très courante pour les applications d'apprentissage automatique. Dans la reconnaissance faciale, par exemple, une image du visage d'une personne serait l'entrée, et l'étiquette de sortie serait le nom de cette personne.

Après l'apprentissage d'une fonction basée sur les ensembles de données d'apprentissage, cette fonction est validée sur un ensemble de données de test, qui n'apparaissaient pas dans l'ensemble de formation.

Description formelle

Soit  X {\displaystyle X} un espace vectoriel de toutes entrées possibles, et  Y {\displaystyle Y} l'espace vectoriel de toutes sorties possibles. La théorie de l'apprentissage statistique part du principe qu'il existe une distribution de probabilité inconnue sur l'espace produit Z = X × Y {\displaystyle Z=X\times Y} , i.e.il existe quelque inconnu p ( z ) = p ( x , y ) {\displaystyle p(z)=p({\vec {x}},y)} . L'ensemble de formation est composé de n {\displaystyle n}  partir de cette distribution de probabilité et notée

S = { ( x 1 , y 1 ) , , ( x n , y n ) } = { z 1 , , z n } {\displaystyle S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}}

Tout  x i {\displaystyle {\vec {x}}_{i}}  est un vecteur d'entrée à partir des données d'apprentissage, et y i {\displaystyle y_{i}}  est la sortie qui lui correspond.

Dans ce formalisme, le problème d'inférence consiste à trouver une fonction f : X Y {\displaystyle f:X\mapsto Y} tel que  f ( x ) y {\displaystyle f({\vec {x}})\sim y} . Soit  H {\displaystyle {\mathcal {H}}} un espace de versions  f : X Y {\displaystyle f:X\to Y} Appelé l'espace de versions. L'espace de versions est l'espace des fonctions que l'algorithme recherchera. Soit  V ( f ( x ) , y ) {\displaystyle V(f({\vec {x}}),y)}  la fonction objectif, une métrique pour la différence entre la valeur  f ( x ) {\displaystyle f({\vec {x}})} et l'actuel valeur  y {\displaystyle y} . Le risque attendu est défini comme étant

I [ f ] = X × Y V ( f ( x ) , y ) p ( x , y ) d x d y {\displaystyle I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy}

La fonction cible, la meilleure fonction possible f {\displaystyle f}  qui peut être choisi, est donné par  f o p t {\displaystyle f_{opt}} qui satisfait

f o p t = a r g inf f H I [ f ] {\displaystyle f_{opt}=arg\inf _{f\in {\mathcal {H}}}I[f]}

La distribution de probabilité p ( x , y ) {\displaystyle p({\vec {x}},y)} étant inconnu, il faut utiliser une approximation du risque attendu. Cette approximation se base sur l'ensemble de données d'apprentissage, un échantillon provenant de cette distribution de probabilité. On l'appelle le risque empirique

I S [ f ] = 1 n i = 1 n V ( f ( x i ) , y i ) {\displaystyle I_{S}[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})}

Un algorithme d'apprentissage qui choisit la fonction f S {\displaystyle f_{S}} minimisant le risque empirique est nommé minimisation du risque empirique.

Voir aussi

Références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Statistical learning theory » (voir la liste des auteurs).
  1. Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag (ISBN 978-0-387-84857-0).
  2. Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press (ISBN 9780262018258).
  3. Tomaso Poggio, Lorenzo Rosasco, et al.
v · m
Problèmes
Apprentissage supervisé
Classement
Régression
Réseau de neurones artificiels (ANN)
Apprentissage non supervisé
Clustering
Réduction de dimensions
Réseau de neurones artificiels (ANN)
Optimisation
Théorie
Logiciels
  • icône décorative Portail de l’informatique
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l'informatique théorique