Machine Learning : L'apprentissage par renforcement

Home / Machine Learning / Machine Learning : L'apprentissage par renforcement

Machine Learning : L'apprentissage par renforcement

Posted by IT NISRO 0 commentaires

Le Machine Learning, ou encore l’apprentissage automatique en français, fait partie de l’une des approches de l’intelligence artificielle.

Le Machine Learning est donc une discipline scientifique centrée sur le développement, l’analyse et l’implémentation de méthodes automatisables, qui offrent la possibilité à une machine d’évoluer grâce a un processus d’apprentissage.

Et ainsi d’accomplir des tâches qui auraient été difficiles, voire impossibles, de réaliser avec des algorithmiques plus classiques.

Type d'apprentissage

Le Machine Learning est composé de plusieurs types d’apprentissage qui sont :

L’apprentissage supervisé :

Lorsque le système apprend à classer selon un modèle de classement prédéterminé ainsi que des exemples connus.

L’apprentissage supervisé se découpe en deux parties :

- La première correspond à déterminer un modèle de données étiquetées.
- La deuxième consiste à prédire l'étiquette d'une nouvelle donnée, connaissant le modèle préalablement appris.

Par exemple : L'analyse discriminante est un exemple typique. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe prédéfinie à partir de ses caractéristiques, mesurées à l’aide de variables prédictives.

L’apprentissage non supervisé :

C’est quand le système ne dispose que d'exemples, et que le nombre de classes et leur nature n’ont pas été prédéterminés. On parle d'apprentissage non supervisé ou clustering. Aucun exemple n'est requis. L'algorithme doit découvrir par lui-même la structure en fonction des données.

Par exemple : pour un épidémiologiste qui étudie les victimes du cancer du foie et veut tenter de faire émerger des hypothèses explicatives. L'ordinateur pourrait différencier plusieurs groupes, pour ensuite les associer à divers facteurs explicatifs.

L’apprentissage semi-supervisé

Il utilise un ensemble de données étiquetées et non-étiquetées. Il se situe ainsi entre l'apprentissage supervisé qui n'utilise que des données étiquetées et l'apprentissage non-supervisé qui n'utilise que des données non-étiquetées. Il a été démontré que l'utilisation de données non-étiquetées, en combinaison avec des données étiquetées, permet d'améliorer significativement la qualité de l'apprentissage. Un autre intérêt provient du fait que l'étiquetage de données nécessite l'intervention d'un utilisateur humain. Lorsque les jeux de données deviennent très grands, cette opération peut s'avérer fastidieuse. Dans ce cas, l'apprentissage semi-supervisé, qui ne nécessite que quelques étiquettes, revêt un intérêt pratique évident.

L’apprentissage par renforcement :

L’apprentissage par renforcement correspond au cas où l'algorithme apprend un comportement étant donnée une observation. L'action de l'algorithme sur l'environnement produit une valeur de retour qui guide l'algorithme d'apprentissage.

Mon exposé se centrera essentiellement sur ce dernier type d'apprentissage “L'apprentissage par renforcement", que je vais détailler par la suite.

Apprentissage par renforcement

L’apprentissage automatique a comme objectif de créer des programmes intelligents, au travers de processus d’apprentissage et d’évolution.

L’apprentissage par renforcement consiste à apprendre par interaction avec l’environnement et, en observant le résultat de certaines actions. Il permet à des machines de déterminer automatiquement le comportement idéal dans un contexte spécifique, afin de maximiser ses performances. Pour cela, un simple retour des résultats est nécessaire pour apprendre comment les machines doivent agir. Ceci est appelé le signal de renforcement.

Cela imite la manière fondamentale dont les humains et les animaux apprennent. En tant qu'êtres humains, nous pouvons effectuer des actions et observer leurs résultats sur notre environnement.

Connue sous le nom de «cause à effet», c’est sans doute la clé de la construction de notre connaissance tout au long de notre vie.

Cause à effet

Le terme «cause à effet» pour l’apprentissage par renforcement peut être caractérisé par les étapes suivantes :

1. L'agent observe un état d'entrée
2. Une action est déterminée par une fonction de prise de décision (politique)
3. L'action est effectuée
4. L'agent reçoit une résultât en fonction de son environnement
5. Informations sur le résultât donnée pour cette état ou action est enregistrée

En effectuant des actions, on observe les récompenses qui en résultent, afin de déterminer la meilleure action pour un état donné.

Finalement, si suffisamment d'états sont observés, une politique de décision optimale sera générée et nous aurons une machine qui agie parfaitement dans cet environnement particulier. La machine ne sait pas quelles actions ou décisions prendre, comme dans la plupart des formes d'apprentissage de la machine, mais il doit découvrir quelles actions donnent le plus de récompenses en les essayant.

Dans les cas les plus intéressants, les actions peuvent affecter non seulement la récompense immédiate, mais aussi la situation suivante et, à travers elle, toutes les récompenses suivantes.

Sur quoi cela ce bas ?

Il y a beaucoup d’algorithmes qui abordent cette question.
En fait, l'apprentissage par renforcement est défini par un type spécifique de problème, et toutes les solutions à ces problèmes sont classées comme des algorithmes d’apprentissage par renforcement.

Lorsqu’il y a un problème, la machine est censée décider de la meilleure action à effectuer en fonction de son état actuel.

Lorsque cette étape est répétée, le problème est connu comme étant un processus de décision de Markov.

De façon optimale, l’apprentissage par renforcement utilise des processus de décision de Markov, mais l'idée de base est tout simplement de saisir les aspects les plus importants du vrai problème face à une machine en interaction avec son environnement, pour atteindre un objectif.
De toute évidence, un tel agent doit être capable de détecter l'état de l'environnement dans une certaine mesure et doit être capable de prendre des mesures qui affectent l'état.

Donc on peut en déduire que toute méthode qui s’adapte à la résolution d’un problème est considérée comme une méthode d'apprentissage par renforcement.

Les limite de l'apprentissage par renforcement

Bien que L’apprentissage par renforcement semble être une technologie très efficace et pertinente, il a cependant quelques limites.

Tout d'abord, il est souvent trop coûteux en mémoire, car il doit stocker des valeurs pour chaque État. Et, puisque les problèmes peuvent être assez complexes, cela peut donc devenir très couteux en mémoire.

Ensuite, l’élaboration de cette technologie consiste à mettre en place des techniques d'approximation de valeur, tels que les arbres de décision ou les réseaux de neurones.

De plus, les problèmes sont aussi généralement très modulaires; des comportements similaires réapparaissent souvent. Il est donc très souvent impossible de déterminer entièrement l'état actuel. Cela affecte ainsi la performance de l'algorithme.

Différence entre les différents types d’apprentissage

Que ce soit l'apprentissage supervisé, non-supervisé ou encore par renforcement, ils font tous partie du Machine Learning, mais la différence est que :

L'apprentissage supervisé

L'apprentissage supervisé consiste à apprendre à partir d'exemples fournis par un superviseur externe compétent.

- Un exemple d'apprentissage supervisé est un étudiant passant un examen. L'ayant marqué, on lui montre les questions auxquelles il a répondu de manière incorrecte. Une fois qu’il a vu les bonnes réponses, l'étudiant doit alors apprendre à répondre à ces questions avec succès.

L'apprentissage non supervisé

- Un exemple d'apprentissage non supervisé est quelqu'un qui doit apprendre à jongler par lui-même. La personne va commencer par lancer les boules et tenter de les rattraper. Après avoir fait tomber la plupart des balles, il va progressivement ajuster sa technique et va commencer à ne plus faire tomber les balles.

Ce sont des catégories importantes de l'apprentissage, mais seules, elles ne suffisent pas. Car, il est souvent impossible d'obtenir des exemples de comportements souhaités, à la fois pertinents, et représentatifs de toutes les situations dans lesquelles l'agent doit agir.

- Par exemple, on se trouve en territoire inconnu – tout en voulant être le plus efficace - on doit être en mesure d'apprendre de sa propre expérience. Ce qui serait possible grâce a l'apprentissage par renforcement