Titre : | Application de l'apprentissage par renforcement pour la navigation d'un robot mobile |
Auteurs : | Cherroun Lakhmissi, Auteur ; Boumehraz Mohamed, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algerie] : Université Mohamed Kheider, 2009 |
Format : | 130.P / Ill / 30/20 cm |
Accompagnement : | CD |
Langues: | Français |
Mots-clés: | التعلم بالتدعيم، آلي متحرك، ملاحة، تجنب الحواجز Apprentissage par renforcement,Q-learning,robot mobile,navigation,évitement d’obstacles. Reinforcement Learning,mobile robot,obstacle avoidance. |
Résumé : |
في الصناعة الحديثة، يحضى الآلي المتحرك بمكانة هامة، هذه الآليات كثيرا ما تستدعى للقيام بمهام مختلفة، التي تستلزم الحركة
في محيط العمل. في بعض الحالات الحصول على المعارف هي مهمة صعبة. يهدف هذا العمل إلى التحكم في الآلي المتحرك بتطبيق تقنية التعلم بالتدعيم. وهي تقنية التعلم عن طريق الخبرة، حيث لا تتطلب سوى قيمة عددية عائدة تقيم الأمر المطبق. تسمح القيمة التدعيمية للمبحر بتعديل إستراتيجيته حتى يتوصل إلى تحسين أدائه. قمنا أولا بتطبيق الخــــــوارزم Q-learning بفضاءات الحالة و الأوامر المنفصلة للقيام بإبحار الآلي المتحرك، ثم التحكم بمخططات محلية معتمدة على المنطق الغامض. لإدماج خصائص تقنيتي التعلم بالخبرة و المنطق الغامض، استعملنا إستراتيجية تحكم بإمكانية التعلم. وهي عبارة عن تمديد للخوارزم Q-learning للقيم المتصلة. حيث أن استعمال المنطق الغامض يسمح بتقديم معارف مبدئية ليكون السلوك الأولي للمتعلم مقبول. Dans l’industrie moderne, les robots mobiles occupent une place primordiale. Ces machines sont souvent appelés à effectuer plusieurs tâches, qui nécessitent l’évolution dans son environnement. Dans certains cas, l’acquisition des connaissances est une tâche difficile à réaliser. L’objectif de ce travail porte sur la commande d’un robot mobile en utilisant la technique d’apprentissage par renforcement. C’est une technique d’apprentissage à partir de l’expérience, en ne nécessitant qu’un signal scalaire comme retour indiquant la performance de l’action appliquée. Le signal de renforcement permet au navigateur d’ajuster sa stratégie pour améliorer ses performances. Tout d’abord, l’algorithme Q-learning avec des espaces d’états et d’actions discret est appliqué, puis des planificateurs locaux à base de la logique floue sont développés pour la navigation d’un robot mobile. Pour combiner les avantages des deux techniques, une stratégie de commande avec une capacité d’apprentissage est utilisée. C’est une extension de Q-learning aux cas continus, ou le système d’inférence floue, permettant l’introduction des connaissances disponibles à priori pour que le comportement initial soit acceptable. In modern industry, the mobile robot takes a paramount place. These machines have to carry out certain tasks, which require the evolution in his environment. In some cases, knowldge acquisition is a very difficult task. The objective of this work is the mobile robot control using reinforcement Learning technique. It is the approach of learning by experience; it needs only feedback signal to indicate the performance of applied action. This reinforcement value permits the navigator to adjust its strategy to ameliorate its performances. First of all, we applied the Q-learning algorithm with discreet situations and actions spaces. Then, we developed the control systems based on fuzzy logic approach for mobile robot navigation. In order to combine the advantages of the two techniques, a control strategy with a learning capacity was used. When the using of fuzzy inference system permit to introduce a primary knowledge in order to make the first behavior acceptable. |
Sommaire : |
Introduction Générale…
CHAPITRE I : La Robotique Mobile I.1 Introduction 04 I.2 Définitions…05 I.2.1 Le robot mobile…05 I.2.2 L’autonomie d’un robot mobile…05 I.3 Classification des robots mobiles…0 5 I.3.1 Robot mobile à roues …06 I.3.1.1 Robot à roue unicycle 06 I.3.1.2 Robot mobile omnidirectionnelle 07 I.3.1.3 Robot à roue différentielle 08 I.3.1.4 Robot de type tricycle 09 I.3.1.5 Robot de type voiture 09 I.3.1.6 Robot à traction synchrone…10 I.3.2 Robot mobile à chenille…10 I.3.3 Robot mobiles à pattes 11 I.3.4 Autres moyens de locomotion 11 I.4 Perception (Les sources d’informations)11 I.4.1 Les informations proprioceptives 11 I.4.1.1 L’odométrie…12 I.4.1.2 Les systèmes radar doppler 12 I.4.1.3 Les systèmes inertiels 12 I.4.2 Les informations extéroceptives (perceptions)12 I.4.2.1 Les télémètres 12 I.4.2.1.1 Télémètres à ultrason 12 I.4.2.1.2 Télémètres à infrarouge 13 I.4.2.1.3 Télémètres laser 13 I.4.2.2 Les caméras 13 I.4.2.3 Autres capteurs 14 I.4.2.3.1 Les capteurs tactiles 14 I.4.2.3.2 Les boussoles 14 I.4.2.3.3 Les balises 14 I.4.2.3.4 Le GPS (Global Positioning System) 14 I.5 Navigation autonome des robots mobiles 14 I.5.1 Chemin admissible et trajectoire 15 I.5.2 Les stratégies de navigation 15 I.5.2.1 Planification de mouvement 15 I.5.2.1.1 Planification globale de trajectoire 15 I.5.2.1.2 Planification locale de trajectoire 16 I.5.2.2 Localisation I.5.2.3 Suivi de trajectoire 16 I.5.2.4 Évitement d’obstacles 17 I.5.2.5 Parking 17 I.6 Les architectures de contrôle 17 I.6.1 Contrôleur Hiérarchique 18 I.6.2 Contrôleur réactive 18 I.6.3 Contrôleur hybride 18 I.7 Les applications de la robotique mobile 19 I.8 Conclusion 20 CHAPITRE II : Apprentissage Par Renforcement II.1 Introduction 21 II.2 Quelques notions utilisées 21 II.2.1 Intelligence Artificielle (IA)21 II .2.2 Agent 21 II.2.3 L’apprentissage 21 II.3 L’apprentissage par Renforcement 23 II.4 Les processus de décision markoviens PDM… 24 II .4.1 Propriété de Markov 24 II .4.2 La politique… 25 II .4.3 Fonction de valeurs 25 II .4.4 L’équation de Bellman…26 II .4.5 L’équation d’optimalité de Bellman…27 II.5 La programmation Dynamique 28 II .5.1 L’Algorithme d’itération de la valeur 29 II.5.2 L’Algorithme d’itération de la politique…30 II.6 Méthodes de Monte Carlo…31 II.7 La notion de différence temporelle…32 II.7.1 L’algorithme TD(0) 33 II.7.2 L’algorithme SARSA…33 II.7.3 L’algorithme Q-Learning…34 II.7.3.1 Fonction d’évaluation…35 II.7.3.2 Fonction de renforcement…36 II.7.3.3 Fonction de mise à jour…36 II.7.3.4 Convergence…36 II.8 L’architecture Acteur Critique…37 II.9 Le Choix de l’action (Exploration et Exploitation) 39 II.10 Traces d’éligibilité…40 II.11 Comparaison entre la programmation dynamique et l'AR 41 II.12 Applications et limitations de l’apprentissage par renforcement…42 II.13 Conclusion…43 CHAPITRE III: La Navigation D’un Robot Mobile en Utilisant le Q-Learning III.1 Introduction…44 III.2 L’apprentissage par renforcement pour la navigation d’un robot mobile… III.3 Modélisation…45 III.3.1 Modèle du robot mobile…45 III.3.2 Modélisation des capteurs 46 III.3.3 Modélisation des Obstacles…47 III.3.4 Calcul des distances 48 III.4 Application de Q-Learning pour la navigation d’un robot mobile III.4.1 Navigation libre sans obstacle (Recherche de cible)…50 III.4.2 Evitement d’obstacle 57 III.4.3 Navigation avec évitement d’obstacle…63 III.4.4 Navigation avec évitement d’obstacle en utilisant les capteurs 65 III.5 Utilisation des traces d’éligibilités…69 III.6 Conclusion…75 CHAPITRE IV: La Navigation D’un Robot Mobile en Utilisant La Logique Floue IV.1 Introduction 76 IV.2 Les Systèmes d’inférence floue (SIFs) 76 IV.2.1 Modèle de Mamdani…76 IV.2.2 Modèle de Takagi-Sugeno…77Cherroun Lakhmissi…78 IV.3 La navigation d’un robot mobile en utilisant la logique floue 79 IV.3.1 Evolution du robot dans un environnement libre d’obstacle…79 IV.3.2 Evolution du robot mobile dans un environnement avec obstacles…81 IV.3.2.1 Evitement d’obstacles par les mesures de distance et de l’erreur angulaire IV.3.2.2 Résultats de simulation 83 IV.3.2.2.1 Navigation libre…83 IV.3.2.2.2 Navigation avec évitement des obstacles 84 IV.3.3 Evitement d’obstacles en utilisant les capteurs… 85 IV.3.3.1 Résultats de simulation…89 IV.3.4 Navigation du robot mobile en utilisant 3 capteurs…92 IV3.4.1 Résultats de simulation… 93 IV.4 Conclusion…96 CHAPITRE V: La Navigation D’un Robot Mobile en Utilisant le Q-Learning Flou V.1 Introduction 97 V.2 Représentation de la fonction de qualité…97 V.2.1 L’Architecture Q-CON…97 V.2.2 L’Architecture Q-FUZ…98 V.2.3 Le Q-Learning Flou… 98 V.2.3.1 Extraction de la connaissance 99 V.2.3.2 Choix des conclusions…101 1- Sans connaissance à priori 101 2- Connaissance imprécise 101 3- Connaissance précise 101 V.2.3.3 Fusion des connaissances 102 V.3 Application de Q-Learning flou pour la navigation d’un robot mobile V.3.1 Navigation libre (Recherche de la cible) 103 V.3.2 Evitement d’obstacles 112 V.3.3 Navigation avec évitement d’obstacles en utilisant les capteurs 115 V.3.3.1 Suivi de mur avec des connaissances imprécises 116 V.3.3.2 Navigation vers la cible avec aucune connaissances à priori…. 122 V.4 Utilisation des traces d’éligibilités 126 V.5 Conclusion 128 Conclusion Générale Bibliographie…131 |
Disponibilité (2)
Cote | Support | Localisation | Statut | Emplacement | |
---|---|---|---|---|---|
TH/0150 | Mémoire de magistere | BIB.FAC.ST. | Empruntable | Salle de mémoires et de théses | |
TH/0150 | Mémoire de magistere | BIB.FAC.ST. | Empruntable | Salle de mémoires et de théses |
Erreur sur le template