Titre : | Reconnaissance vocale basée sur les SVM |
Auteurs : | abderezek Benchenief, Auteur ; nour eddine Djedi, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algerie] : Université Mohamed Kheider, 2011 |
Format : | 137p / 30cm |
Accompagnement : | CD |
Langues: | Français |
Mots-clés: | reconnaissance automatique de la parole –la langue anglaise –MFCC –normalisation des entrées – combinaison parallèle de classifieurs –méthode de combinaison –Multi-Class Support Vector Machine (SVM multiclasse). automatic speech recognition –English language –MFCC – standardization of inputs –parallel combination of classifiers –combination method –Multi- Class Support Vector Machine (SVM multiclass). |
Résumé : |
Dans ce travail, nous allons présenter un système de reconnaissance automatique de la parole (RAP) indépendant du locuteur basé sur une combinaison parallèle des classifieurs Multi-Class Support Vector Machine (SVM multiclasse). Ce système proposé utilise comme moteur de reconnaissance les deux Stratégie principales, un contre un, et un contre tous pour éviter des ambiguïtés et comme méthode de fusion l’approche par combinaison basée sur l’intégrale floue de shoquet. Pour être combinés des classifieurs dans un système de reconnaissance automatique de la parole, ils doivent être différents. La diversité entre ces classifieurs est crée par changement des données d’apprentissage (Entraînement discriminant). Ce pondant, les techniques SVM exigent des vecteurs d'entrée de taille fixe. Pour lever cette difficulté, nous avons proposé un algorithme de normalisation des entrées basé sur les valeurs de la kurtosis des trames. Nous cherchons à fiabiliser la reconnaissance en utilisant la complémentarité qui peut exister entre les classifieurs. Les expériences réalisées pour la reconnaissance des chiffres anglais, indiquent que l’utilisation de la combinaison de classifieurs augmente la performance du système de RAP en milieu réel, meilleur taux de reconnaissance obtenu par le système est de 99.72%. In this work, we present a system for automatic speech recognition (ASR) independent of the speaker based on a parallel combination of classifiers Multi-Class Support Vector Machine (SVM multiclass). The proposed system uses as recognition engine the two main strategies, one against one, and one against all to avoid ambiguity and as a method of fusion, the approach by combining based on Choquet Fuzzy Integral. Classifiers to be combined in a system of automatic speech recognition, they must be different. The diversity of these classifiers is created by changing the training data (Discriminate training). The corresponding, SVM techniques require input vectors of fixed size. To overcome this difficulty, we proposed an algorithm for standardization of inputs based on the values of the kurtosis of the frames. We seek to make reliable recognition using the complementarily that may exist between the classifiers. Experiments for the recognition of English digits indicate that the use of the combination of classifiers increases the performance of ASR system in a real environment; the better recognition rate obtained by the system is 99.72%. |
Sommaire : |
Liste des figures IV Liste des tableaux VI Liste des symboles et abréviationsVII Introduction générale.1 Chapitre 1 : Généralités sur le Traitement du signal( parole) 1.1. Introduction 04 1.2. Définitions de base 04 1.3. Représentation des signaux 04 1.4. Transformation de Fourier 06 Convolution 10 Corrélation.11 1.7. Echantillonnage et reconstitution du signa.11 1.8. Processus aléatoires et Bruit. 12 1.9. Le signal de parole .17 1.9.1. Q’est ce que c’est la parole 17 1.9.2. Production de la parole. 18 1.9.3. Caractéristiques phonétiques 1.9.4 Spectre. 1.9.5. Spectrogramme 1.9.6. Forman Conclusion Chapitre 2 : la reconnaissance de la parole 2.1. Introduction . 26 2.2. Reconnaissance de la parole..27 2.2.1. Introduction 27 2.2.2. Définition 27 2.2.3. Historique 28 2.2.4. Principe de fonctionnement 31 2.2.5. Reconnaissance de petits vocabulaires. 36 2.2.6. Reconnaissance de petits vocabulaires de mots isolés36 2.2.7. Reconnaissance de grands vocabulaires 37 2.2.8. Reconnaissance de la parole continue 38 2.2.9. Quelques applications 38 2.2.10. Conclusion 2.3. Prétraitement et extraction des paramètres acoustiques 40 Sommaire II 2.3.1. Extraction des vecteurs acoustiques 40 2.3.2. Le prétraitement 40 2.3.3. Le fenêtrage 2.3.4. Extraction de paramètres caractéristiques 2.3.5. Analyse de données et sélection de caractéristiques Conclusion 2.4. Modèle de reconnaissance de la parole 2.4.1. Comparaison dynamique (dynamic time warping : DTW.54 2.4.2. Modèle de Markov Caché 55 2.4.3. Modèle de Mélange de lois Gaussiennes 59 2.4.4. Réseau de neurones 61 2.4.5. Machines à vecteurs de support (SVM) 64 2.4.6. Comparaison : modèles utilisés en RAP 65 Conclusion. Chapitre 3 : Les Support Vector Machines (SVM) 3.1. Introduction 67 3.2. Machine à vecteur Support et Kernel Machines 67 3.2. Apprentissage statistique et SVM.68 3.3. SVM principe de fonctionnement général 3.3.1. Notions de base: Hyperplan, marge et support vecteur 69 3.3.2. Pourquoi maximiser la marge 3.3.3. Linéarité et non-linéarité 71 3.3.4. Cas non linéaire. 72 3.4. Fondements mathématiques 73 3.4.1. Transformation des entrées 73 3.4.2. Le classifieur linéaire 75 3.4.3. Le classifieur non-linéaire78 3.4.4. Le classifieur multi-classe80 3.5. La reconnaissance de la parole.82 3.6. Les domaines d’applications . 83 3.7.Conclusion.la reconnaissance de chiffres parlés anglais 4.1. Introduction . 85 4.2. SVM pour les Systèmes de reconnaissance de formes 85 4.2. SVM pour La reconnaissance automatique de chiffres parlés 86 4.3. Description des étapes 89 4.3.1. Acquisition 89 4.3.2. Paramétrisation 89 4.3.3. Normalisation des entrées 90 4.3.4. L’apprentissage et le test 94 4.3.5. Les méthodes de fusion de scores . 94 4.4. Résumé de l’algorithme général de reconnaissance de chiffres parlés 101 Conclusion.. Sommaire III Chapitre 5 : Expérience et Résultats 5.1. Chaînes de reconnaissance automatique de la parole. 105 5.2. Les bases de données. 106 5.2.1. Les bases de données de reconnaissance de la parole 106 5.2.2. La base de données, utilisée 107 5.3. Présentation des chaînes du système de reconnaissance proposé 107 5.3.1. Les chaînes à base de SVM.108 5.4. Discussion des résultats obtenus 121 Conclusion générale 123 Références Annexe A : Analyse de données et sélection de caractéristiques . |
Disponibilité (1)
Cote | Support | Localisation | Statut | Emplacement | |
---|---|---|---|---|---|
TH/0236 | Mémoire de magistere | BIB.FAC.ST. | Empruntable | Salle de mémoires et de théses |
Erreur sur le template