Dans la création d'un ASR (Automatic Speech Recognition) utilisant des réseaux de neurones transformateurs, nous n'avons pas besoin d'utiliser une perte CTC et des modèles de langage, n'est-ce pas ?
J'ai vu que les RNN doivent utiliser des modèles de langage et la perte de CTC.
En disant modèles de langage, je fais référence à des modèles comme kenlm qui aident à voir si la phrase a un sens.
Mais d'abord, les transformateurs font attention, n'est-ce pas ? Il passe également par une intégration positionnelle, donc la perte de CTC est-elle utile ?
Pourquoi un modèle de langage si le mécanisme de l'attention le fait déjà…
Solution du problème
Vous mélangez les choses ici.
Vous pouvez utiliser la perte CTC avec des modèles CNN uniquement, des modèles RNN uniquement et tous les autres types de modèles aussi longtemps que vous avez cette nature séquentielle des données. Je ne vois donc aucune raison de ne pas les utiliser également pour les transformateurs.
Les modèles de langage sont une étape de post-traitement et sont facultatifs. Souvent, ils peuvent corriger de petites erreurs, par exemple lorsque les modèles prédisent "Hella", un modèle de langage peut être en mesure de corriger cela et d'en faire un "Hello". Mais n'attendez pas trop d'eux.
Aucun commentaire:
Enregistrer un commentaire