GOOGLE ADS

samedi 16 avril 2022

Si j'utilise des transformateurs nn, je n'ai pas besoin d'utiliser des modèles de perte et de langage CTC ?

Dans la création d'un ASR (Automatic Speech Recognition) utilisant des réseaux de neurones transformateurs, nous n'avons pas besoin d'utiliser une perte CTC et des modèles de langage, n'est-ce pas ?

J'ai vu que les RNN doivent utiliser des modèles de langage et la perte de CTC.

En disant modèles de langage, je fais référence à des modèles comme kenlm qui aident à voir si la phrase a un sens.

Mais d'abord, les transformateurs font attention, n'est-ce pas ? Il passe également par une intégration positionnelle, donc la perte de CTC est-elle utile ?

Pourquoi un modèle de langage si le mécanisme de l'attention le fait déjà…


Solution du problème

Vous mélangez les choses ici.

  • CTC est une fonction de perte pour les réseaux de neurones utilisés pour les tâches de séquence à séquence (par exemple audio à texte)

  • RNN, CNN, transformateurs,... décrivent l'architecture/le type d'un modèle

  • Les modèles de langage sont une étape de post-traitement, appliquée après que le modèle a calculé une sortie pour l'entrée

  • Vous pouvez utiliser la perte CTC avec des modèles CNN uniquement, des modèles RNN uniquement et tous les autres types de modèles aussi longtemps que vous avez cette nature séquentielle des données. Je ne vois donc aucune raison de ne pas les utiliser également pour les transformateurs.

    Les modèles de langage sont une étape de post-traitement et sont facultatifs. Souvent, ils peuvent corriger de petites erreurs, par exemple lorsque les modèles prédisent "Hella", un modèle de langage peut être en mesure de corriger cela et d'en faire un "Hello". Mais n'attendez pas trop d'eux.

    Aucun commentaire:

    Enregistrer un commentaire

    Comment utiliseriez-vous .reduce() sur des arguments au lieu d'un tableau ou d'un objet spécifique ?

    Je veux définir une fonction.flatten qui aplatit plusieurs éléments en un seul tableau. Je sais que ce qui suit n'est pas possible, mais...