Je suis nouveau sur Prodigy et je n'ai pas complètement compris le paradigme. Pour un projet, j'aimerais annoter manuellement des noms à partir de textes. Mon équipe a développé notre propre modèle pour reconnaître les noms, donc je veux seulement utiliser les textes annotés (produits avec Prodigy) comme étalon d'or pour notre modèle.
Pour ce faire, j'ai un fichier csv texts.csv
avec le texte dans l'une des colonnes. Dois-je convertir ce fichier en json, ou puis-je également exécuter Prodigy sur le fichier csv?
De plus, quel est le code que je dois exécuter pour démarrer ner_manual
avec cet ensemble de données ?
Je suppose qu'il faut commencer par:
!python -m prodigy ner.manual
Cependant, je ne sais pas comment je dois gérer le reste. Quelqu'un peut il m'aider avec ça?
Solution du problème
Format de fichier
Je crois que pour les recettes qui disent "Text Source", vous pouvez utiliser jsonl, json, csv ou txt (référez-vous à la section qui dit "Text Source": https://prodi.gy/docs/api-loaders ). Ner.manual dit "Text Source" donc je pense que cela devrait fonctionner. (référence: https://prodi.gy/docs/recipes#ner-manual )
ner.manuel
En ce qui concerne l'exécution de ner.manual, essayez de consulter cette documentation https://prodi.gy/docs/
La documentation contient un bon exemple:
python -m prodigy ner.manual ner_news_headlines blank:en./news_headlines.jsonl --label PERSON,ORG,PRODUCT,LOCATION
Je suis aussi assez nouveau pour prodige donc quelqu'un d'autre peut avoir une meilleure réponse.
Aucun commentaire:
Enregistrer un commentaire