Créez votre outil de mots clés avec Python et ChatGPT : un guide d’analyse de Subreddit

Ici, vous apprendrez comment demander à ChatGPT d’extraire les requêtes à 1 mot, 2 mots et 3 mots les plus répétées du fichier Excel. Cette analyse donne un aperçu des mots les plus fréquemment utilisés dans le subreddit analysé, aidant ainsi à découvrir les sujets courants. Le résultat sera une feuille Excel avec trois onglets, un pour chaque type de requête.

Structurer l’invite : explication des bibliothèques et des ressources

Dans cette invite, nous demanderons à ChatGPT de lire un fichier Excel, de manipuler ses données et d’enregistrer les résultats dans un autre fichier Excel à l’aide de la bibliothèque Pandas. Pour une analyse plus globale et plus précise, combinez les colonnes « Titres des questions » et « Texte de la question ». Cette fusion fournit un ensemble de données plus riche pour l’analyse.

L’étape suivante consiste à décomposer de gros morceaux de texte en mots individuels ou en ensembles de mots, un processus connu sous le nom de tokenisation. La bibliothèque NLTK peut gérer cela efficacement.

De plus, pour garantir que la tokenisation capture uniquement les mots significatifs et exclut les mots courants ou la ponctuation, l’invite comprendra des instructions pour utiliser les outils NLTK tels que RegexpTokenizer et les mots vides.

Pour améliorer le processus de filtrage, notre invite demande à ChatGPT de créer une liste de 50 mots vides supplémentaires, en filtrant les phrases familières ou les expressions courantes qui pourraient être répandues dans les discussions du subreddit mais ne sont pas incluses dans les mots vides de NLTK. De plus, si vous souhaitez exclure des mots spécifiques, vous pouvez créer manuellement une liste et l’inclure dans votre invite.

Lorsque vous avez nettoyé les données, utilisez la classe Counter du module de collecte pour identifier les mots ou expressions les plus fréquents. Enregistrez les résultats dans un nouveau fichier Excel nommé « combined-queries.xlsx ». Ce fichier comportera trois feuilles distinctes : « Requêtes à un mot », « Requêtes à deux mots » et « Requêtes à trois mots », chacune présentant les requêtes ainsi que leur fréquence de mention.

La structuration de l’invite garantit une extraction, un traitement et une analyse efficaces des données, en tirant parti des bibliothèques Python les plus appropriées pour chaque phase.

Exemple d’invite testée pour l’extraction de données avec des suggestions d’amélioration

Vous trouverez ci-dessous un exemple d’invite qui capture les points mentionnés ci-dessus. Pour utiliser cette invite, copiez-la simplement et collez-la dans ChatGPT. Il est essentiel de noter que vous n’avez pas besoin de respecter strictement cette invite ; n’hésitez pas à le modifier en fonction de vos besoins spécifiques.

« Extrayons les requêtes à 1 mot, 2 mots et 3 mots les plus répétées du fichier Excel nommé ‘{nom de fichier}.xlsx.’ Utilisez des bibliothèques Python comme Pandas pour la manipulation des données.

Commencez par lire le fichier Excel et combinez les colonnes « Titres des questions » et « Texte de la question ». Installez et utilisez la bibliothèque NLTK et ses ressources nécessaires comme Punkt pour la tokenisation, en vous assurant que les signes de ponctuation et autres caractères non alphanumériques sont filtrés pendant ce processus. Tokenisez le texte combiné pour générer des requêtes à un mot, deux mots et trois mots.

Avant d’analyser la fréquence, filtrez les mots vides courants à l’aide de la bibliothèque NLTK. En plus des mots vides NLTK, intégrez une liste supplémentaire de mots vides de 50 verbes auxiliaires, contractions et expressions familières courants. Cette liste supplémentaire doit se concentrer sur des expressions telles que « Je le ferais », « Je devrais », « Je ne le fais pas », etc., et être utilisée avec les mots vides NLTK.

Une fois les données nettoyées, utilisez la classe Counter du module de collections pour déterminer les requêtes les plus fréquentes à un mot, deux mots et trois mots.

Enregistrez les résultats dans trois feuilles distinctes dans un nouveau fichier Excel appelé « combined-queries.xlsx ». Les feuilles doivent être nommées « Requêtes à un mot », « Requêtes à deux mots » et « Requêtes à trois mots ». Chaque feuille doit répertorier les requêtes ainsi que le nombre de fois où elles ont été mentionnées sur Reddit.

Montrez-moi la liste des 5 principales requêtes et leur nombre pour chaque groupe dans 3 tableaux. »

Optimiser le nombre de mots-clés pour une sortie plus rapide

Lorsque vous extrayez des données de nombreuses questions, envisagez de demander moins de mots-clés en sortie pour accélérer le processus. Par exemple, si vous avez extrait les données de 400 questions, vous pouvez demander à ChatGPT de vous montrer uniquement les 3 principaux mots-clés. Si vous souhaitez afficher plus de mots-clés, téléchargez simplement le fichier. Cette approche réduira le temps de traitement de ChatGPT.

Rationalisation de l’invite de sortie directe

Si vous continuez à subir des interruptions mais que vous ne souhaitez pas comprendre le flux de travail, pensez à ajouter la ligne suivante à la fin de votre invite : « Pas besoin d’explication ; il suffit de fournir le résultat.  » Cette directive demande à ChatGPT de se concentrer sur la fourniture du résultat souhaité.

Informations SEO basées sur les données avec ChatGPT

Maintenant, vous avez préparé deux ensembles de données ; le premier est une liste de questions et leurs URL, le nombre de commentaires et les votes positifs. Pendant ce temps, la seconde est une liste de requêtes à un mot, deux mots et trois mots.

Pour analyser ou visualiser ces données avec ChatGPT, utilisez le plugin Noteable ou téléchargez les fichiers Excel depuis l’application Noteable et téléchargez-les sur l’outil d’analyse de données ChatGPT. Pour ce guide, utilisez le plugin Noteable pour maintenir la cohérence au sein d’un même chat.