Ce que vous devez savoir sur les LLM

Commençons donc par les étapes qu’ils doivent suivre pour ChatGPT, par exemple, pour vous donner une réponse à une question. Encore une fois, comme les moteurs de recherche, ils doivent d’abord rassembler les données.

Ensuite, ils doivent enregistrer les données dans un format auquel ils peuvent accéder, puis ils doivent vous donner une réponse à la fin, ce qui s’apparente à un classement. Si nous commençons par collecter les données, c’est ce qui se rapproche le plus des moteurs de recherche que nous connaissons et aimons. Ils accèdent donc essentiellement à des pages Web, explorent Internet, et s’ils n’ont pas visité de page Web ou obtenu une autre source d’information, ils ne connaissent tout simplement pas cette réponse. Ils sont en quelque sorte désavantagés ici parce que les moteurs de recherche font cela, enregistrent ces informations depuis des décennies, alors qu’ils ne font que commencer.

Ils ont donc beaucoup de retard à rattraper. Il existe de nombreux coins d’Internet qu’ils n’ont pas vraiment pu visiter. L’une des choses qu’ils peuvent faire, une information qu’ils peuvent collecter et à laquelle les autres moteurs de recherche ne peuvent pas accéder, ce sont les données de chat. Ainsi, lorsque vous utilisez les plateformes, elles collectent des données sur ce que vous mettez et sur la façon dont vous interagissez avec elles, et cela alimente leur modèle de formation.

C’est donc une chose dont vous devez être conscient lorsque vous travaillez avec des plateformes comme ChatGPT, c’est que si vous y insérez des données privées, elles ne sont pas nécessairement privées après cela. Vous souhaiterez peut-être examiner vos paramètres ou envisager d’utiliser les API, car elles ont tendance à promettre qu’elles ne s’entraînent pas sur les données de l’API. Si nous passons à la deuxième étape, la sauvegarde de ces informations, c’est un peu ce que nous appelons l’indexation dans la recherche, et c’est là que les choses divergent un peu, mais il existe encore de nombreux parallèles.

Ainsi, au début des moteurs de recherche, en fait l’index, les données qu’ils avaient enregistrées n’étaient pas mises à jour en direct comme nous y sommes habitués. Ce n’était pas dès que quelque chose sortait sur Internet que nous pouvions être sûrs qu’il apparaîtrait quelque part dans un moteur de recherche. Il s’agissait plutôt d’une mise à jour tous les quelques mois, car cela coûtait très cher. Ces mises à jour d’index leur coûtaient cher en termes de temps et d’argent. Nous sommes actuellement dans une situation similaire avec de grands modèles de langage.

Vous avez peut-être remarqué que de temps en temps, ils disent : « D’accord, nous avons mis à jour les choses. » Les informations dont il dispose sont désormais valables jusqu’en avril ou quelque chose comme ça. En effet, lorsqu’ils souhaitent insérer plus d’informations dans les modèles, ils doivent en fait tout recycler. Encore une fois, cela leur coûte très cher. Ces deux limitations alimentent en quelque sorte les réponses que vous obtenez à la fin.

Je suis sûr que vous avez vu ça. Vous travaillez peut-être avec ChatGPT et il n’est pas arrivé de voir les informations que vous demandez, ou les informations dont il dispose sont obsolètes.