Un LLM, par essence, fait de la génération probabiliste de texte ; ce n’est pas un véritable moteur de recherche, et il ne peut pas non plus exécuter en temps réel une recherche inversée d’images sur l’ensemble du web. Le fait qu’il « regarde une image » relève davantage de la reconnaissance de style et de caractéristiques, plutôt que d’une comparaison image par image dans une base de données.
Trouver une source d’image en haute définition repose, au niveau fondamental, sur l’indexation d’images, le hachage de caractéristiques et la comparaison avec des banques d’images : c’est une capacité propre aux systèmes de recherche, pas le point fort d’un LLM. Si l’image elle-même n’est pas connue, n’implique pas une célébrité ou une photo de magazine classique, il y a de toute façon peu de versions HD indexables en ligne ; GPT n’a pratiquement aucune chance de la retrouver à partir de rien. En clair, ce type d’application est, au niveau des principes, très difficile à vraiment bien faire avec un LLM.
Pour des images peu connues, il n’y a pas le choix : il faut utiliser la recherche d’images traditionnelle puis trier par taille. Pas de solution miracle.
