En esencia, los LLM hacen generación probabilística de texto; no son un motor de búsqueda real, ni pueden ejecutar en tiempo real una búsqueda inversa de imágenes en toda la web. Su “ver imágenes” consiste más en reconocer estilos y características, no en compararlas una por una dentro de una base de datos.
Encontrar la fuente de una imagen en alta resolución, en el fondo, depende de índices de imágenes, hashing de características y comparación con bancos de imágenes; eso es capacidad de un sistema de búsqueda, no el punto fuerte de los LLM. Si la imagen en sí no es famosa, no es de una celebridad o una foto clásica de revista, en internet ya de por sí habrá pocas versiones en alta resolución indexables; entonces GPT básicamente no puede encontrarla de la nada. Dicho sin rodeos: este tipo de aplicación, a nivel de principios, es muy difícil de hacer bien de verdad con un LLM.
Para imágenes poco conocidas, no queda otra que usar la búsqueda tradicional y ordenar por tamaño; no hay remedio.
