Avec Wordseye, Bob Coyne entend épuiser les ressources du langage
Pendant que leurs camarades de Columbia lisaient des bouquins de science-fiction mettant en scène des fantasmes de baby boomers sur la guerre intergalactique à venir, Bob Coyne et Richard Sproat développaient l’étonnant projet Wordseye. Le principe de ce logiciel est simple : l’utilisateur doit décrire par écrit une scène de son choix en quelques phrases courtes, et le programme informatique se charge de générer une image censée la représenter. Une sorte de formalisation HTML austère de ces petits jeux langagiers qui amusaient beaucoup les surréalistes, les Dadaistes et les auditeurs des « Papous dans la tête » sur France Inter.
Le résultat est parfois tellement abstrait que j’ai voulu discuter avec un de ses créateurs, Bob Coyne. Il pense qu’il faudra être patient pour assister à l’extinction humaine et la suprématie des robots. On le croit.

Vol de nuit
Il y a une très grande chaîne de montagnes. La grande tour est située à 600 centimètres, à gauche du grand avion. La tour est sur la chaîne de montagnes. La texture de fleurs est sur la chaîne de montagnes. L’énorme plante est située à 600 centimètres à droite de la tour. La plante est sur la montagne. L’avion est situé à 1, 82 mètres au-dessus de la tour. La texture de carrelage est sur l’avion. La texture fait 4, 57 mètres. La tour est orange sombre. Il est minuit. L’illuminateur cyan est au-dessus de la tour. Il est situé à 600 centimètres à droite de l’avion. Le très grand illuminateur orange est au-dessus de la tour. La lumière de l’appareil est noire. L’illuminateur rouge est situé à 1 mètre sous l’avion. L’avion fait face à l’est. L’énorme illuminateur cyan est situé à 15, 24 mètres au-dessus de la tour. Il est situé à 30, 48 mètres derrière la tour. L’énorme illuminateur magenta est situé à 30, 48 mètres derrière l’avion. Il est situé à 12, 2 mètres au-dessus de l’avion. La chaîne de montagnes brille. La tour brille. L’avion brille.
C’est la première fois que j’ai l’occasion de rencontrer un doctorant en « linguistique informatique ».
Bob Coyne : J’ai toujours été fasciné par le langage, en particulier par ses aspects poétiques et associatifs. Un simple mot peut évoquer tellement de choses et avoir de nombreuses significations différentes selon le contexte. Pour comprendre toutes les associations possibles, il faut tout d’abord en comprendre la signification la plus littérale. Ce qui m’intéresse, c’est de voir comment tout cela marche, tout en m’intéressant aux aspects de l’expression artistique d’un système doté d’intelligence artificielle. Quand j’étais à l’université, j’ai créé un logiciel qui générait des poèmes, c’est comme ça que tout a commencé. Puis j’ai bossé dans l’infographie, et j’ai découvert que je trouvais les images plus intéressantes en tant que porteuses de langage (comment elles représentent et connotent un sens) plutôt que dans leur aspect pixellisé. Je crois que je partage la même position que Duchamp contre « l’art rétinien. »
Moi aussi. Comment en êtes-vous venu à créer Wordseye ?
Ça faisait quinze ans que je travaillais dans l’infographie, et je n’avais jamais réellement pris le temps d’utiliser les outils que je créais. Il faut toujours énormément de travail pour faire une création graphique. Je voulais développer un moyen de le faire très vite, pour que l’utilisateur ait juste à décrire ce qu’il veut représenter. De cette façon, beaucoup de détails seraient laissés au hasard, mais il serait facile de créer quelque chose rapidement, à supposer que le système interprète le texte correctement. J’aimais aussi cette idée d’incertitude, on ne peut pas tout à fait savoir ce qu’on va obtenir.

Aplati !
Les keeshonds sont sur la table. Le cow-boy en argent est derrière eux. La table est sur la chaîne de montagnes argentée. Le ciel est nuageux.
Comment vous avez sélectionné les images de la banque d’illustrations ? Vous avez dû déterminer quelle représentation d’une image était la plus universelle possible ?
En fait, on a breveté une bibliothèque de modèle 3D, et on utilise tout ce qu’il y a dedans. Elle doit comporter environ 2000 objets différents. Parfois, les modèles sont très génériques (plus proches de leur forme platonique, j’imagine), mais il y a aussi des sous-genres plus spécialisés. Si vous tapez “le chat est sur la table”, vous pouvez tomber sur une table normale, mais aussi sur une table de billard ou une table de blackjack, voire d’autres tables issues d’autres cultures. Il y a beaucoup de variétés de tables.
C’est intéressant de voir à quel point le langage et le graphisme peuvent être vagues. D’un autre côté, les intentions des gens, une fois mises en image, sont plus ouvertes à l’interprétation qu’elles le sont à travers le langage. Si vous croisez deux personnes assises face-à-face, vous ne pouvez pas vraiment savoir ce qu’elles font. Elles sont peut-être en train de résoudre un problème majeur, de penser à quelque chose, ou d’avoir une discussion futile, comme parler de leurs tatouages ou raconter leurs rêves. On essaie maintenant d’étendre le système du logiciel afin de pouvoir y intégrer des verbes et des actions. C’est là que ça devient problématique : on doit trouver comment traduire une pensée qui décrirait des relations spatiales et des poses.
Et pour le moment, qu’est-ce qu’il se passe quand quelqu’un tape quelque chose que le logiciel ne comprend pas ?
Il peut arriver que quelqu’un cherche un objet que le logiciel ne connaît pas. Imaginons que quelqu’un tape un truc du genre « Le tatou est sur la route » et que le logiciel ne sache pas ce que c’est, il créerait un objet 3D à la place, et on verrait les lettres qui composent le mot « tatou » sur une route. Parfois, il peut trouver un objet lié à la recherche : si vous tapez « moineau » et que la banque d’images n’en a pas, il vous mettra un autre oiseau en tant que substitut. Nous avons beaucoup d’oiseaux. Mais certaines lacunes se manifestent moins gracieusement. Par exemple, le logiciel n’a pas encore assimilé le fait que les objets aient plusieurs parties. Je pourrais faire une liste interminable des choses que le logiciel confond.
Oui. À cause de ces lacunes, certaines images ont un côté très surréaliste. C’est un drôle de paradoxe, sachant que le surréalisme est censé être un automatisme purement humain. Mais les surréalistes nous mentent.
C’est une observation intéressante. Je pense que l’un des principes clés du surréalisme est la séparation de la forme et de la fonction. Faute de pouvoir représenter nos pensées avec une précision parfaite, le logiciel décrit plutôt les « blancs » de notre pensée. C’est aussi pour ça que le logiciel permet de titrer les images afin d’en donner une interprétation complètement différente. Ça donne un processus qui fait : pensée/intention → description sommaire → image → interprétation → image avec un titre. Le graphisme par ordinateur a tendance à avoir un aspect surréaliste, en partie à cause de l’éclairage. Mais je pense que c’est plus profond que ça, et que l’automatisme du logiciel couplé à la capacité de l’humain à interpréter ajoute une autre dimension surréaliste à l’image.

Le premier surréaliste
Le temps est partiellement nuageux. La texture brique est sur la sphère. La texture brique fait 12, 7 centimètres. La sphère fait 15, 2 centimètres. La sphère fait 8, 44 mètres de largeur. La sphère fait 8, 44 mètres de profondeur. La sphère est opaque. Le sol a une texture d’herbe. Le temple est situé à 3 mètres de la sphère. La sphère est sur la grande chaîne de montagnes. C’est le matin. Le saule est à côté de la statue. L’arbre fait 1,22 mètres. L’illuminateur orange est situé à 600 centimètres au-dessus de la statue. Le pégase argenté est sur le temple.
Tant qu’on parle du rapport entre l’homme et l’ordinateur, que pensez vous de la notion de Singularité ?
Je pense qu’on est loin du jour où les ordinateurs seront réellement intelligents. Le langage est une bonne façon de les tester. La plupart du travail inhérent au processus du langage est statistique par nature et n’a pas besoin de modèle. Je pense qu’on peut faire énormément de choses avec les modèles statistiques (par exemple la recherche Google, ou la traduction assistée par ordinateur), mais ces méthodes finissent par se trouver dans une impasse. Les gens sont bien trop optimistes sur la progression informatique.
Vous pensez qu’il arrivera un jour où on ne pourra plus avancer en matière de technologie informatique ?
Non je n’irai pas jusque là, mais je pense que la route sera semée d’embûches. Dans les années 1980, on attendait beaucoup de l’intelligence artificielle et des systèmes experts. Mais ça n’a pas tourné comme prévu. Maintenant, on pense que les techniques d’apprentissage des machines vont progresser de la même façon. Mais fatalement, même si on finissait par obtenir un pouvoir infini en informatique, on ne saurait toujours pas comment rendre une machine intelligente. D’une certaine façon, simuler les capacités cérébrales n’était pas satisfaisant parce qu’il n’était pas possible de puiser la nature symbolique de la pensée humaine. Pour avancer, il faudrait une meilleure compréhension du niveau conceptuel du langage, de la sémantique, etc. Le vrai problème provient du lien entre le langage et le monde (du moins, tel qu’il est perçu). Le langage implique la sémantique, qui est elle-même ancrée dans notre perception du monde.
Oui.

Le gros chien rose est sur la voiture rose.
Apparemment, il existe déjà des logiciels plus ou moins capables de reconnaître l’auteur d’un livre.
Oui, ils cherchent des similarités statistiques dans le choix des mots, les schémas syntaxiques etc. Ces méthodes statistiques peuvent être très efficaces, même si je ne pense pas qu’un ordinateur puisse être réellement intelligent tant qu’on n’aura pas trouvé de meilleurs moyens de modéliser le contenu sémantique du langage. Mais on peut donner l’illusion qu’un logiciel est réellement intelligent.
On en voit vite les limites, quand même. Des étudiants de Cornell ont développé un logiciel parlant doté de réponses préfabriquées, et lorsqu’ils l’ont connecté à lui-même, ça a donné lieu à une espèce de dialogue débile qu’on peut voir ici.
Ahah, en effet, on voit bien qu’ils n’ont absolument aucune idée de ce qu’ils disent. Il y a eu un vieux programme, Eliza, qui faisait un truc similaire. Elle donnait des réponses vagues mais plausibles à un interlocuteur humain. En gros, le logiciel jouait un rôle de psychologue et incluait discrètement les propos de son interlocuteur dans ses observations, de façon à ce que ce dernier ait l’illusion qu’elle comprenne réellement ce qu’il disait.
Vous ne vous êtes jamais senti « surpassé » par les capacités d’un logiciel ?
Avec Wordseye, je me suis plusieurs fois demandé comment il avait pu arriver à un résultat pareil, jusqu’à ce que je réalise qu’il interprétait les choses différemment. J’espère en réalité qu’au fur et à mesure qu’il évoluera, le logiciel aura des encore plus de « fausses interprétations » , aussi surprenantes qu’intéressantes. Elles soulignent à quel point notre interprétation du langage repose sur des attentes certaines ainsi qu’un contexte particulier.
Vous pensez qu’il pourra un jour représenter des notions abstraites ?
Oui, mais pour les dépeindre, il faudrait le faire de façon littérale, étant donné que le langage métaphorique est fréquemment utilisé. On travaille sur la nouvelle version, et on espère qu’elle pourra inclure plus de concepts abstraits. Elle sera prête dans quelques mois.




Commentaires Récents