Facebook open-source Blender, un chatbot que les gens disent «se sent plus humain» – VentureBeat

Facebook AI Research (FAIR), la division d’IA et d’apprentissage automatique de Facebook, a aujourd’hui détaillé les travaux sur un cadre de chatbot AI complet appelé Blender. FAIR affirme que Blender, qui est disponible en open source sur GitHub, est le plus grand chatbot de domaine ouvert jamais créé et surpasse les approches existantes pour générer un dialogue tout en[ing] plus humain », selon des évaluateurs humains.

FAIR affirme que Blender est l’aboutissement d’années de recherche pour combiner l’empathie, les connaissances et la personnalité en un seul système. À cette fin, les modèles sous-jacents – qui bénéficient de techniques de décodage et de mélange des compétences améliorées – contiennent jusqu’à 9,4 milliards de paramètres (variables de configuration qui définissent les compétences sur un problème donné), soit 3,6 fois plus que les systèmes précédents.

Blender promet de rendre les interactions avec les systèmes d’IA conversationnels comme Alexa, Siri et Cortana plus naturelles qu’auparavant, que ce soit dans des contextes d’entreprise, industriels ou grand public. C’est parce qu’ils sont capables de poser et de répondre à un large éventail de questions; afficher des connaissances sur des sujets spécifiques; et exprimer des sentiments comme l’empathie, le sérieux ou le jeu selon les circonstances.

Mélanger les compétences et les stratégies de génération

Pour atteindre les performances de pointe de Blender, les chercheurs de FAIR se sont concentrés sur deux étapes d’ingénierie: le mélange des compétences et la stratégie de génération.

VB Transform 2020 Online – 15-17 juillet 2020: Rejoignez les principaux dirigeants de l’IA à l’événement AI de VentureBeat de l’année. Inscrivez-vous aujourd’hui et économisez 30% sur les passes d’accès numérique.

«Compétences de mélange» fait référence à la sélection de tâches qui surpassent les modèles plus grands qui ne sont pas optimisés. Comme le soulignent les chercheurs de FAIR dans un article, les améliorations du chatbot peuvent être obtenues par des modèles de réglage précis des données qui mettent l’accent sur les compétences conversationnelles souhaitables. En fin de compte, le réglage peut également minimiser indésirable traits tirés de vastes ensembles de données, comme la toxicité.

En ce qui concerne la stratégie de génération, le choix de l’algorithme de décodage – l’algorithme utilisé pour générer du texte à partir d’un modèle de langage – a un impact démesuré sur les réponses d’un chatbot. Parce que la longueur des réponses d’un bot a tendance à correspondre aux jugements humains de qualité, les décodeurs qui atteignent un équilibre approprié sont souhaitables. Les réponses trop courtes sont généralement perçues comme ennuyeuses ou montrant un manque d’intérêt, tandis que celles qui sont trop longues impliquent des gaufres ou de la distraction.

Chatbot Blender Facebook

Ci-dessus: une conversation avec un chatbot Blender. Les réponses de Blender sont en bleu.

Crédit d’image: Facebook

Au cours de ces étapes d’ingénierie, les chercheurs ont testé trois types d’architectures de modèles, qui utilisaient tous des transformateurs comme base. Les transformateurs – une innovation de Google – contiennent des neurones (fonctions mathématiques) disposés en couches qui transmettent les signaux des données d’entrée et ajustent la force (poids) de chaque connexion, comme avec tous les réseaux de neurones profonds. C’est ainsi qu’ils extraient des fonctionnalités et apprennent à faire des prédictions, mais les Transformers sont également attentifs. Cela signifie que chaque élément de sortie est connecté à chaque élément d’entrée et que les pondérations entre eux sont calculées dynamiquement.

Le premier était un modèle de retriever qui, étant donné un historique (ou un contexte) de dialogue en entrée, a sélectionné la réponse de dialogue suivante en notant un grand ensemble de réponses candidates et en produisant la réponse la plus élevée. Les chercheurs de FAIR ont utilisé une architecture poly-encodeur qui encodait les caractéristiques du contexte en utilisant des représentations suivies par chaque réponse candidate, ce qui, selon eux, a amélioré les performances tout en restant «traitable» à calculer, par rapport à d’autres architectures, comme les encodeurs croisés.

Le deuxième modèle était un générateur qui produisait des réponses plutôt que de les récupérer à partir d’un ensemble fixe. Trois modèles ont été considérés par taille, allant de 90 millions de paramètres à 2,7 milliards de paramètres à 9,4 milliards de paramètres.

Le troisième modèle a tenté de résoudre les problèmes du générateur, à savoir sa tendance à synthétiser les réponses répétitives et à «halluciner» les connaissances. Il a fallu une approche «récupérer et affiner» (RetNRef), où le modèle de récupération décrit ci-dessus a produit une réponse lorsqu’il a fourni un historique de dialogue, qui a ensuite été ajouté à la séquence d’entrée du générateur. De cette façon, le générateur a appris quand copier les éléments des réponses du retriever et quand ne pas le faire afin qu’il puisse produire des réponses plus intéressantes, engageantes et «vibrantes». (Les modèles Retriever produisent des réponses écrites par l’homme qui ont tendance à inclure un langage plus dynamique que les modèles génératifs standard.)

Chatbot Blender Facebook

L’équipe FAIR a associé un modèle Wizard Generative à un autre retriever qui, ensemble, a déterminé le moment d’incorporer les connaissances dans les réponses des chatbot. Les deux modèles produisent un ensemble de candidats aux connaissances initiaux, puis classent ces candidats, après quoi ils sélectionnent une seule phrase et l’utilisent pour conditionner la génération de réponses. Un classificateur choisit d’effectuer ou non la récupération par dialogue afin d’éviter de diffuser des connaissances lorsqu’elles ne sont pas nécessaires.

Décodage

Pour les modèles génératifs, les chercheurs de FAIR ont utilisé une méthode de décodeur de recherche de faisceau pour générer des réponses à des contextes de dialogue donnés. La recherche de faisceaux conserve un ensemble de séquences partiellement décodées, appelées hypothèses, qui sont ajoutées pour former des séquences, puis notées de sorte que les meilleures séquences remontent au sommet.

Pour contrôler la longueur des réponses du chatbot, l’équipe FAIR a envisagé deux approches: une contrainte stricte sur la longueur de génération minimale et un classificateur qui prédisait la longueur des réponses et définissait la contrainte de longueur de génération minimale sur sa prédiction correspondante. Ce dernier était plus complexe, mais a abouti à des réponses de longueur variable aux questions, garantissant que le chatbot a répondu longtemps lorsqu’il semblait approprié.

Former les modèles

Pour préparer les différents modèles qui composent Blender, les chercheurs ont d’abord effectué une formation préalable, une étape qui conditionne les modèles d’apprentissage automatique pour des tâches particulières. Ils ont utilisé Fairseq de Facebook, une boîte à outils qui prend en charge la formation de modèles de langage personnalisés, avec des échantillons de données d’un corpus Reddit contenant 1,5 milliard de commentaires (avec deux ensembles de 360 ​​000 commentaires chacun réservés à la validation et aux tests) élagués pour les bots connus, non anglais subreddits, commentaires supprimés, commentaires avec une URL et commentaires d’une certaine longueur.

Chatbot Blender Facebook

Ensuite, l’équipe FAIR a affiné les modèles à l’aide d’une autre suite développée par Facebook – ParlAI – conçue pour la formation et le test de modèles de dialogue. Un corpus de formation sélectionné a été ConvAI2, qui contient 140 000 énoncés impliquant des volontaires en binôme apprenant à se connaître en posant et en répondant à des questions amicales. Un autre a été Empathetic Dialogues, qui consiste en 50 000 déclarations de crowdsourcing fondées sur une situation émotionnelle. Pourtant, un autre ensemble de données – l’Assistant de Wikipedia – comprend 194 000 énoncés de 1 250 sujets, où chaque conversation commence par un sujet choisi au hasard et l’objectif est d’afficher des connaissances d’experts.

Un quatrième ensemble de données de réglage fin – Blended Skill Talk – visait à mélanger les trois ensembles précédents (ConvAI2, Empathetic Dialogues et Wizard of Wikipedia) pour combiner leurs compétences respectives pendant le dialogue. Ici, 76 000 énoncés ont été recueillis avec un locuteur humain guidé et non guidé, où le locuteur guidé pouvait sélectionner les énoncés suggérés par des robots formés sur les trois ensembles de données individuels.

Évaluations

Après la formation, les chercheurs ont évalué les performances de Blender en les comparant au dernier chatbot Meena de Google, un modèle d’apprentissage automatique avec 2,6 milliards de paramètres. Des volontaires humains ont été chargés de répondre à deux questions – «À qui préféreriez-vous parler pour une longue conversation?» et « Quel locuteur sonne plus humain? » – donné 100 journaux publiés et randomisés de Meena et le même nombre de journaux générés par Blender. Dans chaque cas, les volontaires ont vu une série de dialogues entre humains jumelés avec les chatbots respectifs.

Les sujets de conversation allaient de la cuisine, de la musique, des films et des animaux de compagnie au yoga, au véganisme, aux instruments et aux centres commerciaux – les modèles Blender entrant souvent dans les détails lorsqu’ils étaient demandés et nommant les magasins, groupes, films, acteurs, espèces d’animaux de compagnie et animaux de compagnie pertinents. noms. Dans un exemple, Blender a offert une réponse nuancée à une question sur la façon dont Bach se comparait à Justin Beiber, tandis qu’une demande que Blender écrive une chanson produisait effectivement des paroles – bien que rien de particulièrement poétique.

Chatbot Blender Facebook

Lorsqu’on leur a présenté des chats montrant Meena en action et des chats montrant Blender en action, 67% des évaluateurs ont déclaré que le chatbot propulsé par Blender le plus performant – celui avec un modèle génératif contenant 9,4 milliards de paramètres pré-entraînés sur le corpus Blended Skill Talk – semblait plus Humain. Environ 75% ont déclaré qu’ils préféraient avoir une longue conversation avec le modèle affiné à 2,7 milliards de paramètres qu’avec Meena. Et dans une comparaison A / B entre les conversations d’homme à homme et d’homme à mélangeur, les volontaires ont exprimé une préférence pour les modèles affinés sur Blended Skill Talk 49% du temps, tandis que les modèles formés uniquement sur les conversations du domaine public étaient préféré seulement 36% du temps.

De manière problématique, d’autres expériences ont montré que Blender produisait parfois des réponses dans le style d’échantillons offensifs à partir des corpus d’entraînement – principalement à partir des commentaires de Reddit. Les chercheurs de FAIR affirment que le réglage fin de l’ensemble de données Blended Skill Talk a atténué cela dans une certaine mesure, mais pour y remédier de manière globale, il faudrait utiliser un filtre de mots dangereux et une sorte de classificateur de sécurité.

Chatbot Blender Facebook

Ci-dessus: ici, Blender se répète et se contredit, oublie et hallucine la connaissance.

Crédit d’image: Facebook

Bien sûr, les chercheurs de FAIR ne prétendent pas avoir résolu le problème des conversations en domaine ouvert. En fait, ils décrivent plusieurs des principales limitations de Blender:

  1. Utilisation du vocabulaire: Même les meilleurs modèles de Blender ont tendance à générer trop fréquemment des phrases courantes, telles que «aimez-vous», «beaucoup de plaisir» et «avez-vous des passe-temps?».
  2. Répétition non triviale: Les modèles répètent souvent ce qui leur est dit. Par exemple, ils diront qu’ils avaient un chien de compagnie si un partenaire de conversation mentionne un chien de compagnie, ou qu’ils aiment les mêmes bandes que la personne à qui ils parlent.
  3. Contradiction et oubli: Les modèles de mélangeurs se contredisent, quoique dans une moindre mesure dans les modèles plus grands. Ils ne parviennent pas non plus à faire le lien logique qu’ils ne devraient pas poser de questions qu’ils ont posées auparavant (pour éviter l’apparence d ‘«oublier»).
  4. Connaissance et exactitude factuelle: Il est relativement facile d’inciter les modèles de Blender à commettre des erreurs factuelles, en particulier lors de l’exploration approfondie d’un sujet.
  5. Durée de conversation et mémoire: Les conversations de Blender seraient probablement ennuyeuses et répétitives au cours de plusieurs jours ou semaines de conversation, selon les chercheurs de FAIR – en particulier compte tenu du fait que Blender ne se souvient pas de conversations antérieures.
  6. Une meilleure compréhension: Les modèles Blender n’ont pas la capacité d’apprendre des concepts à travers d’autres conversations, et ils n’ont aucun moyen de se fonder sur des entités, des actions et des expériences dans le monde réel.

Pour remédier à tout cela, il faudrait probablement de nouvelles architectures de modèles, que l’équipe FAIR dit explorer. Il est également axé sur la création de classificateurs plus solides pour filtrer le langage nuisible dans les dialogues, ainsi que sur les techniques pour réduire les préjugés sexistes dans les chatbots en général.

« Nous sommes ravis des progrès que nous avons accomplis dans l’amélioration des chatbots en domaine ouvert », a écrit Facebook dans un article de blog. «Cependant, la construction d’un agent de dialogue vraiment intelligent qui peut discuter comme un humain reste l’un des plus grands défis ouverts de l’IA aujourd’hui… Les vrais progrès dans le domaine dépendent de la reproductibilité – l’opportunité de s’appuyer sur la meilleure technologie possible. Nous pensons que la publication de modèles est essentielle pour fournir des informations complètes et fiables sur leurs capacités. »

Les modèles Blender pré-entraînés et affinés avec 90 millions de paramètres, 2,7 milliards de paramètres et 9,4 milliards de paramètres sont disponibles sur GitHub, ainsi qu’un script pour interagir avec le bot (avec filtrage de sécurité intégré). Tout le code pour l’évaluation et le réglage fin du modèle, y compris les ensembles de données eux-mêmes, est disponible dans ParAI.

Vous aimerez aussi...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *