Une nouvelle étude d'IA accablant montre que les chatbots font des erreurs résumant les nouvelles de plus de 50% du temps

Une récente enquête de la BBC a révélé que les principaux chatbots d'IA – y compris le chatppt d'Openai, le copilote de Microsoft, les Gémeaux de Google et l'IA de perplexité – produisent fréquemment des inexactitudes importantes et même des distorsions lors du résumé des reportages.

L'étude a évalué les chatbots et a découvert que plus de la moitié de leurs réponses générées contenaient des défauts majeurs.

La portée de l'étude de la BBC a consisté à présenter 100 articles de presse de son site Web aux quatre chatbots d'IA et à demander à chacun de créer un résumé. Les experts en la matière de la BBC ont ensuite évalué la qualité de ces résumés. Les résultats étaient préoccupants, ce qui indique que 51% des réponses générées par l'IA présentaient des erreurs importantes, notamment des inexactitudes factuelles, des erreurs erronées et des informations obsolètes.

Des inexactitudes spécifiques identifiées

graphique des inexactitudes de chatbot AI

Parmi les erreurs, 19% des réponses de l'IA qui ont cité le contenu de la BBC ont introduit des erreurs factuelles, telles que des dates, des nombres et des déclarations incorrects. De plus, 13% des citations attribuées à la BBC ont été soit modifiées par rapport à leur forme d'origine ou n'existaient pas dans les articles cités.

L'étude a souligné que les réponses des Gémeaux étaient particulièrement problématiques, avec 46% signalé pour des problèmes de précision importants.

Le graphique ci-dessus montre que quelques-uns des exemples les plus notables incluent la fausse déclaration des directives du NHS par Gemini. Gemini a déclaré à tort que le National Health Service (NHS) du Royaume-Uni conseille de vapoter comme méthode pour arrêter de fumer. En réalité, le NHS recommande le vapotage comme une aide viable pour ceux qui tentent d'arrêter de fumer. L'étude a souligné que les réponses des Gémeaux étaient particulièrement problématiques, avec 46% signalé pour des problèmes de précision importants.

D'autres questions comprenaient des informations politiques obsolètes de Chatgpt et de Copilot signalant à tort que Rishi Sunak et Nicola Sturgeon étaient toujours le Premier ministre britannique et le premier ministre écossais, respectivement, malgré leurs départs de ses fonctions.

De plus, Perplexity a mal cité la couverture du Moyen-Orient, déclarant de manière inexacte que l'Iran a initialement montré une «retenue» et décrit les actions d'Israël comme «agressives».

Le BBD a en outre signalé le pourcentage de réponses générées par l'AI qui ont été évaluées comme contenant des problèmes importants comme le montre le graphique bleu ci-dessus, mettant en évidence les problèmes de précision et de fiabilité dans tous les modèles d'IA testés lorsqu'ils répondent aux questions liées aux nouvelles. Selon l'étude:

Gémeaux (Google) avait le pourcentage le plus élevé de réponses problématiques, dépassant 60%.

Copilot (Microsoft) suivi de près, avec des problèmes présents dans plus de 50% des réponses.

Chatgpt (openai) et Perplexité ont montré relativement moins de problèmes significatifs, chacun oscillant environ 40%.

Cette recherche souligne le besoin urgent de sociétés d'IA pour améliorer la précision, la transparence et les mécanismes de vérification des faits, en particulier dans les requêtes liées aux actualités.

Réponse et préoccupations de l'industrie

Deborah Turness, PDG de BBC News and Current Affairs, a exprimé sa préoccupation face à ces conclusions. Dans un article de blog, elle a souligné que, bien que l'IA offre des «opportunités infinies», l'application actuelle de la technologie dans le résumé des informations est lourde de risques. Turness a interrogé: « Nous vivons dans les temps troublés, et combien de temps durera-t-il avant qu'un titre à disposition d'IA ne provoque un préjudice réel important? »

Turness a appelé les développeurs de l'IA à « retirer » leurs outils de résumé des nouvelles, citant un précédent où Apple a interrompu ses résumés de nouvelles générés par l'IA après que la BBC a signalé des fausses déclarations. Elle a demandé une approche collaborative, déclarant que la BBC cherche à « ouvrir une nouvelle conversation avec les fournisseurs de technologies d'IA » pour trouver des solutions collectivement.

Un porte-parole d'OpenAI a répondu à l'étude, notant: « Nous soutenons les éditeurs et les créateurs en aidant 300 millions les utilisateurs hebdomadaires de Chatgpt à découvrir du contenu de qualité par le biais de résumés, de citations, de liens clairs et d'attribution. » Ils ont ajouté qu'OpenAI a collaboré avec des partenaires pour améliorer la précision de la citation et respecter les préférences des éditeurs.

Implications pour l'avenir

Les résultats de la BBC mettent en évidence les défis de l'intégration de l'IA dans la diffusion d'actualités. La prévalence des inexactitudes mine non seulement la confiance du public, mais présente également des risques potentiels, en particulier lorsque la désinformation concerne des sujets sensibles.

Pete Archer, directeur du programme de la BBC pour une AI générative, a souligné que les éditeurs devraient avoir le contrôle de l'utilisation de leur contenu. Il a plaidé pour la transparence des sociétés d'IA concernant la façon dont leurs assistants traitent les nouvelles et l'étendue des erreurs qu'elles produisent. Archer a déclaré: « Cela nécessitera des partenariats solides entre l'IA et les sociétés de médias et de nouvelles façons de travailler qui mettent le public en premier et maximisent la valeur pour tous. »

L'IA s'intègre rapidement dans diverses industries, cette étude souligne la nécessité d'une surveillance rigoureuse, d'une collaboration et d'un engagement envers l'exactitude pour garantir que les progrès technologiques servent le bien public sans compromettre l'intégrité de l'information.

Une nouvelle étude d'IA accablant montre que les chatbots font des erreurs résumant les nouvelles de plus de 50% du temps – et c'est le pire délinquant

Des inexactitudes spécifiques identifiées

Réponse et préoccupations de l'industrie

Implications pour l'avenir