In een experiment van de Australische overheid werd kunstmatige intelligentie (AI) vergeleken met menselijke intelligentie bij het samenvatten van complexe documenten. Mensen bleken op alle vlakken effectiever.
Uitgevoerd door de Australische toezichthouder op het bedrijfsleven, de Commissie voor Effecten en Investeringen (ASIC), het onderzoek probeerde de efficiëntie van kunstmatige intelligentie te evalueren in taken die doorgaans nauwkeurige analyse en focus vereisen. Op basis van de resultaten zou AI meer werk kunnen veroorzaken in plaats van het te verminderen.
AI schiet tekort ten opzichte van menselijke reviewers
Eerder dit jaar testte Amazon verschillende AI-modellen van verschillende fabrikanten, waarmee het de Australische overheid hielp dit experiment. Uiteindelijk koos het Meta’s Llama2-70B voor de taak. De AI kreeg de opdracht om vijf inzendingen van een parlementair onderzoek samen te vatten, met de nadruk op vermeldingen van ASIC, aanbevelingen, verwijzingen naar regelgeving en andere belangrijke details. Tegelijkertijd kregen tien mensen van verschillende anciënniteit – ASIC-personeel – dezelfde taak. Deze groep reviewers, die niet op de hoogte waren van de betrokkenheid van AI, beoordeelden de samenvattingen op coherentie, lengte, relevantie en nauwkeurigheid van verwijzingen naar regelgeving.
Menselijke deelnemers presteerden duidelijk beter dan de AI en scoorden een indrukwekkende 81% op de evaluatierubriek, vergeleken met 47% voor de AI. Mensen excelleerden in het identificeren van citaten naar ASIC-documenten, een taak waarvan bekend is dat het een uitdaging vormt voor AI. Bovendien werden menselijke samenvattingen geprezen voor het behouden van nadruk, nuance en context, terwijl AI deze kritische elementen vaak miste. Reviewers merkten ook op dat AI-samenvattingen soms irrelevante informatie bevatten of belangrijke details misten, waardoor ze minder betrouwbaar waren.
De implicaties van de prestaties van AI bij samenvatting
De resultaten van het experiment geven aan dat de huidige AI-technologie mogelijk niet zo efficiënt is als algemeen wordt aangenomen in termen van tijdsbesparing. Aan de andere kant zou de gewoonte van AI om belangrijke details over het hoofd te zien en fouten te maken, kunnen resulteren in extra taken voor mensen, die door AI gecreëerd materiaal zouden moeten verifiëren en bewerken. Reviewers waren bezorgd dat het niet voordelig zou zijn om afhankelijk te zijn van AI voor samenvattingen, omdat het vaak niet de belangrijkste punten van de documenten communiceerde, net als menselijke reviewers.
Hoewel het rapport bepaalde beperkingen erkende, zoals het verouderde AI-model dat werd gebruikt, concludeerde het uiteindelijk dat menselijke vaardigheden in het interpreteren en evalueren van informatie nog steeds superieur zijn aan AI. De proef benadrukte het belang van het zien van AI als een hulpmiddel om menselijke arbeid te helpen in plaats van te vervangen bij taken die een grondig begrip van context en subtiliteit vereisen.
Transparantie van de overheid en AI
De bevindingen van het rapport kwamen niet als een verrassing voor Groenen senator David Shoebridgedie het onderzoek leidde dat resulteerde in de publicatie. Hij zei dat hoewel AI kan helpen bij het evalueren van inzendingen, het altijd door mensen moet worden begeleid. Het experiment onderstreept het idee dat AI op dit moment het meest nuttig is bij het ondersteunen van menselijke vaardigheden in plaats van ze over te nemen.
De rechtszaak roept ook meer algemene zorgen op over hoe transparant AI is wanneer het wordt gebruikt in overheidsprocedures. Senator Shoebridge benadrukte hoe belangrijk het is dat overheidsafdelingen het initiatief nemen om hun AI-gebruik openbaar te maken, in plaats van te wachten tot de informatie wordt onthuld tijdens hoorzittingen van de Senaatscommissie.
Bron van de hoofdafbeelding: Furkan Demirkaya / Halverwege de reis
Source: Menselijke aanraking overtreft AI in overheidstest