Om zijn geavanceerde taalmodel, GPT-4, te ontwikkelen, heeft OpenAI naar verluidt een enorme hoeveelheid YouTube-videogegevens gebruikt.
Het bedrijf zou meer dan een miljoen uur aan video-inhoud hebben getranscribeerd.
Dit nieuws komt samen met een bredere trend in de kunstmatige intelligentie (AI)-industrie, waar technologiegiganten steeds creatievere (en soms controversiële) manieren vinden om de brandstof te verzamelen waar hun AI-modellen naar hunkeren: data.
Waarom YouTube-fluisteringen belangrijk zijn voor AI
De New York Times heeft onlangs licht geworpen op deze ontwikkeling, toen YouTube een paar dagen geleden vroeg of de video’s op hun platform al dan niet als trainingsgegevensbron voor SORA werden gebruikt.
Waarom zou je dan naar YouTube gaan voor trainingsgegevens? Het is eigenlijk heel eenvoudig. YouTube biedt een vrijwel onbeperkte schat aan gesproken taal. Elke vlog, unboxing-video en uitgebreide tutorial bevat menselijke spraak in al zijn diverse en rommelige glorie. Omdat grote taalmodellen zoals GPT-4 leren door enorme hoeveelheden tekst te ‘opnemen’ en analyseren, wordt getranscribeerde audio van video’s van onschatbare waarde.
Het omzetten van YouTube-audio in bruikbare trainingsgegevens roept echter complexe vragen op. OpenAI’s spraakherkenningstool ‘Fluisteren‘ speelde een cruciale rol bij het transcriberen van de enorme hoeveelheid videomateriaal. Dit transcriptieproces, hoewel noodzakelijk, brengt overwegingen op het gebied van auteursrecht en redelijk gebruik in beeld.
Data, data overal… Maar is het oké dat OpenAI in de val loopt?
De zoektocht naar robuuste datasets om AI aan te drijven is zeker niet uniek voor OpenAI. Techgiganten over de hele linie worstelen met dezelfde uitdaging. AI-modellen zijn immers notoir data-hongerig. Hoe diverser en kwalitatief hoogwaardiger de invoergegevens, hoe beter de modellen zijn toegerust om met de complexiteit in de echte wereld om te gaan.
De druk om creatieve gegevensbronnen te vinden is begrijpelijk. In het geval van OpenAI heeft het bedrijf naar verluidt opties als podcasts en audioboeken onderzocht nadat het in 2021 geconfronteerd werd met een tekort aan meer conventioneel trainingsmateriaal. Maar deze jacht op data heeft een potentieel nadeel: het verleggen van de grenzen van wat juridisch en ethisch aanvaardbaar wordt geacht.
De grijze zone waar AI-data en auteursrecht met elkaar in botsing komen
YouTube heeft zijn eigen duidelijke servicevoorwaarden, die doorgaans beperken hoe de inhoud kan worden gebruikt. Hoewel er in de auteursrechtwetgeving ‘fair use’-bepalingen bestaan (met verschillende interpretaties in verschillende landen), kan het een juridische gok zijn om daarop te vertrouwen als rechtvaardiging voor het uitgebreid verzamelen van gegevens.
De kwestie is verre van eenvoudig. Wanneer technologiebedrijven bestaande inhoud gebruiken om hun AI-systemen te trainen, rijzen er vragen:
- Beperkt dit mogelijk het vermogen van de oorspronkelijke makers van inhoud om van hun werk te profiteren?
- Worden de makers voldoende gecompenseerd als hun materiaal de ontwikkeling van commerciële AI-tools stimuleert?
- Moeten er duidelijkere richtlijnen of voorschriften komen voor het op grote schaal verzamelen van trainingsgegevens?
De grote honger van AI roept nog grotere vragen op
De OpenAI-zaak benadrukt een bredere trend: de onverzadigbare behoefte aan data in de moderne AI-industrie. Naarmate AI-technologieën geavanceerder worden, zullen ethische en juridische zorgen over de manier waarop trainingsgegevens worden verkregen centraal staan.
Of het nu gaat om YouTube-video’s, codeopslagplaatsen of andere soorten door gebruikers gegenereerde inhoud, het garanderen van eerlijk en verantwoord gebruik van gegevens zal van cruciaal belang worden om het vertrouwen van het publiek in deze snel evoluerende technologie te behouden.
Uitgelicht beeldtegoed: Zac Wolff/Ontsplashen
Source: OpenAI heeft naar verluidt YouTube-gegevens gebruikt bij de ontwikkeling van GPT-4