Het prestatie-optimalisatieteam van Anthropic, dat sinds 2024 sollicitanten evalueert, herziet zijn technische interviewtest om AI-ondersteund valsspelen tegen te gaan, aldus teamleider Tristan Hume. Anthropic implementeerde een take-home test voor sollicitanten. De verbeterde mogelijkheden van AI-coderingstools maakten frequente herzieningen van deze test, bedoeld om de vaardigheden van kandidaten te beoordelen, noodzakelijk. Tristan Hume, teamleider, heeft deze uitdagingen woensdag in een blogpost beschreven. Hume verklaarde: “Elk nieuw Claude-model heeft ons gedwongen de test opnieuw te ontwerpen.” Hij merkte op dat “Claude Opus 4, met dezelfde tijdslimiet, beter presteerde dan de meeste menselijke sollicitanten.” Vervolgens “kwam Claude Opus 4.5 zelfs overeen met die”, verwijzend naar de sterkste menselijke kandidaten. Deze ontwikkeling vormde een belangrijk probleem bij de beoordeling van kandidaten. Door het ontbreken van persoonlijke proctoring was het onmogelijk om AI-gebruik tijdens de test te voorkomen. Hume legde uit: “Onder de beperkingen van de take-home-test hadden we niet langer een manier om onderscheid te maken tussen de output van onze topkandidaten en ons meest capabele model.” De proliferatie van AI-fraude, die al wordt waargenomen in onderwijsinstellingen over de hele wereld, heeft nu gevolgen voor AI-laboratoria. Anthropic beschikt echter over verschillende middelen om dit specifieke probleem aan te pakken. Hume ontwikkelde uiteindelijk een nieuwe test. Deze herziene beoordeling richt zich minder op hardware-optimalisatie, waardoor het een uitdaging wordt voor de huidige AI-tools. Als onderdeel van zijn post publiceerde hij de originele test, waarin hij lezers uitnodigde alternatieve oplossingen voor te stellen. In het bericht stond: “Als u Opus 4.5 het beste kunt, horen we graag van u.”
Source: Anthropic herontwerpt sollicitatietests na Claude 4.5 "azen" menselijk interview