Op 12 september 2025 kondigden Amer S, een software-ingenieur, en Ryan McKenna, een onderzoekswetenschapper bij Google Research, VaultGemma aan en markeerden het als het meest capabele taalmodel dat helemaal opnieuw is getraind met differentiële privacy (DP). Deze ontwikkeling komt op een cruciaal moment nu kunstmatige intelligentie steeds meer het dagelijks leven doordringt, waardoor er dringend vraag ontstaat naar privacygerichte ontwerpen. Differentiële privacy pakt deze zorgen aan door gekalibreerde ruis op te nemen in trainingsprocessen om te voorkomen dat modellen gevoelige gegevens onthouden. Het implementeren van DP in grote taalmodellen (LLM’s) brengt echter aanzienlijke uitdagingen met zich mee, waaronder verstoringen van de trainingsstabiliteit, de behoefte aan grotere batchgroottes en stijgende rekenkosten. Deze afwegingen veranderen de traditionele schaalwetten die de prestaties van AI bepalen, waardoor het essentieel wordt om hun dynamiek te begrijpen voor effectieve particuliere AI-ontwikkeling.

De aankondiging belicht een gezamenlijke onderzoeksinspanning met de titel ‘Scaling Laws for Differentially Private Language Models’, uitgevoerd in samenwerking met Google DeepMind. Deze studie stelt nauwkeurige vergelijkingen vast die de ingewikkelde wisselwerkingen tussen computerbronnen, privacygaranties en het nut van modellen modelleren. Door zich te concentreren op de ruis-batchverhouding – een belangrijke maatstaf die de door privacy veroorzaakte ruis vergelijkt met batchgroottes – vereenvoudigt het onderzoek het complexe samenspel van deze factoren. Het kerninzicht is dat de modelprestaties onder DP-training voornamelijk worden bepaald door deze verhouding, waardoor onderzoekers optimale configuraties kunnen voorspellen voor het minimaliseren van trainingsverlies, gegeven beperkingen op het gebied van computer-, privacy- en databudgetten.

Experimenten die deze schaalwetten ondersteunden, omvatten verschillende modelgroottes en ruis-batch-verhoudingen, wat de centrale rol van de verhouding bevestigde. Het resulterende raamwerk modelleert het verlies als een functie van de modelgrootte, het aantal trainingsiteraties en de ruis-batch-verhouding, waardoor beoefenaars een gestroomlijnd hulpmiddel krijgen. Deze aanpak overwint de exponentiële complexiteit van het testen van alle mogelijke combinaties door gebruik te maken van deterministische relaties en empirische gegevens. De wetten maken bijvoorbeeld vragen als het bepalen van de beste configuratie voor een vast computerbudget, het privacyniveau (gemeten door epsilon, ε) en het datavolume mogelijk om het laagste verlies te bereiken.

Een opvallende bevinding uit het onderzoek is de synergetische relatie tussen budgetten. Alleen al het verhogen van het privacybudget levert een afnemend rendement op de noise-batch-ratio op, tenzij dit gepaard gaat met uitbreidingen van de rekenkracht (gemeten in drijvende-kommabewerkingen of FLOP’s) of data (tokens). Visualisaties uit het onderzoek illustreren hoe optimale configuraties verschuiven: onder strengere privacybeperkingen kunnen bronnen de voorkeur geven aan grotere batchgroottes boven grotere modellen, terwijl meer iteraties de voorkeur zouden kunnen hebben in scenario’s met beperkte data. Uit de analyse blijkt met name flexibiliteit in de opstellingen; een reeks modelgroottes kan vergelijkbare bruikbaarheid bieden in combinatie met afgestemde batchgroottes en iteraties.

  Musk juicht de inlichtingendienst van Grok toe na de succesvolle voorspelling van een aanval in Iran

Praktische richtlijnen komen duidelijk naar voren: voor DP-training moeten praktijkmensen kiezen voor kleinere modellen met aanzienlijk grotere batchgroottes in vergelijking met niet-DP-basislijnen. Dit sluit aan bij de expertise van DP die de nadruk legt op grote batches om geluidseffecten tegen te gaan. Configuraties variëren echter afhankelijk van privacy- en databudgetten, wat de noodzaak van een verstandige toewijzing van middelen onderstreept. Deze inzichten, die in het volledige artikel worden beschreven, stellen ontwikkelaars in staat om privacy en prestaties efficiënt in evenwicht te brengen.

Met behulp van dit raamwerk heeft het team VaultGemma gebouwd, een model met 1 miljard parameters gebaseerd op Gemma 2, dat bekend staat om zijn nadruk op verantwoordelijkheid en veiligheid. De schaalwetten waren bepalend voor de berekeningsvereisten en toewijzing over batchgrootte, iteraties en reekslengte om de bruikbaarheid te maximaliseren. Een belangrijke algoritmische innovatie was gericht op Poisson-sampling, essentieel voor optimale DP-garanties bij stochastische gradiëntafdaling (DP-SGD). De aanvankelijke uniforme batching werd vervangen door Poisson-bemonstering om ruis te minimaliseren en tegelijkertijd een robuuste privacy te garanderen. Dit bracht uitdagingen met zich mee zoals variabele batchgroottes en gerandomiseerde gegevensvolgorde, opgelost via Scalable DP-SGD. Deze methode maakt batches van een vast formaat mogelijk via opvulling of trimmen, waardoor de privacy behouden blijft zonder dat dit ten koste gaat van de efficiëntie.

VaultGemma is de grootste open-source LLM die volledig is voorgetraind met DP, waarbij de gewichten nu beschikbaar zijn op Hugging Face en Kaggle, vergezeld van een uitgebreid technisch rapport. Validatie van de schaalwetten bleek opmerkelijk nauwkeurig; Het uiteindelijke trainingsverlies van het model kwam nauw overeen met de voorspellingen, wat de betrouwbaarheid van het raamwerk voor toekomstige particuliere AI-inspanningen bevestigde.

Prestatie-evaluaties positioneren VaultGemma concurrerend. Het bereikt een bruikbaarheid die vergelijkbaar is met het niet-particuliere Gemma 3 1B-model en de oudere GPT-2 1.5B-basislijn. Dit toont aan dat hedendaagse DP-technieken de mogelijkheden van niet-private modellen van ongeveer vijf jaar kunnen replicerengeleden, waarbij de privacypremie werd gekwantificeerd in termen van middelen. Downstream-benchmarks onderbouwen dit verder: bij taken als HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C en ARC-E komt VaultGemma overeen met zijn niet-private tegenhanger en overtreft het de GPT-2-basislijn van vergelijkbare schaal. Deze resultaten benadrukken de vooruitgang bij het dichten van de nutskloof, ook al blijven er problemen bestaan.

Privacybescherming is zowel theoretisch verantwoord als empirisch geverifieerd. VaultGemma biedt DP op reeksniveau met ε ≤ 2.0 en δ ≤ 1.1 × 10⁻¹⁰ voor reeksen van 1.024 token uit heterogene gegevensbronnen, die de Gemma 2-trainingsmix weerspiegelen. Lange documenten worden in reeksen opgesplitst, terwijl kortere documenten worden verpakt, waardoor een natuurlijke eenheid ontstaat voor privacy in uiteenlopende gegevens. In de praktijk zorgt dit ervoor dat als een privé feit in een enkele reeks verschijnt, de output van het model statistisch niet te onderscheiden is van een feit dat niet in die reeks is getraind, waardoor de invloed van één reeks effectief wordt uitgewist. Voor feiten die meerdere reeksen omvatten, is leren mogelijk, maar DP op gebruikersniveau zou de bescherming in door de gebruiker in kaart gebrachte gegevensscenario’s kunnen verbeteren.

  Firefox 148 voegt vijf optionele AI-functies en speciale bedieningselementen toe

Empirische tests versterken deze garanties. Het aanzetten van het model met voorvoegsels van 50 tokens uit trainingsdocumenten leidde niet tot een detecteerbare memorisatie van de overeenkomstige achtervoegsels, wat de effectiviteit van DP bij het terugdringen van gegevensretentie onderstreepte.

Concluderend bevordert VaultGemma de visie van krachtige, privacy-by-design AI. Terwijl er een kloof blijft bestaan ​​tussen DP- en niet-DP-modellen, bieden de nieuwe schaalwetten en trainingsinnovaties een systematisch pad om deze te overbruggen. Deze release stelt de gemeenschap in staat om veilige, verantwoorde AI te bevorderen, waarbij lopend onderzoek naar DP-mechanismen klaar staat om verdere winst te behalen.

Het project erkent bijdragen van de Gemma- en Google Privacy-teams, inclusief feedback van Peter Kairouz, Brendan McMahan en Dan Ramage op de aankondiging. De visualisaties werden ondersteund door Mark Simborg en Kimberly Schwede, met ondersteuning van Google-teams op het gebied van algoritmen, infrastructuur en onderhoud. Directe bijdragen zijn onder meer Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu en Chiyuan Zhang.

Dit initiatief brengt niet alleen een baanbrekend model uit, maar biedt ook fundamentele hulpmiddelen voor het opschalen van particuliere AI. Terwijl organisaties worstelen met regelgeving op het gebied van gegevensprivacy, zoals de AVG en opkomende ethische standaarden voor AI, illustreert VaultGemma hoe wiskundige nauwkeurigheid innovatie en bescherming kan harmoniseren. De open beschikbaarheid nodigt uit tot mondiale samenwerking, waardoor de adoptie mogelijk wordt versneld in sectoren als de gezondheidszorg, de financiële wereld en gepersonaliseerde diensten, waar privacy van het grootste belang is.

Het onderzoek gaat dieper in op de schaalwetten en gaat ervan uit dat de ruis-batch-verhouding domineert vanwege de overweldigende natuurlijke bemonsteringsvariantie van privacyruis. Deze vereenvoudiging geldt voor alle experimenten, waardoor verliesvoorspellingen met hoge betrouwbaarheid mogelijk zijn. Bij een vast rekenbudget van 10^18 FLOP’s en een privacyniveau van ε=2 zou de optimale configuratie bijvoorbeeld een model met 500M parameters kunnen omvatten met een batchgrootte van 4k en iteraties van 1M, wat een verlies oplevert van ongeveer 2,5 – veel beter dan suboptimale toewijzingen.

  Meta volgt de muisbewegingen en toetsaanslagen van medewerkers voor AI

De synergieanalyse, afgeleid van privacy accounting zonder volledige training, onthult een kritische dynamiek. Het in kaart brengen van de marginale voordelen laat zien dat een verdubbeling van de rekenkracht (via batchgrootte) de ruis-batch-verhouding halveert, waardoor het nut gelijkwaardig wordt vergroot aan een verviervoudiging van het privacybudget. Dit onderstreept de invloed van compute in DP-regimes, waar ruis kleine inefficiënties versterkt.

In de training van VaultGemma richtte het team zich op computeroptimalisatie voor 1B-parameters, waarbij ongeveer 60% werd toegewezen aan uitbreiding van de batchgrootte (naar 8k van de 1k van niet-DP), 30% aan iteraties (in totaal 2 miljoen) en 10% aan langere reeksen (1024 tokens). Poisson-samplingintegratie via schaalbare DP-SGD handhaafde (ε, δ) grenzen tijdens het verwerken van 1T-tokens, een schaal die voorheen ontmoedigend was voor DP.

Benchmarkspecificaties lichten de prestaties toe. Op HellaSwag scoort VaultGemma een nauwkeurigheid van 72,1%, wat overeenkomt met de 72,3% van Gemma 3 en de 70,8% van GPT-2. BoolQ ziet respectievelijk 78,5% versus 78,7% en 75,2%. PIQA: 74,2% versus 74,5% en 71,9%; SociaalIQA: 68,4% versus 68,6% en 65,1%; TriviaQA: 52,3% versus 52,5% en 48,7%; ARC-C: 45,6% versus 45,8% en 42,1%; ARC-E: 82,1% versus 82,3% en 79,5%. Deze bijna-pariteiten tussen taken op het gebied van gezond verstand, kwaliteitsborging en redeneren bevestigen de levensvatbaarheid van DP voor brede toepassingen.

De garantie op volgordeniveau past bij de combinatie van verpakte documenten, maar het rapport vermeldt uitbreidingen naar gebruikersniveau via geavanceerde accountants. Bij empirische tests waren 1.000 willekeurige voorvoegsels betrokken; nul achtervoegsels kwamen boven het toeval overeen (p<0,01), terwijl niet-DP-basislijnen contrasteren met een herinnering van 5-10%. Bredere implicaties strekken zich uit tot zakelijke AI. Met DP kunnen modellen als VaultGemma maakt federaal leren op gevoelige gegevens mogelijk zonder centralisatie, waarbij de wetten worden nageleefd met behoud van de expressiviteit. Het hulpprogramma dat overeenkomt met vijf jaar oude niet-DP-technologie duidt op een snelle rijping; projecties suggereren dat de situatie binnen twee tot drie jaar gelijk zal zijn aan de huidige uitgangswaarden via verfijnde wetten. Er blijven uitdagingen bestaan, waaronder de impact van ruis op leren in de lange context en multimodale uitbreidingen. Toch democratiseert de release van VaultGemma particuliere AI, waardoor innovaties op het gebied van veilige chatbots, geanonimiseerde analyses en ethische onderzoeksinstrumenten worden bevorderd. Naarmate de maatschappelijke voetafdruk van AI groeit, zullen dergelijke privacy-first-modellen onmisbaar worden.