In 1998 lanceerde Google zijn zoekmachine, aanvankelijk Backrub genaamd, die opereerde op een Stanford-campusserver met 40 GB aan gegevens en gehuisvest in een behuizing gemaakt van Duplo-blokken. Vanaf 2025 vereisen de zoekmogelijkheden van Google meerdere datacenters.

Ryan Pearce heeft een doe-het-zelf-zoekmachine gemaakt met de naam Searcha Page, inclusief een op privacy gerichte versie genaamd Seek Ninja, waarbij de server zich in zijn wasruimte naast zijn wasmachine en droger bevindt. Pearce zegt: “Op dit moment heb ik in de wasruimte meer opslagruimte dan Google in 2000 had. En dat is gewoon krankzinnig om over na te denken.”

De server stond aanvankelijk in de slaapkamer van Pearce, maar werd vanwege de hitte naar de bijkeuken verplaatst. “De hitte is niet echt verschrikkelijk geweest, maar als de deur te lang gesloten blijft, is dat een probleem”, zegt hij.

De resultaten van Searcha Page verbeteren: de database bevat 2 miljard vermeldingen en zal naar verwachting binnen zes maanden de 4 miljard bereiken. Ter vergelijking: Google had 24 miljoen pagina’s in 1998 en 400 miljard in 2020, zoals onthuld tijdens het antitrustproces tussen de VS en Google LLC.

  Voormalig inhoudsmoderator TikTok klaagt het bedrijf aan wegens psychische problemen veroorzaakt door traumatische video's

De engine van Pearce maakt gebruik van grote taalmodellen voor zoekwoorduitbreiding en contextbegrip. “Wat ik doe is eigenlijk heel traditioneel zoeken”, zegt Pearce. “Het is wat Google waarschijnlijk twintig jaar geleden deed, behalve dat de enige aanpassing is dat ik AI gebruik om zoekwoorden uit te breiden en te helpen bij het begrijpen van de context, wat het lastige is.”

AI is een belangrijk onderdeel geweest van zoekmachines, waaronder tools als reverse image search, Google’s RankBrain en de 90% ML-gestuurde resultaten van Bing in 2019. AI wordt nu gezien als een manier om zoekmachines efficiënt te bouwen en te schalen.

Pearce maakt gebruik van ‘upgrade-arbitrage’, waarbij oude maar krachtige serverhardware wordt gekocht. Zijn 32-core AMD EPYC 7532 CPU, die in 2020 meer dan $3.000 kostte, kost nu minder dan $200 op eBay. “Ik had voor dezelfde prijs een andere chip kunnen krijgen, die twee keer zoveel threads zou hebben gehad, maar die zou te veel warmte hebben geproduceerd”, zegt hij.

  Ondersteuning voor Apple TV 4K-threads: Thread-netwerken uitgelegd

Het hele systeem kostte $ 5.000, waarvan $ 3.000 aan opslag werd besteed. De codebasis van Pearce bestaat uit ongeveer 150.000 regels code, met naar schatting 500.000 regels iteratief werk.

Searcha Page en Seek Ninja gebruiken SambaNova voor snelle toegang tot het Llama 3-model tegen lage kosten. Annie SheaWeckesser, CMO van SambaNova, merkt op dat toegang tot goedkope modellen steeds belangrijker wordt voor solo-ontwikkelaars als Pearce, en voegt eraan toe dat het bedrijf “ontwikkelaars de tools geeft om krachtige AI-modellen snel en betaalbaar uit te voeren, of ze nu thuis werken of in productie draaien.”

Pearce gebruikt de Common Crawl-repository om zijn crawler te bouwen. “Ik waardeer ze enorm. Ik wou dat ik ze iets terug kon geven, maar misschien als ik groter ben”, zegt hij.

Een eerste poging om een ​​vectordatabase te gebruiken mislukte, wat resulteerde in “zeer artistieke” resultaten. Pearce gebruikt nu door LLM gegenereerde samenvattingen van pagina’s. Wilson Lin, een andere doe-het-zelf-zoekmachine-ontwikkelaar, gebruikt een zelfgemaakt vectorzoekprogramma genaamd CoreNN en vertrouwt op negen afzonderlijke cloudservices om de kosten laag te houden. “Het is een stuk goedkoper dan [Amazon Web Services]: een aanzienlijk bedrag”, zegt Lin. “En het geeft mij voldoende capaciteit om met dit project ergens te komen met een redelijk budget.”

  Alle Tactics Ogre Reborn-rekruteerbare personages en hoe ze te rekruteren

Pearce had oorspronkelijk een zoekmachine voor kleine sites voor ogen, vergelijkbaar met Marginalia, waarbij kleine sites de voorkeur kregen boven Big Tech. “Iemand uit China heeft contact met mij opgenomen omdat… ik denk dat hij een ongecensureerde zoekmachine wilde die hij via zijn LLM wilde voeden, net als de zoekopdracht van zijn agent”, zegt hij.

Voor een uitbreiding buiten het Engels zijn nieuwe datasets nodig. Pearce is van plan de zoekmachine naar een colocatiefaciliteit te verplaatsen zodra het verkeer een bepaalde drempel bereikt en bescheiden inkomsten genereert via advertenties in affiliate-stijl.

“Mijn plan is dat als ik een bepaalde hoeveelheid verkeer overschrijd, ik gehost word”, zegt Pearce. “Het zal niet voor altijd in die wasruimte blijven.”

De deadline voor aanmelding voor de Most Innovative Companies Awards van Fast Company is vrijdag 3 oktober om 23:59 uur. PT.