Gjør AI-modeller billigere for utviklere med smartere caching

Google ruller ut ny funksjonalitet for å slippe å be Gemini-API-ene om samme ting to ganger.

Google har introdusert en ny type caching som skal gjøre det billigere å bruke Gemini-API-ene. 📸: Kurt Lekanger
Google har introdusert en ny type caching som skal gjøre det billigere å bruke Gemini-API-ene. 📸: Kurt Lekanger Vis mer

Bruk av AI-modeller via AI-selskapenes API-er kan fort bli dyrt, i hvert fall hvis du har en tjeneste med mye trafikk.

melder Google at de lanserer implisitt caching for Gemini API – altså API-et som gir utviklere tilgang til selskapets Gemini-modeller. Det skriver TechCrunch.

Det betyr at det kan bli billigere å bruke Gemini-API-ene, litt avhengig av hvordan du bruker dem.

75 prosent besparelse

Google skriver at de allerede i mai i 2024 introduserte eksplisitt kontekst-caching, noe som ifølge Google kan gi kostnadsbesparelser på 75 prosent.

  • Mens du med eksplisitt caching måtte sette opp cachingen manuelt, vil implisitt caching fungere uten at du behøver å gjøre noe.
  • Caching i forbindelse med kall til Gemini API-ene fungerer ved å cache "input tokens", som er dataene du sender til modellene og som modellene bruker for å lage en eller annen respons som sendes tilbake.
  • Med eksplisitt caching kan du sende noe innhold til modellen én gang, og så referere til cachen for de etterfølgende forespørslene.

– Implisitt caching gir kostnadsbesparelser til utviklerne uten at de trenger å opprette en eksplisitt cache, oppsummerer Google.

Gir ingen garantier

Google skriver at det bare er ved bruk av eksplisitt caching at de kan garantere kostnadsbesparelser.

– Når du sender en forespørsel til en av Gemini 2.5-modellene, og forespørselen har et felles prefiks med en tidligere forespørsel, er den kvalifisert for et cache-treff.

– I så fall vil vi dynamisk overføre kostnadsbesparelsen til deg, med en tilsvarende 75 prosent rabatt på token-forbruket.

For å øke sjansen for at forespørselen gir et cache-treff med implisitt caching, anbefaler Google at du har innhold som gjentar seg først i forespørselen. Andre ting – som spørsmål fra en sluttbruker – bør legges til slutten av prompten.