Illustration til: Claude prompt caching

Hvad er prompt caching? Spar tokens og penge med Claude

Prompt caching er en af de mest direkte måder at reducere både svartid og API-udgifter, når du arbejder med Claude i større skala. Med den rette opsætning kan du spare op til 90 % på cachede input-tokens — og få hurtigere svar i samme ombæring.

Hvad er prompt caching?

Normalt sendes hele din prompt til Anthropics servere ved hvert API-kald, og Claude behandler den fra bunden hver gang. Med prompt caching gemmer Anthropic en del af prompten i en hurtig cache på serverne i op til fem minutter. Næste gang du sender et kald med den samme begyndelse, genbruger Claude den cachede del i stedet for at behandle den igen.

Resultatet er to fordele på én gang: lavere latens (cache-hits er markant hurtigere) og lavere pris (cachede input-tokens koster kun 10 % af den normale pris).

Hvordan virker det teknisk?

Prompt caching aktiveres via cache_control-feltet i din API-request. Du sætter et breakpoint i din beskedstruktur — alt frem til breakpointet kan caches.

import anthropic

client = anthropic.Anthropic()

system_prompt = '''
Du er en hjælpsom assistent specialiseret i dansk erhvervsret.
[...lang juridisk baggrundsviden, 10.000 tokens...]
'''

response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": system_prompt,
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": "Hvad er reglerne for ansættelseskontrakter?"}
    ]
)

print(response.usage)
# cache_creation_input_tokens: 10000 (første kald)
# cache_read_input_tokens: 10000 (efterfølgende kald inden for 5 min)

Besparelsen i tal

  • Normale input-tokens: Fuld pris
  • Cache-skrivning (første kald): 25 % dyrere end normal pris — men betales kun én gang
  • Cache-læsning (efterfølgende kald): 90 % billigere end normal pris

Regnestykket er enkelt: hvis du sender den samme lange kontekst 10 gange i løbet af fem minutter, betaler du fuld pris for ét kald og 10 % for de resterende ni.

TTL og fornyelse

Cachen har en TTL (Time to Live) på fem minutter. Hvert cache-hit fornyer TTL’en, så cachen lever videre, så længe den bruges aktivt. Hvis der går mere end fem minutter uden et hit, slettes cachen, og næste kald genopbygger den.

I praksis betyder det, at du bør sikre hyppige kald i intensive sessioner — eller acceptere, at cachen genopbygges efter pauser.

Hvornår giver det mening?

Prompt caching er bedst i disse scenarier:

  • Lang systemprompt: Har du en detaljeret rolleinstruktion på 5.000+ tokens, der sendes ved hvert kald, er caching oplagt.
  • Store dokumenter der genbruges: Analyse af en 50-siders rapport fordelt på 20 spørgsmål? Cach dokumentet, skift kun spørgsmålet.
  • Mange kald med samme kontekst: Chatbots med lang samtalehistorik, batch-behandling af enslydende opgaver.

Omvendt giver caching ingen fordel, hvis hver prompt er unik — så betaler du blot 25 % ekstra for cache-skrivning uden at hente gevinsten hjem.

Vigtige begrænsninger

Cache-breakpoints skal placeres i begyndelsen af prompten, ikke midt i. Du kan have op til fire samtidige breakpoints. Cachen er serverbaseret og deles ikke på tværs af forskellige API-nøgler.

Prompt caching er tilgængeligt på Claude Haiku, Sonnet og Opus via direkte API. Tjek Anthropics dokumentation for den seneste prisoversigt, da den opdateres løbende.


Udgivet

i

af

Kommentarer

Skriv et svar