Prompt caching er en af de mest direkte måder at reducere både svartid og API-udgifter, når du arbejder med Claude i større skala. Med den rette opsætning kan du spare op til 90 % på cachede input-tokens — og få hurtigere svar i samme ombæring.
Hvad er prompt caching?
Normalt sendes hele din prompt til Anthropics servere ved hvert API-kald, og Claude behandler den fra bunden hver gang. Med prompt caching gemmer Anthropic en del af prompten i en hurtig cache på serverne i op til fem minutter. Næste gang du sender et kald med den samme begyndelse, genbruger Claude den cachede del i stedet for at behandle den igen.
Resultatet er to fordele på én gang: lavere latens (cache-hits er markant hurtigere) og lavere pris (cachede input-tokens koster kun 10 % af den normale pris).
Hvordan virker det teknisk?
Prompt caching aktiveres via cache_control-feltet i din API-request. Du sætter et breakpoint i din beskedstruktur — alt frem til breakpointet kan caches.
import anthropic
client = anthropic.Anthropic()
system_prompt = '''
Du er en hjælpsom assistent specialiseret i dansk erhvervsret.
[...lang juridisk baggrundsviden, 10.000 tokens...]
'''
response = client.messages.create(
model="claude-opus-4-5",
max_tokens=1024,
system=[
{
"type": "text",
"text": system_prompt,
"cache_control": {"type": "ephemeral"}
}
],
messages=[
{"role": "user", "content": "Hvad er reglerne for ansættelseskontrakter?"}
]
)
print(response.usage)
# cache_creation_input_tokens: 10000 (første kald)
# cache_read_input_tokens: 10000 (efterfølgende kald inden for 5 min)
Besparelsen i tal
- Normale input-tokens: Fuld pris
- Cache-skrivning (første kald): 25 % dyrere end normal pris — men betales kun én gang
- Cache-læsning (efterfølgende kald): 90 % billigere end normal pris
Regnestykket er enkelt: hvis du sender den samme lange kontekst 10 gange i løbet af fem minutter, betaler du fuld pris for ét kald og 10 % for de resterende ni.
TTL og fornyelse
Cachen har en TTL (Time to Live) på fem minutter. Hvert cache-hit fornyer TTL’en, så cachen lever videre, så længe den bruges aktivt. Hvis der går mere end fem minutter uden et hit, slettes cachen, og næste kald genopbygger den.
I praksis betyder det, at du bør sikre hyppige kald i intensive sessioner — eller acceptere, at cachen genopbygges efter pauser.
Hvornår giver det mening?
Prompt caching er bedst i disse scenarier:
- Lang systemprompt: Har du en detaljeret rolleinstruktion på 5.000+ tokens, der sendes ved hvert kald, er caching oplagt.
- Store dokumenter der genbruges: Analyse af en 50-siders rapport fordelt på 20 spørgsmål? Cach dokumentet, skift kun spørgsmålet.
- Mange kald med samme kontekst: Chatbots med lang samtalehistorik, batch-behandling af enslydende opgaver.
Omvendt giver caching ingen fordel, hvis hver prompt er unik — så betaler du blot 25 % ekstra for cache-skrivning uden at hente gevinsten hjem.
Vigtige begrænsninger
Cache-breakpoints skal placeres i begyndelsen af prompten, ikke midt i. Du kan have op til fire samtidige breakpoints. Cachen er serverbaseret og deles ikke på tværs af forskellige API-nøgler.
Prompt caching er tilgængeligt på Claude Haiku, Sonnet og Opus via direkte API. Tjek Anthropics dokumentation for den seneste prisoversigt, da den opdateres løbende.
