AI Token 計算完整指南:GPT / Claude / Gemini 怎麼算、為什麼會超 context、怎麼省錢

你的 prompt 「夠不夠塞」「要花多少錢」「會不會超 context window」— 這三個問題每個 AI 應用開發者都被 PM 問過。但 OpenAI / Anthropic / Google 三家算 token 的方式都不一樣,中英文比例差更多。這篇用我們的 `token-counter` 工具當範例,拆解 token 估算的真實邏輯、5 大模型的成本對照、實戰省 token 的 3 個技巧。

Token 不是「字」也不是「字元」,而是「BPE 拆出來的子詞」

Tokenizer 通常用 BPE(Byte Pair Encoding):把常見子詞合併成單一 token。

"hello" = 1 token
"unhappiness" = un + happiness = 2 tokens
"你好嗎" = 你 + 好 + 嗎 各 1 token,共 3 tokens
"中華電信" = 中華 + 電信 = 2 tokens(看 tokenizer training corpus)

所以中文 1 字 ≈ 1-2 tokens,英文 1 字 ≈ 1.3 tokens,日文韓文介於兩者之間。寫 prompt 時,用「字數 × 1.5」估算上限,通常會略高於實際,比後悔超 context 好。

5 大模型成本對照(2026 年實際定價)

假設一個 5000 token 的 prompt + 500 token 的 reply,單次成本:

GPT-4o ($2.5/M input, $10/M output):$12.5 + $5 = $17.5 per 1000 calls
Claude 3.5 Sonnet ($3/M, $15/M):$15 + $7.5 = $22.5
Gemini 1.5 Pro ($1.25/M, $5/M):$6.25 + $2.5 = $8.75
GPT-4o-mini ($0.15/M, $0.6/M):$0.75 + $0.3 = $1.05
Claude 3.5 Haiku ($0.8/M, $4/M):$4 + $2 = $6

結論:同樣任務,Gemini Pro 比 Claude Sonnet 便宜 ~60%。但品質排名是 Claude > GPT-4o > Gemini(對複雜推理而言)。便宜不等於划算 — 模型錯一次的 debug 成本可能超過跑 1000 次的省錢。

Context window 滿了會怎樣?三種失敗模式

Context window 是模型能「看見」的最大 token 範圍,GPT-4o 是 128K,Claude 3.5 是 200K,Gemini 1.5 是 1M+。

超出後三種失敗模式:

直接報錯(OpenAI, Anthropic):API 回 400 context_length_exceeded
頭部截斷(部分舊模型 / 部分 wrapper):前面的對話被砍掉,模型「忘了」你說過什麼
品質崩塌(接近上限時):還沒超,但模型對前段內容的注意力下降,出現幻覺、忘記 instruction

經驗法則:用到 80% context window 時開始主動壓縮,別等報錯。長對話用 summarize-and-discard:每 10 輪請模型摘要前 10 輪,再把摘要替換掉原文。

省 token 的 3 個實戰技巧

1. 把 few-shot 範例搬到 system prompt + 用 prompt caching Claude 跟 OpenAI 都有 prompt caching:重複的 system prompt 命中 cache 時成本 降到 1/10。把 few-shot examples 全部塞 system prompt,user prompt 只放當次任務。

2. 用 JSON 而非自然語言給結構化資料 「使用者名稱 Mark Liu,年齡 32 歲,職業是工程師」= ~15 tokens {"name":"Mark Liu","age":32,"job":"engineer"} = ~12 tokens

JSON 雖然看起來複雜,但 BPE 對 { : " 這些 token 高度優化,密度其實更高。

3. 用 GPT-4o-mini 做「分類 / 路由」,難題才丟給 Claude 超過 70% 的 LLM 任務其實是「分類 / 抽取 / 格式化」,GPT-4o-mini 跟 Claude Haiku 完全夠用。把這些便宜模型當第一層,只有複雜推理才升級到大模型 — 平均成本可降 80%。

為什麼這工具用 heuristic 不用真正 tokenizer?

OpenAI 開源的 tiktoken、Anthropic 的 tokenizer 都需要載入 ~1MB 的 vocab 字典 + ~500KB 的 WASM runtime。對「估算用」這種日常工具,多 1.5MB bundle 才為了 ±2% 精度 不划算。

我們的 heuristic 邏輯:

中文字:每字 1.5 tokens(範圍 1-2,取均值)
英文字:依詞長拆 BPE 子詞,平均每字 1.3 tokens
標點 / 數字 / emoji:獨立 token
程式碼:識別常見 keyword,壓縮估算

典型誤差 ±10%,絕大多數預算估算 / context fit 檢查場景夠用。需要精確算錢結帳時,API 回應內 usage.total_tokens 才是 source of truth。

下次選 AI 模型或開新功能,先用 AI Token 估算器跑一次,看 prompt 在 5 大模型的成本對照,整個估算在瀏覽器跑,prompt 不會離開本機。