Đếm token cho prompt GPT, Claude, Gemini. Chính xác với mô hình OpenAI qua tiktoken, ước lượng cho Claude/Gemini.
Used by GPT-4o, GPT-4o-mini, GPT-4-Turbo (2024+).
Định dạng, xác thực và nén dữ liệu JSON
Mã hóa và giải mã chuỗi Base64
Tạo và kiểm tra UUID (v4)
Kiểm tra biểu thức chính quy với kết quả tức thì
Các mô hình ngôn ngữ lớn xử lý văn bản dưới dạng chuỗi "token" — những đoạn 1 hoặc vài ký tự được ánh xạ vào từ vựng số. OpenAI tính phí GPT-4 và GPT-3.5 theo token, Anthropic tính phí Claude theo token, và mỗi mô hình có giới hạn cửa sổ ngữ cảnh cứng (8K, 128K, 200K, 1M+ token). Bộ đếm tính chính xác số token cho mô hình OpenAI (dùng bộ mã BPE tương thích tiktoken chạy trong trình duyệt) và ước lượng theo tỉ lệ ký tự/token cho Claude và Gemini, do Anthropic và Google chưa công bố tokenizer. Dùng để kiểm tra prompt có lọt cửa sổ ngữ cảnh, dự đoán chi phí API, hoặc debug truncation — tất cả không gửi văn bản đi đâu.
GPT-4 / GPT-3.5 (cl100k_base): ~3.5-4 ký tự/token GPT-4o (o200k_base): ~4-4.5 ký tự/token (nén tốt hơn) Claude (ước lượng): ~3.5 ký tự/token Gemini (ước lượng): ~4 ký tự/token Với tiếng CJK (中文、日本語、한국어), tỉ lệ giảm còn ~1.5-2 ký tự/token vì mỗi chữ chứa nhiều nghĩa hơn.