ConvexTok：Tokenizer 不只是前處理，而是可優化的模型基礎設施

LLM Research / Tokenization

Threads 貼文把 ConvexTok 解讀為「Tokenization 被 AI 重新發明」。對應 arXiv 論文 Tokenisation via Convex Relaxations（2605.22821）更精確的說法是：作者認為 BPE、Unigram 等現有 tokenizer construction 多是 greedy algorithms，於是把 tokenizer construction 表述成 linear program，透過 convex optimisation tools 建立 ConvexTok。

核對後的保守結論：論文摘要表示 ConvexTok consistently improves intrinsic tokenisation metrics 與 language-model bits-per-byte（BpB）；downstream task performance 也有改善，但 less consistently。也就是說，這是 tokenizer 基礎層的有力研究訊號，但還不能簡化成「所有大模型應用都必然變好」。

舊方法問題

BPE / Unigram 類方法常以局部最佳、逐步合併或貪心方式建立 vocabulary；它們有效、便宜、成熟，但不一定能從整體目標找到最好的切法。

ConvexTok 做法

把 tokenizer construction 形式化為 linear program，使用凸鬆弛與凸優化工具求解，讓模型能從更全局的角度選擇 token vocabulary。

可證明性

論文強調 ConvexTok 可提供 lower bound，讓使用者估計 tokenizer 距離特定目標下的最佳解有多遠；作者在常見 vocabulary sizes 下觀察到 within 1% of optimal。

指標	論文摘要結論	解讀
Intrinsic tokenisation metrics	Consistently improves。	切字本身的壓縮/表示品質更好。
Bits-per-byte (BpB)	Language models achieved lower BpB。	同樣文字資料可能以更有效率方式被建模。
Downstream tasks	Improves, but less consistently。	真正任務表現仍受模型大小、訓練資料、訓練流程與任務型態影響。
Optimality certificate	可用 lower bound 估計距離 optimal 的差距。	Tokenizer 不再只是 heuristic，也能有更明確的優化目標與可證明界線。

為什麼值得保存：

Tokenizer 是 LLM 的第一層 interface，會影響壓縮率、稀有詞、多語言、程式碼與長上下文成本。
如果 tokenization 變得更可優化，未來模型訓練可能不再沿用固定 BPE pipeline。
企業若訓練 domain-specific model，可重新思考專有名詞、程式碼、表格、混合語言是否需要客製 tokenizer。
但對現有 API 使用者而言，短期影響有限，因為 tokenizer 通常綁定模型與訓練流程。

來源：
Threads 原文：https://www.threads.com/@jokdooaa/post/DYwj5sUGVsI
arXiv：Tokenisation via Convex Relaxations