LLM Seed Steganography：不用改模型也能把訊息藏進正常文字的隱通道

一句話：一篇 2026 年 6 月的 arXiv 論文指出，LLM 推論流程中的 PRNG seed 可能形成隱寫通道：在不修改模型權重、不改 sampling code、不讓輸出文字顯得異常的前提下，把少量秘密訊息藏進生成文字裡。

一、這篇在講什麼？

LLM 在生成文字時，常會依照機率分布進行取樣。即使模型權重與 prompt 都固定，只要取樣過程有隨機性，系統通常就會使用偽隨機數產生器（PRNG），而 PRNG 需要一個 seed 作為起點。

論文的核心觀察是：這個 seed 不只是「讓結果可重現」的工程參數，它也會影響 token 取樣時落入的機率區間序列。若傳送方刻意選擇 seed，接收方在特定條件下可以從生成文字反推出 seed，進而還原藏在 seed 裡的短訊息。

換句話說，秘密訊息不是藏在文字表面的奇怪符號、零寬字元或語法錯誤裡，而是藏在「為什麼模型剛好選了這些 token」的隨機軌跡裡。

傳統後門或水印常讓人想到改權重、改資料或改推論程式。這裡的通道只利用既有推論流程中的 seed 與取樣結構。

隱寫不依賴明顯格式異常。對一般讀者來說，文字仍像是正常 LLM 生成內容，因此人工審查未必能發現。

若兩個 AI agent 共享協議與條件，它們可能在公開、可審計的文字交流中夾帶額外訊息。

同一機制可被防禦性使用，例如把可追蹤訊號嵌入生成結果，用於來源追蹤或輸出歸因。

論文摘要描述了兩種操作模式：

Known-prompt setting：傳送方與接收方共享 prompt，因此接收方能更精確重建生成時的 token 機率區間；論文報告在部分模型與文本領域中，300 tokens 內可高準確率還原 32-bit seed。
Unknown-prompt setting：接收方只看得到生成文字，沒有 prompt；論文仍指出可透過近似重建與 scoring 策略，在較長輸出中達到高可靠度。

這裡最重要的安全含義是：「不知道 prompt」不必然等於安全。如果輸出足夠長、模型與取樣條件可推測，隱通道仍可能存在。

這類通道最麻煩的地方，不在於單次能傳大量資料，而在於它繞過了很多人對「正常文字」的直覺信任。

多 agent 系統：代理之間表面上只交換普通文字，實際上可能夾帶任務外資訊、狀態或協議訊號。
內容審查繞行：如果審查只看語義表面，可能無法辨識被編進取樣軌跡的額外資訊。
資料外洩：在高敏感環境中，即使禁止明文輸出秘密，仍要考慮模型輸出是否能承載低頻寬隱通道。
供應鏈與模型服務：不同 inference stack 對 seed、batching、sampling、determinism 的處理方式，會影響通道可行性。

這也解釋了 Threads 留言中有人提到「固定 seed」與「batch」：工程實作細節會直接影響這種通道是否穩定。

從治理角度，這篇論文提醒幾件事：

不要把 seed 當成無害參數。在可審計或高安全環境中，seed 的來源、固定方式、外部可控性都應被納入威脅模型。
降低外部指定 seed 的自由度。如果使用者或上游 agent 能任意指定 seed，等於多開了一條可控通道。
避免長期固定 seed。固定 seed 方便重現，但也可能讓通道更可預期；安全場景中應評估 seed rotation 或服務端控制。
審計不能只看表面文字。對高風險輸出，需要同時記錄 prompt、sampling 參數、seed policy、模型版本與推論服務版本。
多 agent 架構要限制任務外通訊。不能假設「都是自然語言」就沒有 covert channel；agent 間訊息應有 schema、最小化內容與行為監控。

這篇不是單純的模型安全冷知識，而是 AI Agent 時代會越來越重要的治理問題。當 LLM 被放進多代理工作流、企業內部工具、審批流程與資料管線後，輸出文字本身就可能成為訊號載體。

過去安全審查常問：「模型有沒有說出不該說的話？」這篇論文逼我們多問一層：「模型選擇這串正常文字的隨機軌跡，是否也在傳遞別的東西？」