高露潔 × PyMC Labs:LLM 合成消費者真的能取代市場調研嗎?
論文 LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings 由 PyMC Labs 與 Colgate-Palmolive 作者合作,使用 57 份美國個人護理產品概念調查,每份約 150–400 人,總計 9,300 位真人回應。
傳統消費者研究成本高、速度慢、樣本有 panel bias;LLM 可模擬 synthetic consumers,但直接要求模型填 Likert 數字會產生過窄、偏中間或不自然的分布。
SSR:先讓 LLM 以人口特徵與產品概念生成自由文字購買意願,再用 embedding cosine similarity 與五個 Likert anchor statements 比對,轉成 1–5 的機率分布。
| 方法 | 做法 | 論文觀察 |
|---|---|---|
| DLR:Direct Likert Rating | 直接叫 LLM 回答 1、2、3、4、5 | 概念排名相關性不差,但分布很假;模型常退到安全中間值,很少給 1 或 5。 |
| FLR:Follow-up Likert Rating | 先產生文字,再請同/另一模型當 Likert expert 給分 | 比直接打分更好,但分布相似度仍低於 SSR。 |
| SSR:Semantic Similarity Rating | 文字回應 → embedding → 與 Likert anchors 比相似度 → 產生分布 | GPT-4o 實驗達約 90.2% correlation attainment,KS similarity 約 0.88;Gemini 2.0 Flash 也有相近表現。 |
直接問分數會觸發模型的「安全、平均、禮貌」傾向,輸出看起來合理但沒有真人分布。SSR 的重點是讓模型先產生語義豐富的自然語言,再用 deterministic-ish 的語義映射回傳統量表。
論文發現沒有 demographic conditioning 時,分布可能看似接近真人,但概念排名訊號大幅下降;有年齡、收入等 persona 資訊時,模型比較能重現某些群體對價格與產品類別的反應。
SSR 產生的自由文字不只是中間產物,也能提供「為什麼想買/不想買」的理由、疑慮與價值主張。對早期產品概念,這可能比單一平均分更有用。
- 先選一個資料充足、文化脈絡明確的品類;不要一開始就拿超新、超小眾或 B2B 高客單決策測試。
- 整理產品概念卡:名稱、使用情境、價格 tier、核心賣點、包裝/圖片、替代品。
- 定義 persona sampling:年齡、收入、地區、使用習慣、痛點,但避免把真實個資塞進 prompt。
- 讓 LLM 產生自由文字,不要直接要 1–5 分;每個 persona 可取多次 sample 以降低隨機性。
- 設計 5 點 Likert anchor statements,使用 embedding similarity 映射為分布;不同 anchor set 可平均。
- 輸出三種結果:平均購買意願、Likert 分布、質性 objection/value-proposition themes。
- 把 synthetic 結果當「概念篩選與假設生成」,而不是正式 demand forecast;高價值候選仍要真人驗證。
Threads 留言有人問能否複製到 B2B industrial tech。答案是:可以借方法,不能直接借信心。B2B 採購涉及技術規格、預算週期、採購委員會、既有供應商、法務與風險責任;LLM 很可能只模擬「表面合理的買家語氣」。
把 persona 從「單一消費者」改成 decision-making unit:使用者、技術評估者、財務、採購、主管、資安/法務。SSR 可用於 early messaging / objection mining,但不能取代 discovery call、PoC 與實際採購流程資料。
把模型生成的語意相似度當作市場真相;忽略訓練資料覆蓋度、文化差異、通路曝光、競品促銷、價格承受力與真實購買約束。論文自己也明確說 SSR 不能完整捕捉真實購買行為的 contingencies。
| 論文核對資訊 | 內容 |
|---|---|
| arXiv ID | 2510.08338v3 |
| 日期 | 2025-10-09 初版;2025-10-27 更新 v3 |
| 作者 | Benjamin F. Maier、Ulf Aslak、Luca Fiaschi、Nina Rismal、Kemble Fletcher、Christian C. Luhmann、Robbie Dow、Kli Pappas、Thomas V. Wiecki |
| 機構 | PyMC Labs;Colgate-Palmolive Company |
| 資料 | 57 份個人護理產品概念問卷;9,300 位真人回應;美國市場 |
| 模型 | GPT-4o、Gemini 2.0 Flash;embedding 使用 OpenAI text-embedding-3-small |
| 主要結論 | SSR 可同時改善產品排序相關性與 Likert 分布相似度;但依賴 anchor statements、embedding model、品類資料覆蓋與 persona 條件。 |