用 TDA Mapper 和 embeddings 把 X 書籤變成閱讀地圖:個人知識管理不只是搜尋,而是看見注意力形狀
這篇 Threads 很有意思,因為它把「個人知識管理」從傳統的搜尋、分類、標籤,推到另一個層次:用拓撲資料分析(TDA)的 Mapper 算法加上 embeddings,把自己多年的 X 書籤轉成一張閱讀地圖。
這個問題問得很好:我的閱讀習慣長什麼形狀?
一般人整理書籤,通常只會做三件事:
- 搜尋
- 分類
- 標籤
但這些方法都偏「找資料」。TDA + embedding 的方法,則比較像「看結構」。它不是只問某篇文章在哪裡,而是問:我長期保存的內容形成了哪些主題群?哪些區域最密?哪些內容是典型代表?哪些是離群但可能很有啟發的異類?
TDA Mapper 在這裡做的是什麼
TDA(Topological Data Analysis)關心的是資料的形狀。Mapper 算法可以把高維資料投影、分桶、聚類,最後形成一張圖。當資料是 X 書籤時,每個 bookmark 可以先轉成 embedding,代表它在語意空間中的位置,再透過 Mapper 看出整體結構。
這種地圖和一般 2D scatter plot 不太一樣。它不是單純把資料壓到平面,而是試圖保留高維資料中的連通關係與群聚結構。
三種視角的價值
Threads 提到三種視角:density、PCA、centroid。
-
density:注意力重心在哪 哪些主題區域最密集,代表你長期最常收藏、最常被吸引的方向。
-
PCA:閱讀範圍的主軸 PCA 能看出資料變異最大的方向,也就是你的興趣空間主要沿著哪些維度展開。例如 AI infra vs design、投資 vs 開發工具、個人效率 vs 商業策略。
-
centroid:典型內容與離群內容 靠近 centroid 的內容代表某個主題群的典型樣本;遠離 centroid 的內容則可能是異類。異類不一定是垃圾,有時反而是跨域靈感來源。
這對個人 AI 知識庫的啟發
很多人做個人知識庫,只想讓 AI 幫忙查資料。但這篇提醒另一種可能:個人知識庫也可以變成自我觀察工具。
如果把 Allen KB、Threads 收藏、閱讀紀錄、研究筆記都 embedding 化,再做 topology / clustering / graph visualization,我們可以問的問題就不只是:
- 我存了什麼?
- 某篇在哪裡?
而是:
- 我最近的注意力重心往哪裡移動?
- 哪些主題正在融合?
- 哪些收藏是長期核心,哪些只是短暫興趣?
- 哪些離群內容可能代表新方向?
- 我的知識地圖裡有哪些空洞?
這會讓 knowledge base 從資料倉庫,變成策略雷達。
我的判斷
這篇最值得記的,不是 TDA 或 Mapper 這些術語本身,而是它示範了一個方向:當個人資料累積到一定規模,真正有價值的不只是 retrieval,而是 meta-analysis。
也就是說,下一階段個人知識系統應該不只回答「我問什麼」,還要能反過來告訴我:
- 你正在關注什麼
- 你的興趣結構怎麼變
- 哪些主題被你過度集中
- 哪些新興主題值得延伸
- 哪些內容看似邊緣,卻可能是未來機會
對 Allen KB 來說,這個方向很值得做成未來功能。現在 KB 已經有文章、tags、categories、graph;下一步可以考慮:
- 用 embedding 建文章語意空間
- 用 topic density 找近期注意力重心
- 用 cluster centroid 找每個主題代表文
- 用 outlier detection 找異類洞察
- 用時間軸看主題漂移
這會比單純搜尋更接近「知識資產儀表板」。
來源: