推理式樹搜尋檢索(PageIndex)與自我演化知識庫(LLM Wiki)的優缺點剖析、融合系統架構提案,以及以 Claude Haiku 4.5 為基準的成本量化。
Vectify AI 開源的「無向量、推理式 RAG」框架。不切 chunk、不做 embedding,而是把文件變成一棵階層樹(給 LLM 看的目錄),檢索時讓 LLM 沿樹做推理式搜尋。
核心性質:索引是結構性的、檢索是推理性的、答案可定位回原文。相似度 ≠ 相關性 —— 它用推理取代向量比對來解決這個 gap。
Karpathy 提出的「自我演化知識庫」模式。與 RAG 相反:RAG 每次查詢都從原文重新挖知識;LLM Wiki 讓 LLM 讀過來源一次後,把知識「編譯」成持久、互連的 Markdown wiki,之後持續維護。
核心性質:知識被消化、累積、互連 —— 查詢命中的是「已整理過的理解」而非原文片段。知識編譯一次、持續複利,不是每問一次就重新推導。
PageIndex 有精確的「原文定位 + 可追溯」但無記憶、查詢貴、跨文件弱;LLM Wiki 有「累積的綜合理解」但失真、難檢索、定位不到原文。
| 面向 | PageIndex 的缺點 | LLM Wiki 的缺點 |
|---|---|---|
| 成本/延遲 | 每次查詢要多次串行 LLM 呼叫走樹,比一次向量查詢慢且貴;建索引時每節點摘要也要 LLM 呼叫 | 每次 ingest 要更新 10+ 頁面,wiki 越大越貴;冷啟動慢——整批語料要先全部編譯 |
| 規模 | 核心設計是單一長文件;面對上千份文件樹搜尋不可行,實測會退回 FAISS 向量搜尋——優勢正是無法 scale 的部分 | Karpathy 自述適合 ~100–200 頁等級;wiki 變大後「查詢該讀哪幾頁」本身又變成檢索問題——它沒有好的檢索層 |
| 知識品質 | 無知識累積——答過的問題、推理過的結論用完即丟,重複問就重複付費;跨章節綜合弱 | 失真/幻覺風險——知識經 LLM 改寫,離原文遠一層,可追溯性差(醫療/金融場景致命);矛盾合併可能抹除有價值的張力 |
| 適用邊界 | 依賴文件結構品質——掃描件、雜亂格式樹建不好就崩;官方無 latency / throughput / cost 生產指標 | 無原文定位能力——「合約第幾條原文怎麼寫」這種精確引用問題,wiki 的轉述不可靠 |
編譯器隱喻:PageIndex 是 source code 的 AST,LLM Wiki 是增量編譯快取。查詢先打快取,miss 或需驗證時回到 AST 做精確檢索,新結果回寫快取。
PageIndex 最大弱點是「上千份文件不知道進哪棵樹」。讓 wiki 的 index 與 entity 頁充當樹之間的地圖:先在 wiki 層推理出「這問題涉及文件 A 第 3 章和文件 B 附錄」,再只對那 2 棵樹做精確搜尋。取代退回 FAISS 的窘境,且路由本身可解釋。
Schema 強制規定:每條 claim 必附 [[doc_id#node_id]] 連回樹節點(進而到頁碼)。Wiki 從「離原文一層的轉述」變成「帶可驗證指標的摘要」。高風險查詢可強制 grounding pass:逐 claim 沿連結下探原文驗證。
樹搜尋很貴,但產生的理解目前用完即丟。融合後每次樹搜尋的結論沉澱成 wiki 頁,重複/相近查詢直接命中 wiki,成本從 N 次串行呼叫降到 1 次——wiki 就是 PageIndex 的語意快取。
新文件進來:① PageIndex 建樹(本來就要對每節做摘要)→ ② 直接拿節點摘要當 wiki ingest 的輸入,更新 entity/concept 頁並掛上 node_id。攤平兩個系統各自的建置成本(見下方成本量化)。
原始 wiki Lint 只能查內部一致性;融合後 Lint 可沿 node_id 抽查 wiki claim 與原文是否仍相符——文件更新、版本替換時尤其重要。
| 查詢類型 | 路徑 | 例子 |
|---|---|---|
| 綜合 / 概覽 | Wiki only(1 次呼叫) | 「這批合約整體的付款條件趨勢?」 |
| 精確定位 | Wiki 路由 → PageIndex 樹搜尋 | 「A 合約的違約金條款原文?」 |
| 高風險需驗證 | Wiki 起草 → 逐 claim 下探原文 grounding | 醫療指引、法遵答覆 |
| Wiki miss | PageIndex 全搜 → 回寫 wiki | 第一次被問到的新主題 |
以最高 CP 值的 Claude Haiku 4.5(input $1 / output $5 per 1M tokens)為基準。假設:100 頁 ≈ 500 字/頁 ≈ 65,000 tokens(英文;中文文件 tokens 約 ×1.5–2,成本等比放大)。
| 模型 | Input $/1M | Output $/1M | 定位 |
|---|---|---|---|
| Claude Haiku 4.5 CP 王 | $1.00 | $5.00 | 索引建置、摘要、批次 ingest 首選 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 查詢時的樹搜尋推理(品質敏感) |
| Claude Opus 4.8 | $5.00 | $25.00 | 高風險 grounding 驗證 |
兩個通用折扣槓桿:Batch API 全部 5 折(離線索引建置必用);Prompt Caching 快取讀取約 0.1× input 價(樹搜尋多步驟重讀同一棵樹時省 ~90% input)。
| 查詢路徑 | LLM 呼叫 | 估算 tokens | Haiku 4.5 | Sonnet 4.6 |
|---|---|---|---|---|
| 傳統向量 RAG(對照組) | 1 | ~8k in / 1k out | ~$0.013 | ~$0.04 |
| PageIndex 純樹搜尋(每次都走樹) | 3–5 串行 | ~30k in / 2k out | ~$0.04 | ~$0.12 |
| 融合:wiki 命中(重複/相近問題) | 1–2 | ~10k in / 1k out | ~$0.015 | ~$0.045 |
| 融合:wiki miss → 樹搜尋 + 回寫 | 4–6 | ~35k in / 4k out | ~$0.055 | ~$0.165 |
關鍵洞察:假設查詢有 60% 命中 wiki(知識工作的問題高度重複),融合系統的均攤查詢成本 ≈ 0.6×$0.015 + 0.4×$0.055 ≈ $0.031,比純 PageIndex 低、且越用越便宜(命中率隨沉澱上升)。每次 wiki miss 不是浪費,是在替未來的查詢付費。
count_tokens API 對代表性文件實測後再做預算。PageIndex 官方雲端服務另有訂閱定價,此處估的是自建管線的 API 成本。錯誤答案沉澱進 wiki 會持續毒害後續查詢。對策:回寫設信心門檻、標記「機器沉澱」來源、Lint 對賬兜底。
該下探卻只查 wiki → 給出過時/失真答案。對策:保守預設——低風險查詢才走純 wiki,其餘預設下探。
文件更新要同時 rebuild 樹 + 增量更新 wiki。對策:以 node_id diff 驅動的增量管線——只重建變動的子樹、只更新引用該節點的 wiki 頁。
文件量大(>百份)、問題高度重複、答案需可追溯的場域:法務、醫療、財報分析、內部知識庫。低重複、即時性要求高的場景仍用向量 RAG 即可。
系統有兩層衍生資料(derived artifacts):L1 樹節點由 PDF 生成、L2 wiki 由樹摘要編譯而成。只有 L0 原始文件是真值;衍生層一旦被人直接修改,整個「可追溯」承諾就從根部失效——而且失效方式是沉默的。
| 被改的層 | 具體風險 | 嚴重度 |
|---|---|---|
| L1 樹節點 node 摘要、頁碼、樹結構 |
導航污染——節點摘要被改到與原文不符,樹搜尋據此推理就走錯章節;答案還是會附上頁碼出處,看起來可信、實際指錯,比沒有引用更危險(虛假可信度)。 | 致命 |
全 wiki 斷鏈——node_id 是 wiki 所有 [[doc#node_id]] 引用的錨點。刪除、重排、改 ID 會讓引用該節點的每一個 wiki claim 斷鏈或指向錯誤段落,grounding 驗證與 Lint 對賬整批失效。 |
致命 | |
| 修改必然丟失——樹是從 PDF 決定性生成的,原文一更新就會 rebuild,人為修改被無聲覆蓋;若為保留人改而不 rebuild,樹又與原文 drift。兩頭皆輸。 | 高 | |
| L2 Wiki 頁 entity / concept / 沉澱頁 |
知識投毒——錯誤內容被寫進 wiki 後,所有 wiki-only 查詢直接吃到毒;因為命中路徑不下探原文,錯誤永遠不會被 L0 糾正。這也是內部攻擊面(等同對 RAG 的 prompt injection)。 | 致命 |
Schema 不變量被破壞——人手寫的 claim 通常不會附 [[doc#node_id]] 錨點,高風險查詢的逐 claim grounding pass 遇到無錨點 claim 就無從驗證,整條「可驗證」路徑被打洞。 |
致命 | |
| 編輯戰——wiki 是 LLM-owned(LLM 是 librarian):人改完內容但不會同步更新 cross-reference 與 index;下一輪 ingest 或 Lint 時,LLM 可能把人為修正視為「矛盾」而 synthesis 掉或直接覆蓋——正確的人類知識被機器無聲回滾。 | 高 | |
| 究責失能——答案出錯時無法分辨是 LLM 幻覺、回寫污染、還是人為改動,debug 與稽核(audit)成本爆炸。 | 高 |
author: human | llm);無法錨定原文的人類經驗放獨立命名空間,查詢時標示信任等級