Technical Analysis Report

PageIndex × LLM Wiki
技術融合分析

推理式樹搜尋檢索(PageIndex)與自我演化知識庫(LLM Wiki)的優缺點剖析、融合系統架構提案,以及以 Claude Haiku 4.5 為基準的成本量化。

日期 2026-06-11 成本基準 Haiku 4.5 — $1 / $5 per MTok 範例文件 100 頁 PDF ≈ 65k tokens
01

PageIndex 是什麼

Vectify AI 開源的「無向量、推理式 RAG」框架。不切 chunk、不做 embedding,而是把文件變成一棵階層樹(給 LLM 看的目錄),檢索時讓 LLM 沿樹做推理式搜尋。

索引結構:階層樹

  • 每個節點 = 文件的一個自然章節,非人工切塊
  • 節點包含:標題、node_id、起迄頁碼、摘要、父子關係
  • 本質是一份為 LLM 最佳化的 Table of Contents
  • 知識仍留在原始文件,索引只是導航層

檢索方式:推理式樹搜尋

  • 不問「哪些 chunk 語意相似」,而問「專家會翻到哪一章、為什麼
  • LLM 逐層往下推理走到葉節點,再讀取原文
  • 每一步決策可解釋、可追溯到頁碼
  • FinanceBench 報告準確率 98.7%

核心性質:索引是結構性的、檢索是推理性的、答案可定位回原文。相似度 ≠ 相關性 —— 它用推理取代向量比對來解決這個 gap。

02

LLM Wiki 是什麼

Karpathy 提出的「自我演化知識庫」模式。與 RAG 相反:RAG 每次查詢都從原文重新挖知識;LLM Wiki 讓 LLM 讀過來源一次後,把知識「編譯」成持久、互連的 Markdown wiki,之後持續維護。

三層架構

  • Raw Sources(不可變)— 原始文章、論文、資料,LLM 只讀不改
  • Wiki(LLM 擁有)— entity 頁、concept 頁、cross-reference、index
  • Schema(規範)— 類似 CLAUDE.md,定義結構與工作流

三個工作流

  • Ingest — 新來源進來,更新 10–15 個相關頁面 + 記錄 log
  • Query — 查 wiki 索引 → 讀頁面 → 好答案沉澱成新頁面
  • Lint — 定期檢查矛盾、過期 claim、孤兒頁、缺漏連結

核心性質:知識被消化、累積、互連 —— 查詢命中的是「已整理過的理解」而非原文片段。知識編譯一次、持續複利,不是每問一次就重新推導。

03

缺點分析:兩者剛好互補

PageIndex 有精確的「原文定位 + 可追溯」但無記憶、查詢貴、跨文件弱;LLM Wiki 有「累積的綜合理解」但失真、難檢索、定位不到原文。

面向PageIndex 的缺點LLM Wiki 的缺點
成本/延遲 每次查詢要多次串行 LLM 呼叫走樹,比一次向量查詢慢且貴;建索引時每節點摘要也要 LLM 呼叫 每次 ingest 要更新 10+ 頁面,wiki 越大越貴;冷啟動慢——整批語料要先全部編譯
規模 核心設計是單一長文件;面對上千份文件樹搜尋不可行,實測會退回 FAISS 向量搜尋——優勢正是無法 scale 的部分 Karpathy 自述適合 ~100–200 頁等級;wiki 變大後「查詢該讀哪幾頁」本身又變成檢索問題——它沒有好的檢索層
知識品質 無知識累積——答過的問題、推理過的結論用完即丟,重複問就重複付費;跨章節綜合弱 失真/幻覺風險——知識經 LLM 改寫,離原文遠一層,可追溯性差(醫療/金融場景致命);矛盾合併可能抹除有價值的張力
適用邊界 依賴文件結構品質——掃描件、雜亂格式樹建不好就崩;官方無 latency / throughput / cost 生產指標 無原文定位能力——「合約第幾條原文怎麼寫」這種精確引用問題,wiki 的轉述不可靠
互補關係:PageIndex 缺的(記憶、跨文件路由、查詢成本攤平)正是 Wiki 有的;Wiki 缺的(原文錨點、可驗證性、檢索層)正是 PageIndex 有的。這是融合的理論基礎。
04

融合架構:Wiki 作為快取與路由層、PageIndex 作為原文真值層

編譯器隱喻:PageIndex 是 source code 的 AST,LLM Wiki 是增量編譯快取。查詢先打快取,miss 或需驗證時回到 AST 做精確檢索,新結果回寫快取。

五個融合機制

Wiki 作為跨文件路由器 → 解決 PageIndex 的語料庫問題

PageIndex 最大弱點是「上千份文件不知道進哪棵樹」。讓 wiki 的 index 與 entity 頁充當樹之間的地圖:先在 wiki 層推理出「這問題涉及文件 A 第 3 章和文件 B 附錄」,再只對那 2 棵樹做精確搜尋。取代退回 FAISS 的窘境,且路由本身可解釋。

node_id 作為 wiki 引用基底 → 解決 Wiki 的失真問題

Schema 強制規定:每條 claim 必附 [[doc_id#node_id]] 連回樹節點(進而到頁碼)。Wiki 從「離原文一層的轉述」變成「帶可驗證指標的摘要」。高風險查詢可強制 grounding pass:逐 claim 沿連結下探原文驗證。

查詢結果回寫 → 解決 PageIndex 的無記憶問題

樹搜尋很貴,但產生的理解目前用完即丟。融合後每次樹搜尋的結論沉澱成 wiki 頁,重複/相近查詢直接命中 wiki,成本從 N 次串行呼叫降到 1 次——wiki 就是 PageIndex 的語意快取。

Ingest 管線合併 → 一次投入產出兩層索引

新文件進來:① PageIndex 建樹(本來就要對每節做摘要)→ ② 直接拿節點摘要當 wiki ingest 的輸入,更新 entity/concept 頁並掛上 node_id。攤平兩個系統各自的建置成本(見下方成本量化)。

Lint 升級為「對賬」 → 幻覺檢查從靠人變成靠機器

原始 wiki Lint 只能查內部一致性;融合後 Lint 可沿 node_id 抽查 wiki claim 與原文是否仍相符——文件更新、版本替換時尤其重要。

查詢路由策略

查詢類型路徑例子
綜合 / 概覽Wiki only(1 次呼叫)「這批合約整體的付款條件趨勢?」
精確定位Wiki 路由 → PageIndex 樹搜尋「A 合約的違約金條款原文?」
高風險需驗證Wiki 起草 → 逐 claim 下探原文 grounding醫療指引、法遵答覆
Wiki missPageIndex 全搜 → 回寫 wiki第一次被問到的新主題
05

成本量化:1 份 100 頁 PDF 要花多少美金?

以最高 CP 值的 Claude Haiku 4.5(input $1 / output $5 per 1M tokens)為基準。假設:100 頁 ≈ 500 字/頁 ≈ 65,000 tokens(英文;中文文件 tokens 約 ×1.5–2,成本等比放大)。

模型單價對照(2026-06,Anthropic 官方)

模型Input $/1MOutput $/1M定位
Claude Haiku 4.5 CP 王$1.00$5.00索引建置、摘要、批次 ingest 首選
Claude Sonnet 4.6$3.00$15.00查詢時的樹搜尋推理(品質敏感)
Claude Opus 4.8$5.00$25.00高風險 grounding 驗證

兩個通用折扣槓桿:Batch API 全部 5 折(離線索引建置必用);Prompt Caching 快取讀取約 0.1× input 價(樹搜尋多步驟重讀同一棵樹時省 ~90% input)。

一次性成本:每份 100 頁 PDF 的轉換費用(Haiku 4.5)

PageIndex 建樹結構偵測 + ~50 節點摘要(讀全文 2 遍)
$0.17
LLM Wiki ingest(獨立跑)讀全文 + 更新 10–15 個 wiki 頁
$0.20
融合管線(建樹 → 樹摘要餵 wiki)wiki ingest 吃 8k 摘要而非 65k 全文
$0.31
融合管線 + Batch API 5 折離線索引建置的實際價格
$0.16
PageIndex 建樹 ≈ (65k×2 in × $1 + 8k out × $5) / 1M ≈ $0.13 + $0.04 = $0.17
融合 ingest ≈ 建樹 $0.17 + wiki更新 (38k in × $1 + 20k out × $5)/1M ≈ $0.17 + $0.14 = $0.31
規模換算:1,000 份 100 頁 PDF 的完整融合索引(Haiku 4.5 + Batch API)≈ $160 美金,一次性投入。注意:兩系統分開跑是 $0.37/份,融合管線因為 wiki 吃樹摘要而非全文,省到 $0.31/份(Batch 後 $0.16)——融合本身就是省錢手段

每次查詢成本(持續性成本,差異更大)

查詢路徑LLM 呼叫估算 tokensHaiku 4.5Sonnet 4.6
傳統向量 RAG(對照組)1~8k in / 1k out~$0.013~$0.04
PageIndex 純樹搜尋(每次都走樹)3–5 串行~30k in / 2k out~$0.04~$0.12
融合:wiki 命中(重複/相近問題)1–2~10k in / 1k out~$0.015~$0.045
融合:wiki miss → 樹搜尋 + 回寫4–6~35k in / 4k out~$0.055~$0.165

關鍵洞察:假設查詢有 60% 命中 wiki(知識工作的問題高度重複),融合系統的均攤查詢成本 ≈ 0.6×$0.015 + 0.4×$0.055 ≈ $0.031,比純 PageIndex 低、且越用越便宜(命中率隨沉澱上升)。每次 wiki miss 不是浪費,是在替未來的查詢付費。

誠實聲明:以上為基於公開定價的工程估算,非實測。變因包括:文件語言(中文 token 較多)、章節數量(節點摘要次數)、wiki 頁面密度、樹深度(串行步數)。建議以 count_tokens API 對代表性文件實測後再做預算。PageIndex 官方雲端服務另有訂閱定價,此處估的是自建管線的 API 成本。
06

殘留風險與對策

回寫污染

錯誤答案沉澱進 wiki 會持續毒害後續查詢。對策:回寫設信心門檻、標記「機器沉澱」來源、Lint 對賬兜底。

Router 是新的失敗點

該下探卻只查 wiki → 給出過時/失真答案。對策:保守預設——低風險查詢才走純 wiki,其餘預設下探。

雙層維護成本

文件更新要同時 rebuild 樹 + 增量更新 wiki。對策:以 node_id diff 驅動的增量管線——只重建變動的子樹、只更新引用該節點的 wiki 頁。

何時值得導入

文件量大(>百份)、問題高度重複、答案需可追溯的場域:法務、醫療、財報分析、內部知識庫。低重複、即時性要求高的場景仍用向量 RAG 即可。

人為修改衍生層的副作用:Node 層與 Wiki 層被改會怎樣?

系統有兩層衍生資料(derived artifacts):L1 樹節點由 PDF 生成、L2 wiki 由樹摘要編譯而成。只有 L0 原始文件是真值;衍生層一旦被人直接修改,整個「可追溯」承諾就從根部失效——而且失效方式是沉默的

被改的層具體風險嚴重度
L1 樹節點
node 摘要、頁碼、樹結構
導航污染——節點摘要被改到與原文不符,樹搜尋據此推理就走錯章節;答案還是會附上頁碼出處,看起來可信、實際指錯,比沒有引用更危險(虛假可信度)。 致命
全 wiki 斷鏈——node_id 是 wiki 所有 [[doc#node_id]] 引用的錨點。刪除、重排、改 ID 會讓引用該節點的每一個 wiki claim 斷鏈或指向錯誤段落,grounding 驗證與 Lint 對賬整批失效。 致命
修改必然丟失——樹是從 PDF 決定性生成的,原文一更新就會 rebuild,人為修改被無聲覆蓋;若為保留人改而不 rebuild,樹又與原文 drift。兩頭皆輸。
L2 Wiki 頁
entity / concept / 沉澱頁
知識投毒——錯誤內容被寫進 wiki 後,所有 wiki-only 查詢直接吃到毒;因為命中路徑不下探原文,錯誤永遠不會被 L0 糾正。這也是內部攻擊面(等同對 RAG 的 prompt injection)。 致命
Schema 不變量被破壞——人手寫的 claim 通常不會附 [[doc#node_id]] 錨點,高風險查詢的逐 claim grounding pass 遇到無錨點 claim 就無從驗證,整條「可驗證」路徑被打洞。 致命
編輯戰——wiki 是 LLM-owned(LLM 是 librarian):人改完內容但不會同步更新 cross-reference 與 index;下一輪 ingest 或 Lint 時,LLM 可能把人為修正視為「矛盾」而 synthesis 掉或直接覆蓋——正確的人類知識被機器無聲回滾
究責失能——答案出錯時無法分辨是 LLM 幻覺、回寫污染、還是人為改動,debug 與稽核(audit)成本爆炸。

那要不要鎖死不可編輯?— 兩層答案不同

L1 樹層:嚴格 read-only,人不可改

  • 樹是編譯產物——就像沒有人會手改 compiler 輸出的 binary,derived artifact 永遠不該手動修補
  • 發現節點錯誤時,正確修法是改上游:修 L0 原文、或修生成管線(parser / 摘要 prompt),然後 rebuild
  • 實作:檔案系統權限鎖死 + 內容 hash 驗證,每次載入比對 hash,被竄改即拒用並告警

L2 Wiki 層:不鎖死,但禁止直接編輯

  • 人類專家知識有價值,完全鎖死是浪費——但寫入必須走受控通道,不能直接改檔案
  • Proposal 模式:人為修改以 PR 形式提交,由 LLM 執行 merge——補 node_id 錨點、同步 cross-ref、跑 schema 檢查,不變量不破
  • 來源標記:每條 claim 帶 provenance(author: human | llm);無法錨定原文的人類經驗放獨立命名空間,查詢時標示信任等級
  • 差別化 Lint:機器頁可自動修正;人為頁只告警、不自動覆蓋——杜絕編輯戰
  • 底層用 git 管理 wiki:版本歷史天然解決究責與回滾
一句話原則:編輯權限跟著資料性質走——L0 原文不可變、L1 編譯產物全鎖(要改就改上游再 rebuild)、L2 知識層開放但只准走受控寫入通道。任何允許「直接手改衍生層」的設計,都是在用便利交換整個系統的可追溯性。
07

資料來源