PageIndex × LLM Wiki 技術融合分析報告

PageIndex 是什麼

Vectify AI 開源的「無向量、推理式 RAG」框架。不切 chunk、不做 embedding，而是把文件變成一棵階層樹（給 LLM 看的目錄），檢索時讓 LLM 沿樹做推理式搜尋。

索引結構：階層樹

每個節點 = 文件的一個自然章節，非人工切塊
節點包含：標題、node_id、起迄頁碼、摘要、父子關係
本質是一份為 LLM 最佳化的 Table of Contents
知識仍留在原始文件，索引只是導航層

檢索方式：推理式樹搜尋

不問「哪些 chunk 語意相似」，而問「專家會翻到哪一章、為什麼」
LLM 逐層往下推理走到葉節點，再讀取原文
每一步決策可解釋、可追溯到頁碼
FinanceBench 報告準確率 98.7%

核心性質：索引是結構性的、檢索是推理性的、答案可定位回原文。相似度 ≠ 相關性 —— 它用推理取代向量比對來解決這個 gap。

LLM Wiki 是什麼

Karpathy 提出的「自我演化知識庫」模式。與 RAG 相反：RAG 每次查詢都從原文重新挖知識；LLM Wiki 讓 LLM 讀過來源一次後，把知識「編譯」成持久、互連的 Markdown wiki，之後持續維護。

三層架構

Raw Sources（不可變）— 原始文章、論文、資料，LLM 只讀不改
Wiki（LLM 擁有）— entity 頁、concept 頁、cross-reference、index
Schema（規範）— 類似 CLAUDE.md，定義結構與工作流

三個工作流

Ingest — 新來源進來，更新 10–15 個相關頁面 + 記錄 log
Query — 查 wiki 索引 → 讀頁面 → 好答案沉澱成新頁面
Lint — 定期檢查矛盾、過期 claim、孤兒頁、缺漏連結

核心性質：知識被消化、累積、互連 —— 查詢命中的是「已整理過的理解」而非原文片段。知識編譯一次、持續複利，不是每問一次就重新推導。

缺點分析：兩者剛好互補

PageIndex 有精確的「原文定位 + 可追溯」但無記憶、查詢貴、跨文件弱；LLM Wiki 有「累積的綜合理解」但失真、難檢索、定位不到原文。

PageIndex 與 LLM Wiki 缺點對照
面向	PageIndex 的缺點	LLM Wiki 的缺點
成本/延遲	每次查詢要多次串行 LLM 呼叫走樹，比一次向量查詢慢且貴；建索引時每節點摘要也要 LLM 呼叫	每次 ingest 要更新 10+ 頁面，wiki 越大越貴；冷啟動慢——整批語料要先全部編譯
規模	核心設計是單一長文件；面對上千份文件樹搜尋不可行，實測會退回 FAISS 向量搜尋——優勢正是無法 scale 的部分	Karpathy 自述適合 ~100–200 頁等級；wiki 變大後「查詢該讀哪幾頁」本身又變成檢索問題——它沒有好的檢索層
知識品質	無知識累積——答過的問題、推理過的結論用完即丟，重複問就重複付費；跨章節綜合弱	失真/幻覺風險——知識經 LLM 改寫，離原文遠一層，可追溯性差（醫療/金融場景致命）；矛盾合併可能抹除有價值的張力
適用邊界	依賴文件結構品質——掃描件、雜亂格式樹建不好就崩；官方無 latency / throughput / cost 生產指標	無原文定位能力——「合約第幾條原文怎麼寫」這種精確引用問題，wiki 的轉述不可靠

互補關係：PageIndex 缺的（記憶、跨文件路由、查詢成本攤平）正是 Wiki 有的；Wiki 缺的（原文錨點、可驗證性、檢索層）正是 PageIndex 有的。這是融合的理論基礎。

融合架構：Wiki 作為快取與路由層、PageIndex 作為原文真值層

編譯器隱喻：PageIndex 是 source code 的 AST，LLM Wiki 是增量編譯快取。查詢先打快取，miss 或需驗證時回到 AST 做精確檢索，新結果回寫快取。

SYSTEM ARCHITECTURE

Query

▼

Router（LLM）

判斷查詢類型：綜合概覽型 → Wiki／精確定位型 → 樹搜尋／高風險 → 起草+下探驗證

▼ ▼

L2 — LLM Wiki 層

entity / concept 頁、cross-ref、查詢沉澱頁。每條 claim 強制附 [[doc#node_id]] 引用

L1 — PageIndex 樹層

每份文件一棵樹；節點含頁碼+摘要；推理式樹搜尋回傳原文+出處

◀── wiki miss / 需驗證時下探 ── ── 樹搜尋結論回寫沉澱 ──▶

Answer + 雙層引用

wiki 頁 → node_id → 原文頁碼，全程可追溯

L0 — Raw Documents

不可變的原始 PDF / 文件，唯一真值來源

五個融合機制

Wiki 作為跨文件路由器 → 解決 PageIndex 的語料庫問題

PageIndex 最大弱點是「上千份文件不知道進哪棵樹」。讓 wiki 的 index 與 entity 頁充當樹之間的地圖：先在 wiki 層推理出「這問題涉及文件 A 第 3 章和文件 B 附錄」，再只對那 2 棵樹做精確搜尋。取代退回 FAISS 的窘境，且路由本身可解釋。

node_id 作為 wiki 引用基底 → 解決 Wiki 的失真問題

Schema 強制規定：每條 claim 必附 [[doc_id#node_id]] 連回樹節點（進而到頁碼）。Wiki 從「離原文一層的轉述」變成「帶可驗證指標的摘要」。高風險查詢可強制 grounding pass：逐 claim 沿連結下探原文驗證。

查詢結果回寫 → 解決 PageIndex 的無記憶問題

樹搜尋很貴，但產生的理解目前用完即丟。融合後每次樹搜尋的結論沉澱成 wiki 頁，重複/相近查詢直接命中 wiki，成本從 N 次串行呼叫降到 1 次——wiki 就是 PageIndex 的語意快取。

Ingest 管線合併 → 一次投入產出兩層索引

新文件進來：① PageIndex 建樹（本來就要對每節做摘要）→ ② 直接拿節點摘要當 wiki ingest 的輸入，更新 entity/concept 頁並掛上 node_id。攤平兩個系統各自的建置成本（見下方成本量化）。

Lint 升級為「對賬」 → 幻覺檢查從靠人變成靠機器

原始 wiki Lint 只能查內部一致性；融合後 Lint 可沿 node_id 抽查 wiki claim 與原文是否仍相符——文件更新、版本替換時尤其重要。

查詢路由策略

查詢類型	路徑	例子
綜合 / 概覽	Wiki only（1 次呼叫）	「這批合約整體的付款條件趨勢？」
精確定位	Wiki 路由 → PageIndex 樹搜尋	「A 合約的違約金條款原文？」
高風險需驗證	Wiki 起草 → 逐 claim 下探原文 grounding	醫療指引、法遵答覆
Wiki miss	PageIndex 全搜 → 回寫 wiki	第一次被問到的新主題

成本量化：1 份 100 頁 PDF 要花多少美金？

以最高 CP 值的 Claude Haiku 4.5（input $1 / output $5 per 1M tokens）為基準。假設：100 頁 ≈ 500 字/頁 ≈ 65,000 tokens（英文；中文文件 tokens 約 ×1.5–2，成本等比放大）。

模型單價對照（2026-06，Anthropic 官方）

模型	Input $/1M	Output $/1M	定位
Claude Haiku 4.5 CP 王	$1.00	$5.00	索引建置、摘要、批次 ingest 首選
Claude Sonnet 4.6	$3.00	$15.00	查詢時的樹搜尋推理（品質敏感）
Claude Opus 4.8	$5.00	$25.00	高風險 grounding 驗證

兩個通用折扣槓桿：Batch API 全部 5 折（離線索引建置必用）；Prompt Caching 快取讀取約 0.1× input 價（樹搜尋多步驟重讀同一棵樹時省 ~90% input）。

一次性成本：每份 100 頁 PDF 的轉換費用（Haiku 4.5）

PageIndex 建樹結構偵測 + ~50 節點摘要（讀全文 2 遍）

$0.17

LLM Wiki ingest（獨立跑）讀全文 + 更新 10–15 個 wiki 頁

$0.20

融合管線（建樹 → 樹摘要餵 wiki）wiki ingest 吃 8k 摘要而非 65k 全文

$0.31

融合管線 + Batch API 5 折離線索引建置的實際價格

$0.16

PageIndex 建樹 ≈ (65k×2 in × $1 + 8k out × $5) / 1M ≈ $0.13 + $0.04 = $0.17

融合 ingest ≈ 建樹 $0.17 + wiki更新 (38k in × $1 + 20k out × $5)/1M ≈ $0.17 + $0.14 = $0.31

規模換算：1,000 份 100 頁 PDF 的完整融合索引（Haiku 4.5 + Batch API）≈ $160 美金，一次性投入。注意：兩系統分開跑是 $0.37/份，融合管線因為 wiki 吃樹摘要而非全文，省到 $0.31/份（Batch 後 $0.16）——融合本身就是省錢手段。

每次查詢成本（持續性成本，差異更大）

查詢路徑	LLM 呼叫	估算 tokens	Haiku 4.5	Sonnet 4.6
傳統向量 RAG（對照組）	1	~8k in / 1k out	~$0.013	~$0.04
PageIndex 純樹搜尋（每次都走樹）	3–5 串行	~30k in / 2k out	~$0.04	~$0.12
融合：wiki 命中（重複/相近問題）	1–2	~10k in / 1k out	~$0.015	~$0.045
融合：wiki miss → 樹搜尋 + 回寫	4–6	~35k in / 4k out	~$0.055	~$0.165

關鍵洞察：假設查詢有 60% 命中 wiki（知識工作的問題高度重複），融合系統的均攤查詢成本 ≈ 0.6×$0.015 + 0.4×$0.055 ≈ $0.031，比純 PageIndex 低、且越用越便宜（命中率隨沉澱上升）。每次 wiki miss 不是浪費，是在替未來的查詢付費。

誠實聲明：以上為基於公開定價的工程估算，非實測。變因包括：文件語言（中文 token 較多）、章節數量（節點摘要次數）、wiki 頁面密度、樹深度（串行步數）。建議以 count_tokens API 對代表性文件實測後再做預算。PageIndex 官方雲端服務另有訂閱定價，此處估的是自建管線的 API 成本。

殘留風險與對策

回寫污染

錯誤答案沉澱進 wiki 會持續毒害後續查詢。對策：回寫設信心門檻、標記「機器沉澱」來源、Lint 對賬兜底。

Router 是新的失敗點

該下探卻只查 wiki → 給出過時/失真答案。對策：保守預設——低風險查詢才走純 wiki，其餘預設下探。

雙層維護成本

文件更新要同時 rebuild 樹 + 增量更新 wiki。對策：以 node_id diff 驅動的增量管線——只重建變動的子樹、只更新引用該節點的 wiki 頁。

何時值得導入

文件量大（>百份）、問題高度重複、答案需可追溯的場域：法務、醫療、財報分析、內部知識庫。低重複、即時性要求高的場景仍用向量 RAG 即可。

人為修改衍生層的副作用：Node 層與 Wiki 層被改會怎樣？

系統有兩層衍生資料（derived artifacts）：L1 樹節點由 PDF 生成、L2 wiki 由樹摘要編譯而成。只有 L0 原始文件是真值；衍生層一旦被人直接修改，整個「可追溯」承諾就從根部失效——而且失效方式是沉默的。

被改的層	具體風險	嚴重度
L1 樹節點 node 摘要、頁碼、樹結構	導航污染——節點摘要被改到與原文不符，樹搜尋據此推理就走錯章節；答案還是會附上頁碼出處，看起來可信、實際指錯，比沒有引用更危險（虛假可信度）。	致命
	全 wiki 斷鏈——node_id 是 wiki 所有 `[[doc#node_id]]` 引用的錨點。刪除、重排、改 ID 會讓引用該節點的每一個 wiki claim 斷鏈或指向錯誤段落，grounding 驗證與 Lint 對賬整批失效。	致命
	修改必然丟失——樹是從 PDF 決定性生成的，原文一更新就會 rebuild，人為修改被無聲覆蓋；若為保留人改而不 rebuild，樹又與原文 drift。兩頭皆輸。	高
L2 Wiki 頁 entity / concept / 沉澱頁	知識投毒——錯誤內容被寫進 wiki 後，所有 wiki-only 查詢直接吃到毒；因為命中路徑不下探原文，錯誤永遠不會被 L0 糾正。這也是內部攻擊面（等同對 RAG 的 prompt injection）。	致命
	Schema 不變量被破壞——人手寫的 claim 通常不會附 `[[doc#node_id]]` 錨點，高風險查詢的逐 claim grounding pass 遇到無錨點 claim 就無從驗證，整條「可驗證」路徑被打洞。	致命
	編輯戰——wiki 是 LLM-owned（LLM 是 librarian）：人改完內容但不會同步更新 cross-reference 與 index；下一輪 ingest 或 Lint 時，LLM 可能把人為修正視為「矛盾」而 synthesis 掉或直接覆蓋——正確的人類知識被機器無聲回滾。	高
	究責失能——答案出錯時無法分辨是 LLM 幻覺、回寫污染、還是人為改動，debug 與稽核（audit）成本爆炸。	高

那要不要鎖死不可編輯？— 兩層答案不同

L1 樹層：嚴格 read-only，人不可改

樹是編譯產物——就像沒有人會手改 compiler 輸出的 binary，derived artifact 永遠不該手動修補
發現節點錯誤時，正確修法是改上游：修 L0 原文、或修生成管線（parser / 摘要 prompt），然後 rebuild
實作：檔案系統權限鎖死 + 內容 hash 驗證，每次載入比對 hash，被竄改即拒用並告警

L2 Wiki 層：不鎖死，但禁止直接編輯

人類專家知識有價值，完全鎖死是浪費——但寫入必須走受控通道，不能直接改檔案
Proposal 模式：人為修改以 PR 形式提交，由 LLM 執行 merge——補 node_id 錨點、同步 cross-ref、跑 schema 檢查，不變量不破
來源標記：每條 claim 帶 provenance（author: human | llm）；無法錨定原文的人類經驗放獨立命名空間，查詢時標示信任等級
差別化 Lint：機器頁可自動修正；人為頁只告警、不自動覆蓋——杜絕編輯戰
底層用 git 管理 wiki：版本歷史天然解決究責與回滾

一句話原則：編輯權限跟著資料性質走——L0 原文不可變、L1 編譯產物全鎖（要改就改上游再 rebuild）、L2 知識層開放但只准走受控寫入通道。任何允許「直接手改衍生層」的設計，都是在用便利交換整個系統的可追溯性。