地底下的台灣:如何用 AI 打造『全台考古遺址』知識 Master Registry
在之前的 HGIS 系列中,我們主要處理的是「紙上的歷史」——透過方志與古籍還原清代的社會空間。然而,要真正觸摸到「台灣主體性」最深層的脈絡,我們必須將目光投向更長的時間尺度:考古遺址。 如果說《臺灣通史》記載的是數百年的族群演進,那麼埋藏在台南平原地底下的「文化層」,則是長達數千年的地景變遷證詞。 今天,我正式在 Taiwan History Atlas 專案中發布了 v260306.1 更新,核心重點就在於建構一套具備「血緣追蹤」能力的 考古遺址 Master Registry (主註冊表)。 🏛️ 為什麼我們需要 Master Registry? 在處理全台遺址資料時,最頭痛的不是「沒資料」,而是「資料太多且碎片化」。文資局有「法定遺址」、中研院有「普查遺址」、地方政府還有「疑似遺址」。 要在 AI 輔助下進行科學分析,我們不能只是貼貼補補,必須建立一個 Master Registry: 資料對齊:解決同一個遺址在不同單位有不同名字 or 座標微差的問題。 層級化建模:將原始資料 (L0) 轉化為帶有語義標籤的實體 (L1),再整合進知識中樞 (L2)。 血緣追蹤 (Source Origin):每一筆數據都能回溯到是哪個單位的原始點位,確保「證據力」。 目前這套系統已成功整合了 2,563 處 遺址,成為我們 HGIS 引擎中最堅實的核心數據庫。 🛠️ 核心腳本與工作流 (Scripts Toolkit) 在 taiwan-history-atlas 儲存庫中,我們透過以下工具實現了這一流程: 1. Layer 1:實體萃取與特徵標記 利用 scripts/extract_entities.py,AI 會自動掃描原始 Open Data 文本,提取出: 文化年代:從大坌坑、蔦松到金屬器時代。 遺址等級:Rank 1(國定)到 Rank 4(疑似)。 特徵標籤:貝塚、石器、多層疊壓等。 2. Layer 2:跨庫遷移與合成 使用 scripts/atlas_migrator.py,將分散在各區域的實體統一遷移至 data/history_atlas.db。這個過程不只是搬家,更是在進行「去重 (De-duplication)」與「血緣標註」。 ...