考古 | 哈爸筆記

在之前的 HGIS 系列中，我們主要處理的是「紙上的歷史」——透過方志與古籍還原清代的社會空間。然而，要真正觸摸到「台灣主體性」最深層的脈絡，我們必須將目光投向更長的時間尺度：考古遺址。如果說《臺灣通史》記載的是數百年的族群演進，那麼埋藏在台南平原地底下的「文化層」，則是長達數千年的地景變遷證詞。今天，我正式在 Taiwan History Atlas 專案中發布了 v260306.1 更新，核心重點就在於建構一套具備「血緣追蹤」能力的考古遺址 Master Registry (主註冊表)。 🏛️ 為什麼我們需要 Master Registry？在處理全台遺址資料時，最頭痛的不是「沒資料」，而是「資料太多且碎片化」。文資局有「法定遺址」、中研院有「普查遺址」、地方政府還有「疑似遺址」。要在 AI 輔助下進行科學分析，我們不能只是貼貼補補，必須建立一個 Master Registry：資料對齊：解決同一個遺址在不同單位有不同名字 or 座標微差的問題。層級化建模：將原始資料 (L0) 轉化為帶有語義標籤的實體 (L1)，再整合進知識中樞 (L2)。血緣追蹤 (Source Origin)：每一筆數據都能回溯到是哪個單位的原始點位，確保「證據力」。目前這套系統已成功整合了 2,563 處遺址，成為我們 HGIS 引擎中最堅實的核心數據庫。 🛠️ 核心腳本與工作流 (Scripts Toolkit) 在 taiwan-history-atlas 儲存庫中，我們透過以下工具實現了這一流程： 1. Layer 1：實體萃取與特徵標記利用 scripts/extract_entities.py，AI 會自動掃描原始 Open Data 文本，提取出：文化年代：從大坌坑、蔦松到金屬器時代。遺址等級：Rank 1（國定）到 Rank 4（疑似）。特徵標籤：貝塚、石器、多層疊壓等。 2. Layer 2：跨庫遷移與合成使用 scripts/atlas_migrator.py，將分散在各區域的實體統一遷移至 data/history_atlas.db。這個過程不只是搬家，更是在進行「去重 (De-duplication)」與「血緣標註」。 ...