逆向閱讀實驗:用 AI 導航《田野敲敲門 2》的人文流域
面對艱澀的學術專著,如何透過 Podcast、AI 預習與深度研究,在翻開書本前就建立起自己的專業領航圖?一場從工程視角跨越到人文田野的認知冒險。
面對艱澀的學術專著,如何透過 Podcast、AI 預習與深度研究,在翻開書本前就建立起自己的專業領航圖?一場從工程視角跨越到人文田野的認知冒險。
今天去國泰世華銀行的零錢機存了一大袋累積已久的零錢。因為機器限制一次只能投入 100 枚硬幣,我分了三次才存完。回到家後,我看著這三張明細單,心血來潮想跟 Gemini 來一場關於「零錢隨機性」的小實驗。 這次的過程與心得,讓我對 AI 在生活自動化與知識輔助上的成熟度感到驚艷。 零錢機存款數據萃取 我直接拍了三張存款明細單,丟給 Gemini 處理。 數據彙整 (2026/03/14) 交易時間 50元 10元 5元 1元 總金額 10:42 10 63 14 13 $1,213 10:45 12 53 20 15 $1,245 10:53 10 66 13 11 $1,236 合計 32 182 47 39 $3,694 我的心得與觀察 1. Gemini 的影像辨識極其準確 我丟出的照片只是隨手拍的收據,字體雖然清晰但仍有陰影與背景干擾。Gemini 能夠完美萃取出每一種幣值的數量、日期與金額,而且完全正確。這證明了「影像轉結構化數據」的技術已經非常成熟。 2. 邏輯計算能力強,沒有幻覺 在進行三組數據的彙整、四種幣值的加總時,Gemini 直接進行了精確的邏輯運算。完全不需要依賴額外的 Python 程式碼,加法與乘法(計算總金額)都做得非常正確,完全沒有所謂的「AI 幻覺」或計算錯誤,這在使用體感上非常安心。 3. 在實驗中複習統計學 除了數據匯總,我更感興趣的是「隨機性」。我把硬幣混在大袋子裡,每次「一把抓」投入。我問 AI:這三次抓取的比例是否合理? 藉由跟 AI 的討論,我學到了: P 值 (P-value):這次實驗的 P 值約為 0.65,代表這三次的差異純粹是機率湊巧,我的抓取動作非常隨機。 巴西堅果效應:討論中發現,為什麼 5 元和 1 元有時會成群出現?原來是因體積小而掉入縫隙的物理特性。 4. 與 AI 深度討論帶來的細節觀察 最有趣的是與 AI 討論「為什麼 10 元這麼多?」。 我們一起發想,這反映了台灣的消費習慣(找零主力)、定價邏輯(多為 5 或 0 結尾),以及我們對高面額硬幣(50元)會優先花掉的心理偏好。一場簡單的存零錢,竟然可以延伸成社會學與物理學的小討論。 ...
最近兩天,我跟我的 AI 夥伴 (Antigravity) 泡在 Travel-Advisor-HUD 這個專案裡。目標很單純:讓我的行車助理不再只是「唸出路名」,而是像個真正懂我的「私人導遊」。 在兩天的密集對話中,我們經歷了幾次關鍵的「卡關」與「破繭而出」,這幾個點我覺得是開發地理感知型 AI (Geographic AI) 最迷人的地方。 🚀 什麼是 Travel Advisor HUD? 這是一個跨裝置的行車助理系統:由 Mac 負責背景運算與大腦邏輯,iPad 則作為沈浸式視覺看板 (HUD)。它能感知你的位置、速度與航向,並結合你過去在 WalkGIS 筆記中的內容,由 Gemini 生成具備人文厚度的即時導覽。 🧩 關鍵卡關與突破 1. 沉重的 Geopandas 與「資料主權」的執念 一開始,我們想用 Python 的 Geopandas 來處理鄉鎮邊界 (SHP) 的空間對位。但在路測邏輯中,Geopandas 顯得過於笨重,且我有一個堅持:「資料主權」。 我不想為了讓 AI 讀數據,就把我珍貴的 walkgis.db (私有筆記) 或內政部的圖資檔案搬來搬去、轉檔轉去。 突破點:我們轉向了 SpatiaLite (SQLite 的空間外掛)。 心得:透過 ATTACH DATABASE 直接掛載原始 DB,並用 VirtualShape 虛擬映射 SHP 檔案。資料「原地不動」,但查詢卻是極速的 SQL 指令。這讓「資料主權」與「運算效能」在這一層完美的對位了。 2. 從「歡迎」到「盤點」的內容層次 原先的導覽很死板:進入新縣市就唸一段 Wiki 簡介。但開車的人真正需要的是:「這裡有沒有我以前記過的東西?」 卡關:AI 雖然強筆強大,但如果你不給它具體的「本地上下文」,它只會說些漂亮但空泛的廢話。 突破點:「行政區點位盤點 (Township Inventory)」機制。 心得:在跨越邊界的瞬間,系統自動在背景先發動一次空間點名,把該鄉鎮內所有關於我的私有筆記 POI 抓出來,做成摘要餵給 Gemini。當 AI 說出:「歡迎來到橫山,這裡有您之前筆記過的內灣車站喔…」時,那種「它真的懂我」的導覽感才算真正建立。 3. Hammerspoon 的定時器與動態設定 Hammerspoon 雖然穩定,但預設的定時器是靜態的。如果我在開車中想調整檢查頻率(比如從 5 分鐘改成 1 分鐘),以往我得停下車,打開 Mac、改代碼、Reload Config。 ...
面對數百首從 CD 轉錄、檔名雜亂、標籤缺失的鳥鳴音訊檔,你會選擇手動一首首修改,還是開發一套具備「生物學智商」的自動化系統? 我起初的想法很單純:在野外走動時,如果聽到鳥聲,我希望能有機會辨識出那是哪隻鳥。於是,企鵝給了我一大包鳥鳴音檔。我只是想找個容易的方式,能隨時翻出想聽的聲音來學習,結果為了這個簡單的願望,就乾脆擼出了這套工具。 這篇文章記錄了 birdsong-processing-kit 的誕生過程:我們如何利用 Gemini AI 與 iNaturalist 生物資料庫,將 816 首混亂的 MP3,轉化為具備「綱、目、科、屬」專業階層、內嵌高清封面與詳細標籤的數位資產。 🎯 核心目標:建立聲音的「數位孿生」 我們擁有的原始資料非常雜碎:有的檔名是「3-55」,有的標籤是日文,有的則是空白。這次自動化改裝的核心目標有三: 結構化分類:按生物學階層(綱/目/科/屬)重新組織目錄。 資訊厚化:自動注入 iNaturalist 的標準中文名、學名、以及物種封面圖片。 溯源管理:在 ID3 標籤中保留原始路徑,確保搬移後依然能追蹤來源。 🛠️ 實作方法:身分校對三部曲 (Identity Cascade) 在開發過程中,我們建立了一套名為「識別決策瀑布」的邏輯,以達到準確度與成本的平衡: 1. 文字優先 (Text-First Discovery) 過度依賴 AI 聽音辨位既昂貴又緩慢。系統會先遍歷原始 ID3 標籤與檔名,清洗掉序號與雜訊,產生候選清單,並優先查詢 iNaturalist API。只要文字比對能獲得精確分類,就不啟動 AI。 2. AI 聽聲辨位 (Gemini 2.5-flash) 針對完全沒有名稱資訊的音軌,系統會自動上傳音訊至 Gemini 2.5-flash。透過 Flash 模型強大的多模態理解力,讓 AI「聽完」後回傳 JSON 格式的識別報告,作為識別的最強墊底方案。 3. 分類中文化校正 iNaturalist 的高階分類(如目、科)往往只有英文或拉丁文。我們另外調用了 Gemini 2.5-flash 針對識別出的學名清單進行批次翻譯,確保目錄結構呈現如「鴞形目/鴟鴞科」這樣的純中文專業觀感。 🚧 遇到的挑戰與克服之道 挑戰 A:AI 成本與處理速度的矛盾 困境:全量 800 多筆若全部上傳辨識,不僅 Token 消耗大,且速度緩慢。 克服:實施「文字預檢」機制。透過 mutagen 深度挖掘 ID3 標籤中的「隱藏資訊」,將 80% 的檔案在文字階段就完成對合,剩餘的 20% 才交由 AI 處理。 ...
從敘事到實踐:個人賦能第二篇的骨架成形記 🧱 從「故事」到「手冊」:第二篇的陣痛與轉身 如果說《個人賦能》的第一篇(Part I)是向後的數位考古,用來證明「演化路徑」的真實性;那麼第二篇(Part II)就是向前的賦能實戰,目標是帶領讀者親手寫下自己的演化史。 今天,我與 Antigravity 深入了第二篇的前哨戰:第七章(方法論)與第八章(Gemini Web/App)。 在這個過程中,最大的挑戰在於:如何將我隨性、紛亂的「驚訝瞬間」,轉化為具備「階梯感」且可練習的「格律項目」?我們不再只是在記錄歷史,我們是在進行認知工程的系統設計。早在動筆寫下第一個字前,我們產出了 02_Part_II_Curriculum_Structure.md —— 這不只是大綱,這是一份定義了 5 個工具、42 個練習如何精準咬合的「施工藍圖」。 🖇️ 穿透兩篇的「螺絲」:[T] 與 [I] 的勾稽系統 書本的內容如果只是練習題,那就太淺薄了。為了讓第二篇的實踐能踏在第一篇的領悟之上,我們建立了一套連作者都感到驚豔的 ID 勾稽系統: [T-ID] (Theory):將第一篇的理論核心化。 [I-ID] (Insight):將考古日誌中的驚訝地標代碼化(如 [I-CLI], [I-WEB], [I-NLM])。 在第二篇的 42 個練習中,每一個 [🚀 抽象對齊] 標記(如 [T-3.2] 樹狀探測、[I-WEB-05] 介面去中心化)都是一顆顆穿透時空的認知螺絲。它確保讀者在操作工具的同時,能瞬間對位到作者當年在考古現場的那份驚訝與領悟。這種「理論支持實踐,實踐驗證理論」的閉環,是我對「系統化寫作」的最終堅持。 🧭 第七章:定義「演化階梯」的重力方向 第七章是整本實踐指南的「羅盤」。 我們確立了 「五階段演化梯」: 啟蒙與感性 (Gemini Web):解決隨時隨地的焦慮,建立手感。 數據與定錨 (NotebookLM):體會 AI 讀懂「我的私有資料」時的震懾感。 效率與統御 (Antigravity):從對話者進化為自動化工廠的指揮官。 靈魂調教 (AI Studio):進入參數與系統指令層次,注入個人品位。 策略治理 (BMAD):完成個人數位主權的系統性佈署。 這不是隨機排列的工具清單,而是遵循著「價值重力」——先讓你感到驚訝,再讓你感到掌控,最後讓你實現治理。 🛠️ 第八章:Gemini 賦能的 14 階地表 第八章是讀者的第一個戰場。今天,我們將這個章節從原本散亂的練習,精煉為 8.0 到 8.14 的完整體系。 ...
定義了考古地層後,接下來就是技術實作。本文分享我如何運用三種不同的技術手段,分別處理「手動存檔」、「碎裂 Log」與「協作筆記」,從數萬條紀錄中量化出我的 AI 賦能證據。
Antigravity 實戰:解放 Google Maps MCP 的力量,AI 導遊帶你去吃喝 身為一個依賴 AI 協作的開發者,我一直在思考如何讓我的 Agent (Antigravity) 擁有「真實世界的眼睛」。雖然它能寫程式、能搜尋網頁,但遇到「地理空間」的問題時——例如「這條路沿線有什麼好吃的?」——它往往只能給我模糊的網頁摘要,而不是精確的地點資訊。 這篇文章記錄了我如何從零開始,克服 API 權限、工具缺失、通訊協定不相容等困難,最終成功讓 Antigravity 使用 Google Maps Grounding Lite MCP (Model Context Protocol),變身為超強 AI 導遊的過程。 1. 緣起:尋找 Agent 的「地圖外掛」 一開始,我希望能透過 Command Line Interface (CLI) 工具,讓 Agent 直接操作 Google Maps。但我發現: 沒有官方 CLI: Google 只有 gcloud (管機器的),沒有 gmaps (查地圖的)。 Gemini CLI 的潛力: Google 推出了 gemini CLI,且支援 MCP (Model Context Protocol),這是一個讓 LLM 能標準化呼叫外部工具的協定。 目標確立:把 Google Maps MCP Server 裝進 Gemini CLI,再讓 Antigravity 呼叫它。 ...
在將 Deep Research 應用於 WalkGIS 的過程中,我意外發現了 Gemini ‘Dynamic View’ 的強大之處。透過幾個簡單的 Prompt,一份幾萬字的枯燥水利工程報告,瞬間被轉化為精美的時間軸、比較表與行程卡片。這不僅是視覺化工具,更是新一代的知識策展神器。
Google Search 找不到剛發布的文章?本篇介紹如何利用 n8n 直接讀取 GitHub Repo 原始碼,結合 Gemini 的長文本能力,實作真正的「即時」問答機器人。
繼 Discord Bot 之後,今天挑戰讓 AI 讀取我的「私人知識庫」。利用 n8n 的 Google Drive 節點下載文件,透過 Extract Text 解析,最後餵給 Gemini 進行問答。過程中踩了 Google OAuth ‘測試使用者’ 的坑。