Gemini

逆向閱讀實驗：用 AI 導航《田野敲敲門 2》的人文流域

面對艱澀的學術專著，如何透過 Podcast、AI 預習與深度研究，在翻開書本前就建立起自己的專業領航圖？一場從工程視角跨越到人文田野的認知冒險。

零錢袋裡的統計學：與 AI 共舞的存錢明細分析

今天去國泰世華銀行的零錢機存了一大袋累積已久的零錢。因為機器限制一次只能投入 100 枚硬幣，我分了三次才存完。回到家後，我看著這三張明細單，心血來潮想跟 Gemini 來一場關於「零錢隨機性」的小實驗。這次的過程與心得，讓我對 AI 在生活自動化與知識輔助上的成熟度感到驚艷。零錢機存款數據萃取我直接拍了三張存款明細單，丟給 Gemini 處理。數據彙整 (2026/03/14) 交易時間 50元 10元 5元 1元總金額 10:42 10 63 14 13 $1,213 10:45 12 53 20 15 $1,245 10:53 10 66 13 11 $1,236 合計 32 182 47 39 $3,694 我的心得與觀察 1. Gemini 的影像辨識極其準確我丟出的照片只是隨手拍的收據，字體雖然清晰但仍有陰影與背景干擾。Gemini 能夠完美萃取出每一種幣值的數量、日期與金額，而且完全正確。這證明了「影像轉結構化數據」的技術已經非常成熟。 2. 邏輯計算能力強，沒有幻覺在進行三組數據的彙整、四種幣值的加總時，Gemini 直接進行了精確的邏輯運算。完全不需要依賴額外的 Python 程式碼，加法與乘法（計算總金額）都做得非常正確，完全沒有所謂的「AI 幻覺」或計算錯誤，這在使用體感上非常安心。 3. 在實驗中複習統計學除了數據匯總，我更感興趣的是「隨機性」。我把硬幣混在大袋子裡，每次「一把抓」投入。我問 AI：這三次抓取的比例是否合理？藉由跟 AI 的討論，我學到了： P 值 (P-value)：這次實驗的 P 值約為 0.65，代表這三次的差異純粹是機率湊巧，我的抓取動作非常隨機。巴西堅果效應：討論中發現，為什麼 5 元和 1 元有時會成群出現？原來是因體積小而掉入縫隙的物理特性。 4. 與 AI 深度討論帶來的細節觀察最有趣的是與 AI 討論「為什麼 10 元這麼多？」。我們一起發想，這反映了台灣的消費習慣（找零主力）、定價邏輯（多為 5 或 0 結尾），以及我們對高面額硬幣（50元）會優先花掉的心理偏好。一場簡單的存零錢，竟然可以延伸成社會學與物理學的小討論。 ...

[哈爸筆記] 讓 AI 擁有地理動向的靈魂：智慧行車導遊兩日開發實錄

最近兩天，我跟我的 AI 夥伴 (Antigravity) 泡在 Travel-Advisor-HUD 這個專案裡。目標很單純：讓我的行車助理不再只是「唸出路名」，而是像個真正懂我的「私人導遊」。在兩天的密集對話中，我們經歷了幾次關鍵的「卡關」與「破繭而出」，這幾個點我覺得是開發地理感知型 AI (Geographic AI) 最迷人的地方。 🚀 什麼是 Travel Advisor HUD？這是一個跨裝置的行車助理系統：由 Mac 負責背景運算與大腦邏輯，iPad 則作為沈浸式視覺看板 (HUD)。它能感知你的位置、速度與航向，並結合你過去在 WalkGIS 筆記中的內容，由 Gemini 生成具備人文厚度的即時導覽。 🧩 關鍵卡關與突破 1. 沉重的 Geopandas 與「資料主權」的執念一開始，我們想用 Python 的 Geopandas 來處理鄉鎮邊界 (SHP) 的空間對位。但在路測邏輯中，Geopandas 顯得過於笨重，且我有一個堅持：「資料主權」。我不想為了讓 AI 讀數據，就把我珍貴的 walkgis.db (私有筆記) 或內政部的圖資檔案搬來搬去、轉檔轉去。突破點：我們轉向了 SpatiaLite (SQLite 的空間外掛)。心得：透過 ATTACH DATABASE 直接掛載原始 DB，並用 VirtualShape 虛擬映射 SHP 檔案。資料「原地不動」，但查詢卻是極速的 SQL 指令。這讓「資料主權」與「運算效能」在這一層完美的對位了。 2. 從「歡迎」到「盤點」的內容層次原先的導覽很死板：進入新縣市就唸一段 Wiki 簡介。但開車的人真正需要的是：「這裡有沒有我以前記過的東西？」卡關：AI 雖然強筆強大，但如果你不給它具體的「本地上下文」，它只會說些漂亮但空泛的廢話。突破點：「行政區點位盤點 (Township Inventory)」機制。心得：在跨越邊界的瞬間，系統自動在背景先發動一次空間點名，把該鄉鎮內所有關於我的私有筆記 POI 抓出來，做成摘要餵給 Gemini。當 AI 說出：「歡迎來到橫山，這裡有您之前筆記過的內灣車站喔…」時，那種「它真的懂我」的導覽感才算真正建立。 3. Hammerspoon 的定時器與動態設定 Hammerspoon 雖然穩定，但預設的定時器是靜態的。如果我在開車中想調整檢查頻率（比如從 5 分鐘改成 1 分鐘），以往我得停下車，打開 Mac、改代碼、Reload Config。 ...

從混亂至秩序：鳥鳴音訊資料庫的 AI 自動化改裝實錄

面對數百首從 CD 轉錄、檔名雜亂、標籤缺失的鳥鳴音訊檔，你會選擇手動一首首修改，還是開發一套具備「生物學智商」的自動化系統？我起初的想法很單純：在野外走動時，如果聽到鳥聲，我希望能有機會辨識出那是哪隻鳥。於是，企鵝給了我一大包鳥鳴音檔。我只是想找個容易的方式，能隨時翻出想聽的聲音來學習，結果為了這個簡單的願望，就乾脆擼出了這套工具。這篇文章記錄了 birdsong-processing-kit 的誕生過程：我們如何利用 Gemini AI 與 iNaturalist 生物資料庫，將 816 首混亂的 MP3，轉化為具備「綱、目、科、屬」專業階層、內嵌高清封面與詳細標籤的數位資產。 🎯 核心目標：建立聲音的「數位孿生」我們擁有的原始資料非常雜碎：有的檔名是「3-55」，有的標籤是日文，有的則是空白。這次自動化改裝的核心目標有三：結構化分類：按生物學階層（綱/目/科/屬）重新組織目錄。資訊厚化：自動注入 iNaturalist 的標準中文名、學名、以及物種封面圖片。溯源管理：在 ID3 標籤中保留原始路徑，確保搬移後依然能追蹤來源。 🛠️ 實作方法：身分校對三部曲 (Identity Cascade) 在開發過程中，我們建立了一套名為「識別決策瀑布」的邏輯，以達到準確度與成本的平衡： 1. 文字優先 (Text-First Discovery) 過度依賴 AI 聽音辨位既昂貴又緩慢。系統會先遍歷原始 ID3 標籤與檔名，清洗掉序號與雜訊，產生候選清單，並優先查詢 iNaturalist API。只要文字比對能獲得精確分類，就不啟動 AI。 2. AI 聽聲辨位 (Gemini 2.5-flash) 針對完全沒有名稱資訊的音軌，系統會自動上傳音訊至 Gemini 2.5-flash。透過 Flash 模型強大的多模態理解力，讓 AI「聽完」後回傳 JSON 格式的識別報告，作為識別的最強墊底方案。 3. 分類中文化校正 iNaturalist 的高階分類（如目、科）往往只有英文或拉丁文。我們另外調用了 Gemini 2.5-flash 針對識別出的學名清單進行批次翻譯，確保目錄結構呈現如「鴞形目/鴟鴞科」這樣的純中文專業觀感。 🚧 遇到的挑戰與克服之道挑戰 A：AI 成本與處理速度的矛盾困境：全量 800 多筆若全部上傳辨識，不僅 Token 消耗大，且速度緩慢。克服：實施「文字預檢」機制。透過 mutagen 深度挖掘 ID3 標籤中的「隱藏資訊」，將 80% 的檔案在文字階段就完成對合，剩餘的 20% 才交由 AI 處理。 ...

從敘事到實踐：個人賦能第二篇的骨架成形記

從敘事到實踐：個人賦能第二篇的骨架成形記 🧱 從「故事」到「手冊」：第二篇的陣痛與轉身如果說《個人賦能》的第一篇（Part I）是向後的數位考古，用來證明「演化路徑」的真實性；那麼第二篇（Part II）就是向前的賦能實戰，目標是帶領讀者親手寫下自己的演化史。今天，我與 Antigravity 深入了第二篇的前哨戰：第七章（方法論）與第八章（Gemini Web/App）。在這個過程中，最大的挑戰在於：如何將我隨性、紛亂的「驚訝瞬間」，轉化為具備「階梯感」且可練習的「格律項目」？我們不再只是在記錄歷史，我們是在進行認知工程的系統設計。早在動筆寫下第一個字前，我們產出了 02_Part_II_Curriculum_Structure.md —— 這不只是大綱，這是一份定義了 5 個工具、42 個練習如何精準咬合的「施工藍圖」。 🖇️ 穿透兩篇的「螺絲」：[T] 與 [I] 的勾稽系統書本的內容如果只是練習題，那就太淺薄了。為了讓第二篇的實踐能踏在第一篇的領悟之上，我們建立了一套連作者都感到驚豔的 ID 勾稽系統： [T-ID] (Theory)：將第一篇的理論核心化。 [I-ID] (Insight)：將考古日誌中的驚訝地標代碼化（如 [I-CLI], [I-WEB], [I-NLM]）。在第二篇的 42 個練習中，每一個 [🚀 抽象對齊] 標記（如 [T-3.2] 樹狀探測、[I-WEB-05] 介面去中心化）都是一顆顆穿透時空的認知螺絲。它確保讀者在操作工具的同時，能瞬間對位到作者當年在考古現場的那份驚訝與領悟。這種「理論支持實踐，實踐驗證理論」的閉環，是我對「系統化寫作」的最終堅持。 🧭 第七章：定義「演化階梯」的重力方向第七章是整本實踐指南的「羅盤」。我們確立了「五階段演化梯」：啟蒙與感性 (Gemini Web)：解決隨時隨地的焦慮，建立手感。數據與定錨 (NotebookLM)：體會 AI 讀懂「我的私有資料」時的震懾感。效率與統御 (Antigravity)：從對話者進化為自動化工廠的指揮官。靈魂調教 (AI Studio)：進入參數與系統指令層次，注入個人品位。策略治理 (BMAD)：完成個人數位主權的系統性佈署。這不是隨機排列的工具清單，而是遵循著「價值重力」——先讓你感到驚訝，再讓你感到掌控，最後讓你實現治理。 🛠️ 第八章：Gemini 賦能的 14 階地表第八章是讀者的第一個戰場。今天，我們將這個章節從原本散亂的練習，精煉為 8.0 到 8.14 的完整體系。 ...

數位考古實作：三種方法挖掘隱藏在 Log 中的賦能數據

定義了考古地層後，接下來就是技術實作。本文分享我如何運用三種不同的技術手段，分別處理「手動存檔」、「碎裂 Log」與「協作筆記」，從數萬條紀錄中量化出我的 AI 賦能證據。

Antigravity 實戰：解放 Google Maps MCP 的力量，AI 導遊帶你去吃喝

Antigravity 實戰：解放 Google Maps MCP 的力量，AI 導遊帶你去吃喝身為一個依賴 AI 協作的開發者，我一直在思考如何讓我的 Agent (Antigravity) 擁有「真實世界的眼睛」。雖然它能寫程式、能搜尋網頁，但遇到「地理空間」的問題時——例如「這條路沿線有什麼好吃的？」——它往往只能給我模糊的網頁摘要，而不是精確的地點資訊。這篇文章記錄了我如何從零開始，克服 API 權限、工具缺失、通訊協定不相容等困難，最終成功讓 Antigravity 使用 Google Maps Grounding Lite MCP (Model Context Protocol)，變身為超強 AI 導遊的過程。 1. 緣起：尋找 Agent 的「地圖外掛」一開始，我希望能透過 Command Line Interface (CLI) 工具，讓 Agent 直接操作 Google Maps。但我發現：沒有官方 CLI: Google 只有 gcloud (管機器的)，沒有 gmaps (查地圖的)。 Gemini CLI 的潛力: Google 推出了 gemini CLI，且支援 MCP (Model Context Protocol)，這是一個讓 LLM 能標準化呼叫外部工具的協定。目標確立：把 Google Maps MCP Server 裝進 Gemini CLI，再讓 Antigravity 呼叫它。 ...

Gemini Dynamic View 實戰：一句話把萬字研究報告變成視覺化簡報

在將 Deep Research 應用於 WalkGIS 的過程中，我意外發現了 Gemini ‘Dynamic View’ 的強大之處。透過幾個簡單的 Prompt，一份幾萬字的枯燥水利工程報告，瞬間被轉化為精美的時間軸、比較表與行程卡片。這不僅是視覺化工具，更是新一代的知識策展神器。

告別索引焦慮：用 n8n + GitHub API 打造 AI 的即時知識庫

Google Search 找不到剛發布的文章？本篇介紹如何利用 n8n 直接讀取 GitHub Repo 原始碼，結合 Gemini 的長文本能力，實作真正的「即時」問答機器人。

[實戰] n8n + Google Drive + Gemini：打造能讀懂私人文件的 AI 助理

繼 Discord Bot 之後，今天挑戰讓 AI 讀取我的「私人知識庫」。利用 n8n 的 Google Drive 節點下載文件，透過 Extract Text 解析，最後餵給 Gemini 進行問答。過程中踩了 Google OAuth ‘測試使用者’ 的坑。