GenAI 學習歷程

GenAI實驗

GenAI 學習歷程最近新貨如果哈爸修人工智慧與土地使用模擬實作與批判新竹政策黑客松工作坊

當 Antigravity 遇見 Obsidian CLI：AI 代理程式的「手腳」革命

長期以來，AI 代理程式雖然能思考、能寫碼，但在作業系統與應用程式之間，總像隔著一層玻璃。透過 Obsidian 1.12.x 全新釋出的 CLI 工具，AI 終於擁有了能直接操作 UI 的「手腳」。

零錢袋裡的統計學：與 AI 共舞的存錢明細分析

今天去國泰世華銀行的零錢機存了一大袋累積已久的零錢。因為機器限制一次只能投入 100 枚硬幣，我分了三次才存完。回到家後，我看著這三張明細單，心血來潮想跟 Gemini 來一場關於「零錢隨機性」的小實驗。這次的過程與心得，讓我對 AI 在生活自動化與知識輔助上的成熟度感到驚艷。零錢機存款數據萃取我直接拍了三張存款明細單，丟給 Gemini 處理。數據彙整 (2026/03/14) 交易時間 50元 10元 5元 1元總金額 10:42 10 63 14 13 $1,213 10:45 12 53 20 15 $1,245 10:53 10 66 13 11 $1,236 合計 32 182 47 39 $3,694 我的心得與觀察 1. Gemini 的影像辨識極其準確我丟出的照片只是隨手拍的收據，字體雖然清晰但仍有陰影與背景干擾。Gemini 能夠完美萃取出每一種幣值的數量、日期與金額，而且完全正確。這證明了「影像轉結構化數據」的技術已經非常成熟。 2. 邏輯計算能力強，沒有幻覺在進行三組數據的彙整、四種幣值的加總時，Gemini 直接進行了精確的邏輯運算。完全不需要依賴額外的 Python 程式碼，加法與乘法（計算總金額）都做得非常正確，完全沒有所謂的「AI 幻覺」或計算錯誤，這在使用體感上非常安心。 3. 在實驗中複習統計學除了數據匯總，我更感興趣的是「隨機性」。我把硬幣混在大袋子裡，每次「一把抓」投入。我問 AI：這三次抓取的比例是否合理？藉由跟 AI 的討論，我學到了： P 值 (P-value)：這次實驗的 P 值約為 0.65，代表這三次的差異純粹是機率湊巧，我的抓取動作非常隨機。巴西堅果效應：討論中發現，為什麼 5 元和 1 元有時會成群出現？原來是因體積小而掉入縫隙的物理特性。 4. 與 AI 深度討論帶來的細節觀察最有趣的是與 AI 討論「為什麼 10 元這麼多？」。我們一起發想，這反映了台灣的消費習慣（找零主力）、定價邏輯（多為 5 或 0 結尾），以及我們對高面額硬幣（50元）會優先花掉的心理偏好。一場簡單的存零錢，竟然可以延伸成社會學與物理學的小討論。 ...

意外的「全壘打」：點子池從記錄到自動轉化的開發實錄

在數位在數位開發與日常生活中，有些工具是經過深思熟慮後產生的，而有些則是「意外的產物」。Idea Pool (點子池) 的誕生，就屬於後者。這篇文章想分享的不是技術細節，而是那個開發當下的「Aha! Moment」—— 我們如何從一個單純的記錄需求，一氣呵成地演化出整套自動化生命週期。 1. 原本的初衷：捕捉那些「放鬆時的閃念」最初的需求源於一個生活化的痛點：在生活放鬆的過程中，腦中常會有些不錯的 idea 突然冒出來，可能是對某個工具的優化靈感，或者是對文章結構的新構想。這些想法若不立刻記下來，三分鐘後就消失在記憶邊緣。我大概描述了自己的想法與痛點，想開啟與 AI (Antigravity) 的討論。我大概描述簡單的想法與痛點，想要開啟討論，當時我腦中的想像還很模糊，可能只是一個簡單的紀錄功能，能讓我把初始想法大致描述記錄下來即可。 2. 驚訝的轉折：從「收納」到「成長」的架構令我驚訝的是，當我們開始討論「怎麼存」時，AI 並沒有止步於建立一個文本檔，而是直接拋出了一套完整的「點子生命週期管理」架構，可能源自於我有說明痛點。提醒到我，如果點子只是存起來，那最後只會變成一個「數位墳墓」；點子必須能夠「成長」與「轉化」。在短短一次的心流協作中，我們直接跳過了單純的記錄功能，設計出了三段式的運作邏輯：特別的是 AI 結合我正練習的 2+1 快手精神，將展開與轉化架構話變成工具 A. 捕捉 (Capture) - just in 這是最底層的本能。透過 just in "我的想法"，瞬間將文字打入每季一個的 Ideas.md 檔案中。不需要管路徑、不需要切換視窗，重點在於實現那個「極低摩擦」。 B. 展開 (Expansion) - just ix 當我有空回頭看這些點子時，我最討厭的就是「想不起來當初在想什麼」。我們設計了 just ix (Idea Expansion)，調用 AI 對單一條目進行「碰撞」與「推演」。它會幫我辨識脈絡、建議實作路徑，甚至幫我想好可能的專案鏈結。 C. 轉化 (Transformation) - just it 這是整套系統的「最後一哩路」。當一個點子在 ix 階段成熟後，我們可以透過 just it (Idea Transformation) 直接將它「投射」到現實中——可能是轉化為 TASKS.md 中的一個正式任務，或是寫入知識庫。 3. 實施驗證：這不是演習，是真實的效率提升這套系統最讓我感到驚喜的地方在於，它解決了「想法落地」的斷層。 ...

「2+1 快手」開發實錄：打破 AI 與現實世界的「摩擦力」

在開發 AI 應用的過程中，起初我並非直接針對「與 AI 對話」的體驗進行設計，而是希望能有一套自動化工具的支援，來 Offload (卸載) LLM 的使用負擔。但在開發過程中，意外地發展出一套極其高效的自動化開發與探勘環境，這就是「2+1 快手」的由來。這不只是一套腳本，而是一種重新定義「自動化卸載」的設計哲學。 1. 原來的問題：如何讓 LLM 專注於高價值工作？在與 LLM 深度協作時，我發現如果所有事情都丟給模型處理，不僅成本高昂，且許多重複性的環境感知、資料檢索與動作執行工作，LLM 的表現並不穩定。我需要一種「感官化」的自動化中樞，它能幫 LLM 處理掉繁瑣的物理邊界問題（例如：座標在哪、現在是什麼環境），讓模型專注於最後的語義合成與意圖判斷。 2. 架構說明：三位一體的演化架構「2+1」的核心在於兩個強大的底層工具（Hammerspoon 與 Fabfile），以及一個最方便的人機界面 (Just)： A. 第 1 核：感官與執行 (Sensory & Actuator) - Hammerspoon 這是系統的「神經末梢」與「執行器」。物理觀察：Hammerspoon (HS) 負責持續監控物理世界的數據，如座標系統 (GPS)、航向、速度。本能反應：當「大腦」下達指令，HS 負責執行最終的物理行動（如呼叫系統語音播報或切換 UI）。 B. 第 2 核：邏輯中樞 (Intelligence) - Fabfile 這是系統的「重型中樞」，承載著最耗資源的運算與邏輯。 AI 智力與資料對齊：調度 Gemini 執行深度邏輯判定，並與現有的本地資料庫進行檢索對齊。它負責將感官層傳來的原始數據，轉生為具備價值的決策或內容。 C. 那個關鍵的「+1」：數位本能 (Interface) - Just 這是我目前覺得最方便的核心。本能化封裝：Just 在這裡扮演了關鍵的 +1 角色。它將複雜的 HS 與 Fab 運作，封裝成人類可以直覺呼叫的「短指令」。能力的最終成果：Just 不只是通訊協議，它代表的是「能力的最終產出」。使用者不需要理解底層如何連動，只需記住一個簡單的縮寫即可發動複雜的異質系統連動。 3. 運行優勢實證：三劍客的聯動威力透過「2+1」架構，幾個關鍵的自動化場景得以實現： ...

從隨手錄音到 ATC 任務帳本：一場關於「思緒自動化」的實務探索

在繁忙的工作與移動中，最珍貴也最易逝的是那些「隨口說出」的靈感。最近我實驗了一套流程，成功將散落在手機錄音中的碎片思緒，轉化為生產力工具中實實在在的待辦事項。這不只是一個工具鏈的組合，更是一場關於思緒如何被抽象化、結構化並最終落地的過程。 🛠️ 思緒落地的三階進化 1. 捕捉：低阻力的語音隨筆在開車或行走時，順手用手機錄音直接錄下四段對話與想法。這些內容通常是發散的、充滿口語贅字，但包含了最原始的戰略直覺。關鍵工具：手機錄音、NotebookLM。抽象化：將音訊數位化，並利用 AI 跨越語音雜訊，提取出「執行摘要」。這一步是將「感性直覺」轉化為「理性文字」。 2. 展開：與 Agent 的對話與批判單純的摘要只是死資料，真正的價值在於「追蹤展開」。我將摘要轉入 Antigravity (我的 AI Agent)，開始一段深度的對話。互動過程：AI 根據摘要提出升級計畫 (Proposal)。在這個階段，人類扮演的是「裁判」的角色——判斷哪些點子目前要執行的（如虛擬 COE 指揮官），哪些則是需要暫緩或歸檔的。抽象化：將「初步想法」轉化為「具體計畫」。這是一個過濾、分類與權重分配的過程。 3. 落地：ATC 任務帳本系統的建立最後，也是最具突破性的一步：我們意識到，如果計畫只存在於對話紀錄中，它依然會隨著視窗關閉而消失。解決方案：我與 AI 協作，在 GitHub 環境中建立了一個持久化的任務帳本——tasks/TASKS.md。 Agentic 互動：這不再是傳統的 Todo 清單。我們定義了 ATC (Agentic Task Context) 規範。AI 不僅是「記錄者」，更是「維護者」。它會自動將對話中被暫緩的點子塞進 Backlog，將正在執行的標記為 Ongoing。抽象化：將「離線計畫」轉化為「在線上下文」。任務檔案變成了 AI 每次啟動工作的「記憶點」。 💡 核心洞見：從「對話」到「狀態」這次實作讓我明白，與 AI 協作的終極態樣不是不斷地開啟新對話，而是建立一個共享的「狀態帳本」。手機錄音是捕捉靈感的感測器。 NotebookLM 是粗略的過濾器。 Antigravity 是精確的執行器。 TASKS.md 則是兩者共享的記憶體。當這條路徑被打通後，我驚覺自己產出的點子不再是遺落在錄音筆裡的塵埃。透過 Agent 的「手」和持久化的「儲存空間」，靈感開始具備了自我演進的生命週期。這就是我們在轉型路徑中追求的——讓 AI 成為一個不間斷的思緒延伸器，讓每一個隨口說出的想法，都能找到它的數位歸宿。 🤖 AI 協作宣告本文內容: 由哈爸口述核心脈絡與經驗，由 Antigravity 整理結構、進行內容抽象化並潤飾成文。背景脈絡: 本文生成的動機，即源自於本對話中剛建立的 tasks/TASKS.md 實踐過程。

從對話遺骸到 Agent 技能：一場無痛的數位賦能實踐

寫在轉化後：我們與 AI 的對話往往像是一場漫長的淘金。在過去幾週的「河流探索」專案中，我與 AI 助手累積了數百次關於 GIS 處理、水利考掘與行程規劃的對話。這些對話中隱含著極高的「專業 SOP」，但若不加以整理，它們終將沉沒在歷史紀錄中。本文記錄了我如何讓 AI 「自我解構」，將對話轉化為持續賦能的 Agent Skills。 1. 發現遺產：在廢墟中尋找規律隨著曾文溪、濁水溪探索的展開，我發現每次規劃時，AI 都要重新理解一次我的需求：「我要生成 Google Maps 連結」「我要將點位寫入 walkgis.db」「我要撰寫帶有水利深度的 Blog Post」這些重複性的動作，就是「技能化」的最佳候選者。我讓 AI 回頭檢視我們的對話紀錄，問它：「在這些對話中，有哪些動作是你反覆在幫我做的？請把它們解構出來。」 2. 技能封裝 (Skill Encapsulation)：定義專業邊界這是我覺得最驚艷的部分。AI 並不只是給我一份總結，而是協同我建立了具體的「技能包 (Skills)」目錄： gis-data-manager：封裝了標記 POI、WKT 轉換與資料庫同步的腳本。 river-exploration：封裝了從 Phase 0 (資料準備) 到 Phase 3 (深度解析) 的完整河流探索指引。 hugo-content-wizard：專門處理「筆記轉部落格」的繁瑣格式。我們定義了具體的 SKILL.md，這就像是賦予了 Agent 一本「標準作業手冊」。 3. 無痛轉入手感：從「手工業」到「自動化導航」當這些技能被定義後，我再次發起任務（如這次的「蘭陽溪考掘」）時，感覺完全不同了：溝通簡化：我不再需要解釋怎麼存資料庫，只需要說「執行 gis-data-manager 的同步邏輯」。品質躍升：因為 SOP 已被明確化，AI 會自動執行「豐富化對話」、「異常偵測」等高階動作，產出的內容從原本的「行程表」躍升為「水路歷史考掘計畫」。這種感覺就像是，你不用再教廚師怎麼切菜，你只需要給食材並說出你想吃的菜系，廚師已經具備了全套精湛的刀工與調味邏輯。結語：讓 AI 成為你的肌肉記憶這次的實驗讓我理解到，AI 的強大不在於它「懂得多」，而在於它能透過我們的引導，將「偶然的成功」沉澱為「必然的技能」。當對話不再是消耗，而是累積成一套不斷成長的 Agent Skills 時，數位賦能才真正發生。 ...

Antigravity 實戰：解放 Google Maps MCP 的力量，AI 導遊帶你去吃喝

Antigravity 實戰：解放 Google Maps MCP 的力量，AI 導遊帶你去吃喝身為一個依賴 AI 協作的開發者，我一直在思考如何讓我的 Agent (Antigravity) 擁有「真實世界的眼睛」。雖然它能寫程式、能搜尋網頁，但遇到「地理空間」的問題時——例如「這條路沿線有什麼好吃的？」——它往往只能給我模糊的網頁摘要，而不是精確的地點資訊。這篇文章記錄了我如何從零開始，克服 API 權限、工具缺失、通訊協定不相容等困難，最終成功讓 Antigravity 使用 Google Maps Grounding Lite MCP (Model Context Protocol)，變身為超強 AI 導遊的過程。 1. 緣起：尋找 Agent 的「地圖外掛」一開始，我希望能透過 Command Line Interface (CLI) 工具，讓 Agent 直接操作 Google Maps。但我發現：沒有官方 CLI: Google 只有 gcloud (管機器的)，沒有 gmaps (查地圖的)。 Gemini CLI 的潛力: Google 推出了 gemini CLI，且支援 MCP (Model Context Protocol)，這是一個讓 LLM 能標準化呼叫外部工具的協定。目標確立：把 Google Maps MCP Server 裝進 Gemini CLI，再讓 Antigravity 呼叫它。 ...

不再擔心「句點王」：如何透過 AI 語音對談達成高效思維進化

分享一套利用 AI 語音討論的方法論，將對話轉化為具備「無限開放性」與「邏輯紀錄」的思考深化工具。

當 AI 代理人也有「性格」：從安全官視角看 AI 的行為與本質判定

探討 AI 代理人化後的管理挑戰，提出「AI 安全官」概念，從行為意圖、特徵值到本質進行多層次安全監控。

GenAI 學習歷程#

最近新貨#

GenAI 學習歷程

最近新貨