發表文章

Loop Engineering 是新詞,控制迴圈是老朋友:SRE 視角的 AI Agent 設計觀

2026 年六月起,「Loop Engineering」成了討論度很高的一個詞。它的核心主張是:不要再一句一句去指揮 AI agent,而是設計一個能自己運作的迴圈,讓系統替你下指令。這個想法很誘人,但也帶來疑問:它跟我們已經在用的東西有什麼不同?什麼時候該用?會不會出問題? 這篇文章想換一個角度來看這件事。如果我們把 Loop Engineering 放回「控制迴圈(control loop)」這個更老、也更成熟的脈絡裡,前面那些疑問會清楚不少。控制迴圈是 SRE 與自動化領域用了很多年的概念,它累積下來的一些經驗,剛好可以回答 Loop Engineering 現在還沒講清楚的問題。本文的目的不是重述一次「Loop Engineering 是什麼」,(這類介紹網路上已經很多了),而是透過 SRE 的角度來說明,並用它來想清楚幾個實務上真正重要的問題。 一、Loop Engineering 本質 Google Cloud 的 Addy Osmani 在他那篇被廣泛引用的長文裡,把 Loop Engineering 定義為「把負責下指令的那個人,從你自己換成一套你設計好的系統」。在過去 Prompt Engineering 的模式下,開發者跟 AI 是一來一往的:你提需求、AI 產出、你看完再給下一個指令,人始終是流程的控制者。Loop Engineering 想做的,是把這個控制的角色交給一個迴圈:它會自動發現工作、指派任務、驗證結果、記錄狀態,再決定下一步。實作上它由幾個元素組成:Automation、工作區隔離 Worktree、Skills、Connector、Sub-Agent,以及 State Memory。 這裡有個容易被熱潮蓋過的事實值得先說:這並不是一個全新發明。Anthropic 在 2024 年的《Building Effective Agents》裡,就已經描述過 Evaluator-Optimizer(一個模型產出、另一個模型批判修正)與 Orchestrator-Workers(主代理分派工作給子代理)這類架構,它們本質上都是 agent 迴圈。真正改變的其實是工具的成熟度,一年前你想做這件事,得自己寫一堆 bash script 跟排程,現在這些能力已經直接內建進 Claude Cod...

Platform Engineering vs SRE: 2026 年企業選擇的新觀點

在 2026 年的企業技術圈,「Platform Engineering」已不再是矽谷大廠的專屬詞彙, 它正以驚人速度出現在每一份 CTO 的年度規劃書中。然而,許多企業在尚未釐清其本質之前, 便倉促地將資源從 SRE 團隊抽調至平台建設,結果兩頭落空。本文將從組織設計、成本結構 與工程文化三個維度深度解析,為不同規模的企業提供一套可操作的決策框架——因為這道題 的正確答案,從來就不是二選一。 一、背景:為什麼 2026 年這個問題變得緊迫? 最近注意到一件事:「Platform Engineering」這個詞出現的頻率,已經開始追上「DevOps」。 Gartner 在其《Hype Cycle for Software Engineering, 2023》中, 將 Platform Engineering 與 AI-augmented software engineering(AIASE)、AI coding assistants 並列為 具轉型潛力的核心趨勢,預計主流採用時間落在 2 至 5 年內, 並預測到 2026 年,80% 的大型軟體工程組織將建立專責的平台團隊。 [10] 值得注意的是,根據 platformengineering.org 於 2025 年底的調查, 這個預測已提前實現——近 90% 的企業表示已建立內部平台, 比 Gartner 的預測時程提早了整整一年。 [11] 與此同時,許多已經導入 SRE 三至五年的企業,正面臨一個尷尬的現實困境: SRE 團隊的價值難以向管理層說清楚,招募符合條件的 SRE 工程師越來越困難, 而開發團隊對維運流程的抱怨卻從未減少。這些積累已久的組織摩擦, 讓 Platform Engineering 的出現顯得格外像是一個「救星」。 問題在於,當企業管理層開始把 Platform Engineering 視為 SRE 的「升級替代版」時, 一場代價高昂的組織誤判便已悄然開始。在真正理解它們的本質差異之前, 任何倉促的組織重組,都只是把問題從一個地方搬到另一個地方。 要回答「企業該如何選擇」這個問題,我們必須先回到最基本的定義。 二、定義釐清:先弄懂這兩個詞到底在說什麼 SRE 的本質 SRE 的起源可以追溯到 2003 年 Googl...

別讓技術債摧毀 API 安全:解析 APIOps 維運哲學

在之前文章中,我們完成了 Tyk 的初步建置。但在進入更進階的功能前,我們必須先討論一個很多開發者會忽略、卻能在升級時致命的問題: 你的 API Gateway 是「有記憶」的嗎? 很多運維人員以為 API Gateway 只是個單純的轉發器(Proxy),壞了重裝就好。但如果你沒有實作 APIOps ,你的 Gateway 其實是一個「有記憶的黑盒」。當你需要跨大版本升級卻不打算遷移資料庫時,那個黑盒裡的記憶(Token、配額、動態帳號)就會隨風而去,換來的是使用者的哀鴻遍野與工程師的徹夜加班。這篇文章將帶你從底層架構解析,如何避免這場維運災難。 一、 核心概念:什麼是 APIOps? 簡單來說, APIOps = API 管理 + DevOps + GitOps 。它強調 API 的管理不應該是在 UI 介面上手動點選,而是應該像撰寫程式碼一樣,透過版本控制(Git)來管理。 核心哲學: Gateway 應該是「無狀態的執行者(Enforcer)」。即使你把 Gateway 及其資料庫全部刪除,只要 Git 裡的設定檔還在,你應該要在幾秒鐘內就能恢復所有服務。 二、 從資料庫架構看維運風險:Kong vs. Tyk 不同的 API Gateway 選擇了不同的資料庫路徑,這直接決定了你升級時的風險點: 1. Kong 的「腦袋」:PostgreSQL (關聯式資料庫) Kong 使用 PostgreSQL 儲存配置數據(Services, Routes, Plugins)。 升級風險: 如果升級大版本時直接對接一個「空的」DB,Kong 會立即「失憶」,所有 API 規則消失,請求將全數回傳 404 Not Found。 2. Tyk 的「心臟」:Redis (記憶體資料庫) Tyk 核心依賴 Redis 來存取 API Keys 與限流狀態(Rate Limits)。 升級風險: Redis 主要是記憶體存儲。如果你的地端環境斷電或重啟且未正確設定持久化(AOF/RDB),所有的 動態 Token 與 配額統計 都會瞬間歸零。 三、 升級時的「遺失災難」:重新登入就能解決嗎? 假設你今天要升級大版本,卻不想搬動舊的資料庫,只打算建立一個新環境。以下資料的遺失...

DevSecOps 的隱形稅收:打破專案制思維,以 SRE 框架重構企業安全防禦的 ROI

圖片
導讀摘要: 面對數位轉型,許多企業往往陷入「專案式思維」的陷阱,導致 DevSecOps 轉型後,維運與資安成本不減反增。本文深度解析如何借鑑 Google SRE 核心邏輯,引進「安全性誤差預算」與「消除瑣事」機制。我們將探討如何透過自動化合規與平台工程,將安全從「昂貴的支出中心」轉化為「驅動業務的穩定引擎」。如果您正苦於雲端帳單失控或人肉維運的困境,這篇文章將為您提供量化管理維運成本的全新視角。

熱門文章

Docker 環境下的 Proxy 配置