Platform Engineering vs SRE: 2026 年企業選擇的新觀點
在 2026 年的企業技術圈,「Platform Engineering」已不再是矽谷大廠的專屬詞彙, 它正以驚人速度出現在每一份 CTO 的年度規劃書中。然而,許多企業在尚未釐清其本質之前, 便倉促地將資源從 SRE 團隊抽調至平台建設,結果兩頭落空。本文將從組織設計、成本結構 與工程文化三個維度深度解析,為不同規模的企業提供一套可操作的決策框架——因為這道題 的正確答案,從來就不是二選一。
一、背景:為什麼 2026 年這個問題變得緊迫?
最近注意到一件事:「Platform Engineering」這個詞出現的頻率,已經開始追上「DevOps」。
Gartner 在其《Hype Cycle for Software Engineering, 2023》中, 將 Platform Engineering 與 AI-augmented software engineering(AIASE)、AI coding assistants 並列為 具轉型潛力的核心趨勢,預計主流採用時間落在 2 至 5 年內, 並預測到 2026 年,80% 的大型軟體工程組織將建立專責的平台團隊。 [10] 值得注意的是,根據 platformengineering.org 於 2025 年底的調查, 這個預測已提前實現——近 90% 的企業表示已建立內部平台, 比 Gartner 的預測時程提早了整整一年。 [11]
與此同時,許多已經導入 SRE 三至五年的企業,正面臨一個尷尬的現實困境: SRE 團隊的價值難以向管理層說清楚,招募符合條件的 SRE 工程師越來越困難, 而開發團隊對維運流程的抱怨卻從未減少。這些積累已久的組織摩擦, 讓 Platform Engineering 的出現顯得格外像是一個「救星」。
問題在於,當企業管理層開始把 Platform Engineering 視為 SRE 的「升級替代版」時, 一場代價高昂的組織誤判便已悄然開始。在真正理解它們的本質差異之前, 任何倉促的組織重組,都只是把問題從一個地方搬到另一個地方。 要回答「企業該如何選擇」這個問題,我們必須先回到最基本的定義。
二、定義釐清:先弄懂這兩個詞到底在說什麼
SRE 的本質
SRE 的起源可以追溯到 2003 年 Google 的一個工程決策:與其讓維運工程師用手動方式 管理服務,不如讓軟體工程師用寫程式的方式解決維運問題。這個哲學後來被系統化, 並在 Site Reliability Engineering(Beyer et al., O'Reilly, 2016)一書中 完整呈現。該書在第一章明確指出 SRE 的核心定義:
"SRE is what happens when you ask a software engineer to design an operations team."
— Beyer et al., Site Reliability Engineering, Chapter 1
SRE 透過定義 SLI(服務水準指標)、SLO(服務水準目標)與 Error Budget(誤差預算) 來量化「可靠」的邊界,並透過系統性消除 Toil(瑣事)來釋放工程師的時間。 關於 Toil,Google SRE Book 在第五章給出了精確的描述:
"Toil is the kind of work tied to running a production service that tends to be manual, repetitive, automatable, tactical, devoid of enduring value, and that scales linearly as the service grows."
— Beyer et al., Site Reliability Engineering, Chapter 5
這句話的關鍵在最後六個字:scales linearly as the service grows。 這意味著,若不主動消除 Toil,維運成本將與業務規模同步線性增長, 成為企業擴張的財務枷鎖。SRE 回答的核心問題始終是: 「我們的服務,對終端用戶而言夠不夠可靠?」
Platform Engineering 的本質
Platform Engineering 的理論基礎,很大程度上來自 Matthew Skelton 與 Manuel Pais 在 2019 年出版的 Team Topologies(IT Revolution Press)。 這本書提出了四種核心團隊拓撲,其中「Platform Team(平台團隊)」被定義為:
"A platform team provides internal services to reduce the cognitive load for stream-aligned teams... the platform team's job is to make it easy for stream-aligned teams to do the right thing."
— Skelton & Pais, Team Topologies, Chapter 5
這段定義揭示了 Platform Engineering 的核心邏輯: 降低認知負擔(Cognitive Load)。 隨著微服務架構與雲原生技術的普及,開發者需要掌握的工具鏈呈指數級增長—— 從容器編排、CI/CD 流水線到安全合規掃描,每個環節都需要專業知識。 Platform Engineering 的解法是建立「內部開發者平台 (Internal Developer Platform,IDP)」,將底層複雜度封裝起來, 以產品化方式提供給開發者使用。
Platform Engineering 回答的核心問題是: 「我們的開發者,能不能快速、安全、自助地把服務跑起來?」
一個幫助記憶的類比
如果把軟體交付比喻成一座城市的運作:SRE 是消防局與急救體系,確保當問題發生時 能快速響應、將損害降到最低;Platform Engineering 則是城市的道路與公共設施規劃團隊, 確保每一位市民(開發者)都能順暢地抵達目的地,而不需要自己鋪路。 兩者缺一不可,但職責完全不同。
三、核心比較:五個維度的對照分析
理解了各自的本質之後,我們從五個實際的組織維度來做更細緻的對比。
| 維度 | SRE | Platform Engineering |
|---|---|---|
| 主要服務對象 | 終端用戶、業務部門 | 內部開發者 |
| 核心產出 | SLO、Runbook、Postmortem | IDP、Golden Path、Self-service |
| 成功指標 | 可用性、MTTR、Error Budget 消耗率 | 開發者採用率、Lead Time、部署頻率 |
| 組織定位 | 可靠性守門人 | 內部基礎設施產品團隊 |
| 導入門檻 | 深厚維運實戰經驗 | 基礎設施能力 + 產品思維 |
1. 主要服務對象
SRE 的第一客戶是終端用戶與業務部門。當系統發生 Outage,SRE 的 KPI 是 MTTR (平均修復時間)與 SLO 達成率,這些指標直接反映在用戶體驗與業務收入上。 Platform Engineering 的第一客戶則是內部開發者。根據 CNCF 於 2023 年發布的 Platforms White Paper,一個成功的內部平台最重要的特質是 「它必須被開發者主動選擇使用,而非強制採用」——這意味著平台團隊的工作 本質上是一種產品競爭,需要持續證明其價值。[4]
2. 核心產出
SRE 團隊的典型交付物包括:SLO 定義文件、Runbook、Postmortem 報告, 以及自動化的告警與故障響應系統。Platform Engineering 團隊的核心交付物 則是「黃金路徑(Golden Path)」——預先設計好的、符合企業安全與合規標準的 標準化開發部署流程,讓開發者透過自助服務完成大部分基礎設施操作, 無需等待維運團隊的人工審批。
3. 成功指標
根據 Google 贊助的 DORA(DevOps Research and Assessment)年度報告, 衡量工程效能的四大核心指標為:部署頻率(Deployment Frequency)、 變更前置時間(Lead Time for Changes)、變更失敗率(Change Failure Rate) 與服務恢復時間(Time to Restore Service)。[3] SRE 的工作直接影響後兩項指標(穩定性),Platform Engineering 的工作 則主要影響前兩項(速度)。兩套指標服務於不同的業務目標,混用只會造成 團隊方向的混亂。
4. 組織定位
SRE 在組織中通常扮演「守門人」的角色,負責設定並捍衛系統可靠性的標準底線。 Platform Engineering 團隊則更接近一個內部產品團隊。 Team Topologies 的作者 Skelton 與 Pais 特別強調, Platform Team 與其服務的開發團隊之間,應該維持一種「X-as-a-Service」 的互動模式,而非傳統維運團隊的「請求-審批」關係。[2]
5. 導入門檻
SRE 的導入需要深厚的系統維運實戰經驗與對分散式系統故障模式的深度理解。 Platform Engineering 則額外需要產品設計思維。根據 Humanitec 發布的 《State of Platform Engineering Report 2023》,超過 60% 的平台工程團隊 表示建立平台初期最大的挑戰並非技術問題,而是如何說服開發者主動採用平台—— 本質上是一個產品行銷問題,不是工程問題。[11]
四、來自歐美企業的真實教訓:三種最常見的組織陷阱
理論上的區別容易理解,但現實中的組織決策往往在執行層面出現偏差。 以下三種陷阱,並非空泛的假設情境,而是來自歐美企業的真實紀錄。
陷阱一:把 Platform Engineering 當成 SRE 的替代品
這是目前最普遍、也最危險的誤判。根據 CNCF 於 2024 年發布的 How to Fail at Platform Engineering 分析文章, Platform Engineering 失敗的根本原因之一,是組織在尚未鞏固可靠性基礎的前提下, 就將資源轉移至平台建設——結果是平台本身成為新的單點故障來源, 風險不減反增,從「服務不穩定」演變為「平台出事,所有服務一起倒」。[6]
Puppet 在其《State of Platform Engineering Report 2024》中明確指出: Platform Engineering 的崛起不是要取代 DevOps 或 SRE, 而是在 DevOps 目標的基礎上協同運作。[7] 該報告特別強調,大多數已建立平台團隊三至五年的組織, 正進入一個「更成熟的演進階段」——這個描述本身就說明, Platform Engineering 是在 SRE 地基穩固後的進階投資,而非替代選項。
陷阱二:平台團隊保留舊思維,缺乏產品視角
另一種常見情況是,企業讓現有的 SRE 或 DevOps 團隊「升級」為 Platform Engineering 團隊,卻沒有同步調整工作方式與成功指標。Team Topologies 的作者 Skelton 與 Pais 明確警告,Platform Team 必須以「X-as-a-Service」的產品思維運作, 而非傳統維運團隊的「請求-審批」模式。[2] 然而根據 platformengineering.org 於 2026 年發布的產業調查, 目前仍有 38% 的平台團隊沒有專職的 Platform Product Manager, 完全依賴工程師兼任產品角色。[5] 這種結構性缺陷,導致平台團隊陷入「TicketOps」困境—— 名義上是平台團隊,實際上仍在處理開發者的個別請求票, 而非透過產品迭代系統性解決問題。
更值得警惕的是:許多平台團隊確實做了開發者訪談、也照著需求建造功能, 最終卻面臨零採用率。CNCF 的分析指出,使用者研究的目的不是 「建造開發者要求的東西」,而是「識別痛點並在更高的抽象層次解決它」。[6] 這個洞見直指問題核心:平台工程需要的是產品設計能力,而不只是工程執行能力。
陷阱三:小型組織硬套大廠架構,忽略規模前提
歐洲汽車租賃巨頭 SIXT 的平台工程旅程,是業界最常被引用的成功案例之一。 SIXT CTO Boyan Dimitrov 在 InfoQ 的訪談中指出,SIXT 從 2015 年每月僅 2 次部署, 成長至 2024 年單年 112,000 次部署,平台採用率達到 100%。[8] 然而這個成果背後,是長達十年、服務超過 800 位工程師的持續投入, 以及從第一天起就獲得的高層支持與長期資源承諾。
與此形成對比的,是 Platform Weekly 記錄的一個匿名歐洲企業案例: 同樣是百年歷史的傳統企業,同樣面對混合雲、遺留系統與孤島式團隊的挑戰, 其平台工程專案於 2023 年第一季啟動,卻直到 2024 年第二季才真正開始建設, 負責人坦言「這是一場徹底的災難」。[9] 差異不在於技術選型,而在於組織基礎是否就緒。
Team Topologies 對此提供了理論框架:平台團隊的建立需要組織達到 一定的規模門檻,否則平台的維護成本將超過其帶來的效益。[2] 對於工程師人數不足的組織而言,過早投入 Platform Engineering 的代價, 是犧牲了本應用於核心業務開發的工程資源。
五、決策框架:你的企業現在適合哪個?
以下框架以工程團隊規模與組織成熟度為主軸, 參考 Team Topologies 對組織規模與團隊拓撲適用性的討論, 並結合 DORA Report 的效能指標體系,為不同階段的企業提供優先順序建議。 這不是放諸四海皆準的公式,而是一個幫助校準方向的思考起點。
第一層:工程師人數 < 20 人
在這個階段,第一優先級是建立可靠性的基準線,而非追求效率的極致。 專注建立 SRE 核心基礎建設:定義核心服務的 SLO、建立基本的監控與告警系統、 確保 On-call 流程有人負責。Platform Engineering 在此階段是奢侈品,不是必需品。 根據 DORA 2024 年報告,小型團隊應優先改善變更失敗率與服務恢復時間 (穩定性指標),而非急於衝刺部署頻率(速度指標)。 速度建立在穩定性之上,反之則不然。[3]
第二層:工程師人數 20 ~ 100 人
這個區間是關鍵的轉折點。當開發團隊開始出現以下訊號時—— 部署流程因人而異、每個團隊的 CI/CD Pipeline 都長得不一樣、 新人 Onboarding 需要數週才能上手——意味著認知負擔問題已開始影響交付效率。
此時可以在 SRE 基礎穩固的前提下,開始建立輕量的「黃金路徑」雛形。 不一定需要完整的 IDP,但至少應有標準化的專案模板、統一的部署方式, 以及清晰的基礎設施使用文件。根據 platformengineering.org 的建議, 此階段最務實的做法是先建立一個「Minimum Viable Platform(MVP 平台)」, 快速證明價值後再爭取更多資源。[5]
第三層:工程師人數 > 100 人
當組織規模超過百人,SRE 與 Platform Engineering 的職責分工就應該明確化。 SIXT 的案例提供了一個具體的參考模型:其平台工程體系不僅涵蓋基礎設施層 與 CI/CD 流水線,更延伸至應用程式庫層,負責服務通訊、認證與程式碼儀器化, 同時保留了一個專責治理、安全、可觀測性與可靠性的獨立團隊。[8] 這個架構說明一個重要原則:在百人以上的工程組織中,SRE 的職責並未消失, 而是被整合進更大的平台工程體系中,各自專注於不同的可靠性層次。
三個幫助自我診斷的關鍵問題
在套用上述框架之前,建議先回答以下三個問題:
第一,你的核心服務目前有明確定義的 SLO,且工程團隊對其有共識嗎? 如果答案是否定的,Platform Engineering 的投資應該暫緩。 根據 CNCF Platforms White Paper,一個成功的內部平台必須建立在 清晰的服務可靠性標準之上,否則平台只是在複雜度之上疊加更多複雜度。[4]
第二,你的開發者目前最大的抱怨是什麼? 如果是「系統太不穩定、On-call 太頻繁」,問題在 SRE; 如果是「部署太慢、環境太難搞、工具太分散」,問題在 Platform Engineering。 讓真實的組織痛點決定你的優先順序,而不是讓流行趨勢決定。
第三,你有沒有人願意長期負責平台的產品迭代? 根據 platformengineering.org 的調查,缺乏高層支持是平台工程失敗 最常見的根本原因之一:當主管沒有明確撤資但也不積極支持時, 平台團隊就會陷入處理個別請求票、建設與業務脫節的功能, 以及最終的人才流失惡性循環。[5]
六、結論:2026 年的正確答案
回到最初的問題:Platform Engineering 與 SRE,企業該如何選擇? 答案是:這個問題本身就問錯了。
SRE 與 Platform Engineering 不是競爭關係,而是一種演進關係。 Puppet 的《State of Platform Engineering Report 2024》的核心結論與此一致: Platform Engineering 的出現,是為了在 DevOps 與 SRE 目標的基礎上進一步延伸, 而非取而代之。[7] SRE 是地基,解決的是「服務能不能活著」的生存問題; Platform Engineering 是上層建築,解決的是「工程師能不能有效率地工作」的效能問題。 在地基還不穩固的時候急著蓋上層建築,結果只會是整棟樓都危險。
SIXT 的成功,不是因為他們選擇了 Platform Engineering 而放棄了 SRE, 而是因為他們在十年間持續投資兩者的協同演進, 並且始終將平台視為服務內部開發者的產品,而非一次性的技術專案。[8] 反觀那些失敗的歐洲企業案例,問題幾乎無一例外地指向同一個根源: 在組織尚未準備好之前,就急著追趕一個聽起來很先進的技術趨勢。
對台灣的企業決策者而言,Platform Engineering 目前仍是一個相對陌生的概念, 多數組織連 SLO 的正式定義都尚未建立。在這個背景下, 本文的核心建議只有一句話:
先把 SRE 的地基做紮實,再談 Platform Engineering 的上層建築。 讓你的組織痛點決定你的下一步,而不是讓 Gartner 的報告決定。
AI 時代的軟體交付競爭,最終比拼的不是誰用了最新的技術詞彙, 而是誰建立了能夠持續、可靠、高效交付價值的工程組織。 SRE 與 Platform Engineering,都是通往那個目標的工具,而非目標本身。
參考來源
- Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (2016). Site Reliability Engineering: How Google Runs Production Systems. O'Reilly Media. sre.google
- Skelton, M., & Pais, M. (2019). Team Topologies: Organizing Business and Technology Teams for Fast Flow. IT Revolution Press.
- Google DORA. (2024). State of DevOps Report 2024. dora.dev
- CNCF. (2023). CNCF Platforms White Paper. tag-app-delivery.cncf.io
- platformengineering.org. (2026). The Biggest Challenges Platform Engineering Teams Are Facing in 2026. platformengineering.org
- Sharma, A. (2024). How to Fail at Platform Engineering. CNCF Blog. cncf.io
- Puppet. (2024). State of Platform Engineering Report 2024. puppet.com
- Dimitrov, B. (2025). Platform Engineering Patterns for Scalable Software Delivery. InfoQ. infoq.com
- Platform Weekly. (2024). How Do Platform Engineering Initiatives Fail, and How Platforms Succeed. platformweekly.com
- Gartner. (2023). Hype Cycle for Software Engineering, 2023. (原始報告需透過 Gartner 訂閱取得;另見 InfoQ 引述)
- platformengineering.org. (2025). Platform Engineering in 2025: What Changed, AI, and the Future of Platforms. platformengineering.org
- Humanitec. (2023). State of Platform Engineering Report Vol. 2. humanitec.com
留言
張貼留言