Menu
Site Reliability Engineer
Department: Engineering
Location: Taiwan
Type: Full-time
Apply Now

About Us

Angible 是一家總部位於台北、成立於 2025 年的 AI 科技新創,致力於透過電腦視覺與邊緣運算技術,加速零售產業導入 AI。在成立第一年,我們就成功將自研 AI 解決方案導入多個零售場域,服務範圍涵蓋歐洲、北美與東南亞,並驗證能有效解決真實商業痛點。目前公司正處於業務快速擴張與產品持續優化的關鍵階段,專注打造能提升零售營運效率、降低損耗,並優化消費者體驗的智慧化解決方案。我們的團隊成員橫跨 AI、邊緣運算、硬體設計與零售營運,具備深厚的實務經驗,並在高度協作、快速迭代的環境中工作。Angible 以「讓零售更聰明且高效」為使命,透過 AI 與邊緣運算,協助企業在快速變動的市場中提升獲利能力與競爭優勢,讓 AI 成為企業日常營運的一部分。在 Angible,我們重視資訊透明、目標清晰與彼此信任,也看重每一位成員的影響力與成長機會。你將有機會直接參與產品從 0 到 1,以及從 1 到規模化的過程,與一群有想法、也有行動力的夥伴一起合作,快速驗證假設,並將技術真正落地於真實世界場景。

About The Role

身為 Angible 的 Site Reliability Engineer (SRE),你將負責確保我們橫跨雲端與零售現場邊緣設備 (edge device) 的 AI 系統穩定、可靠且安全地運作。我們的 AI 解決方案部署在分散於歐洲、北美與東南亞的零售場域,這代表你需要面對大規模、分散式且網路條件不一的邊緣環境,並建立能即時掌握系統健康狀況的監控與告警機制。

你的工作不只是「救火」,更重要的是用工程化與自動化的方式提升系統韌性:定義監控指標、設計異常偵測機制、強化資安防護,並降低重複性維運工作 (toil)。

此外,Angible 內部大量使用 agentic workflow 與 AI 工具來加速營運與開發,你也將負責維護與管理這些內部 workflow 的穩定性、可觀測性與安全性,協助團隊安全且有效地使用 AI。

Tech Stack

• 監控與可觀測性 (Observability): Grafana、Prometheus、Loki/類似的 metrics/logs/traces 工具
• 雲端 (Cloud): AWS (EKS、EC2、S3、Lambda、CloudWatch、IAM 等)
• 遠端存取與安全: Teleport (身分驗證、存取控管、audit)
• 邊緣運算 (Edge): 分散式邊緣設備、電腦視覺推論裝置的部署與維運
• 基礎設施與自動化: Linux、Docker、Kubernetes (AWS EKS)、Terraform、Python/Bash
AI/Agentic Workflow: 內部 agentic workflow 平台與 LLM 工具的維運與治理

What You'll Do

建立並維護雲端與邊緣設備的監控、告警與儀表板 (以 Grafana 為核心),提供從整體機隊到單一設備的可視性
定義並追蹤 SLI/SLO/SLA 與關鍵監控指標 (latency、traffic、errors、saturation 等四大黃金訊號)
設計與導入異常偵測 (anomaly detection) 機制,從 reactive 監控走向 proactive,在問題影響服務前提早發現
負責資安與惡意攻擊監控:偵測 DDoS、未授權存取、漏洞利用等威脅,並建立對應的告警與緩解流程
透過 Teleport 管理對雲端與邊緣系統的安全存取、權限控管與稽核
維護與管理內部使用的 agentic workflow 與 AI 工具:確保其穩定性、可觀測性、成本與安全,建立 AI 使用的最佳實務與治理機制
參與 on-call、事件應變 (incident response) 與事後檢討 (post-mortem),持續改善系統可靠度
AWS EKS (Kubernetes) 上部署、運作與調校容器化工作負載,確保跨環境的穩定與可擴展性
以程式碼自動化重複性維運工作 (reduce toil),並推動 Infrastructure as Code 與 CI/CD 的可靠部署
與 ML、邊緣運算、硬體與產品團隊緊密協作,確保新服務在上線前具備足夠的可觀測性與可靠度

What We're Looking For

3 年以上 SRE/DevOps/系統維運 (Production Operations) 相關經驗
熟悉 AWS 或其他主流公有雲,具備實際維運大規模雲端服務的經驗
熟悉監控與可觀測性工具 (如 Grafana、Prometheus),能設計 metrics、logs、traces 與告警
具備 Linux 系統管理能力,並熟悉至少一種腳本/程式語言 (Python、Bash 等)
熟悉容器化與編排技術 (Docker、Kubernetes,尤其 AWS EKS) 及 Infrastructure as Code (如 Terraform)
具備網路與資安基礎,了解常見攻擊手法 (DDoS、漏洞利用、未授權存取) 與防禦方式
具備事件應變與 on-call 的實務經驗,能在壓力下冷靜排查並解決問題
重視自動化、可量測性與文件化,能在快速迭代的新創環境中獨立作業

Nice-To-Haves

具備邊緣運算 (edge computing)/IoT 設備大規模部署與維運的經驗
使用過 Teleport 或類似的零信任 (zero-trust) 存取管理工具
具備資安/威脅偵測 (threat detection) 或 SecOps 相關經驗
維運過 LLM 應用或 agentic workflow (如 LangChain、n8n、workflow orchestration 平台等),了解 AI 系統的監控與治理
熟悉 AIOps、以 ML 進行異常偵測或 AI 輔助的事件分析
具備 ISO 相關經驗 (如 ISO 27001 資訊安全管理等),了解合規與資安管理制度

Interview Process

1. 履歷初篩
2. 線上面試
(1 小時):以過往系統維運與可靠度工程經驗為主
3. 實體面試(1.5~2 小時):深入討論實際場景狀況、可靠度/可擴展性的系統設計、情境題等為主
4. 最終面試
文化與協作面談(1 小時):了解合作方式、on-call 與跨團隊溝通風格、事後檢討 (post-mortem) 與衝突處理
CEO 面試(1 小時):確認人格特質與團隊文化適配度
5. Offer 與加入

Submit Your Application

Thank you! Your submission has been received! Our team will review your application and get back to you soon.
Oops! Something went wrong while submitting the form.
Fields marked with * are mandatory.
Please fill out this field.
Please fill out this field.
Please fill out this field.
Please fill out this field.
Please fill out this field.
Please fill out this field.
Thank you!
Your submission has been received!
Oops! Something went wrong while submitting the form.