About Us

Angible 是一家總部位於台北、成立於 2025 年的 AI 科技新創，致力於透過電腦視覺與邊緣運算技術，加速零售產業導入 AI。在成立第一年，我們就成功將自研 AI 解決方案導入多個零售場域，服務範圍涵蓋歐洲、北美與東南亞，並驗證能有效解決真實商業痛點。
‍
而我們認為，這只是開始。
‍
零售業規模龐大、利潤率低且高度仰賴人力，卻也是人們日常生活中不可或缺的一環。相較於台灣常見的數百家門市，歐美連鎖超市往往橫跨多個區域，擁有數千甚至上萬個營運據點。這也意味著，若視覺 AI 能在真實場景中成功落地，其價值將不只停留在單一門市，也不只侷限於單一應用，而是能隨著連鎖網路與不同營運場景被持續複製、延伸與放大。

目前 Angible 正站在業務擴張與產品規模化的關鍵階段，我們以「讓零售更聰明且高效」為使命，透過 AI 與邊緣運算，協助企業在快速變動的市場中提升獲利能力與競爭優勢，讓 AI 成為企業每天營運的一部分，也讓技術能走進人們的生活日常。

在 Angible，我們重視資訊透明、目標清晰與彼此信任，也看重每一位成員的影響力與成長機會。你將有機會直接參與產品從 0 到 1，以及從 1 到規模化的過程，與一群有想法、也有行動力的夥伴一起合作，快速驗證假設，並將技術真正落地於真實世界場景。

About The Role

身為 Angible 的 Site Reliability Engineer (SRE)，你將負責確保我們橫跨雲端與零售現場邊緣設備 (edge device) 的 AI 系統穩定、可靠且安全地運作。我們的 AI 解決方案部署在分散於歐洲、北美與東南亞的零售場域，這代表你需要面對大規模、分散式且網路條件不一的邊緣環境，並建立能即時掌握系統健康狀況的監控與告警機制。

你的工作不只是「救火」，更重要的是用工程化與自動化的方式提升系統韌性：定義監控指標、設計異常偵測機制、強化資安防護，並降低重複性維運工作 (toil)。

此外，Angible 內部大量使用 agentic workflow 與 AI 工具來加速營運與開發，你也將負責維護與管理這些內部 workflow 的穩定性、可觀測性與安全性，協助團隊安全且有效地使用 AI。

Tech Stack

• 監控與可觀測性 (Observability)： Grafana、Prometheus、Loki／類似的 metrics／logs／traces 工具
• 雲端 (Cloud)： AWS (EKS、EC2、S3、Lambda、CloudWatch、IAM 等)
• 遠端存取與安全： Teleport (身分驗證、存取控管、audit)
• 邊緣運算 (Edge)： 分散式邊緣設備、電腦視覺推論裝置的部署與維運
• 基礎設施與自動化： Linux、Docker、Kubernetes (AWS EKS)、Terraform、Python／Bash
• AI／Agentic Workflow： 內部 agentic workflow 平台與 LLM 工具的維運與治理

What You'll Do

• 建立並維護雲端與邊緣設備的監控、告警與儀表板 (以 Grafana 為核心)，提供從整體機隊到單一設備的可視性
• 定義並追蹤 SLI／SLO／SLA 與關鍵監控指標 (latency、traffic、errors、saturation 等四大黃金訊號)
• 設計與導入異常偵測 (anomaly detection) 機制，從 reactive 監控走向 proactive，在問題影響服務前提早發現
• 負責資安與惡意攻擊監控：偵測 DDoS、未授權存取、漏洞利用等威脅，並建立對應的告警與緩解流程
• 透過 Teleport 管理對雲端與邊緣系統的安全存取、權限控管與稽核
• 維護與管理內部使用的 agentic workflow 與 AI 工具：確保其穩定性、可觀測性、成本與安全，建立 AI 使用的最佳實務與治理機制
• 參與 on-call、事件應變 (incident response) 與事後檢討 (post-mortem)，持續改善系統可靠度
• 在 AWS EKS (Kubernetes) 上部署、運作與調校容器化工作負載，確保跨環境的穩定與可擴展性
• 以程式碼自動化重複性維運工作 (reduce toil)，並推動 Infrastructure as Code 與 CI/CD 的可靠部署
• 與 ML、邊緣運算、硬體與產品團隊緊密協作，確保新服務在上線前具備足夠的可觀測性與可靠度

What We're Looking For

• 3 年以上 SRE／DevOps／系統維運 (Production Operations) 相關經驗
• 熟悉 AWS 或其他主流公有雲，具備實際維運大規模雲端服務的經驗
• 熟悉監控與可觀測性工具 (如 Grafana、Prometheus)，能設計 metrics、logs、traces 與告警
• 具備 Linux 系統管理能力，並熟悉至少一種腳本／程式語言 (Python、Bash 等)
• 熟悉容器化與編排技術 (Docker、Kubernetes，尤其 AWS EKS) 及 Infrastructure as Code (如 Terraform)
• 具備網路與資安基礎，了解常見攻擊手法 (DDoS、漏洞利用、未授權存取) 與防禦方式
• 具備事件應變與 on-call 的實務經驗，能在壓力下冷靜排查並解決問題
• 重視自動化、可量測性與文件化，能在快速迭代的新創環境中獨立作業

Nice-To-Haves

• 具備邊緣運算 (edge computing)／IoT 設備大規模部署與維運的經驗
• 使用過 Teleport 或類似的零信任 (zero-trust) 存取管理工具
• 具備資安／威脅偵測 (threat detection) 或 SecOps 相關經驗
• 維運過 LLM 應用或 agentic workflow (如 LangChain、n8n、workflow orchestration 平台等)，了解 AI 系統的監控與治理
• 熟悉 AIOps、以 ML 進行異常偵測或 AI 輔助的事件分析
• 具備 ISO 相關經驗 (如 ISO 27001 資訊安全管理等)，了解合規與資安管理制度

Interview Process

‍1. 履歷初篩
2. 線上面試（1 小時）：以過往系統維運與可靠度工程經驗為主
3. 實體面試（1.5~2 小時）：深入討論實際場景狀況、可靠度／可擴展性的系統設計、情境題等為主
4. 最終面試
• 文化與協作面談（1 小時）：了解合作方式、on-call 與跨團隊溝通風格、事後檢討 (post-mortem) 與衝突處理
• CEO 面試（1 小時）：確認人格特質與團隊文化適配度
5. Offer 與加入