Department: Engineering
Location: Taiwan
Type: Full-time
About Us
Angible 是一家總部位於台北、成立於 2025 年的 AI 科技新創,致力於透過電腦視覺與邊緣運算技術,加速零售產業導入 AI。在成立第一年,我們就成功將自研 AI 解決方案導入多個零售場域,服務範圍涵蓋歐洲、北美與東南亞,並驗證能有效解決真實商業痛點。目前公司正處於業務快速擴張與產品持續優化的關鍵階段,專注打造能提升零售營運效率、降低損耗,並優化消費者體驗的智慧化解決方案。我們的團隊成員橫跨 AI、邊緣運算、硬體設計與零售營運,具備深厚的實務經驗,並在高度協作、快速迭代的環境中工作。Angible 以「讓零售更聰明且高效」為使命,透過 AI 與邊緣運算,協助企業在快速變動的市場中提升獲利能力與競爭優勢,讓 AI 成為企業日常營運的一部分。在 Angible,我們重視資訊透明、目標清晰與彼此信任,也看重每一位成員的影響力與成長機會。你將有機會直接參與產品從 0 到 1,以及從 1 到規模化的過程,與一群有想法、也有行動力的夥伴一起合作,快速驗證假設,並將技術真正落地於真實世界場景。
About The Role
身為 Angible 的 Site Reliability Engineer (SRE),你將負責確保我們橫跨雲端與零售現場邊緣設備 (edge device) 的 AI 系統穩定、可靠且安全地運作。我們的 AI 解決方案部署在分散於歐洲、北美與東南亞的零售場域,這代表你需要面對大規模、分散式且網路條件不一的邊緣環境,並建立能即時掌握系統健康狀況的監控與告警機制。
你的工作不只是「救火」,更重要的是用工程化與自動化的方式提升系統韌性:定義監控指標、設計異常偵測機制、強化資安防護,並降低重複性維運工作 (toil)。
此外,Angible 內部大量使用 agentic workflow 與 AI 工具來加速營運與開發,你也將負責維護與管理這些內部 workflow 的穩定性、可觀測性與安全性,協助團隊安全且有效地使用 AI。
你的工作不只是「救火」,更重要的是用工程化與自動化的方式提升系統韌性:定義監控指標、設計異常偵測機制、強化資安防護,並降低重複性維運工作 (toil)。
此外,Angible 內部大量使用 agentic workflow 與 AI 工具來加速營運與開發,你也將負責維護與管理這些內部 workflow 的穩定性、可觀測性與安全性,協助團隊安全且有效地使用 AI。
Tech Stack
• 監控與可觀測性 (Observability): Grafana、Prometheus、Loki/類似的 metrics/logs/traces 工具
• 雲端 (Cloud): AWS (EKS、EC2、S3、Lambda、CloudWatch、IAM 等)
• 遠端存取與安全: Teleport (身分驗證、存取控管、audit)
• 邊緣運算 (Edge): 分散式邊緣設備、電腦視覺推論裝置的部署與維運
• 基礎設施與自動化: Linux、Docker、Kubernetes (AWS EKS)、Terraform、Python/Bash
• AI/Agentic Workflow: 內部 agentic workflow 平台與 LLM 工具的維運與治理
• 雲端 (Cloud): AWS (EKS、EC2、S3、Lambda、CloudWatch、IAM 等)
• 遠端存取與安全: Teleport (身分驗證、存取控管、audit)
• 邊緣運算 (Edge): 分散式邊緣設備、電腦視覺推論裝置的部署與維運
• 基礎設施與自動化: Linux、Docker、Kubernetes (AWS EKS)、Terraform、Python/Bash
• AI/Agentic Workflow: 內部 agentic workflow 平台與 LLM 工具的維運與治理
What You'll Do
• 建立並維護雲端與邊緣設備的監控、告警與儀表板 (以 Grafana 為核心),提供從整體機隊到單一設備的可視性
• 定義並追蹤 SLI/SLO/SLA 與關鍵監控指標 (latency、traffic、errors、saturation 等四大黃金訊號)
• 設計與導入異常偵測 (anomaly detection) 機制,從 reactive 監控走向 proactive,在問題影響服務前提早發現
• 負責資安與惡意攻擊監控:偵測 DDoS、未授權存取、漏洞利用等威脅,並建立對應的告警與緩解流程
• 透過 Teleport 管理對雲端與邊緣系統的安全存取、權限控管與稽核
• 維護與管理內部使用的 agentic workflow 與 AI 工具:確保其穩定性、可觀測性、成本與安全,建立 AI 使用的最佳實務與治理機制
• 參與 on-call、事件應變 (incident response) 與事後檢討 (post-mortem),持續改善系統可靠度
• 在 AWS EKS (Kubernetes) 上部署、運作與調校容器化工作負載,確保跨環境的穩定與可擴展性
• 以程式碼自動化重複性維運工作 (reduce toil),並推動 Infrastructure as Code 與 CI/CD 的可靠部署
• 與 ML、邊緣運算、硬體與產品團隊緊密協作,確保新服務在上線前具備足夠的可觀測性與可靠度
• 定義並追蹤 SLI/SLO/SLA 與關鍵監控指標 (latency、traffic、errors、saturation 等四大黃金訊號)
• 設計與導入異常偵測 (anomaly detection) 機制,從 reactive 監控走向 proactive,在問題影響服務前提早發現
• 負責資安與惡意攻擊監控:偵測 DDoS、未授權存取、漏洞利用等威脅,並建立對應的告警與緩解流程
• 透過 Teleport 管理對雲端與邊緣系統的安全存取、權限控管與稽核
• 維護與管理內部使用的 agentic workflow 與 AI 工具:確保其穩定性、可觀測性、成本與安全,建立 AI 使用的最佳實務與治理機制
• 參與 on-call、事件應變 (incident response) 與事後檢討 (post-mortem),持續改善系統可靠度
• 在 AWS EKS (Kubernetes) 上部署、運作與調校容器化工作負載,確保跨環境的穩定與可擴展性
• 以程式碼自動化重複性維運工作 (reduce toil),並推動 Infrastructure as Code 與 CI/CD 的可靠部署
• 與 ML、邊緣運算、硬體與產品團隊緊密協作,確保新服務在上線前具備足夠的可觀測性與可靠度
What We're Looking For
• 3 年以上 SRE/DevOps/系統維運 (Production Operations) 相關經驗
• 熟悉 AWS 或其他主流公有雲,具備實際維運大規模雲端服務的經驗
• 熟悉監控與可觀測性工具 (如 Grafana、Prometheus),能設計 metrics、logs、traces 與告警
• 具備 Linux 系統管理能力,並熟悉至少一種腳本/程式語言 (Python、Bash 等)
• 熟悉容器化與編排技術 (Docker、Kubernetes,尤其 AWS EKS) 及 Infrastructure as Code (如 Terraform)
• 具備網路與資安基礎,了解常見攻擊手法 (DDoS、漏洞利用、未授權存取) 與防禦方式
• 具備事件應變與 on-call 的實務經驗,能在壓力下冷靜排查並解決問題
• 重視自動化、可量測性與文件化,能在快速迭代的新創環境中獨立作業
• 熟悉 AWS 或其他主流公有雲,具備實際維運大規模雲端服務的經驗
• 熟悉監控與可觀測性工具 (如 Grafana、Prometheus),能設計 metrics、logs、traces 與告警
• 具備 Linux 系統管理能力,並熟悉至少一種腳本/程式語言 (Python、Bash 等)
• 熟悉容器化與編排技術 (Docker、Kubernetes,尤其 AWS EKS) 及 Infrastructure as Code (如 Terraform)
• 具備網路與資安基礎,了解常見攻擊手法 (DDoS、漏洞利用、未授權存取) 與防禦方式
• 具備事件應變與 on-call 的實務經驗,能在壓力下冷靜排查並解決問題
• 重視自動化、可量測性與文件化,能在快速迭代的新創環境中獨立作業
Nice-To-Haves
• 具備邊緣運算 (edge computing)/IoT 設備大規模部署與維運的經驗
• 使用過 Teleport 或類似的零信任 (zero-trust) 存取管理工具
• 具備資安/威脅偵測 (threat detection) 或 SecOps 相關經驗
• 維運過 LLM 應用或 agentic workflow (如 LangChain、n8n、workflow orchestration 平台等),了解 AI 系統的監控與治理
• 熟悉 AIOps、以 ML 進行異常偵測或 AI 輔助的事件分析
• 具備 ISO 相關經驗 (如 ISO 27001 資訊安全管理等),了解合規與資安管理制度
• 使用過 Teleport 或類似的零信任 (zero-trust) 存取管理工具
• 具備資安/威脅偵測 (threat detection) 或 SecOps 相關經驗
• 維運過 LLM 應用或 agentic workflow (如 LangChain、n8n、workflow orchestration 平台等),了解 AI 系統的監控與治理
• 熟悉 AIOps、以 ML 進行異常偵測或 AI 輔助的事件分析
• 具備 ISO 相關經驗 (如 ISO 27001 資訊安全管理等),了解合規與資安管理制度
Interview Process
1. 履歷初篩
2. 線上面試(1 小時):以過往系統維運與可靠度工程經驗為主
3. 實體面試(1.5~2 小時):深入討論實際場景狀況、可靠度/可擴展性的系統設計、情境題等為主
4. 最終面試
• 文化與協作面談(1 小時):了解合作方式、on-call 與跨團隊溝通風格、事後檢討 (post-mortem) 與衝突處理
• CEO 面試(1 小時):確認人格特質與團隊文化適配度
5. Offer 與加入
2. 線上面試(1 小時):以過往系統維運與可靠度工程經驗為主
3. 實體面試(1.5~2 小時):深入討論實際場景狀況、可靠度/可擴展性的系統設計、情境題等為主
4. 最終面試
• 文化與協作面談(1 小時):了解合作方式、on-call 與跨團隊溝通風格、事後檢討 (post-mortem) 與衝突處理
• CEO 面試(1 小時):確認人格特質與團隊文化適配度
5. Offer 與加入