ทีม Site Reliability Engineer (SRE) มีหน้าที่ดูแลโครงสร้างพื้นฐานของระบบ (Infrastructure administration) และทำงานร่วมกับทีมอื่นๆ ตามกระบวนการ DevOps เพื่อให้ทุกบริการของ Wongnai สามารถรองรับผู้ใช้งานจำนวนมากได้ตลอดเวลา โดยเน้นการพัฒนาเครื่องมือและระบบอัตโนมัติ (automation) เพื่อลดการทำงานซ้ำซ้อน

อ่านเนื้อหาเกี่ยวกับเทคโนโลยีที่เราใช้ได้ที่ Life@Wongnai

What you'll Do:

  • Support services before they go live such as system design consulting, capacity planning, and launch reviews.
  • Maintain services once they are live by measuring and monitoring availability, latency, and overall system health.
  • Scale systems sustainably through mechanisms like automation; evolve systems by pushing for changes that improve reliability and velocity.
  • Improve monitoring, alerting and resilience of systems.
  • Practice sustainable incident response and blameless postmortems.

What you'll Need:

  • Systematic problem-solving approach, coupled with effective communication skills and a sense of drive.
  • Experience in designing, analyzing, and troubleshooting micro-services.
  • Understanding of monitoring, logging, and tracing systems to help teams quickly detect problems such as ELK, Prometheus, Grafana, Jaeger.

It'd be Great if you have:

  • Experience with Linux and Network administration skills for troubleshooting.
  • Familiar with Cloud Platform (AWS or Google Cloud) and Kubernetes
  • Experience programming in Go or similar is an advantage is an advantage
  • Experience designing and managing MongoDB and MySQL databases is an advantage
  • Knowledge in Security and how to test is an advantage