ทีม Site Reliability Engineer (SRE) มีหน้าที่ดูแลโครงสร้างพื้นฐานของระบบ (Infrastructure administration) และทำงานร่วมกับทีมอื่นๆ ตามกระบวนการ DevOps เพื่อให้ทุกบริการของ Wongnai สามารถรองรับผู้ใช้งานจำนวนมากได้ตลอดเวลา โดยเน้นการพัฒนาเครื่องมือและระบบอัตโนมัติ (automation) เพื่อลดการทำงานซ้ำซ้อน

อ่านเนื้อหาเกี่ยวกับเทคโนโลยีที่เราใช้ได้ที่ Life@Wongnai

What you'll Do:

 • Support services before they go live such as system design consulting, capacity planning, and launch reviews.
 • Maintain services once they are live by measuring and monitoring availability, latency, and overall system health.
 • Scale systems sustainably through mechanisms like automation; evolve systems by pushing for changes that improve reliability and velocity.
 • Improve monitoring, alerting and resilience of systems.
 • Practice sustainable incident response and blameless postmortems.

What you'll Need:

 • Systematic problem-solving approach, coupled with effective communication skills and a sense of drive.
 • Experience in designing, analyzing, and troubleshooting micro-services.
 • Understanding of monitoring, logging, and tracing systems to help teams quickly detect problems such as ELK, Prometheus, Grafana, Jaeger.

It'd be Great if you have:

 • Experience with Linux and Network administration skills for troubleshooting.
 • Familiar with Cloud Platform (AWS or Google Cloud) and Kubernetes
 • Experience programming in Go or similar is an advantage is an advantage
 • Experience designing and managing MongoDB and MySQL databases is an advantage
 • Knowledge in Security and how to test is an advantage