Deskripsi Pekerjaan
Bergabunglah dengan tim kami sebagai Site Reliability Engineer di Jakarta! Kami mencari profesional berpengalaman yang siap mengoptimalkan infrastruktur IT kami dengan pendekatan modern dan inovatif. Dengan fokus pada ketersediaan layanan, kecepatan, dan keamanan, Anda akan bertanggung jawab untuk memastikan sistem kami berjalan lancar 24/7.
Tanggung Jawab
- Mengelola dan memantau infrastruktur cloud dan on-premise dengan menggunakan alat-alat modern seperti Kubernetes, Terraform, dan Prometheus.
- Mengembangkan dan mengimplementasikan praktik DevOps untuk meningkatkan efisiensi operasional.
- Menangani insiden dan masalah dengan prioritas tinggi, serta melakukan analisis root cause.
- Membuat dan memelihara dokumentasi teknis yang komprehensif untuk operasional dan pemulihan bencana.
- Mengoptimalkan performa sistem dengan melakukan tuning dan pengujian beban.
- Mengikuti tren teknologi terbaru dan merekomendasikan adopsi yang tepat untuk tim.
Kualifikasi
- Pengalaman minimal 3 tahun sebagai Site Reliability Engineer atau peran serupa.
- Keahlian dalam mengelola infrastruktur cloud (AWS, GCP, atau Azure) dan alat DevOps.
- Paham tentang praktik-praktik SRE (Site Reliability Engineering) dan SLI/SLO/SLA.
- Penguasaan bahasa pemrograman seperti Python, Go, atau Bash.
- Pengalaman dengan sistem monitoring dan logging (Prometheus, Grafana, ELK Stack).
- Komunikasi yang baik dan kemampuan untuk bekerja dalam tim lintas fungsi.