Deskripsi Pekerjaan
Tentang Posisi Ini
Kami di PT Teknologi Nusantara Digital sedang mencari seorang Site Reliability Engineer (SRE) yang berpengalaman dan bersemangat untuk bergabung dengan tim infrastruktur kami. Sebagai SRE, Anda akan memainkan peran kritis dalam memastikan keandalan, skalabilitas, dan performa sistem kami yang melayani jutaan pengguna di seluruh Indonesia.
Kami menawarkan lingkungan kerja yang dinamis, budaya engineering yang kuat, dan kesempatan untuk bekerja dengan teknologi terkini dalam skala besar. Jika Anda menyelesaikan masalah kompleks dan membangun sistem yang tangguh, ini adalah tempat yang tepat untuk Anda.
Apa yang Kami Tawarkan
- Gaji kompetitif dengan tunjangan kesehatan premium
- Program pengembangan karier dan sertifikasi
- Fleksibilitas kerja hybrid (remote & on-site)
- Tim engineering kelas dunia
Tanggung Jawab
- Merancang, membangun, dan memelihara infrastruktur cloud yang highly available dan fault-tolerant menggunakan platform seperti AWS, GCP, atau Azure
- Mengimplementasikan dan mengelola CI/CD pipeline untuk deployment otomatis dan rollback yang aman
- Membangun sistem monitoring, alerting, dan observability menggunakan tools seperti Prometheus, Grafana, Datadog, atau ELK Stack
- Melakukan incident response dan post-mortem analysis untuk meminimalkan downtime dan mencegah kejadian berulang
- Mengoptimalkan performa sistem dan mengelola kapasitas infrastruktur secara proaktif
- Mengelola container orchestration menggunakan Kubernetes dan Docker di lingkungan production
- Menerapkan Infrastructure as Code (IaC) menggunakan Terraform, Ansible, atau Pulumi
- Berkolaborasi erat dengan tim development untuk meningkatkan reliability dan observability dari aplikasi
Kualifikasi
- Pengalaman minimal 3-5 tahun sebagai Site Reliability Engineer, DevOps Engineer, atau peran serupa
- Penguasaan kuat dalam setidaknya satu bahasa pemrograman seperti Python, Go, atau Java
- Pengalaman mendalam dengan cloud platforms (AWS, GCP, atau Azure) dan layanan native-nya
- Kemampuan solid dalam containerization dan orchestration (Docker, Kubernetes)
- Pengalaman dengan Infrastructure as Code tools seperti Terraform, Ansible, atau CloudFormation
- Pemahaman kuat tentang networking, DNS, load balancing, dan keamanan infrastruktur
- Pengalaman dengan monitoring dan observability stack (Prometheus, Grafana, ELK, Datadog)
- Kemampuan problem-solving yang excellent dan pengalaman dalam incident management