Parthkumar Patel

SRE (Site Reliability Engineer)

Bengaluru, Karnataka, India10 yrs 5 mos experience

AI EnabledAI ML Practitioner

Key Highlights

Expert in hybrid-cloud and Kubernetes reliability engineering.
Proven track record in driving automation-first cultures.
Recognized for significant cost savings and operational efficiency.

Stackforce AI infers this person is a Site Reliability Engineer specializing in SaaS and hybrid-cloud infrastructure.

Contact

Skills

Core Skills

Site Reliability EngineeringKubernetesHybrid CloudCloud Security

Other Skills

AI InfrastructureAWSApache KafkaArchitectural DesignAutomationAutomation ScriptingBig DataCapacity ManagementCode ReviewCost EfficiencyCost ManagementCyber-securityDiagram DesignDisaster RecoveryFastAPI

About

Staff Site Reliability Engineer with deep expertise in hybrid‑cloud (AWS, GCP, Azure, private), Kubernetes, Terraform, observability, and cloud security. I specialize in designing and scaling distributed systems, driving automation‑first cultures, and enabling reliability at global scale. Over the years, I’ve: - Led large‑scale service migrations and hybrid cloud modernization programs. - Built automation frameworks that reduced MTTR and improved operational efficiency. - Delivered platform cost savings and workload optimizations recognized with company‑wide awards. - Established centralized observability, onboarding, load testing and DR programs for thousands of services. - Mentored SRE teams and influenced cross‑org reliability strategies. Passionate about GenAI in reliability engineering, I explore AI‑driven automation, predictive incident response, and intelligent self‑healing systems. My focus is on building secure, resilient, and efficient platforms that empower teams to innovate safely and deliver exceptional customer experiences.

Experience

10 yrs 5 mos

Total Experience

2 yrs 2 mos

Average Tenure

1 yr 9 mos

Current Experience

Coupang

Staff Site Reliability Engineer

Aug 2024 – Present · 1 yr 9 mos · Bengaluru, Karnataka, India · On-site

❖ I specialize in driving reliability, scalability, and efficiency across complex, distributed systems. At Coupang, I led cross-functional reliability initiatives that reshaped how product, infrastructure, and security teams approach operational readiness—resulting in measurable improvements in uptime, performance, and cost savings.
❖ Instituting a centralized service catalogue for 3000+ services, bringing clarity to ownership, SLOs, and onboarding standards.
❖ Contributed to enterprise-scale load testing and disaster recovery (DR) initiatives, ensuring system reliability and resilience under high-traffic conditions.
❖ Designed and implemented a workload efficiency data collection framework at Coupang, optimizing cloud workloads, improving operational and cost efficiency by 20%, and enhancing system performance, scalability, reliability and resource utilization.
❖ Drove reliability excellence through Kubernetes leadership and robust coding capabilities in Python, Go, and Java, gaining formal recognition for engineering impact.

KubernetesCloud SecurityLoad TestingDisaster RecoveryAutomationPython+3

Flipkart

2 roles

Site Reliability Engineer III

Mar 2023 – Jul 2024 · 1 yr 4 mos

❖ Architected onboarding and workload migration strategies for Flipkart across hybrid cloud platforms (GCP, Azure, private cloud) ensuring seamless transitions.
❖ Led AI infrastructure and reliability initiatives, partnering with the Flipkart AI team to design compute environments for Generative AI (GenAI) workloads, hosted multiple AI hackathons and improved platform scalability.
❖ Automated routine tasks using Automation Scripting, Eliminating inefficiencies and optimizing system management through advanced Infrastructure as Code (IaC) techniques.
❖ Establish robust cloud security practices, bolstering the ecosystem's protection and fortifying incident handling capabilities.
❖ Pioneer centralized observability solutions, enabling comprehensive monitoring of platform infrastructure and proactively identifying issues.
❖ Kubernetes proficiency and elevate coding skills in Python, Go, and Java, gaining recognition for driving reliability enhancements within the organization.

Hybrid CloudAI InfrastructureAutomation ScriptingCloud SecurityKubernetesPython+3

Site Reliability Engineer II

Sep 2021 – Apr 2023 · 1 yr 7 mos

❖ Spearhead intricate onboarding strategies at Flipkart, orchestrating seamless transitions across diverse cloud platforms, including GCP, Azure, and private clouds.
❖ Drive efficiency by automating repetitive tasks through Automation and Scripting, Leveraging advanced Infrastructure as Code (IaC) techniques to optimize system consistency.
❖ Strengthen the cloud security landscape by establishing robust practices that enhance ecosystem protection and fortify incident handling capabilities.
❖ Innovate centralized observability solutions, enabling comprehensive monitoring of platform infrastructure and proactive issue identification.
❖ Enhance Kubernetes proficiency and elevate coding expertise in Python, Go, and Java, recognized for contributing to reliability advancements within the organization.

Hybrid CloudAutomationCloud SecurityKubernetesPythonGo+2

Oracle india pvt ltd

Senior Site Reliability Engineer

Nov 2020 – Sep 2021 · 10 mos · Bangalore Urban, Karnataka, India

❖ Empowering Oracle Cloud Infrastructure (OCI) object storage services integration and reliability engineering, ensuring peak performance and availability.
❖ Drive efficient deployment and change management processes using IaC, deploying applications across global data center.
❖ Innovate region bootstrap, build, and testing automations through Terraform-based solutions.
❖ Contribute to the development of "Mission Control," a centralized monitoring solution, and region build automation, further elevating OCI's reliability.
❖ Enhanced Container and coding skills with Central Monitoring platform development in FastAPI, OracleDB, TS.

Infrastructure as CodeTerraformCloud SecurityAutomationFastAPISite Reliability Engineering

Securonix india pvt ltd

2 roles

Site Reliability Engineer

Promoted

Sep 2017 – Nov 2020 · 3 yrs 2 mos

Resposible for creating AWS cloud and BIGDATA Hadoop infrastructure to deploy Securonix SIEM UEBA product SNYPR and offer cloud service. Created monitoring tool snypreye to capture all BIGDATA and Cloud metrics which can assure service reliability, avability and scalability.

AWSHadoopBig DataMonitoring ToolsSite Reliability Engineering