본문 바로가기
IT 잡소리

Amazon의 운영 효율성 – Operational Excellence (3-2) 개발 프로세스

by 이제시작 2021. 8. 16.
반응형

3. 오류 수정


이러한 메커니즘이 구축되면 전체 프로세스는 툴, 채택 및 감사라는 세 단계로 구성됩니다. 개발 도구를 만든다고 상상해 보십시오. 이 도구를 사용하려면 교육 계획을 개발하고 입양을 장려하는 방법을 개발해야 합니다. 또한 툴이 설계된 대로 작동하는지 확인하기 위한 지속적인 감사 메커니즘이 필요합니다.

아마존이 수년간 개발한 메커니즘 중 하나는 오류 수정(COE)이다. 여기에는 각 팀의 예기치 않은 오류 또는 소프트웨어 배포 실패의 원인과 해결 방법이 기록됩니다.

결함이 있는 Amazon의 개발 툴, 프로세스 또는 조직에 관계없이 COE 메커니즘을 사용하여 오류를 확인할 수 있습니다. 즉, COE 메커니즘은 고장의 원인을 식별하고, 보다 중요한 것은 지속적인 개선을 촉진한다는 것입니다.

COE는 AMA가 아닙니다.1999년에 시작된 컨셉이지만 아마존에서는 여전히 진행되고 있습니다. COE 문서에는 크게 5가지 부분이 있습니다.

1: 무엇을 만났습니까?질문 있으세요?


2: 문제의 원인을 분석하려면 어떤 데이터가 필요합니까?

3: 내게 줄 것은 무엇인가?영향력?

4: 무엇이 문제입니까? 맞습니까?

5: 미래의 이벤트를 방지하기 위해 무엇을 배우고 또 합니까?



COE 프로세스에 대한 자세한 내용은 AWS 수석 엔지니어 Becky Weiss의 Event 2019 과정을 참조하십시오.

 

https://youtu.be/yQiRli2ZPxU

 

그것은 아마존 직원들에게 친숙하다.COE 프로세스 수행 방법을 파악합니다.COE 과정이 아마존의 두 리더십 원칙에 부합하기 때문이다.

신뢰 획득
리더는 자신의 말을 들을 때 정직하게 다른 사람을 존중합니다. 부끄러워도 자신의 문제에 대해 솔직하게 말할 수 있습니다. 리더는 자신이나 팀과의 문제를 공개하지 않는다. 오히려 자신과 팀의 롤모델을 보여줘야 한다.

딥 다이빙
리더는 모든 영역에서 모든 종류의 데이터를 자세히 읽을 수 있으며 모니터링에 대해 회의적입니다.

핵심은 COE 기간 동안 무엇이 성공적이었는지 투명하고 투명하게 이해하는 것이다. 신중히 생각하는 것도 필요하지만 현재의 문제를 이해하기 위해서는 자기비판이 필요하다. 이러한 실수에 대해 책임을 져서는 안 됩니다. COE 프로세스에서는 보통 탁월한 운영 능력이 핵심이지만, 이러한 프로세스는 책임의 개방형 영역에서는 매우 어려울 수 있습니다.

지속적인 감사를 통한 검증


COE 메커니즘을 활성화하기 위해 각 팀은 경영진 앞에서 운영 통계에 대한 주간 검토를 수행합니다.

모든 서비스 팀은 필요에 따라 운영 지표를 제공할 준비가 되어 있습니다. 이렇게 하면 서비스 제공 방식을 이해하는 데 도움이 될 것입니다. 그 팀은 매주 아래 바퀴를 돌려서 무작위로 선택해요.

물레방아에 대한 자세한 내용은 이 블로그를 방문하십시오.
AWS 주간 관리 회의 스피너 – 출처: AWS Open Spinner
팀원으로 선정되면 협의회 서비스관리실장이 15분간 개별 서비스 통계를 분석한다. 경영진이 자주 묻는 질문은 다음과 같습니다.

"오류율은 어떻게 됩니까?"

"당신은 그를 예의 주시하고 있습니까?"

"무엇을 배웠습니까?""

이 수업들은 끊임없이 누적된다.AWS Well-Archive Framework가 좋은 예입니다. 각 AWS팀이 만든 COE 프로세스와 문제 감사 프로세스의 이점은 모범 사례이며, AWS 고객들도 이를 기술로 활용하고 있다.백서 및 서비스 도구.

지속적인 개선


COE 프로세스 및 주간 운영 통계 검토 회의에서 좋은 메커니즘을 만들 수 있습니까? 그건 사실이 아니야.COE와의 주간 미팅 후, 상대방이 바로 알고 미리 해결할 수 있나요? 당신의 친절함에 다시 한번 감사드립니다!

지속적인 개선을 위해서는 문제점과 해결책을 팀별로 분산시킬 수 있는 별도의 메커니즘이 필요합니다. 우리는 Policy Engine이라는 새로운 도구를 개발했습니다.

정책 엔진을 감지할 수 있습니다.인프라, 인프라 구성, 잠재적인 리스크 및 비용 절감 기회를 파악합니다. 즉, COE 프로세스에서 발견된 문제(목록된 문제)를 기반으로 정책을 만듭니다. 이 도구는 쉽게 확장할 수 있으므로 새로운 문제를 발견하면 새 정책을 만들어 백의 tool.be에 추가하십시오.

이를 바탕으로 Policy Engine은 잠재적인 리스크와 비용 절감 기회를 포함하여 팀의 전반적인 성과를 표시합니다. 이를 통해 팀은 서비스를 지속적으로 개선하고 비용 효율적인 주기를 만들 수 있습니다.

아마존, 이 메커니즘은 AWS의 개발을 촉진합니다.

반응형

댓글