클라우드 인프라 시각화로 숨은 낭비 찾는 법

2025-10-26
AWS-비용절감FinOpsAWS-인프라-관리AWScloud-visualizationaws-save-money

Bear0 Preview

"매달 나가는 AWS 비용, 정말 다 필요한 비용일까요?"

지난달 AWS 청구서를 받고 놀란 적 있으신가요? 500만원, 1,000만원... 어떤 회사는 모르는 사이에 매달 수천만원의 "숨은 비용"을 낭비하고 있습니다.

2025년 가트너 보고서에 따르면, 기업의 77%가 클라우드 비용 관리를 최우선 과제로 꼽았고, AI 도입으로 인한 클라우드 자원 수요는 2029년까지 50%에 달할 것으로 예상됩니다. 비용은 계속 증가하는데, 우리는 어디서 낭비가 발생하는지조차 모르는 경우가 대부분입니다.

이 글에서는 저의 사이드 프로젝트로 만들어진 실시간 인프라 시각화를 통해 숨어있는 비용 낭비를 찾아내는 실전 방법을 공유합니다!


📌 목차

  1. 클라우드 비용 낭비, 왜 발생할까?
  2. 가장 흔한 AWS 비용 낭비 5가지
  3. 인프라 시각화로 낭비 발견하기
  4. Bear0에서 3분 만에 전체 인프라 스캔
  5. AI 분석으로 비용 최적화 인사이트 얻기
  6. 주기적 모니터링으로 지속적인 비용 절감
  7. 결론 - 비용 최적화는 가시성에서 시작

1. 클라우드 비용 낭비, 왜 발생할까?

🚨 실제 사례 - "방치된 NAT Gateway가 월 500만원?"

한 스타트업의 DevOps 엔지니어가 퇴사한 후, 팀은 3개월 동안 사용하지 않는 NAT Gateway 5개를 그대로 방치했습니다. NAT Gateway는 시간당 약 50원씩 과금되는데, 이를 모르고 방치한 결과 분기당 약 1,500만원이 낭비되었습니다.

왜 이런 일이 발생할까요?

1. 인프라의 불투명성

  • AWS Console에서 리전별로 일일이 확인해야 함
  • 수십, 수백 개의 리소스를 수작업으로 추적하기 어려움
  • 담당자 퇴사 후 인수인계 누락

2. 리소스 라이프사이클 관리 부재

  • "일단 만들고 나중에 삭제" → 결국 잊혀짐
  • 테스트용 인스턴스가 프로덕션 환경에 계속 작동
  • default VPC에 불필요한 리소스 적재

3. 태깅 정책 미비

  • 어떤 리소스가 어떤 프로젝트용인지 알 수 없음
  • 비용 추적이 불가능
  • 정리할 수 없는 "좀비 리소스" 양산

2. 가장 흔한 AWS 비용 낭비 4가지

💸 유휴 NAT Gateway (월 평균 100만원 낭비)

문제점

  • NAT Gateway는 사용 여부와 관계없이 시간당 과금
  • 단일 NAT Gateway: 월 약 35,000원 (시간당 48원)
  • 불필요한 다중 AZ 배치: 5개 = 월 175,000원

💸 방치된 default VPC (보안 위험 + 관리 복잡도)

문제점

  • 각 리전마다 자동 생성되는 default VPC
  • 테스트용으로 생성한 리소스가 그대로 방치
  • 보안 그룹 설정이 느슨해 공격 표면 확대

비용 영향

  • default VPC 자체는 무료지만, 내부 리소스가 문제
  • EC2, NAT Gateway, Load Balancer 등이 누적

💸 Public Subnet 과다 사용 (보안 + 비용)

문제점

  • 인터넷에 직접 노출되는 Public Subnet 과도 사용
  • Private Subnet + NAT Gateway 구조가 더 안전하고 효율적
  • 데이터베이스, 애플리케이션 서버를 Public에 배치하는 실수

보안 점수 하락 원인

  • Public Subnet 비율 70% 이상 → 보안 점수 60점 미만
  • Private Subnet 30% 미만 → 권장사항 발생

💸 사용하지 않는 Load Balancer (월 평균 30만원)

문제점

  • Application Load Balancer: 시간당 약 30원
  • Network Load Balancer: 시간당 약 40원
  • 테스트 후 삭제하지 않은 ALB/NLB 방치

3. 인프라 시각화로 낭비 발견하기

왜 시각화가 중요한가?

1. 한눈에 전체 구조 파악

  • 수백 개의 리소스를 텍스트로 읽는 것 vs 다이어그램으로 보는 것
  • Region → VPC → Subnet → 리소스 계층 구조 즉시 이해
  • 불필요한 중복 리소스를 시각적으로 즉시 발견

2. 관계 추적으로 고아(orphan) 리소스 발견

  • 어떤 EC2에도 연결되지 않은 Elastic IP
  • Target이 없는 Load Balancer
  • 첨부되지 않은 EBS Volume

3. 리전별 비교로 불균형 발견

  • 특정 리전에만 과도하게 집중된 리소스
  • 사용하지 않는 리전의 잔여 리소스
  • Multi-Region 전략의 비효율성 발견

4. 3분 만에 전체 인프라 스캔

🚀 Step 1: AWS 계정 연결 (30초)

# Bear0는 IAM Role 기반으로 안전하게 연결합니다
1. Bear0 접속 (https://bear0.cloud)
2. "New Diagram" 클릭
3. AWS IAM Role ARN 입력
   예시: arn:aws:iam::123456789012:role/DiagramsReadOnlyRole
4. "Connect" 버튼 클릭
   
# Read-Only 권한만 요청
# 임시 STS 토큰 사용
# 브라우저에 credential 저장 안 함
# 모든 통신 HTTPS 암호화

🔍 Step 2 - 실시간 리소스 스캔 (2분)

bear0 infra scan page

스캔 대상 (20+ 서비스)

  • 컴퓨팅: EC2, Lambda, ECS
  • 네트워크: VPC, Subnet, NAT Gateway, Internet Gateway, Route Table
  • 로드밸런싱: ALB, NLB, Classic LB
  • 데이터베이스: RDS, ElastiCache
  • 스토리지: S3, EBS
  • 보안: Security Group, IAM, KMS
  • DNS: Route53

스캔 프로세스

[진행률 표시]
✓ ap-northeast-2 스캔 완료 (45개 리소스)
✓ us-east-1 스캔 완료 (12개 리소스)
✓ us-west-2 스캔 완료 (3개 리소스)

총 60개 리소스 발견
자동 레이아웃 생성 중...

📊 Step 3: 자동 생성된 다이어그램 확인 (30초)

  • Region 최상위 컨테이너로 배치
  • VPC → Subnet → EC2/RDS 계층 구조 자동 인식
  • NAT Gateway, Internet Gateway 네트워크 경계에 배치
  • Load Balancer를 가장 잘 보이는 위치에 자동 배치

5. 분석으로 비용 최적화 인사이트 얻기

📈 아키텍처 점수 (0-100)

평가 요소

  • 리소스 타입 다양성 (10점/타입)
  • Multi-Region 분산 (15점/리전)
  • 리소스 간 관계 밀도 (최대 50점)
  • 컨테이너 구조화 수준 (5점/컨테이너)

실제 예시

🏗️ 아키텍처 점수: 72/100

분석:
✅ 7개 리소스 타입 사용 (다양성 양호)
✅ 3개 리전 분산 (Multi-Region 구성)
⚠️ 관계 밀도 낮음 (독립적인 리소스 많음)
⚠️ 컨테이너화 부족 (VPC 구조 개선 필요)

점수 향상 방법
- VPC 내 서브넷 구조 개선
- 리소스 간 명확한 관계 정의
- Route Table 최적화

💡 자동 생성 인사이트

다음은 Bear0의 분석 엔진이 생성하는 인사이트입니다.

1. 관찰 (Observation)

📊 총 5개의 VPC가 3개 리전에 분산되어 있습니다.
   ap-northeast-2 리전에 3개의 VPC로 가장 많이 배포됨

📊 전체 20개 서브넷 중 14개(70%)가 public 서브넷입니다.

2. 비용 최적화 (Cost Optimization)

💰 NAT Gateway가 5개 운영 중입니다.
   - 단일 NAT 구성: 고가용성이 필요한 경우 다중 AZ 배치 고려
   - 다중 NAT 구성: 불필요한 NAT Gateway 제거로 비용 절감 가능
   
💰 사용하지 않는 default VPC 정리
   - 2개의 default VPC 중 사용하지 않는 VPC 삭제
   - 예상 효과: 관리 복잡도 감소, 보안 위험 감소

3. 리소스 관리 (Resource Management)

🗂️ 3개의 default VPC가 존재합니다.
   사용하지 않는 default VPC는 삭제하여 
   리소스를 정리하는 것을 권장합니다.

6. 주기적 모니터링으로 지속적인 비용 절감

⏰ 자동 스케줄 분석

문제

  • 한 번 정리해도 시간이 지나면 다시 낭비 발생
  • 수동으로 주기적 점검하기 어려움

해결책 - 자동 스케줄 분석

// 스케줄 설정 예시
스케줄 이름: 주간 비용 점검
주기: 매주 월요일 오전 9시
스캔 리전: ap-northeast-2, us-east-1
알림: Slack Webhook

실행 결과:
✓ 자동 인프라 스캔
✓ 분석 리포트 생성
✓ Slack으로 알림 발송

📊 히스토리 비교로 변화 추적

전주 대비 변경사항 자동 감지

📈 주간 인프라 변경 리포트 (2025-01-20)

리소스 변화
  • 총 리소스: 60개 → 65개 (+5개) ⚠️
  • EC2 인스턴스: 12개 → 15개 (+3개)
  • NAT Gateway: 5개 → 6개 (+1개) 💰

점수 변화
  • 아키텍처 점수: 72 → 75 (+3) ✅
  • 보안 점수: 58 → 62 (+4) ✅

주요 변경사항
  ✅ Private Subnet 3개 추가 (보안 개선)
  ⚠️ NAT Gateway 1개 추가 (비용 증가 주의)
  ⚠️ EC2 3개 추가 (용도 확인 필요)

비용 영향
  • NAT Gateway 추가: 월 약 +35,000원
  • EC2 t3.medium 3개: 월 약 +180,000원
  • 예상 월 비용 증가: 약 215,000원

💡 권장사항
  - 새로 추가된 EC2 인스턴스의 태그 지정
  - NAT Gateway 다중화 필요성 재검토

🔔 Slack/Discord 알림 설정

정기 리포트 자동 전송
bear0 분석 리포트


결론 및 요약 - 비용 최적화는 가시성에서 시작

가장 흔한 낭비 5가지

  • ✅ NAT Gateway 과다 사용
  • ✅ default VPC 방치
  • ✅ Public Subnet 남용
  • ✅ 사용 안 하는 Load Balancer
  • ✅ Internet Gateway 중복

자동화된 분석으로 지속적 절감

  • AI 기반 점수 시스템 (아키텍처 + 보안)
  • 자동 인사이트 및 권장사항 생성
  • 주기적 스케줄 분석으로 신규 낭비 조기 발견

Bear0로 3분 만에 시작

  • IAM Role 연결만으로 즉시 스캔
  • 20+ AWS 서비스 자동 발견
  • 전문가급 다이어그램 자동 생성
  • Excel/PDF 리포트 자동 출력

클라우드 비용 낭비는 "보이지 않아서" 발생합니다. AWS 콘솔만으로는 전체 구조 파악 어려움이 어려움이 있습니다.
Bear0 시각화를 통해 숨은 낭비를 즉시 발견하여 비용절감과 분석을 통한 보안까지 잡아낼 수 있습니다.

  • 📌 목차
  • 1. 클라우드 비용 낭비, 왜 발생할까?
    • 🚨 실제 사례 - "방치된 NAT Gateway가 월 500만원?"
    • 왜 이런 일이 발생할까요?
  • 2. 가장 흔한 AWS 비용 낭비 4가지
    • 💸 유휴 NAT Gateway (월 평균 100만원 낭비)
    • 💸 방치된 default VPC (보안 위험 + 관리 복잡도)
    • 💸 Public Subnet 과다 사용 (보안 + 비용)
    • 💸 사용하지 않는 Load Balancer (월 평균 30만원)
  • 3. 인프라 시각화로 낭비 발견하기
    • 왜 시각화가 중요한가?
  • 4. 3분 만에 전체 인프라 스캔
    • 🚀 Step 1: AWS 계정 연결 (30초)
    • 🔍 Step 2 - 실시간 리소스 스캔 (2분)
    • 📊 Step 3: 자동 생성된 다이어그램 확인 (30초)
  • 5. 분석으로 비용 최적화 인사이트 얻기
    • 📈 아키텍처 점수 (0-100)
    • 💡 자동 생성 인사이트
  • 6. 주기적 모니터링으로 지속적인 비용 절감
    • ⏰ 자동 스케줄 분석
    • 📊 히스토리 비교로 변화 추적
    • 🔔 Slack/Discord 알림 설정
  • 결론 및 요약 - 비용 최적화는 가시성에서 시작