1203 - 빅데이터 분석 프로젝트와 DataOps

2025. 12. 3. 18:16·컴퓨터공학과/소프트웨어공학

목표 : 빅데이터 분석 소프트웨어의 특징으로부터 Data Ops의 필요성 찾기

DataOps의 개념과 목표 핵심전략

 

DataOps : 필요성

빅데이터 분석 파이프라인 운영의 실제

  • 점점 복잡해지는 빅데이터 분석 파이프라인
    - 파이프라인의 각 단계를 구성하는 태스크의 세분화 + 다양한 인력 간의 협업 필요
  • 데이터 변화(ex. 스키마 변화)로 인한 문제
    데이터 소스의 스키마 변화 등으로 인하여 기존 분석 파이프라인이 깨질 수 있음
  • 빅데이터 분석 파이프라인의 수동 운영 시 문제
    • 분석 환경 변화에의 대응 및 파이프라인 스케줄 관리의 어려움
    • 장애 추적/오류 재현/ 자동 복구의 어려움
    • 데이터 일관성 모니터링 등 체계적인 품질 관리의 어려움

필요성 : (못들엇땅 ㅎㅎ)

빅데이터 분석 파이프라인의 수동 운영 → 데이터 분석의 품질, 속도, 신뢰성 보장이 어려움

다음 요구를 충족하기 위한 새로운 빅데이터 분석 파이프라인 운영 방법론 필요 → DataOps 등장

  • 빅데이터 분석 파이프라인 흐름 전체의 자동화
  • 데이터 분석의 품질, 속도, 신뢰성 보장

 

==========================

DataOps : 목표 : 지속적 데이터 운영(CD/CT) → 데이터 분석 품질, 속도, 신뢰성 보장

 

개념

 

 

목표 : CD/CT

자동화를 해서 데이터 품질을 보장했으면 좋겠다! 였죠?

CD (Continuous Data Integration)

  • 데이터 분석 파이프 라인의 각 단계를 코드로 정의하고 자동 실행
    (관리하기좋게끔,, 모듈화 잘하고, 버전관리 잘하고..)
  • 데이터 스키마 변화, 소스 변경 등을 자동 감지해 파이프라인을 즉시 갱신 및 재실행 (github actions 빙글빙글 돌아가는거인둣!! 개꿀)

CT (Continuous Testing)

  • 파이프라인 각 단계마다 자동 데이터 품질 테스트 수행
  • 데이터 일관성 또는 품질 저하 감지 → 파이프라인 자동 중단 및 알림 

→ 전체 파이프라인이 지속적으로 관리됨으로써 데이터 분석의 지속적적인 품질, 속도, 신뢰성 보장

 

DataOps: 핵심 전략

오케스트레이션 플랫폼 도입 및 구축

파이프라인을 구성하는 여러 작업들 간의 스케줄링, 의존성, 장애 처리 등을 자동 조율 및 관리

 (조율잘해주는거 ㅇㅇ) 전체를 자동으로 조율해줄수잇는 그 기술을 쓰라구~ 맨처음에 구축할때 그 플랫폼도 같이 구축하라고 DevOps에서는 잘나와있는 플랫폼 이용해서 가져와서 잘 하라고 했었죠. 다만 여기에서는 그렇게 뚝딱 도입할 수 없어요. (플랫폼 == 환경 )빅데이터는 기본적으로 플랫폼 위에서 코딩해서 구축해야함. 기본 설치해놓고 그위에 세팅해주래~ 일단 기본적으로 

 

(구현) 이벤트 기반 파이프라인 자동화 /데이터품질테스트 자동화

인간 개입 없이 데이터 변화 등의 이벤트를 자동으로 감지하여 파이프라인을 실행하도록 구성

(구현) 데이터 품질 테스트 자동화

파이프라인의 각 단계별로 자동화된 품질테스트 수행
→스키마,데이터범위,결측치 및 이상치,무결성 등에 대한 검증

각 단계 별 품질테스트를 통과하지 못하면 파이프라인 자동 중단 및 알림

 

우리가원하는건 테스트를 통과하지 못하면 파이프라인 자동 중단 및 알림 (오케스트레이션 플랫폼에게 멈춰줘! 라고부탁하는거임)

자동 모니터링 및 알림 시스템 도입 및 구축

파이프라인의 각 단계 별 처리상태(오케스트레이션플랫폼에서구현할수잇음), 오류 및 장애 발생 여부, 데이터 양의 변화, 처리 시간 등

버전 관리를 통한 재현성 확보

파이프라인 코드의 모듈화, 자동테스트, 버전 관리 → 갱신된 코드는 오케스트레이션 플랫폼을 통해 파이프라인에 자동으로 반영

데이터 스키마, 샘플 데이터, 분석 결과, 메타데이터 등의 버전 관리

데이터 변경의 계보 추적 → 문제 발생 시 원인을 즉시 역추적 가능

→재현성 확보 : 언제든지 과거의 분석과정을 그대로 다시 실행할 수 있는 상태.

 

정리

결과적으로는 파이프라인자동화해서 데이터 품질/신뢰성/속도 확보하는게 목표엿구욘

이걸 확보하려면 오케스트레이션플랫폼을 설치해서, 자동화는 해줄테니

품질.신뢰성/속도를 위한 수단을 코딩하고, 버전관리 코드갱신으로 자동반영하도록 해주면 된다~

 

데이터 스키마 대해서도 모두 버전을 유지함으로써 재현성을 확보할 수 있어야한다.

 

'컴퓨터공학과 > 소프트웨어공학' 카테고리의 다른 글

1205 소공 - 머신러닝프로젝트  (0) 2025.12.05
소공 1128 - 4차산업혁명의 핵심 - 빅데이터 분석  (0) 2025.11.28
소공 1128  (0) 2025.11.28
소프트웨어공학 - 아키텍처 설계  (0) 2025.10.14
'컴퓨터공학과/소프트웨어공학' 카테고리의 다른 글
  • 1205 소공 - 머신러닝프로젝트
  • 소공 1128 - 4차산업혁명의 핵심 - 빅데이터 분석
  • 소공 1128
  • 소프트웨어공학 - 아키텍처 설계
sihyes
sihyes
24학번 컴퓨터공학과
  • sihyes
    시혜적으로개발
    sihyes
  • 글쓰기 관리
  • 전체
    오늘
    어제
    • 분류 전체보기 (104) N
      • 단순 설정 (9)
      • 백엔드 공부(BE, AWS) (8)
        • 로그인&회원가입 (3)
        • 파일업로드&GPT (2)
      • 개인 프로젝트 (2)
        • 알바솔로몬 (1)
        • PLACO 프로젝트 (0)
      • 도서 공부(정리) (20)
        • 알고리즘 코딩 테스트 자바 편 (1)
        • SQL첫걸음 (8)
        • 코딩 자율학습 스프링 부트 3 자바 백엔드 개발 .. (6)
        • Do it! 지옥에서 온 문서 관리자 깃&깃허브 .. (5)
      • 컴퓨터공학과 (51)
        • Python - 문해프 (1)
        • Java 1 & 2 (23)
        • 컴퓨터네트워크 (3)
        • 모앱JavaScript (0)
        • Data structures (9)
        • 소프트웨어공학 (5)
        • 오픈SW플랫폼 제출용 (5)
      • 개인공부정리페이지 (8)
        • 백준 (2)
  • 블로그 메뉴

    • 홈
    • 태그
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    ㅇ
  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.4
sihyes
1203 - 빅데이터 분석 프로젝트와 DataOps
상단으로

티스토리툴바