목표 : 빅데이터 분석 소프트웨어의 특징으로부터 Data Ops의 필요성 찾기
DataOps의 개념과 목표 핵심전략
DataOps : 필요성
빅데이터 분석 파이프라인 운영의 실제
- 점점 복잡해지는 빅데이터 분석 파이프라인
- 파이프라인의 각 단계를 구성하는 태스크의 세분화 + 다양한 인력 간의 협업 필요 - 데이터 변화(ex. 스키마 변화)로 인한 문제
데이터 소스의 스키마 변화 등으로 인하여 기존 분석 파이프라인이 깨질 수 있음 - 빅데이터 분석 파이프라인의 수동 운영 시 문제
- 분석 환경 변화에의 대응 및 파이프라인 스케줄 관리의 어려움
- 장애 추적/오류 재현/ 자동 복구의 어려움
- 데이터 일관성 모니터링 등 체계적인 품질 관리의 어려움
필요성 : (못들엇땅 ㅎㅎ)
빅데이터 분석 파이프라인의 수동 운영 → 데이터 분석의 품질, 속도, 신뢰성 보장이 어려움
다음 요구를 충족하기 위한 새로운 빅데이터 분석 파이프라인 운영 방법론 필요 → DataOps 등장
- 빅데이터 분석 파이프라인 흐름 전체의 자동화
- 데이터 분석의 품질, 속도, 신뢰성 보장
==========================
DataOps : 목표 : 지속적 데이터 운영(CD/CT) → 데이터 분석 품질, 속도, 신뢰성 보장
개념
목표 : CD/CT
자동화를 해서 데이터 품질을 보장했으면 좋겠다! 였죠?
CD (Continuous Data Integration)
- 데이터 분석 파이프 라인의 각 단계를 코드로 정의하고 자동 실행
(관리하기좋게끔,, 모듈화 잘하고, 버전관리 잘하고..) - 데이터 스키마 변화, 소스 변경 등을 자동 감지해 파이프라인을 즉시 갱신 및 재실행 (github actions 빙글빙글 돌아가는거인둣!! 개꿀)
CT (Continuous Testing)
- 파이프라인 각 단계마다 자동 데이터 품질 테스트 수행
- 데이터 일관성 또는 품질 저하 감지 → 파이프라인 자동 중단 및 알림
→ 전체 파이프라인이 지속적으로 관리됨으로써 데이터 분석의 지속적적인 품질, 속도, 신뢰성 보장
DataOps: 핵심 전략
오케스트레이션 플랫폼 도입 및 구축
파이프라인을 구성하는 여러 작업들 간의 스케줄링, 의존성, 장애 처리 등을 자동 조율 및 관리
(조율잘해주는거 ㅇㅇ) 전체를 자동으로 조율해줄수잇는 그 기술을 쓰라구~ 맨처음에 구축할때 그 플랫폼도 같이 구축하라고 DevOps에서는 잘나와있는 플랫폼 이용해서 가져와서 잘 하라고 했었죠. 다만 여기에서는 그렇게 뚝딱 도입할 수 없어요. (플랫폼 == 환경 )빅데이터는 기본적으로 플랫폼 위에서 코딩해서 구축해야함. 기본 설치해놓고 그위에 세팅해주래~ 일단 기본적으로
(구현) 이벤트 기반 파이프라인 자동화 /데이터품질테스트 자동화
인간 개입 없이 데이터 변화 등의 이벤트를 자동으로 감지하여 파이프라인을 실행하도록 구성
(구현) 데이터 품질 테스트 자동화
파이프라인의 각 단계별로 자동화된 품질테스트 수행
→스키마,데이터범위,결측치 및 이상치,무결성 등에 대한 검증
각 단계 별 품질테스트를 통과하지 못하면 파이프라인 자동 중단 및 알림
우리가원하는건 테스트를 통과하지 못하면 파이프라인 자동 중단 및 알림 (오케스트레이션 플랫폼에게 멈춰줘! 라고부탁하는거임)
자동 모니터링 및 알림 시스템 도입 및 구축
파이프라인의 각 단계 별 처리상태(오케스트레이션플랫폼에서구현할수잇음), 오류 및 장애 발생 여부, 데이터 양의 변화, 처리 시간 등
버전 관리를 통한 재현성 확보
파이프라인 코드의 모듈화, 자동테스트, 버전 관리 → 갱신된 코드는 오케스트레이션 플랫폼을 통해 파이프라인에 자동으로 반영
데이터 스키마, 샘플 데이터, 분석 결과, 메타데이터 등의 버전 관리
데이터 변경의 계보 추적 → 문제 발생 시 원인을 즉시 역추적 가능
→재현성 확보 : 언제든지 과거의 분석과정을 그대로 다시 실행할 수 있는 상태.
정리
결과적으로는 파이프라인자동화해서 데이터 품질/신뢰성/속도 확보하는게 목표엿구욘
이걸 확보하려면 오케스트레이션플랫폼을 설치해서, 자동화는 해줄테니
품질.신뢰성/속도를 위한 수단을 코딩하고, 버전관리 코드갱신으로 자동반영하도록 해주면 된다~
데이터 스키마 대해서도 모두 버전을 유지함으로써 재현성을 확보할 수 있어야한다.
'컴퓨터공학과 > 소프트웨어공학' 카테고리의 다른 글
| 1205 소공 - 머신러닝프로젝트 (0) | 2025.12.05 |
|---|---|
| 소공 1128 - 4차산업혁명의 핵심 - 빅데이터 분석 (0) | 2025.11.28 |
| 소공 1128 (0) | 2025.11.28 |
| 소프트웨어공학 - 아키텍처 설계 (0) | 2025.10.14 |