[ADsP] 분석 방법론

2023. 5. 21. 16:38·🥇 certification logbook
728x90
반응형

데이터 분석이 효과적으로 기업 내에 정착하기 위해서 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적

 

분석 방법론의 구성 (절방도템)

절차, 방법, 도구와 기법, 템플릿과 산출물

-

데이터 기반 의사결정의 필요성

의사결정 오류

오류의 장애요소 - 고정관념, 편향된 생각, 프레이밍 효과

로직 오류

작동은 하지만, 잘못된 결과를 초래할 수 있는 오류

부정확한 가정을 하고 테스트를 하지 않는 것

SW 개발 오류로 발생

프로세스 오류

업무를 수행할 수 조차 없는 오류

잘못된 프로세스 정의로 발생

결정에서 분석과 통찰력을 고려하지 않은 것

데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것

대안을 진지하게 고려하지 않은 것

-

분석 방법론의 모델

폭포수 모델(Waterfall Model)

단계를 순차적으로 진행하는 방법

이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 문제가 발견될 시 피드백 과정이 수행

나선형 모델(Spiral Model)

반복을 통해 점증적으로 개발하는 방법

처음 시도하는 프로젝트에 적용이 용이하지만, 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승하여 프로젝트 진행이 어려울 수 있음

프로토타입 모델(Prototype Model)

고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일단 분석을 시도해보고, 그 결과를 확인해가며 반복적으로 개선해 나가는 방법 (점진적으로 시스템을 개발해 나가는 접근 방식)

신속하게 해결책 모형을 제시하는 상향식 접근 방법

일부분을 우선 개발하여 사용자에게 제공

사용자의 요구 분석, 요구 정당성 점검, 성능 평가를 진행하여 그 결과를 통한 개선 작업을 시행

-

KDD 분석 방법론 (Knowledge Discovery In Databases)

프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

데이터셋 선택(Selection)

비즈니스 도메인에 대한 이해와 프로젝트 목표

설정 데이터마이닝에 필요한 목표데이터를 구성하여 분석에 활용

데이터 전처리(Preprocessing)

데이터 셋에 포함되어 있는 잡음(Noise)이나 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계

추가로 요구되는 데이터 셋이 필요한 경우 “데이터셋 선택” 프로세스를 재실행

데이터 변환(Transformation)

분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터를 변경

학습용 데이터(training data)와 검증용 데이터(test data)로 데이터를 분리하는 단계

데이터 마이닝(Data Mining)

학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계

필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출

데이터 마이닝 결과 평가(Interpretation/Evaluation)

결과에 대한 해석과 평가, 분석 목적과의 일치성 확인

데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계

-

CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)

주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)가 주도한 계층적 프로세스 모델

4레벨 구조

  1. 여러개의 단계(Phases)
  1. 일반화 태스크(Generic Tasks) 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
    ex) 데이터 정제
  1. 세분화 태스크(Specialized Tasks) 구체적인 수행 레벨
    ex) 데이터 정제(일반화 태스크) - 범주형 데이터 정제, 연속형 데이터 정제(세분화 태스크)
  1. 프로세스 실행(Process Instances) 데이터마이닝을 위한 구체적인 실행

프로세스

업무 이해(Business Understanding)

프로젝트의 목적과 요구사항을 이해하기 위한 단계

도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

= KDD의 분석대상 비즈니스 이해

데이터 이해(Data Understanding)

데이터를 수집하고, 속성을 이해하기 위한 단계

데이터 품질에 대한 문제점 식별 및 숨겨져 있는 인사이트를 발견하는 단계

초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

= KDD의 데이터 셋 준비, 데이터 전처리 과정과 동일

데이터 준비(Data Preparation)

수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계

분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
= KDD의 데이터 변환

모델링(Modeling)

모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계

데이터 셋이 추가로 필요한 경우 “데이터 준비 단계”를 반복 수행할 수 있으며 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Over fitting) 문제를 확인

모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

= KDD의 데이터 마이닝

평가(Evaluation)

모델링 결과가 프로젝트 목적에 부합하는지 평가

분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

= KDD의 데이터 마이닝 결과 평가

전개(Deployment)

완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계

모니터링과 모델의 유지보수 계획 마련

전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

-

빅데이터 분석 방법론

빅데이터 분석 방법론의 5단계

분석기획 (Planning)

  1. 비즈니스 이해 및 범위 설정 (→ SOW(statement of work) 프로젝트 범위 정의서 작성)
    SOW를 통해 프로젝트의 목적달성을 위해서 해야 할 일에 대해 이해할 수 있음
    일정, 원가, 품질에 대한 요구 사항 및 고객, 사용자들을 명시한 포괄적인 문서
    WBS(work breakdown structure) 범위 기술서에 정의된 high level의 정보를 바탕으로 구체적인 업무 범위를 설정하는 것
  2. 프로젝트 정의 및 계획 수립 (→ WBS(work breakdown structure) 작성)
  3. 프로젝트 위험 계획 수립

데이터 준비(Preparing)

  1. 필요 데이터 정의
  2. 데이터 스토어 설계
  3. 데이터 수집 및 정합성 점검

데이터 분석(Analyzing)

  1. 분석용 데이터 준비
  2. 텍스트 분석
  3. 탐색적 분석(EDA)
  4. 모델링
  5. 모델 평가 및 검증
    추가적인 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간
    (데이터 준비 ↔ 데이터 분석)
  6. 모델 적용 및 운영방안 수립

시스템 구현(Developing)

  1. 설계 및 구현
  2. 시스템 테스트 및 운영

평가 및 전개(Lessong Learned)

  1. 모델 발전계획 수립
  2. 프로젝트 평가 및 보고

: 위대한 실패 : evaluation→ business understanding

-

위험에 대한 대응 방법 (회전완수)

회피(avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)

 

728x90
반응형

'🥇 certification logbook' 카테고리의 다른 글

[ADsP] 분석 거버넌스 체계 수립, 분석 수준 진단  (0) 2023.05.21
[ADsP] 분석 마스터 플랜  (0) 2023.05.21
[ADsP] 분석 프로젝트 관리 방안  (0) 2023.05.21
[ADsP] 분석 과제 발굴  (0) 2023.05.21
[ADsP] 분석 과제 기획  (0) 2023.05.21
[ADsP] 빅데이터와 데이터사이언스  (0) 2023.04.01
[ADsP] 데이터의 이해와 데이터베이스  (0) 2023.04.01
ADsP 데이터분석 준전문가 준비  (1) 2023.01.14
'🥇 certification logbook' 카테고리의 다른 글
  • [ADsP] 분석 프로젝트 관리 방안
  • [ADsP] 분석 과제 발굴
  • [ADsP] 분석 과제 기획
  • [ADsP] 빅데이터와 데이터사이언스
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (207) N
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (57) N
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    인공지능 입문
    머신러닝
    법학과
    certificate
    데이터분석준전문가
    datascience
    방통대
    민법
    빅데이터분석기사
    Python
    ADsP
    IBM
    Coursera
    근로기준법
    온라인 강의 추천
    데이터사이언스 입문
    기본권의기초이론
    형법
    deeplearning
    자격증
  • hELLO· Designed By정상우.v4.10.3
이소야
[ADsP] 분석 방법론
상단으로

티스토리툴바