가트너 3V, 4V
양(volume), 다양성(Variety), 속도(Velocity) + 가치(Value)
투자비용 요소(3V) + 비즈니스 효과 = 4V
- 출현 배경 산업계에서 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로의 기술을 확보 학계에서 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계도구들이 발전 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, *클라우드 컴퓨팅 등 관련 기술의 발달
- 효과 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
-
빅데이터에 거는 기대
산업혁명의 석탄, 철
제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대
21세기의 원유
필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망
렌즈
현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대
플랫폼
공동 활용의 목적으로 구축된 유무형의 구조물로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망
-
빅데이터로 인한 변화
사전처리에서 사후처리 시대로
표본조사에서 전수조사로
질에서 양으로
인과관계에서 상관관계로
-
빅데이터의 가치 산정의 어려움
특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되면서
가치를 산정하는 것이 어려워짐
’기존에 없던 가치’를 창출함
에 따라 그 가치를 측정하기 어려워짐 현재는 가치가 없는 데이터일지라도,
추후에 새로운 분석 기법이 등장한다면
거대한 가치를 지닌 데이터가 될 수도 있다
- 활용
- 기업 월마트는 고객의 구매패턴을 분석해 상품진열에 활용 구글은 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하여 검색 서비스 개선
- 정부 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스 등 다양한 국가 안전 확보활동을 위해 실시간 모니터링 활용
- 개인 정치인은 선거 승리를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 해당 지역에 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적으로 선거활동을 함 가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는데 활용
-
빅데이터 활용 테크닉
연관규칙학습(연관분석)
주목할 만한 상관관계가 있는지를 찾아내는 방법
- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 시스템 로그 데이터를 분석해 침입자나 유해 행위자를 색출할 수 있는가?
- 우유구매자가 기저귀도 같이 구매하는가 또는 기저귀 구매자가 맥주도 같이 구매하는가?
A가 B도 할까? 를 찾는 것
유형분석(분류분석)
문서를 분류하거나 조직을 그룹으로 나눌 때 특성에 따라 분류할 때 사용
- 이 사용자는 어떤 특성을 가진 집단에 속하는가?
이미 그룹이 있고 A는 어디 그룹일까?
유전자 알고리즘
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
원하는 결과를 위해서 A를 어떻게 해야할까?
기계학습
훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
- 개인의 신용도 평가
회귀분석
독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 할인율 예측
A와 B가 있을 때 A를 바꾸면 B가 어떻게 변할까?
감정분석
특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석(사회관계망분석)
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
- 고객들 간 관계망은 어떻게 구성되어 있나?
-
위기 요인과 통제 방안
알고리즘에 대한 접근권 제공이 데이터 오용을 막을 수 있다
알고리즈미스트는
데이터 오용의 피해를 막아주는 역할을 한다
사생활 침해 - 동의에서 책임으로
개인 정보 사용자에게 책임을 지움
익명화(Anonymity)
데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 포괄적 기술
책임 원칙 훼손 - 결과 기반 책임 원칙 고수
데이터 오용 - 알고리즘 접근 허용, 알고리즈미스트
-
빅데이터 활용의 3요소 (데기인)
데이터
모든 것의 데이터화
기술
진화하는 알고리즘, 인공지능
인력
데이터 사이언티스트, 알고리즈미스트
-
빅데이터 전략 인사이트
‘Big’이 핵심이 아니다, 전략적 통찰이 없는 분석의 함정
산업별 일차원적 분석 애플리케이션
- *금융서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객수익성분석
- 소매업 판촉, 매대관리, 수요예측, 재고보충, 가격 및 제조 최적화
- *제조업 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
- 운송업 일정 관리, 노선 배정, 수익 관리
- 헬스케어 약품 거래, 예비 진단, 질병 관리
- *병원 가격 책정, 고객 로열티, 수익 관리
- *에너지 트레이딩, 공급/수요예측
- 커뮤니케이션 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리
- 서비스 콜센터 직원관리, 서비스-수익 사슬 관리
- *정부 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
- *온라인 웹 매트릭스, 사이트 설계, 고객 추천
- 모든사업 성과관리
-
하둡(Hadoop)
여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술
Apache Spark
실시간 분산형 플랫폼 In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징
Smart Factory
공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화 할 수 있는 기술
Machine Learning & Deep Learning
머신러닝은 인공지능의 연구 분야 중 하나 딥 러닝은 인공신경망(ANN) 등의 기술을 기반으로 구축한 기계 학습 기술 중 하나
데이터 사이언스
기존 통계학과 다른 점은 총체적(holistic) 접근법을 사용한다는 것
스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력등 인문학적 요소가 필요
-
인문학 열풍의 이유
단순 세계에서 복잡한 세계로의 변화
다양성과 각 사회의 정체성, 연결성, 창조성 키워드 대두
비즈니스의 중심이 제품생산에서 서비스로 이동
고객에게 얼마나 뛰어난 서비스를 제공 여부가 관건
경제와 산업의 논리가 생산에서 시장창조로 바뀜
무형자산이 중요
-
가트너가 제시한 데이터 사이언티스트 역량 (데분비소)
데이터 관리
분석 모델링
비즈니스 분석
소프트 스킬 (Soft Skill)
- 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)
과거 : 어떻게 왜 일어났는가? 예) 모델링, 실험설계
현재 : 차선 행동은 무엇인가? 예) 권고
미래 : 최악, 최선의 상황은? 예) 예측, 최적화 - 설득력 있는 전달 (Storytelling, Visualization)
- 다분야간 협력 (Communication)
-
Hard Skill (Machine Learning, Modeling, Data Technical Skil) - 가트너가 제시 안함
- 빅데이터에 대한 이론적 지식
- 분석 기술에 대한 숙련
-
데이터 사이언스의 한계
분석하는 과정에서 가정 등 인간의 해석이 개입되는 단계를 반드시 거침 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음 아무리 정량적인 분석이라도 모든 분석은 가정에 근거한다는 사실
'🥇 certification logbook' 카테고리의 다른 글
[ADsP] 분석 거버넌스 체계 수립, 분석 수준 진단 (0) | 2023.05.21 |
---|---|
[ADsP] 분석 마스터 플랜 (0) | 2023.05.21 |
[ADsP] 분석 프로젝트 관리 방안 (0) | 2023.05.21 |
[ADsP] 분석 과제 발굴 (0) | 2023.05.21 |
[ADsP] 분석 방법론 (0) | 2023.05.21 |
[ADsP] 분석 과제 기획 (0) | 2023.05.21 |
[ADsP] 데이터의 이해와 데이터베이스 (0) | 2023.04.01 |
ADsP 데이터분석 준전문가 준비 (1) | 2023.01.14 |