[IBM AI course #1] Machine Learning with Python
데이터 사이언티스트 (data scientist)
Data Storyteller 역할
업무
- 서술 분석(Descriptive analytics): 시간의 흐름에 따라 사건의 특징을 묘사하는 데 사용, EDA(탐색적 데이터 분석)를 통해 데이터를 시각화하고 통계적으로 해석, 클러스터링으로 고객을 세그먼트화
- 예측 분석(Predictive analytics): 향후의 사건을 전망 또는 예측하는 데 사용, 회귀(Regression), 분류(Classification)
데이터
주로 구조화된 데이터(표 형태) → 수백 ~ 수십만 개
이상치 제거, 테이블 병합, 특성 생성 등 작업 포함
머신러닝 모델을 학습시키는 데 사용
모델
다양한 ML 알고리즘 존재
문제마다 다른 모델, 다른 데이터셋 사용
학습된 데이터 영역을 벗어나면 일반화 어려움
연산 자원 요구도 낮음 (파라미터 수 작고, 컴퓨팅 파워 및 훈련 시간 짧음 (초 ~ 수 시간))
전통적 프로세스
- 문제 정의 (Problem Definition)
- 데이터 수집 (Data Collection)
- 데이터 준비 (Data Preparation)
- 모델 개발 및 평가 (Model Development and Evaluation)
- 모델 배포 (Model Deployment)
AI 엔지니어 (AI engineer)
AI system builder 역할 (실제 서비스나 제품에 통합 가능한 시스템을 설계하고 구현하는 역할)
업무
- 처방 분석(Prescriptive analytics): 예상 시나리오에 기반해 적절한 조치를 제안하는 데 사용, 의사결정 최적화(Decision Optimization), 추천 시스템
- generative : 지능형 어시스턴트, 챗봇
데이터
주로 비구조화 데이터(텍스트, 이미지, 오디오 등) → LLM의 경우 학습에 수십억 ~ 수조 개 토큰 필요
모델
대부분 Foundation Model(기초 모델) 하나를 중심으로 사용 → 범위가 넓다
하나의 모델로 다양한 작업에 대응 가능
일반화 범위가 넓음
연산 자원 요구도 높음 (파라미터 수는 종종 수십억 개, 훈련에는 수백~수천 개의 GPU가 필요, 수주 ~ 수개월 소요)
프로세스
- 문제 정의 (Problem Definition)
- 데이터 수집 (Data Collection)
- 데이터 준비 (Data Preparation)
- 모델 개발 및 평가 (Model Development and Evaluation)
: 사전 학습된 모델을 사용 (데이터 준비 없이 바로 작업 가능)
→ AI 민주화(AI Democratization) 현상. Hugging Face 등에서 공개된 모델 활용 가능 프롬프트 엔지니어링 (Prompt Engineering) 그리고, 프롬프트 체이닝(prompt chaining), PEFT (Parameter-Efficient Fine-Tuning), RAG (Retrieval-Augmented Generation) 등의 작업을 수행할 수 있음 - 모델 배포 (Model Deployment) : 어시스턴트, 챗봇, UI 포함 앱, 자동화 시스템 등으로 연결
Generative AI의 혁신이 두 역할 간의 뚜렷한 차이를 만들어냈다. 이 차이는 사용 사례, 데이터 유형, 모델 구조, 작업 방식 등 여러 측면에서 나타난다.
그러나, 데이터 사이언티스트도 처방 분석(Prescriptive analytics)을 수행할 수 있으며, AI 엔지니어도 구조화된 데이터 활용할 수 있다
'🥇 certification logbook' 카테고리의 다른 글
[Coursera/IBM course #1] Supervised Learning Models (2) | 2025.05.04 |
---|---|
[Coursera/IBM course #1] Linear Regression & Logistic Regression (0) | 2025.05.04 |
[Coursera/IBM course #1] Scikit-Learn Machine Learning Ecosystem (0) | 2025.05.03 |
[Coursera/IBM course #1] Tools for Machine Learning (1) | 2025.05.03 |
[Coursera/IBM course #1] 머신러닝이란 무엇인가 (0) | 2025.05.02 |
[Coursera/IBM] IBM AI Engineering PC 및 Machine Learning with Python 코스 소개 (1) | 2025.04.30 |
빅데이터분석기사 (빅분기) 실기 총 정리 / 시험 시작 전 확인 (0) | 2023.12.19 |
[ADsP] 군집분석 (0) | 2023.06.18 |