반응형
그동안 데이터 분석을 하면서 공통적으로 진행했던 부분들을 정리해보고 이중에서 코드화 시킬수있는것은 코드화 시키고 각 단계에서 내가 사용할 수 있는 방법론적인 것들을 메모해두려한다
0. 문제정의
- 간단하게는 Regression 문제인지 Classification문제인지 부터 생각하고 시작하자, 그다음 데이터를 살펴봐서 상황에대한 이해를 가져오고 혹시 외부변수를 가져올것이 있는지 도메인 지식을 쓸 수 있는지 생각해보자.
1. 데이터 불러오기
2. 데이터 확인
3. 데이터 EDA
4. 데이터 전처리
- 의미 없어보이는 컬럼 제거
- 결측치 처리
- 수치형 데이터 스케일링
- MinMax Scaling
- Standard Scaling
- Robust Scaling
- 범주형 데이터 인코딩
- 이진 변수
- 순서 변수
- 명목 변수
- 날짜 변수
5. 전처리한 데이터 EDA
6. X,y데이터 분리 train, valid, test 데이터셋 분리
7. 모델 학습 및 HPO (여러 모델 실험 반복) / 모델은 상황별로 채워나가자
- 평가지표 선정
- 모델 선정
- HPO
8. 모델 예측 검증
9. 모델 추론
반응형
'프로젝트 > 대회형 양산 코드' 카테고리의 다른 글
대회 양산 코드 프로젝트 - 개요 (2) | 2024.01.07 |
---|