본문 바로가기

프로젝트/대회형 양산 코드

목차 순서 정리

반응형

그동안 데이터 분석을 하면서 공통적으로 진행했던 부분들을 정리해보고 이중에서 코드화 시킬수있는것은 코드화 시키고 각 단계에서 내가 사용할 수 있는 방법론적인 것들을 메모해두려한다 

 

0. 문제정의

    - 간단하게는 Regression 문제인지 Classification문제인지 부터 생각하고 시작하자, 그다음 데이터를 살펴봐서 상황에대한 이해를 가져오고 혹시 외부변수를 가져올것이 있는지 도메인 지식을 쓸 수 있는지 생각해보자.

 

1. 데이터 불러오기

 

2. 데이터 확인

 

3. 데이터 EDA

 

4. 데이터 전처리

   - 의미 없어보이는 컬럼 제거

   - 결측치 처리

   - 수치형 데이터 스케일링

       - MinMax Scaling

       - Standard Scaling

       - Robust Scaling

   - 범주형 데이터 인코딩

        - 이진 변수

        - 순서 변수

        - 명목 변수

        - 날짜 변수

 

5. 전처리한 데이터 EDA

 

6. X,y데이터 분리 train, valid, test 데이터셋 분리 

 

7. 모델 학습 및 HPO (여러 모델 실험 반복) / 모델은 상황별로 채워나가자
    - 평가지표 선정

    - 모델 선정

    - HPO

 

8. 모델 예측 검증

 

9. 모델 추론

 

 

 

 

반응형

'프로젝트 > 대회형 양산 코드' 카테고리의 다른 글

대회 양산 코드 프로젝트 - 개요  (2) 2024.01.07