본문 바로가기

반응형

전체 글

(148)
Sagemaker studio 초기셋팅 하.....  1. Sagemaker studio와 Sagemaker studio classic으로 두개가 나누어져 있는데 지금 웬만한 레퍼런스들은 Sagemaker studio classic으로 되어있고 내가 봤을때 코드편집 및 사용이 이게 더편해서 Sagemaker studio classic 을 사용하려한다. (이미지가 다른것 같아서 초반에 ㅈㄴ 고생했다. 야발) 들어가는 방식은 간단하다 좌측의 application에서 studio classic으로 workspace를 새로 파준후에 접근하면된다.  2. Sagemaker의 초기셋팅중 가장 힘든 부분이 아마 초기세팅이 아닐까 싶다.  1. IAM에서 Sagemaker full access 역할에 정책을 부여해줘야한다. (S3 에 접근해서 Data wr..
쿼리 튜닝 1. 맨처음 리스트를 조회하는 화면에서 외부 REQ_MST, REQ_BLK 테이블을 조인하는 과정을 반복적인 쿼리로 3번 ACCESS하는 경우를 발견했다. -> WITH 문으로 임시테이블 생성  2. LEFT JOIN후 IS NOT NULL 조건을 사용하여 INTERSECTION하는 경우가 있었는데 이경우 처음 부터 INNER JOIN을 하여 쿼리 개선 하였음   반복적인 쿼리와 실행계획만 잘봐도 웬만한 속도는 나오는것 같다.
aws lambda를 이용해 html 파일 s3에 떨구기 layer 는 plotly, aws에서 제공하는 pandas를 사용한다.python3.10 버전을 이용함  import jsonimport requestsdata = {  "data": ["credit"],    "category": [      "draw1",      "draw2",      "draw3",      "draw4"    ]}파이썬 코드에서 다음과 같은 json 파일을 보내주었다. (str형식) 여기선 쌍따옴표 (") 를 쓰도록하자 해당 파일을 보내면 event에 body에 encode된 상태로 올라가기때문에 decode해주는 과정이 필요하다. 이부분때문에 상당히 시간을 소비했던것 같은데lambda쪽에서 에러가 등장하면 cloudwatch를 확인해보도록 하자 오늘은 로컬에서 API-GA..
Dash보드 만들기 회사에서 대시보드를 임베딩 시키는 작업을 해야해서 만들고 있는데 기존에 interval대신에 button으로 신호를 주는 방법을 알아냈다. Callback함수의 output과 input에대한 이해가 조금더 잘되어있었다면 좀더 쉽게 만들었을텐데.... 개발이란게 참 만들기는 쉬운데 그 방법이나 함수 사용법을 알아가는게 시간이 좀 걸리는것 같다. import dashfrom dash import dcc, htmlfrom dash.dependencies import Input, Outputfrom flask import Flask, requestimport jsonimport plotly.graph_objects as goimport plotly.express as pximport pandas as pd# F..
mlflow 환경 만들기 virtualenv를 사용해서 가상환경을 만들어놓고 이 안에서 해결하려한다. ls /bin  /bin위에 있는 것이 가상환경 이름이라고 생각하면 된다.  여기있는env는 내가 만든 가상환경의 이름이다. __pycache__ 디렉토리는 Python의 바이트 코드를 저장하는 임시 디렉토리입니다. Python 코드가 실행될 때, 파이썬은 해당 코드를 바로 실행하는 것이 아니라 먼저 바이트 코드(bytecode)로 변환한 후 실행합니다. 이는 실행 속도를 향상시키기 위한 작업입니다.일반적으로 Python은 .pyc 확장자를 가진 바이트 코드 파일을 생성하여 이를 재사용합니다. 이러한 .pyc 파일들은 일반적으로 __pycache__ 디렉토리 내부에 저장됩니다. 파이썬은 이러한 디렉토리를 자동으로 생성하며, 코드..
회사 일상 - plotly 서버 연결 이번에 대쉬보드를 구축하는 PoC 를맡게 되었는데 이게 외부와 통신이 되어야해서 고생좀 했다.백엔드 1도 모르는 멍청이가 이것저것 찾는데 시간이 오래걸리더라 막상 구현은 얼마 안걸림;;; 일단 전역변수를 사용해서 해결하는 방법이 있더라 그냥 썩혀두기 아까워 코드 조금이나마 남겨둘려고 적는다.  post.pyimport jsonimport requests# 변환하려는 데이터data = {  'x': [1, 2, 3, 4,3,2,1],    'y': [10, 11, 12, 13,10,11,12]}# Python 객체를 JSON 문자열로 변환json_data = json.dumps(data)# 서버 URLurl = 'http://127.0.0.1:8050/postdata'# 서버에 POST 요청을 보냄resp..
feature engineering2 현재 신용대출 competition을 진행하면서 feature engineering을 진행하고있다. 그런데 이를 진행하면서 왜 모델이 이를 인지하지 못하는것인가? 라는 궁금증이 들었다. 추가적으로 연속형 데이터 -> 범주형데이터로 변환 과연 이것이 모델에 좋은 영향을 줄까? 현재는 시간이 없어서 이후에 진행하려고 하는데 결과를 모델별 결과를 가져와서 한번 기록해보고자 한다.
히스토그램과 KDE(ViolinPlot)의 차이점 히스토그램(Histogram)과 KDE(Kernel Density Estimation)는 데이터 분포를 시각화하는 데 사용되는 두 가지 다른 방법입니다. 히스토그램: 히스토그램은 데이터를 구간(빈)으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 나타낸 그래프입니다. x축은 데이터 값의 구간, y축은 해당 구간에 속하는 데이터의 빈도를 나타냅니다. 주로 데이터의 분포를 파악하고 데이터의 빈도를 시각적으로 확인하는 데 사용됩니다. KDE (Kernel Density Estimation): KDE는 확률 밀도 함수(probability density function)를 추정하여 데이터 분포를 부드럽게 나타내는 방법입니다. 각 데이터 포인트 주변에 커널 함수를 배치하고 이를 합하여 전체 데이터의 분포를 근..

반응형