반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- omtm
- nlp
- Market
- 파인튜닝
- 시각화
- 인공지능
- 그로스해킹
- 딥러닝
- 데이터시각화
- 데이터분석
- DACON
- 데이콘
- pmf
- 언어지능딥러닝
- dl
- ERD
- productmarketfit
- 자연어처리
- 모델링
- Computer Vision
- 데이터모델링
- 머신러닝
- tableau
- 태블로
- product
- fit
- OKR
- 컴퓨터비전
Archives
- Today
- Total
블로그
[모델링] 사용자 행동 인식 데이터 멀티 라벨 분류 본문
반응형
EDA 및 분류 모델링
- 결측치가 있는 행이 6000개나 됨 => 어떻게 보간할지 고민
- 값의 편차가 꽤 큼 => 정규화 또는 표준화 필요할 듯
- timestamp를 확인해보니 시간이 쭉 이어져있지 않고 2019년, 2000년 두 년도로 나뉨
- label 클래스 개수 확인해보니 각 클래스별 개수 차이가 꽤 큼
- 시간별 센서 데이터 그래프를 그려보았는데 nan 값들은 선형보간 해도 괜찮을 것 같음
- 나중에 알고봤더니 이 timestamp가 정확도에 매우 중요한 영향을 미치는 피처였다 !
- 최대한 다양한 데이터를 활용해보자
- 지금 데이터의 경우 두 날짜별로 시간의 흐름에 따라 센서 데이터 값이 저장돼있음
- 내가 timestamp 피처를 지운 이유 : test.csv의 timestamp와 아예 관계가 없을 것으로 판단하고 모델 학습에 사용되면 안될 것이라고 생각함 => 두 데이터의 timestamp를 비교해보고 연관이 있을지 확인하기 !!
- 그리고.. 학습 데이터를 스케일링 했다면 테스트 데이터도 스케일링 해서 쓰자.... 까먹고 안했다가 성능 처참해졌다 !!^^ 하이퍼 파라미터 튜닝 내용도 곧 추가해야겠다
728x90
반응형
'공부' 카테고리의 다른 글
[모델링] 장애인 콜택시 대기시간 예측 (0) | 2024.04.02 |
---|---|
[학습] 공공데이터포털에서 공휴일 데이터 가져오기 (0) | 2024.04.02 |
[모델링] 스마트폰 센서 데이터 기반 행동 인식 분류 # 2 단계별 모델링 (0) | 2024.03.29 |
[모델링] 스마트폰 센서 데이터 기반 행동 인식 분류 # 1 EDA, 모델링 (4) | 2024.03.28 |
[Github] 깃허브 프로필 꾸며보기 (0) | 2024.03.25 |