관리 메뉴

블로그

[모델링] 사용자 행동 인식 데이터 멀티 라벨 분류 본문

공부

[모델링] 사용자 행동 인식 데이터 멀티 라벨 분류

beenu 2024. 3. 30. 01:54
반응형
EDA 및 분류 모델링

  • 결측치가 있는 행이 6000개나 됨 => 어떻게 보간할지 고민
  • 값의 편차가 꽤 큼 => 정규화 또는 표준화 필요할 듯

 

  • timestamp를 확인해보니 시간이 쭉 이어져있지 않고 2019년, 2000년 두 년도로 나뉨
  • label 클래스 개수 확인해보니 각 클래스별 개수 차이가 꽤 큼
  • 시간별 센서 데이터 그래프를 그려보았는데 nan 값들은 선형보간 해도 괜찮을 것 같음

 

  • 나중에 알고봤더니 이 timestamp가 정확도에 매우 중요한 영향을 미치는 피처였다 ! 
  • 최대한 다양한 데이터를 활용해보자
    • 지금 데이터의 경우 두 날짜별로 시간의 흐름에 따라 센서 데이터 값이 저장돼있음
    • 내가 timestamp 피처를 지운 이유 : test.csv의 timestamp와 아예 관계가 없을 것으로 판단하고 모델 학습에 사용되면 안될 것이라고 생각함 => 두 데이터의 timestamp를 비교해보고 연관이 있을지 확인하기 !!

 

  • 그리고.. 학습 데이터를 스케일링 했다면 테스트 데이터도 스케일링 해서 쓰자.... 까먹고 안했다가 성능 처참해졌다 !!^^ 하이퍼 파라미터 튜닝 내용도 곧 추가해야겠다
728x90
반응형