목록분류 전체보기 (56)
블로그
Review Feature Representation : 연결된 것으로부터 새로운 feature들을 만듦 (재표현) Dense : 고수준 피처 개수 조절 Node : 피처 개수 조절 Image Data Augmentation 현실 세계에서는 가지고 있는 데이터가 매우 부족함 갖고있는 적은 데이터라도 최대한 활용하기 위해 augmentation 사용 Transfer Learning Augmentation의 한계 원본과 확연히 다른 새로운 특징은 만들어낼 수 없음 애초에 양과 질 모두 충족하는 적절한 데이터여야 학습에 도움이 됨 개인이 수집 불가능할 정도의 데이터 + 성능이 훌륭한 모델 구조와 가중치를 가진 모델을 가져와 사용 Pretrained Model : 가져온 그 상태 그대로 사용 Fine Tunin..
Review DNN : 이미지 데이터의 형태 훼손(= 공간/위치 정보를 감안하지 않음) CNN : 공간/위치 정보를 살려보자 ! Conv Layer filter Feature map Pooling Layer (max) : 연산량을 줄이기 위함 (하드웨어 제약) feature map 크기에 영향을 미치는 요소들 filter 개수 filter의 크기 filter의 이동 보폭 (strides) pooling : feature map의 가로 세로 사이즈에 영향 (depth와는 상관없음) Keras 3.x 사용 Sequential API Funtional API DNN Dense Input Flatten Batch Normalization Dropout CNN Conv2D filter : 새롭게 제작하려는 fea..
목표당일 콜택시 운행이 종료되었을 때, 다음 날의 콜택시 대기시간을 예측 데이터open_data.csv : 장애인 콜택시 운행 정보weather.csv : 날씨 데이터 데이터 기본 탐색 주기별 분석을 위해 날짜 변수 추가df['Date'] = pd.to_datetime(df['Date'])df['Day'] = df['Date'].dt.daydf['Weekday'] = df['Date'].dt.weekday # 요일 숫자(weekday_name으로 주면 요일 이름 반환)df['Week'] = df['Date'].dt.isocalendar().week # 주차df['Month'] = df['Date'].dt.monthdf['Year'] = df['Date'].dt.y..
1) 공공데이터포털에 접속해서 한국천문연구원_특일 정보를 검색한 후, 우측에 보이는 활용신청을 누르기 활용신청하면 API키 발급됨. API키는 마이페이지에서 확인할 수 있음 API키가 인코딩, 디코딩 두 개가 있는데 디코딩 키로 하니까 잘 가져와짐 2) 오픈 API 상세 페이지 하단에서 요청변수와 출력결과, 샘플코드를 확인할 수 있음 3) 활용해서 코드 짜면 완성 ~ 결과값을 response.context 또는 response.text를 사용해서 출력해보고 필요한 부분만 추출해서 사용하면 됨 이 데이터는 xml 형태로 제공되길래 xmltodict라는 라이브러리를 사용해서 데이터프레임으로 바꾼 후 사용했 import requests import pandas as pd import json import xm..
ML 주어진 데이터가 '성능'을 좌우함 주어진 데이터로 의사결정 rule을 만듦 규칙화하긴 어렵지만 어떤 복잡한 논리적인 절차의 결론으로 의사결정 자동화 머신러닝 : 쉽게 자동화된 논리적인 절차 주어진 데이터가 얼마나 적절하냐에 따라 의사결정 rule 만드는 난이도가 달라짐 사람이 생각하기에 용이할 것 같은 데이터 제작 Feature Engineering 주어진 데이터를 의사결정에 도웅이 되도록 더 적절하게 만드는 것 수제작이기 때문에 설명이 용이함 Error 줄이는데 도움이 될지는 모델링을 해봐야 알 수 있음 만든 것 중 어떤 피처가 얼마나 도움될지 모름 도움이 되던 것이 다른 피처를 만들었더니 도움 안될 수 있음 충분한 개수의 특징을 제작했는지 모름 많이 만들면 말이 길어져서 설명이 지저분해짐 좋은 ..
EDA 및 분류 모델링결측치가 있는 행이 6000개나 됨 => 어떻게 보간할지 고민값의 편차가 꽤 큼 => 정규화 또는 표준화 필요할 듯 timestamp를 확인해보니 시간이 쭉 이어져있지 않고 2019년, 2000년 두 년도로 나뉨label 클래스 개수 확인해보니 각 클래스별 개수 차이가 꽤 큼시간별 센서 데이터 그래프를 그려보았는데 nan 값들은 선형보간 해도 괜찮을 것 같음 나중에 알고봤더니 이 timestamp가 정확도에 매우 중요한 영향을 미치는 피처였다 ! 최대한 다양한 데이터를 활용해보자지금 데이터의 경우 두 날짜별로 시간의 흐름에 따라 센서 데이터 값이 저장돼있음내가 timestamp 피처를 지운 이유 : test.csv의 timestamp와 아예 관계가 ..
⬇️어제 글 2024.03.28 - [공부] - [모델링] 스마트폰 센서 데이터 기반 행동 인식 분류 # 1 [모델링] 스마트폰 센서 데이터 기반 행동 인식 분류 # 1 프로젝트 개요 주제 : 스마트폰 센서 데이터를 활용한 행동 인식 데이터 출처 : UCI Machine Learning Repository (https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones) Tabular (csv) 중점 사항 561 been-log.tistory.com 주성분 분석 (PCA, Principal Component Analysis) 주성분 분석 : 선형 차원 축소 기법 2차원으로 축소해서 시각화해본 결과 동적, 정적 동작으..
프로젝트 개요 주제 : 스마트폰 센서 데이터를 활용한 행동 인식 데이터 출처 : UCI Machine Learning Repository (https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones) Tabular (csv) 중점 사항 561개 Feature 값에 대한 데이터 탐색 6개 Class(Laying, Sitting, Standing, Walking, Walking-Up, Walking-Down) 관계를 고려한 모델링 도메인 이해 인간 행동 인식(Human Activity Recognition) 다양한 센서를 활용하여 사람의 모션에 관련된 정보 수집 및 해석하여 행동 인식 센서 신호 → 특징 추출 → 모..