목록전체 글 (56)
블로그
1. 시계열 모델링 Sequential Data ⊃ Time Series Time Series : Sequential + 시간의 등간격 Voice, Stock Data, Sentence 등 시계열 데이터 분석 시간의 흐름에 따른 패턴 분석 y 이전 시점 데이터들로부터 흐름의 패턴을 추출하여 예측 패턴 : Trend(추세), Seasonality(계절성) 패턴이 충분히 도출된 모델의 잔차는 Stationary(정상성) ML 기반 Modeling 특정 시점 데이터들(1차원)과 예측대상시점(y(t+1))과의 관계로부터 패턴을 추출하여 예측 -> 데이터는 2차원 DL 기반 Modeling 시간 흐름 구간(timesteps) 데이터들(2차원)과 예측대상 시점(y(t+1))과의 관계로부터 패턴 추출 분석 단위를 2..
대학생 때부터 썼던 깃허브 계정 폭파시키고 새로 다시 팠다. 이번 계정은 예쁘게 써야지.. 1. 내 계정 이름과 같은 이름의 repository를 생성한다. 스페셜 레포지토리라고 깜찍하게 알려준다. 빨간색으로 표시해둔 부분 체크해주고 생성해준다. 그럼 이렇게 readme 파일이 생긴걸 볼 수 있다. 벌써 인사하네..,, 이제 알아서 예쁘게 꾸며주면 된다. 2. README.md 파일 수정 방문자 수 표시 https://hits.seeyoufarm.com/ HITS Easy way to know how many visitors are viewing your Github, Website, Notion. hits.seeyoufarm.com 뱃지 생성 https://shields.io/ Shields.io | ..
[복습] x : feature y : target, label 열 : 정보, 변수 행 분석 단위, 예측 단위 위 행렬 구조 들고 데이터 분석 모델링을 위한 데이터 구조 만들기 모든 셀은 값이 있어야 함 ➔ NaN 조회 ➔ 언제 삭제하는지 ? 모든 값은 숫자여야 한다. 범 ➔ 수 , 가변수화 (필요시) 숫자의 범위 일치 (스케일링) 문제 해결 평가 후 AI 서비스 구축 -> MLOps scaling : 거리 연산할 때 이상치의 영향을 받지 않기 위해서 정규화 ➔ 이상치 많으면 너무 작은 값에 값들이 몰려있는 것처럼 보임 표준화 ➔ 이상치 있을 때 모델 학습, 최적화 할 때 데이터 크기가 너무 크면 오래 걸려서 y 값을 스케일링 하는 경우도 있음. ➔ 이런 경우 테스트 할 때는 다시 원복시켜야 함 오차 계산..
1. Feature Representation Fully Connected : 모든 노드간 연결 Locally Connected : 연결 제어 가능 상단의 노드를 z1, 하단 노드를 z2라고 했을 때, z1은 내부요인 점수, z2는 외부요인 점수라고 볼 수 있음 이 두 노드에 가중치를 주고 최종 집 값을 예측하게 될텐데, 둘 중 어느 곳에 더 가중치를 줄지는 알 수 없음 ! 기존 데이터는 Hidden Layer에서 예측된 값과 실제값 사이의 오차를 최소화 해주는 방향으로 새롭게 표현(Representation)됨 => Feature Engineering 2. 이진 분류 딥러닝 구조 활성 함수 Activation Function : Node의 결과를 변환해주는 함수 Loss Function : binary..
1. 신장 트리(Spannging tree) 그래프에서 모든 정점이 서로 연결이 되며 싸이클이 존재하지 않는 그래프 신장 트리들 중에서 가중치의 합이 최소가 되는 신장 트리를 최소 신장 트리(Minimum Spanning Tree, MST)라고 함 2. 크루스칼 알고리즘(Kruskal Algorithm) 그리디(Greedy) 알고리즘 그래프 내의 모든 정점을 가장 적은 비용으로 연결하기 위해 사용 알고리즘 동작 과정 간선 데이터를 비용(가중치)에 따라 오름차순으로 정렬 간선을 하나씩 확인하며 현재의 간선이 사이클을 발생시키는지 확인 사이클이 발생하지 않는 경우 최소 신장 트리에 포함 사이클이 발생하는 경우 포함시키지 않음 모든 간선에 대해 2. 과정 반복 def find(parent, i): # unio..
[복습] - 모델의 성능은 오차(error)를 통해 계산됨 - 평가지표 - 선형 회귀 모델 : y햇 = w0 + w1x1 + w2x2 + ... + wnxn - 모델링 코드 순서 1. 딥러닝 개념 이해 학습 절차 가중치에 (초기)값을 할당 (초기값은 랜덤으로 할당) (예측)결과 뽑기 오차 계산 오차를 줄이는 방향으로 가중치를 조정 다시 1단계로 올라가 반복 (max iteration에 도달(오차의 변동이 (거의) 없으면 끝)) forward propagation, back propagation : 순전파, 역전파 : 오차 줄이는 방향 2. Regression 딥러닝은 스케일링 필수 Normalization(정규화) : 모든 값의 범위를 0에서 1사이로 변환 Standardization(표준화) : 평균 ..
클래스 불균형(Class Imbalances) 문제의 경우 알고리즘이 다수 클래스를 더 많이 예측하는 방향으로 편향되는 경향이 있음 → 소수 클래스에서 오분류율이 높아짐 다수 클래스는 잘 맞추기 때문에 모델의 정확도(Accuracy)는 높지만, 소수 클래스의 재현율(Recall)은 매우 낮아질 수 있음 해결 방법 1: Resampling Under Sampling : 다수 클래스 데이터를 소수 클래스 수 만큼 랜덤 샘플링(비복원 추출) Over Sampling : 소수 클래스 데이터를 다수 클래스 수 만큼 랜덤 샘플링(복원 추출) 샘플링 방식이 다양하므로 상황에 맞는 샘플링 방식을 사용해야 함 해결 방법 2 : Class Weight Resampling 없이 클래스에 가중치를 부여하여 클래스 불균형 문제..
여러 개의 모델을 결합하여 훨씬 강력한 모델을 생성하는 기법 1. 보팅(Voting) 여러 모델들(다른 유형의 알고리즘 기반)의 예측 결과를 투표를 통해 최종 예측 결과를 결정하는 방법 하드 보팅: 다수 모델이 예측한 값이 최종 결괏값 소프트 보팅: 모든 모델이 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 값을 최종 선택 2. 배깅(Bagging) Bootstrap Aggregating의 약자 데이터로부터 부트스트랩(중복 추출) 한 데이터로 모델들을 학습시킨 후, 모델들의 예측 결과를 집계해 최종 결과를 얻는 방법 같은 유형의 알고리즘 기반 모델을 사용함 데이터 분할 시 중복을 허용(복원 랜덤 샘플링 방식이라고 함) 범주형 데이터(Categorical Data)는 투표 방식(Votin..