일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터시각화
- product
- 데이터분석
- tableau
- productmarketfit
- 그로스해킹
- nlp
- 자연어처리
- 데이터모델링
- Computer Vision
- 시각화
- 딥러닝
- 파인튜닝
- DACON
- 모델링
- fit
- dl
- pmf
- OKR
- 데이콘
- 언어지능딥러닝
- 머신러닝
- Market
- 컴퓨터비전
- omtm
- 인공지능
- ERD
- 태블로
- Today
- Total
목록전체 글 (77)
블로그

1. Feature Representation Fully Connected : 모든 노드간 연결 Locally Connected : 연결 제어 가능 상단의 노드를 z1, 하단 노드를 z2라고 했을 때, z1은 내부요인 점수, z2는 외부요인 점수라고 볼 수 있음 이 두 노드에 가중치를 주고 최종 집 값을 예측하게 될텐데, 둘 중 어느 곳에 더 가중치를 줄지는 알 수 없음 ! 기존 데이터는 Hidden Layer에서 예측된 값과 실제값 사이의 오차를 최소화 해주는 방향으로 새롭게 표현(Representation)됨 => Feature Engineering 2. 이진 분류 딥러닝 구조 활성 함수 Activation Function : Node의 결과를 변환해주는 함수 Loss Function : binary..
1. 신장 트리(Spannging tree) 그래프에서 모든 정점이 서로 연결이 되며 싸이클이 존재하지 않는 그래프 신장 트리들 중에서 가중치의 합이 최소가 되는 신장 트리를 최소 신장 트리(Minimum Spanning Tree, MST)라고 함 2. 크루스칼 알고리즘(Kruskal Algorithm) 그리디(Greedy) 알고리즘 그래프 내의 모든 정점을 가장 적은 비용으로 연결하기 위해 사용 알고리즘 동작 과정 간선 데이터를 비용(가중치)에 따라 오름차순으로 정렬 간선을 하나씩 확인하며 현재의 간선이 사이클을 발생시키는지 확인 사이클이 발생하지 않는 경우 최소 신장 트리에 포함 사이클이 발생하는 경우 포함시키지 않음 모든 간선에 대해 2. 과정 반복 def find(parent, i): # unio..

[복습] - 모델의 성능은 오차(error)를 통해 계산됨 - 평가지표 - 선형 회귀 모델 : y햇 = w0 + w1x1 + w2x2 + ... + wnxn - 모델링 코드 순서 1. 딥러닝 개념 이해 학습 절차 가중치에 (초기)값을 할당 (초기값은 랜덤으로 할당) (예측)결과 뽑기 오차 계산 오차를 줄이는 방향으로 가중치를 조정 다시 1단계로 올라가 반복 (max iteration에 도달(오차의 변동이 (거의) 없으면 끝)) forward propagation, back propagation : 순전파, 역전파 : 오차 줄이는 방향 2. Regression 딥러닝은 스케일링 필수 Normalization(정규화) : 모든 값의 범위를 0에서 1사이로 변환 Standardization(표준화) : 평균 ..
클래스 불균형(Class Imbalances) 문제의 경우 알고리즘이 다수 클래스를 더 많이 예측하는 방향으로 편향되는 경향이 있음 → 소수 클래스에서 오분류율이 높아짐 다수 클래스는 잘 맞추기 때문에 모델의 정확도(Accuracy)는 높지만, 소수 클래스의 재현율(Recall)은 매우 낮아질 수 있음 해결 방법 1: Resampling Under Sampling : 다수 클래스 데이터를 소수 클래스 수 만큼 랜덤 샘플링(비복원 추출) Over Sampling : 소수 클래스 데이터를 다수 클래스 수 만큼 랜덤 샘플링(복원 추출) 샘플링 방식이 다양하므로 상황에 맞는 샘플링 방식을 사용해야 함 해결 방법 2 : Class Weight Resampling 없이 클래스에 가중치를 부여하여 클래스 불균형 문제..
여러 개의 모델을 결합하여 훨씬 강력한 모델을 생성하는 기법 1. 보팅(Voting) 여러 모델들(다른 유형의 알고리즘 기반)의 예측 결과를 투표를 통해 최종 예측 결과를 결정하는 방법 하드 보팅: 다수 모델이 예측한 값이 최종 결괏값 소프트 보팅: 모든 모델이 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 값을 최종 선택 2. 배깅(Bagging) Bootstrap Aggregating의 약자 데이터로부터 부트스트랩(중복 추출) 한 데이터로 모델들을 학습시킨 후, 모델들의 예측 결과를 집계해 최종 결과를 얻는 방법 같은 유형의 알고리즘 기반 모델을 사용함 데이터 분할 시 중복을 허용(복원 랜덤 샘플링 방식이라고 함) 범주형 데이터(Categorical Data)는 투표 방식(Votin..
1. Hyperparameter 알고리즘을 사용해 모델링 할 때, 모델 성능을 최적화하기 위해 조절할 수 있는 매개변 모델의 성능 향상을 위해 최선의 하이퍼파라미터 값을 찾는 다양한 시도를 해야 함 KNN k 값(n_neighbors)에 따라 성능이 달라짐 데이터 건수의 제곱근 값으로 설정하는 경우가 종종있음 k 값이 가장 클 때(=전체 데이터 개수) 가장 단순한 모델 → 평균, 최빈값 k 값이 작을 수록 복잡한 모델이 됨 거리 계산법(metric)에 따라 성능이 달라질 수 있음 Decision Tree max_depth 트리의 최대 깊이를 제한 완벽하게 클래스 결정 값이 될 때까지 깊이를 계속 키우며 분할하거나, 노드가 가지는 데이터 개수가 min_samples_split보다 작아질 때까지 계속 깊이를..
K - Fold Cross Validation from sklearn.model_selection import cross_val_score # 사용할 모델 선언 model = MODEL() cv_score = cross_val_score(model, x_train, y_train, cv=10) K-분할 교차 검증 모든 데이터가 평가에 한 번, 학습에 k-1번 사용됨 k개의 분할(Fold)에 대한 성능을 예측 → 평균, 표준편차 계산, 일반화 성능 단 k는 2 이상이어야 함(k가 1일 경우, 학습 데이터로 평가까지 하게 됨) 장점 모든 데이터를 학습과 평가에 사용할 수 있음 반복 학습과 평가를 통해 정확도를 향상시킬 수 있음 데이터가 부족해서 발생하는 과소적합 문제를 방지할 수 있음 평가에 사용되는 데이터..

1. Linear Regression from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_absolute_error, r2_score 실젯값과의 오차가 최소가 되는 직선 y햇 = w0 +w1x1 w0 : 편향 w1 : 가중치(회귀 계수) 최선의 회귀모델 : 전체 데이터의 오차 합이 최소가 되는 모델 # 회귀계수 확인 model.coef_ model.intercept_ model.coef_ : 모델 가중치(회귀 계수) 확인 model.intercept_ : 편향 확인 단순 회귀(Simple Regression) 독립변수 하나가 종속변수에 영향을 미치는 선형회귀 x값 하나만으로 y값을 설명할 수 있는 경우 회귀식..