목록전체 글 (56)
블로그
1. Hyperparameter 알고리즘을 사용해 모델링 할 때, 모델 성능을 최적화하기 위해 조절할 수 있는 매개변 모델의 성능 향상을 위해 최선의 하이퍼파라미터 값을 찾는 다양한 시도를 해야 함 KNN k 값(n_neighbors)에 따라 성능이 달라짐 데이터 건수의 제곱근 값으로 설정하는 경우가 종종있음 k 값이 가장 클 때(=전체 데이터 개수) 가장 단순한 모델 → 평균, 최빈값 k 값이 작을 수록 복잡한 모델이 됨 거리 계산법(metric)에 따라 성능이 달라질 수 있음 Decision Tree max_depth 트리의 최대 깊이를 제한 완벽하게 클래스 결정 값이 될 때까지 깊이를 계속 키우며 분할하거나, 노드가 가지는 데이터 개수가 min_samples_split보다 작아질 때까지 계속 깊이를..
K - Fold Cross Validation from sklearn.model_selection import cross_val_score # 사용할 모델 선언 model = MODEL() cv_score = cross_val_score(model, x_train, y_train, cv=10) K-분할 교차 검증 모든 데이터가 평가에 한 번, 학습에 k-1번 사용됨 k개의 분할(Fold)에 대한 성능을 예측 → 평균, 표준편차 계산, 일반화 성능 단 k는 2 이상이어야 함(k가 1일 경우, 학습 데이터로 평가까지 하게 됨) 장점 모든 데이터를 학습과 평가에 사용할 수 있음 반복 학습과 평가를 통해 정확도를 향상시킬 수 있음 데이터가 부족해서 발생하는 과소적합 문제를 방지할 수 있음 평가에 사용되는 데이터..
1. Linear Regression from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_absolute_error, r2_score 실젯값과의 오차가 최소가 되는 직선 y햇 = w0 +w1x1 w0 : 편향 w1 : 가중치(회귀 계수) 최선의 회귀모델 : 전체 데이터의 오차 합이 최소가 되는 모델 # 회귀계수 확인 model.coef_ model.intercept_ model.coef_ : 모델 가중치(회귀 계수) 확인 model.intercept_ : 편향 확인 단순 회귀(Simple Regression) 독립변수 하나가 종속변수에 영향을 미치는 선형회귀 x값 하나만으로 y값을 설명할 수 있는 경우 회귀식..
빅데이터 분석 환경 구축 실습 쭉 보면서 따라해볼만한 강의가 없나 찾아다니다가 발견했다.. 2년전 영상이긴 하지만 그래두 따라해볼만 해보여서 도전 !! https://youtu.be/QQUKRVmdGVc?si=soGT2IWBNy9-_GOS 1. AWS EC2 인스턴스 배포 강사님은 Mac 환경에서 하셔가지고 cmd 명령어가 다를까봐 걱정했는데 거의 비슷했다 .. 다행 일단 AWS에 로그인하고 인스턴스를 발행한다. 1) 로그인 후에 검색창에 EC2 입력하고 EC2 클릭 -> 인스턴스 시작 클릭 2) 애플리케이션 및 OS 이미지(Amazon Machine Image) ubuntu 환경에서 진행할거라 ubuntu 선택 그리고 22.04 버전도 있었지만 나는 강의 따라할거라 20.04로 선택했음.. 3) 인스턴..
1. 회귀모델 성능평가 y : 실젯값, Target. 이 값과 비교해서 모델의 성능을 평가 y햇 : 예측값 , 모델의 예측값이 평균값보다 오차를 얼마나 더 줄였는지 궁금한 것 y바 : 평균값 회귀모델의 성능은 실젯값과 예측값의 차이인 오차의 크기로 평가함 하나의 값으로 오차를 표현하기 위해 다양한 연산을 활용함 방법1 : 오차합 오차가 2, -1, 2, -3인 경우 다 합하면 오차가 0이 돼버림. 사용X 방법2 : 오차 제곱의 합 오차 제곱의 합 → SSE(Sum Squared Error) 오차 제곱(SSE)의 합을 구한 후 평균을 구함 → MSE 오차의 제곱이므로 루트를 사용해 일반적인 값으로 표현 → RMSE 방법3 : 오차 절대값의 합 오차 절대값의 합을 구한 후 평균을 구함 → MAE 오차 비율을..
컬럼이 너무 많아질 경우 One-Hot Encoding 하지 않음 Label Encoding => 컬럼이 y에 얼마나 영향을 주는지 알 수 있음 One-Hot Encoding => 컬럼의 범주별로 y에 얼마나 영향을 주는지 알 수 있음 데이터 컬럼이 너무 많아지면(너무 복잡해지면) 모델 성능이 떨어질 수 있음 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3) test_size 정수로 주면 개수 지정하는 것 (3을 주면 하위 3행을 테스트 셋으로 설정함)
지금 진행하는 프로젝트에서 대시보드 구현이 필요해서 Streamlit을 시작해보았다 geemap과 연동이 필요해서 멀티 페이지로 지도 대시보드 만든 코드를 찾아서 하루종일 들여다봤는데 구조 이해하기가 넘 어려웠삼;; 그래서 지금 유튭 보고 만드는 중.. [하루종일 들여다 본 코드] https://github.com/opengeos/streamlit-geospatial [지금 보고있는 유튜브] https://www.youtube.com/watch?v=YClmpnpszq8 1. 홈페이지 파일 생성 우선 프로젝트 폴더에 홈화면으로 작동할 파이썬 파일을 만들어준다. 이런 식으로 탭에 들어갈 페이지 이름과 아이콘을 지정해줄수도 있다!! 사이드바도 추가해줬다. 이 이후의 과정을 거치지 않았을 경우, 사이드바엔 Se..