목록공부/DL (11)
블로그
왜 언어 처리라고 하지 않고 자연어 처리라고 할까? 형식에 맞춰 쓰는 언어 : 형식 언어(대표적인 예는 프로그래밍 언어) 사람이 쓰는 말을 형식 언어와 구분하기 위해 자연어 처리라고 함 TF-IDF (term frequency-inverse document frequency) Document Summarization 문서를 읽지 않고도 문서를 요약하고 싶다 ! TF-IDF TF : 자주 등장하는 키워드는 이 문서의 중요한 키워드일거야 ! IDF : 너무 자주 등장하는 키워드는 이 문서만의 대표적인 특징이 될 수 없어 ! 특정 문서에서 키워드 등장 횟수 * (1 / 전체 문서에서 키워드 등장 횟수) TF(t, d) * IDF(t, D) t : 키워드 등장 횟수 d : 내가 보고있는 문서 D : 문서들의 전..
YOLO v8이 요구하는 폴더 구조 Dataset 폴더 Train 폴더 images labels Test 폴더 images labels Yaml에 있어야 할 정보 train : train set images 폴더 경로 val : val set images 폴더 경로 nc : 클래스의 숫자 기입 names : ['클래스0', '클래스1', ...] 순서대로 기입 Colab과 연결되었을 떄, 가상 pc의 기본 경로 : /content/ UltraLystics 라이브러리 설치 후 import setting한 후 datasets_dir = /content/로 수정 roboflow에서 데이터셋 생성 image 업로드 후 클래스 정의 annotation, preprocessing, augmentation 수행
Object Detection 컴퓨터는 동영상을 프레임 단위로 인식함 물체 A가 오른쪽에서 왼쪽으로 이동하면 사람은 바로 인지할 수 있지만, 컴퓨터는 오른쪽 A와 왼쪽 A를 같은 것이라고 인지하지 못함 => 인식이 됐다가 안됐다가 함 Localization : 단 하나의 Object 위치를 Bounding Box로 지정하여 찾음 Object Detection : 여러 개의 Object들의 위치를 Bounding Box로 지정하여 찾음 Bounding Box 하나의 Object가 포함된 최소 크기 박스 구성 요소 : x, y(좌표), w, h(크기) => 모두 합쳐서 위치 정보라고 할 수 있음 Ground-truth Bounding Box : 정답 박스 Prediction Bounding Box : 모델이..
Review Feature Representation : 연결된 것으로부터 새로운 feature들을 만듦 (재표현) Dense : 고수준 피처 개수 조절 Node : 피처 개수 조절 Image Data Augmentation 현실 세계에서는 가지고 있는 데이터가 매우 부족함 갖고있는 적은 데이터라도 최대한 활용하기 위해 augmentation 사용 Transfer Learning Augmentation의 한계 원본과 확연히 다른 새로운 특징은 만들어낼 수 없음 애초에 양과 질 모두 충족하는 적절한 데이터여야 학습에 도움이 됨 개인이 수집 불가능할 정도의 데이터 + 성능이 훌륭한 모델 구조와 가중치를 가진 모델을 가져와 사용 Pretrained Model : 가져온 그 상태 그대로 사용 Fine Tunin..
Review DNN : 이미지 데이터의 형태 훼손(= 공간/위치 정보를 감안하지 않음) CNN : 공간/위치 정보를 살려보자 ! Conv Layer filter Feature map Pooling Layer (max) : 연산량을 줄이기 위함 (하드웨어 제약) feature map 크기에 영향을 미치는 요소들 filter 개수 filter의 크기 filter의 이동 보폭 (strides) pooling : feature map의 가로 세로 사이즈에 영향 (depth와는 상관없음) Keras 3.x 사용 Sequential API Funtional API DNN Dense Input Flatten Batch Normalization Dropout CNN Conv2D filter : 새롭게 제작하려는 fea..
ML 주어진 데이터가 '성능'을 좌우함 주어진 데이터로 의사결정 rule을 만듦 규칙화하긴 어렵지만 어떤 복잡한 논리적인 절차의 결론으로 의사결정 자동화 머신러닝 : 쉽게 자동화된 논리적인 절차 주어진 데이터가 얼마나 적절하냐에 따라 의사결정 rule 만드는 난이도가 달라짐 사람이 생각하기에 용이할 것 같은 데이터 제작 Feature Engineering 주어진 데이터를 의사결정에 도웅이 되도록 더 적절하게 만드는 것 수제작이기 때문에 설명이 용이함 Error 줄이는데 도움이 될지는 모델링을 해봐야 알 수 있음 만든 것 중 어떤 피처가 얼마나 도움될지 모름 도움이 되던 것이 다른 피처를 만들었더니 도움 안될 수 있음 충분한 개수의 특징을 제작했는지 모름 많이 만들면 말이 길어져서 설명이 지저분해짐 좋은 ..
1. 시계열 모델링 Sequential Data ⊃ Time Series Time Series : Sequential + 시간의 등간격 Voice, Stock Data, Sentence 등 시계열 데이터 분석 시간의 흐름에 따른 패턴 분석 y 이전 시점 데이터들로부터 흐름의 패턴을 추출하여 예측 패턴 : Trend(추세), Seasonality(계절성) 패턴이 충분히 도출된 모델의 잔차는 Stationary(정상성) ML 기반 Modeling 특정 시점 데이터들(1차원)과 예측대상시점(y(t+1))과의 관계로부터 패턴을 추출하여 예측 -> 데이터는 2차원 DL 기반 Modeling 시간 흐름 구간(timesteps) 데이터들(2차원)과 예측대상 시점(y(t+1))과의 관계로부터 패턴 추출 분석 단위를 2..
[복습] x : feature y : target, label 열 : 정보, 변수 행 분석 단위, 예측 단위 위 행렬 구조 들고 데이터 분석 모델링을 위한 데이터 구조 만들기 모든 셀은 값이 있어야 함 ➔ NaN 조회 ➔ 언제 삭제하는지 ? 모든 값은 숫자여야 한다. 범 ➔ 수 , 가변수화 (필요시) 숫자의 범위 일치 (스케일링) 문제 해결 평가 후 AI 서비스 구축 -> MLOps scaling : 거리 연산할 때 이상치의 영향을 받지 않기 위해서 정규화 ➔ 이상치 많으면 너무 작은 값에 값들이 몰려있는 것처럼 보임 표준화 ➔ 이상치 있을 때 모델 학습, 최적화 할 때 데이터 크기가 너무 크면 오래 걸려서 y 값을 스케일링 하는 경우도 있음. ➔ 이런 경우 테스트 할 때는 다시 원복시켜야 함 오차 계산..