목록공부 (55)
블로그
python -m pip install prophet 이것저것 설치하고 난리부르스 쳤는데 위에 코드 치니까 걍 바로 설치됨 import prophet 소문자로 import prophet 해주면 잘 된다
데이터가 불균형할 때, accuracy는 좋은 평가지표가 아니다. 개와 고양이를 분류하는 모델이 학습이 잘못되어 어떤 것이 들어오든지 고양이로 분류하게 됐다. 예측을 위해 데이터를 입력할 때, 이 데이터가 고양이 사진 99장, 강아지 사진 1장으로 구성돼있다면 이 모델의 정확도는 99%가 된다. 모델의 성능이 매우 구림에도 정확도만 보면 매우 좋아 보인다. 불균형한 데이터에서는 정확도보다 F1 Score를 사용하는 것이 좋다!
모델과 토크나이저를 저장할 때는 이 둘을 같은 디렉터리에 저장하는 것이 관리하기 편리하며, 나중에 둘을 함께 로드할 때도 편리하기 때문에 같은 파일에 저장하는 것을 습관화 하는게 좋을 것 같다. ⬇️저장 방법 # 토크나이저 및 모델 저장 tokenizer.save_pretrained(save_directory) model.save_pretrained(save_directory)
train_test_split(filtered_data, test_size=0.2, stratify=filtered_data['column']) 데이터 분할할 때 stratify 옵션 추가하기 아무리 특정 클래스에 대해 train을 많이 시켜도 test set에 그 클래스 데이터가 포함되지 않으면 검증이 되지 않음 -> over fitting 여부 확인X 옵션에 클래스 컬럼을 넣어주면 비율에 따라 나눠줌
apply(함수명, axis=0 or 1) axis 0 : 함수를 열에 적용 axis 1 : 함수를 행에 적용
Abstract hs 코드의 정확성을 수동으로 평가하는 것은 오류가 발생하기 쉽고, 시간이 많이 소요됨 머신러닝을 사용하여 제품의 텍스트 설명을 통해 학습한 품목분류 코드의 정확성 평가 품목의 hs 코드의 정확성을 평가하기 위해, 텍스트의 코사인 유사도와 hs 코드의 의미론적 유사도를 기반으로 한 새로운 결합 유사도 측정 방법을 도입 의미론적 유사도 : hs코드 간의 관계나 계층 구조를 기반으로 한 유사도로, 같은 상위 카테고리에 속하는 두 hs 코드는 높은 의미론적 유사도를 가짐 Related works 대부분의 관련 연구는 다양한 기계 학습 방법을 사용하여 판매자의 관점에서 자동 상품 분류에 중점을 둠 이 논문은 위험 관리 시스템의 일부로 사기 탐지에 중점을 둠 자연어 텍스트에 보완적인 지식으로 HS..
ABSTRACT 사람이 관세 신고서를 보고 HS 코드를 지정하는 것은 오류가 발생할 가능성이 높음 딥러닝을 적용한 HS 코드 분류 자동화 시스템 DHL에서 제공한 발송물의 익명화된 데이터를 사용함 계층적 손실의 통합을 가진 주의 기반 신경 기계 번역(NMT) 모델이며 이 모델은 데이터 셋의 약 29%를 분류할 수 있고 정확도는 85%에 달할 수 있음 INTRODUCTION 가설 : 품목 설명 및 발송 특징에서 HS 코드 분류를 생성하는 문제는 기계 번역 문제로 간주될 수 있다 코드는 계층적 구조를 취하며, 각 계층 사이에 종속성이 발생하므로 계층적 분류 모델을 의미할 수 있음 주요 기여 : HS 코드 분류 문제를 기계 번역 작업으로 모델링하는 것 RELATED WORK 계층적 분류 작업 → 전역 신경망 ..