반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- ERD
- productmarketfit
- dl
- omtm
- 컴퓨터비전
- nlp
- 시각화
- 데이콘
- 머신러닝
- tableau
- 모델링
- fit
- OKR
- 데이터모델링
- 언어지능딥러닝
- product
- 그로스해킹
- Computer Vision
- Market
- 인공지능
- 자연어처리
- 데이터시각화
- DACON
- 파인튜닝
- pmf
- 태블로
- 딥러닝
- 데이터분석
Archives
- Today
- Total
블로그
[논문 리뷰] Neural Machine Translation for Harmonized System Codes prediction 본문
공부
[논문 리뷰] Neural Machine Translation for Harmonized System Codes prediction
beenu 2023. 9. 8. 00:49반응형
ABSTRACT
- 사람이 관세 신고서를 보고 HS 코드를 지정하는 것은 오류가 발생할 가능성이 높음
- 딥러닝을 적용한 HS 코드 분류 자동화 시스템
- DHL에서 제공한 발송물의 익명화된 데이터를 사용함
- 계층적 손실의 통합을 가진 주의 기반 신경 기계 번역(NMT) 모델이며 이 모델은 데이터 셋의 약 29%를 분류할 수 있고 정확도는 85%에 달할 수 있음
INTRODUCTION
- 가설 : 품목 설명 및 발송 특징에서 HS 코드 분류를 생성하는 문제는 기계 번역 문제로 간주될 수 있다
- 코드는 계층적 구조를 취하며, 각 계층 사이에 종속성이 발생하므로 계층적 분류 모델을 의미할 수 있음
- 주요 기여 : HS 코드 분류 문제를 기계 번역 작업으로 모델링하는 것
RELATED WORK
- 계층적 분류 작업 → 전역 신경망 기반 접근법이 우세함
- 다중 레이블 학습
- 이진 관련성, 체인 분류기, 다중 레이블 딥러닝 아키테처 등
- HS 코드 자동 분류를 다중 레이블 접근법으로 모델링 하려면 HS 코드의 계층 항목 섹션에 대한 인코딩을 정의해야 하는데, 이는 각 섹션이 많은 하위 레이블을 가질 수 있으므로 실용적이지 않음
- 이 논문에서 사용된 NMT 구조 자체는 레이블 일관성을 유지하면서 계층적 정보를 전달하는 장점이 있음
DATA
- DHL 네트워크를 통해 한 국가로 8개월 동안의 발송물을 기반으로 함
- 품목 설명, 원산지, 목적지, 출발 공항, 도착 공항 피처 포함
- 1,156만 건
- 6자리 수준에서 4,257개의 다른 HS 코드가 있음
- 고려사항 : COVID-19 발발 중에 준비되었으므로 DHL 네트워크를 통해 평소보다 많은 양의 마스크와 혈액 샘플이 발송됨
- 결론을 더 일반화하기 위해 마스크/kn95 및 혈액 샘플을 포함한 설명 제거
- 10번 미만으로 나타나는 드문 HS 코드도 정리 단계에서 제거
- 텍스트 설명의 전처리와 관련하여, 모든 설명과 텍스트 필드를 소문자로 변환하고, 구두점과 숫자를 제거하는 표준 NLP 접근법을 적용
- 데이터가 깔끔하지 않음
- 설명에는 6자리 HS 코드를 분류하기에 충분한 정보가 포함되어 있지 않은 경우가 많음
- 사람의 실수로 인해 일부 HS 코드가 잘못 할당됨
METHOD
- Logistic Regression
- 계층적 다항 로지스틱 회귀
- 각 노드에서 다항 로지스틱 회귀 모델을 구축하는 지역 계층적 접근법
- 각 노드에 대해 가장 큰 확률을 가진 노드를 확장
- Neural Machine Translation
- 순차적인 인코더-디코더 모델
- 번역하기 위한 모델
- 번역은 종종 RNN 네트워크(ex. LSTM)을 사용하여 수행됨
- RNN과 CNN의 조합도 사용 가능
- 컨텍스트 벡터는 길이가 고정적이기 떄문에 긴 시퀀스를 기억하는 능력이 떨어짐
- 어텐션 매커니즘을 사용하면 중요한 부분에 집중할 수 있음
- 전통적인 사전 훈련된 임베딩(Word2Vec, GloVe, FastText 등)은 설명에 도메인 특정 어휘가 많이 포함되어 있기 때문에 단어에 대한 커버리지가 매우 낮음
- 설명들의 대부분은 어떠한 문법 구조도 포함하고 있지 않아 맥락적 임베딩(Bert, GPT 등)은 여기서 첫 번째 선택지가 아님
- 전통적인 임베딩과 맥락적 임베딩은 향후 작업에서 시도해 볼 만한 가치가 있음
- NMT 모델 자체는 교사 강요 방식으로 훈련됨
- 계층적 분류를 해결하기 위해 계층적 손실의 개념 도입
- 계층적 손실 : 지역 손실과 전역 손실의 통합
- Long Short Term Memory
- RNN 문제 해결
RESULTS
- 이 실험에서는 다음과 같이 다섯 가지 다른 모델을 평가함 - HLR, LSTM, 계층적 손실을 가진 LSTM (LSTM-HL), NMT, 계층적 손실을 가진 NMT (NMT-HL)
- 결과는 특정 요구 사항에 따른 재현율과 그 범위에서의 정확도 두 가지 차원에서 비교됨
- 데이터 X = {x1, x2, …, xn}는 신뢰도 점수 P = {p1, p2,… , pn}와 관련하여 분석됨
- pn은 데이터 포인트 xn에 대한 모델의 예측 확률
- 높은 신뢰도 점수는 올바르게 분류된 예제를 식별하는 데 있어 높은 정밀도를 제공함 → 신뢰도 점수에 특정 원하는 정확도를 얻기 위한 임계값 적용
- 임계값은 검증 데이터셋에서 계산되며 같은 임계값을 적용하여 테스트 데이터셋에서 결과를 평가
- Result analysis
- 계층 분류 간에 명확한 관계나 연결성이 모델 예측에 반영되지 않은 경우, 계층적 손실 기법(계층적인 관계를 모델에 학습시키기 위해 사용되는 학습 기법)이 모델을 혼란스럽게 만들 수 있음
- 모델이 데이터의 계층적 구조를 제대로 이해하지 못하는 상황에서, 계층적 손실 기법을 적용하면 오히려 모델의 성능을 저하시킬 수 있다는 것
- 계층 분류 간에 명확한 관계나 연결성이 모델 예측에 반영되지 않은 경우, 계층적 손실 기법(계층적인 관계를 모델에 학습시키기 위해 사용되는 학습 기법)이 모델을 혼란스럽게 만들 수 있음
CONCLUSION
- 딥러닝 모델인 NMT-HL 알고리즘이 HS 분류 문제를 해결하기 위해 적용됨
- 원하는 정확도가 85%일 때 현재 데이터 세트의 설명 중 약 29%를 자동으로 분류할 수 있음. 이는 DHL 에이전트의 생산성과 정확도를 향상시키는 데 사용될 수 있음
- 개선 사항
- 사전 학습된 임베딩을 파인튜닝해야 함
- 트랜스포머는 NMT와 비교해서 더 나은 점이 없음
- 시도해볼 수 있는 잠재적 모델은 Transformer 기반의 사전 훈련된 seq2seq 모델
- 모델의 확률적 출력을 더 깊게 조사하여 모델의 예측의 신뢰도를 결정하는 대안을 탐색
728x90
반응형
'공부' 카테고리의 다른 글
[학습] 분류 모델 불균형 데이터 평가지표 (0) | 2023.10.03 |
---|---|
[학습] PyTorch 토크나이저 저장 (0) | 2023.10.03 |
[학습] 불균형한 데이터 학습 시 클래스 비율 지정 (0) | 2023.09.21 |
[학습] Pandas apply 메소드 (5) | 2023.09.11 |
[논문 리뷰] Application of Machine Learning for Assessment of HS Code Correctness (0) | 2023.09.08 |