반응형
250x250
Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

블로그

[논문 리뷰] Neural Machine Translation for Harmonized System Codes prediction 본문

공부

[논문 리뷰] Neural Machine Translation for Harmonized System Codes prediction

beenu 2023. 9. 8. 00:49
반응형

ABSTRACT


  • 사람이 관세 신고서를 보고 HS 코드를 지정하는 것은 오류가 발생할 가능성이 높음
  • 딥러닝을 적용한 HS 코드 분류 자동화 시스템
  • DHL에서 제공한 발송물의 익명화된 데이터를 사용함
  • 계층적 손실의 통합을 가진 주의 기반 신경 기계 번역(NMT) 모델이며 이 모델은 데이터 셋의 약 29%를 분류할 수 있고 정확도는 85%에 달할 수 있음

 

INTRODUCTION


  • 가설 : 품목 설명 및 발송 특징에서 HS 코드 분류를 생성하는 문제는 기계 번역 문제로 간주될 수 있다
  • 코드는 계층적 구조를 취하며, 각 계층 사이에 종속성이 발생하므로 계층적 분류 모델을 의미할 수 있음
  • 주요 기여 : HS 코드 분류 문제를 기계 번역 작업으로 모델링하는 것

 

RELATED WORK


  • 계층적 분류 작업 → 전역 신경망 기반 접근법이 우세함
  • 다중 레이블 학습
    • 이진 관련성, 체인 분류기, 다중 레이블 딥러닝 아키테처 등
    • HS 코드 자동 분류를 다중 레이블 접근법으로 모델링 하려면 HS 코드의 계층 항목 섹션에 대한 인코딩을 정의해야 하는데, 이는 각 섹션이 많은 하위 레이블을 가질 수 있으므로 실용적이지 않음
    • 이 논문에서 사용된 NMT 구조 자체는 레이블 일관성을 유지하면서 계층적 정보를 전달하는 장점이 있음

 

DATA


  • DHL 네트워크를 통해 한 국가로 8개월 동안의 발송물을 기반으로 함
  • 품목 설명, 원산지, 목적지, 출발 공항, 도착 공항 피처 포함
  • 1,156만 건
  • 6자리 수준에서 4,257개의 다른 HS 코드가 있음
  • 고려사항 : COVID-19 발발 중에 준비되었으므로 DHL 네트워크를 통해 평소보다 많은 양의 마스크와 혈액 샘플이 발송됨
    • 결론을 더 일반화하기 위해 마스크/kn95 및 혈액 샘플을 포함한 설명 제거
  • 10번 미만으로 나타나는 드문 HS 코드도 정리 단계에서 제거
  • 텍스트 설명의 전처리와 관련하여, 모든 설명과 텍스트 필드를 소문자로 변환하고, 구두점과 숫자를 제거하는 표준 NLP 접근법을 적용
  • 데이터가 깔끔하지 않음
    • 설명에는 6자리 HS 코드를 분류하기에 충분한 정보가 포함되어 있지 않은 경우가 많음
    • 사람의 실수로 인해 일부 HS 코드가 잘못 할당됨

 

METHOD


  1. Logistic Regression
    • 계층적 다항 로지스틱 회귀
    • 각 노드에서 다항 로지스틱 회귀 모델을 구축하는 지역 계층적 접근법
    • 각 노드에 대해 가장 큰 확률을 가진 노드를 확장
  2. Neural Machine Translation
    • 순차적인 인코더-디코더 모델
    • 번역하기 위한 모델
    • 번역은 종종 RNN 네트워크(ex. LSTM)을 사용하여 수행됨
      • RNN과 CNN의 조합도 사용 가능
    2.1 Attention models
    • 컨텍스트 벡터는 길이가 고정적이기 떄문에 긴 시퀀스를 기억하는 능력이 떨어짐
    • 어텐션 매커니즘을 사용하면 중요한 부분에 집중할 수 있음
    2.2 Embedding
    • 전통적인 사전 훈련된 임베딩(Word2Vec, GloVe, FastText 등)은 설명에 도메인 특정 어휘가 많이 포함되어 있기 때문에 단어에 대한 커버리지가 매우 낮음
    • 설명들의 대부분은 어떠한 문법 구조도 포함하고 있지 않아 맥락적 임베딩(Bert, GPT 등)은 여기서 첫 번째 선택지가 아님
    • 전통적인 임베딩과 맥락적 임베딩은 향후 작업에서 시도해 볼 만한 가치가 있음
    2.3 Hierarchical loss
    • NMT 모델 자체는 교사 강요 방식으로 훈련됨
    • 계층적 분류를 해결하기 위해 계층적 손실의 개념 도입
    • 계층적 손실 : 지역 손실과 전역 손실의 통합
  3. Long Short Term Memory
    • RNN 문제 해결

 

RESULTS


  • 이 실험에서는 다음과 같이 다섯 가지 다른 모델을 평가함 - HLR, LSTM, 계층적 손실을 가진 LSTM (LSTM-HL), NMT, 계층적 손실을 가진 NMT (NMT-HL)
  • 결과는 특정 요구 사항에 따른 재현율과 그 범위에서의 정확도 두 가지 차원에서 비교됨
  • 데이터 X = {x1, x2, …, xn}는 신뢰도 점수 P = {p1, p2,… , pn}와 관련하여 분석됨
    • pn은 데이터 포인트 xn에 대한 모델의 예측 확률
    • 높은 신뢰도 점수는 올바르게 분류된 예제를 식별하는 데 있어 높은 정밀도를 제공함 → 신뢰도 점수에 특정 원하는 정확도를 얻기 위한 임계값 적용
      • 임계값은 검증 데이터셋에서 계산되며 같은 임계값을 적용하여 테스트 데이터셋에서 결과를 평가

  1. Result analysis
    • 계층 분류 간에 명확한 관계나 연결성이 모델 예측에 반영되지 않은 경우, 계층적 손실 기법(계층적인 관계를 모델에 학습시키기 위해 사용되는 학습 기법)이 모델을 혼란스럽게 만들 수 있음
      • 모델이 데이터의 계층적 구조를 제대로 이해하지 못하는 상황에서, 계층적 손실 기법을 적용하면 오히려 모델의 성능을 저하시킬 수 있다는 것

 

CONCLUSION


  • 딥러닝 모델인 NMT-HL 알고리즘이 HS 분류 문제를 해결하기 위해 적용됨
  • 원하는 정확도가 85%일 때 현재 데이터 세트의 설명 중 약 29%를 자동으로 분류할 수 있음. 이는 DHL 에이전트의 생산성과 정확도를 향상시키는 데 사용될 수 있음
  • 개선 사항
    • 사전 학습된 임베딩을 파인튜닝해야 함
    • 트랜스포머는 NMT와 비교해서 더 나은 점이 없음
    • 시도해볼 수 있는 잠재적 모델은 Transformer 기반의 사전 훈련된 seq2seq 모델
    • 모델의 확률적 출력을 더 깊게 조사하여 모델의 예측의 신뢰도를 결정하는 대안을 탐색
728x90
반응형