문제 일반적으로 모델에 대한 입력은 숫자 또는 카테고리, 이미지 또는 자유 형식 텍스트로 표현할 수 있다. 많은 모델이 보통 특정한 입력 유형에 대해서만 정의되어 있는데 예를 들어 Resnet -50과 같은 표준 이미지 분류 모델은 이미지 이외의 입력을 처리 할 수 없다. 멀티 모달 입력의 필요성을 이해하기 위해, 교통 법규 위반 카메라를 가정해보면 모델은 이미지 데이터와 이미지 포착 시점(시간,요일,날씨) 에 대한 일부 메타 데이터를 모두 처리해야한다. 이런 문제는 입력 중 하나가 자유 형식 텍스트인 구조화 된 데이터 모델을 학습할 떄도 발생, 수치와 달리 이미지와 텍스트는 모델에 직접 input으로 넣을 수 없음 (보통 임베딩 디자인 패턴 사용) ex) - 레스토랑 리뷰 평점 예측 1. 리뷰 텍스트 ..