05.2-디자인패턴 17-배치서빙 배치서빙 분산 데이터 처리에 일반적으로 사용되는 소프트웨어 인프라를 사용하여 한번에 많은 인스턴스에 대한 추론을 수행하는 것 5.2.1 문제 보통 ML 서비스 프레임워크에 모델을 배포하면 단일 요청에 포함된 하나의 인스턴스 또는 수천개의 인스턴스를 처리하도록 설정되어 있고 서빙 프레임워크는 5.1절에서 논의 된 것처럼 개별 요청을 가능한 한 빨리 동기적으로 처리하도록 설계되어 있음 서빙 인프라는 일반적으로 많은 연산을 TPU 또는 GPU 같은 고성능 하드웨어에서 처리하고 여러 데이터와 관련된 비효율성을 최소화하는 마이크로서비스로 설계됨 그러나 대량의 데이터에 대해 비동기적으로 예측을 수행해야하는 상황도 있는데 예를들어 SKU의 재주문 여부를 결정하느 것은 이를 구매할 때..