PagedAttention1 [생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 [생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 1. vLLM이란? Attention Key와 Value을 효과적으로 관리하는 새로운 Attention 알고리즘인 PagedAttention을 활용하여 높은 처리량을 보여주는 LLM 서비스입니다. Efficient Memory Management for Large Language Model Serving with PagedAttention 논문을 기반으로 합니다. 비슷한 LLM 추론 및 배포 서비스로 HuggingFace의 TGI(Text Generation Inference)가 있습니다. vLLM 블로그와 Github 저장소에서 vLLM에 관한 내용과 코드를 확인할 수 있습니다. 2. 기존 방식의 한계점 LLM 추론 방식의 특징 .. 2024. 3. 12. 이전 1 다음