본문 바로가기

전체 글131

[생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 [생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 1. vLLM이란? Attention Key와 Value을 효과적으로 관리하는 새로운 Attention 알고리즘인 PagedAttention을 활용하여 높은 처리량을 보여주는 LLM 서비스입니다. Efficient Memory Management for Large Language Model Serving with PagedAttention 논문을 기반으로 합니다. 비슷한 LLM 추론 및 배포 서비스로 HuggingFace의 TGI(Text Generation Inference)가 있습니다. vLLM 블로그와 Github 저장소에서 vLLM에 관한 내용과 코드를 확인할 수 있습니다. 2. 기존 방식의 한계점 LLM 추론 방식의 특징 .. 2024. 3. 12.
[시각화][애니메이션] 지하철은 내가 탈 때만 붐비는 걸까? - 서울 지하철 시간대별 혼잡도 분석 서울 지하철 역별 시간대별 혼잡도 분석 및 시각화¶ 1. 환경 설정¶ 한글 폰트 설정 In [ ]: !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 구글 드라이브를 사용하는 경우 In [ ]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive 2. 데이터 변환¶ In [ ]: import pandas as pd df = pd.read_csv("/content/drive/MyDrive/Project/Data_viz/역별시간대별_혼잡도/서울교통공사_역별시간대별혼잡도_20221231.csv", encodi.. 2024. 3. 1.
[시각화][애니메이션] 유튜버의 미래는 밝을까? - 2024 문화여가활동 분석 2024 문화 여가 활동 분석 및 시각화¶ 2021.11. ~ 2024.01. 문화여가 활동을 분석하고, 시각화합니다. 1. 환경 설정¶ 한글 폰트 설치 In [1]: !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 구글 드라이브를 사용하는 경우, 추가 설정 In [2]: from google.colab import drive drive.mount('/content/drive') Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).. 2024. 3. 1.
[GPU] RAPIDS: 대규모 데이터 세트 분석을 위한 GPU 가속 프레임워크 RAPIDS란? RAPIDS는 NVIDIA에서 제공하는 오픈 소스 소프트웨어 프레임워크로, 대규모 데이터 세트 분석을 가능하게 합니다. RAPIDS는 CUDA, cuDF, cuML, cuGraph, cuSpatial 등과 같은 여러 CUDA 가속 라이브러리를 통합하여 데이터 과학자가 대용량 데이터 세트를 더 빠르고 쉽게 처리할 수 있도록 합니다. RAPIDS는 Python, R, Julia 및 Scala와 같은 다양한 언어에서 사용할 수 있으며, Apache Spark, Apache Hive, Apache Pig 및 Apache HBase와 같은 다양한 데이터 스토리지 시스템에서 사용할 수 있습니다. RAPIDS는 현재 베타 버전이며, NVIDIA에서 앞으로 몇 개월 동안 더 많은 기능을 추가할 예정입니.. 2024. 2. 27.
[생성형AI][LLM] RAG 기반 기술문서 QA Gemma 모델 (Hugging Face) RAG 기반 Gemma 기술문서 QA 챗봇 (RAG, Gemma 7B)¶ 목표: RAG와 Gemma를 활용한 Gemma 기술문서 QA 챗봇을 개발합니다. 1. 환경 설정 및 데이터 로드¶ 1-1. 필수 라이브러리 설치¶ In [ ]: !pip install transformers sentence-transformers langchain openai chromadb bs4 accelerate langchain_community pypdf text_generation 1-2. Hugging Face 토큰 등록¶ In [ ]: import os from google.colab import userdata os.environ['HUGGINGFACEHUB_API_TOKEN'] = userdata.get('HUGG.. 2024. 2. 24.
[HuggingFace][Gemma] RuntimeError: shape '[1, 20, 3072]' is invalid for input of size 81920 문제 상황 Hugging Face Gemma 모델 실행 중 다음 에러 발생 text = "Quote: Imagination is more" device = "cuda:0" inputs = tokenizer(text, return_tensors="pt").to(device) outputs = model.generate(**inputs, max_new_tokens=20) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) RuntimeError: shape '[1, 20, 3072]' is invalid for input of size 81920 해결 방법 transformer 4.38.1 버전으로 설치 pip3 install -q -U transf.. 2024. 2. 24.