본문 바로가기

IT/인공지능17

[LLM] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 리뷰 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 리뷰 Self-Taught Reasoner (STaR)는 CoT(Chain-of-Thought)* 접근 방식을 사용하여 정답으로 이어지는 근거 또는 논리적 단계를 스스로 추론하여 학습하는 방식을 도입했습니다. *CoT(Chain-of-Thought): 복잡한 문제 해결 과정 중 언어 모델이 중간 단계의 추론 과정이나 'Chain-of-Thought(생각의 연쇄'를 명시적으로 생성하도록 하는 기법 이 논문에서는 STaR에서 확장하여, 언어 모델이 토큰을 생성할 때마다 미래 텍스트를 설명하기 위한 근거를 내부적으로 생성하도록 학습하는 방식인 Quiet-STaR을 제안합니다.. 2024. 3. 30.
[TTS] 외래어와 수사를 고려한 한국어 텍스트 발음 변환 [TTS] 외래어와 수사를 고려한 한국어 텍스트 발음 변환 문제 상황 Open AI의 TTS API로 한국어 음성을 생성하는데, 발음이 상당히 영어와 비슷하고 수사(사물의 수량이나 순서를 가리키는 품사)에 있어서 변환이 부정확했습니다. 1개 TTS API: 일개 실제: 한개 26살 TTS API: 이십육살 실제: 스물여섯살 솔루션 제안 수사 → 단위 의존 명사에 따른 변환 로직 영어와 비슷한 발음 → 한국어 발음 및 외래어 전처리 한국어 발음 변환 한국어 발음을 변환하는 KoG2Padvanced 모델이 개발되어 있었습니다. 음운론적 규칙을 반영해서 발음 변환에 있어서 가장 적합하다고 생각됩니다. 하지만, 아라비아 숫자 형태에 대한 수사를 다룬 부분이 없어서 추가로 가공하기로 했습니다. 단위 의존 명사에 .. 2024. 3. 24.
[RAG] RAFT: Adapting Language Model to Domain Specific RAG 논문 리뷰 RAFT: Adapting Language Model to Domain Specific RAG RAFT: 도메인 특화 RAG에 대한 언어 모델 적용 논문 리뷰 일반적으로 LLM(대형 언어 모델)을 다양한 애플리케이션에 적용할 때, 도메인별 지식이나 독점(proprietary) 데이터에 대해 🔧 Fine Tuning(파인튜닝) 🔎 RAG(Retrieval Augmented Generation, 검색 증강 생성) 방식을 적용합니다. 논문은 "open-book" 인 도메인 설정에서 질문에 답변하는 능력을 향상시킬 수 있는 RAFT(Retrieval Augmented Fine Tuning)을 제안합니다. * open-book : 모델이 문서를 참조하여 질문에 답할 수 있는 패러다임 RAFT는 RAT(Retrie.. 2024. 3. 19.
[생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 [생성형AI][LLM] vLLM: LLM 추론 및 배포 최적화 라이브러리 1. vLLM이란? Attention Key와 Value을 효과적으로 관리하는 새로운 Attention 알고리즘인 PagedAttention을 활용하여 높은 처리량을 보여주는 LLM 서비스입니다. Efficient Memory Management for Large Language Model Serving with PagedAttention 논문을 기반으로 합니다. 비슷한 LLM 추론 및 배포 서비스로 HuggingFace의 TGI(Text Generation Inference)가 있습니다. vLLM 블로그와 Github 저장소에서 vLLM에 관한 내용과 코드를 확인할 수 있습니다. 2. 기존 방식의 한계점 LLM 추론 방식의 특징 .. 2024. 3. 12.
[GPU] RAPIDS: 대규모 데이터 세트 분석을 위한 GPU 가속 프레임워크 RAPIDS란? RAPIDS는 NVIDIA에서 제공하는 오픈 소스 소프트웨어 프레임워크로, 대규모 데이터 세트 분석을 가능하게 합니다. RAPIDS는 CUDA, cuDF, cuML, cuGraph, cuSpatial 등과 같은 여러 CUDA 가속 라이브러리를 통합하여 데이터 과학자가 대용량 데이터 세트를 더 빠르고 쉽게 처리할 수 있도록 합니다. RAPIDS는 Python, R, Julia 및 Scala와 같은 다양한 언어에서 사용할 수 있으며, Apache Spark, Apache Hive, Apache Pig 및 Apache HBase와 같은 다양한 데이터 스토리지 시스템에서 사용할 수 있습니다. RAPIDS는 현재 베타 버전이며, NVIDIA에서 앞으로 몇 개월 동안 더 많은 기능을 추가할 예정입니.. 2024. 2. 27.
[생성형AI][LLM] RAG 기반 기술문서 QA Gemma 모델 (Hugging Face) RAG 기반 Gemma 기술문서 QA 챗봇 (RAG, Gemma 7B)¶ 목표: RAG와 Gemma를 활용한 Gemma 기술문서 QA 챗봇을 개발합니다. 1. 환경 설정 및 데이터 로드¶ 1-1. 필수 라이브러리 설치¶ In [ ]: !pip install transformers sentence-transformers langchain openai chromadb bs4 accelerate langchain_community pypdf text_generation 1-2. Hugging Face 토큰 등록¶ In [ ]: import os from google.colab import userdata os.environ['HUGGINGFACEHUB_API_TOKEN'] = userdata.get('HUGG.. 2024. 2. 24.