본문 바로가기

IT/인공지능17

[Deep Learning Specialization] Neural Networks and Deep Learning [Deep Learning Specialization] Neural Networks and Deep Learning로지스틱 회귀1. 모델 정의로지스틱 회귀 모델은 선형 회귀 모델을 시그모이드 함수에 적용한 형태$$ z = w^T x + b $$$w$: 가중치 벡터$x$: 입력 특성 벡터$b$: 바이어스 (편향) 항이 $z$ 값을 시그모이드 함수에 적용하여 확률값을 계산합니다.$$ \hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}} $$2. 비용 함수 (Cost Function)로지스틱 회귀에서 사용되는 비용 함수는 로그 손실 (Log Loss) 함수로그 손실 함수는 예측된 확률과 실제 클래스 간의 차이를 측정합니다.$$ J(w, b) = -\frac{1}{m} \sum_{i=1}.. 2024. 7. 14.
[LLM][RAG] RAG(Retrieval-Augmented Generation) 소개 및 설명 [LLM][RAG] RAG(Retrieval-Augmented Generation) 소개 및 설명1. RAG의 정의 및 중요성RAG의 정의RAG는 Retrieval-Augmented Generation의 약자로, 정보 검색과 생성 모델을 결합한 자연어 처리(NLP) 기술을 의미합니다. 전통적인 생성 모델과는 달리, RAG는 먼저 데이터베이스나 문서 집합에서 관련 정보를 검색하고, 검색한 정보를 바탕으로 텍스트를 생성합니다.LLM의 한계정보의 정확성 문제: LLM은 훈련된 데이터에만 의존하기 때문에 최신 정보나 특정 도메인의 깊이 있는 정보에 대한 답변을 제공하는 데 한계가 있습니다.모델의 크기와 효율성: 대형 언어 모델은 매우 크고 무겁기 때문에 실시간 응답을 제공하는 데 있어 비효율적일 수 있습니다.맥.. 2024. 6. 4.
[AI][NLP] 한국어 요약 모델 개발 코드 및 최적화 방법 [AI][NLP] 한국어 요약 모델 개발 코드 및 최적화 방법참여 경진대회한국어 문서 요약 경진대회https://aiconnect.kr/competition/detail/223/task/272/taskInfo AI CONNECT | AI Competition PlatformNo.1 인공지능 경진대회 플랫폼aiconnect.kr최종 5위 모델 상세HuggingFace T5 모델을 기반으로 파인튜닝된 한국어 뉴스 요약 T5 모델을 대회 데이터(전처리)로 파인튜닝하여 사용 코드 최적화 방법Baseline 모델 코드GPT 구조 이해 및 모델 구현 학습자원 사용량과 학습 시간 문제 발생GPU RAM 초기화 방법 - colab에서 GPU RAM 초기화 방법기존 모델에 파인튜닝 시도HuggingFace의 여러 모델로.. 2024. 5. 15.
[LLM][프롬프트엔지니어링] CoT(Chain of Thought) CoT(Chain of Thought)1. CoT(Chain of Thought)란 CoT(사고의 연쇄)는 대규모 언어 모델(LLM)이 복잡한 문제를 해결하기 위해 중간 단계의 추론 과정을 거치는 방법론을 말합니다. 이 방법은 모델이 단순히 답을 제시하는 것을 넘어서, 어떻게 그 결론에 도달했는지를 설명하는 과정을 포함합니다.  Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 논문https://arxiv.org/abs/2201.11903 Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsWe explore how generating a chain of th.. 2024. 5. 7.
[LLM] ReALM: Reference Resolution As Language Modeling 논문 리뷰 ReALM: Reference Resolution As Language Modeling 논문 리뷰 ReALM은 엔터티, 대화 컨텍스트 및 백그라운드 프로세스에 대한 모호한 참조(Reference)를 이해하여 에이전트와 자연스러운 상호 작용 수행하는 방법론입니다. 엔티티와 위치를 기반으로 텍스트 기반의 내용 표현을 생성하고, LM으로 파인튜닝합니다. 화면상의 참조에 대해 GPT-4보다 높은 성능을 보여줍니다. 논문 링크 : https://arxiv.org/abs/2403.20329 ReALM: Reference Resolution As Language Modeling Reference resolution is an important problem, one that is essential to underst.. 2024. 4. 21.
[LLM] Social Skill Training with Large Language Models 논문 리뷰 Social Skill Training with Large Language Models 논문 리뷰 사람들은 효과적인 의사소통과 직장 및 개인의 삶에 잘 생활하기 위해 갈등 해결과 같은 사회적 기술(Social Skill)을 활용합니다. 그러나 대부분의 사람들에게 사회적 기술 훈련 환경은 접근하기 어렵습니다. 이 문제를 해결하기 위해 대규모 언어 모델을 활용하여 사회적 기술 훈련에 대한 현실적인 실습과 맞춤화된 피드백을 가능하게 하는 APAM 프레임워크(AI Partner, AI Mentor)를 제안합니다​​. https://arxiv.org/abs/2404.04204 Social Skill Training with Large Language Models People rely on social skills.. 2024. 4. 10.