ReALM: Reference Resolution As Language Modeling
논문 리뷰
ReALM은 엔터티, 대화 컨텍스트 및 백그라운드 프로세스에 대한 모호한 참조(Reference)를 이해하여 에이전트와 자연스러운 상호 작용 수행하는 방법론입니다.
- 엔티티와 위치를 기반으로 텍스트 기반의 내용 표현을 생성하고, LM으로 파인튜닝합니다.
- 화면상의 참조에 대해 GPT-4보다 높은 성능을 보여줍니다.
- 논문 링크 : https://arxiv.org/abs/2403.20329
* 논문의 아이디어 위주로 러프하게 설명하니 읽기 전 참고 부탁드립니다.
1. Introduction
- 대화에서 나타나는 모호한 참조("they" or "that")에 대해 사람들은 명확히 인식합니다.
- 그러나, 에이전트는 컨텍스트 사용 및 이해 능력 없이 사용자 질의(query)를 이해하여 수행하는 것은 어렵습니다.
- 대화 컨텍스트와 화면 컨텍스트를 모두 고려해야 합니다.
- LLM에서는 해당 문제가 다소 해결되지만, 제한된 컴퓨팅 파워, API 호출이 불가능한 로컬 등의 시스템에서 사용하기 어렵고 모델 해석이 어렵습니다.
- 따라서, 파싱된 엔티티와 위치를 기반으로 텍스트 기반의 내용 표현을 생성하고, LM으로 파인튜닝하는 ReALM을 제안합니다.
2. Related Work and Motivation
참조 관련 기존 연구 사례 및 한계 소개
3. Task
- 관련 엔티티와 사용자가 수행하려는 작업이 주어지면, 현재 사용자 쿼리와 관련된 엔티티를 추출하도록 공식화합니다.
- 관련 엔티티(relevant entities)
- On-screen Entities (사용자 화면에 현재 표시된 엔티티)
- Conversational Entities (대화와 관련된 엔티티)
- Background Entities (배경 프로세스에서 발생하는 엔티티 - 알람, 배경 등)
- LM이 사용자 화면에 표시된 엔티티 중에서 하나 또는 여러 개의 옵션을 선택하는 다중 선택 작업으로 구성됩니다
4. Datasets
- 대화형 데이터(Conversational Data): 사용자가 에이전트와 상호작용하는 동안 관련 있는 엔티티에 대해 수집된 데이터입니다. 평가자들은 합성된 엔티티 목록이 포함된 스크린샷을 보여 받고, 제공된 목록에서 임의로 선택된 특정 엔티티를 명확하게 참조하는 쿼리를 제공하도록 요청받습니다.
- 합성 데이터(Synthetic Data): 템플릿을 통해 얻은 합성 데이터로, 사용자 쿼리와 엔티티 타입만으로 참조를 해결할 수 있는 타입 기반 참조에 유용합니다. 이 데이터셋은 "음악"과 "비디오" 타입의 모든 엔티티를 참조할 수 있는 쿼리인 "play it"과 같이, 하나의 참조로 여러 엔티티를 해결할 수 있는 데이터 포인트를 포함할 수 있습니다.
- 온스크린 데이터(On-screen Data): 전화번호, 이메일 주소, 실제 주소 정보가 존재하는 다양한 웹 페이지에서 수집된 스크린 데이터입니다. 이 데이터는 두 단계의 주석 프로세스를 거쳤습니다. 첫 번째 단계에서는 스크린을 기반으로 쿼리를 추출하고, 두 번째 단계에서는 주어진 쿼리에 대해 엔티티와 언급을 식별했습니다.
5. Model
- 방법론: 사용자 질의와 관련 엔티티를 텍스트 형태로 변환하여 모델에 입력으로 제공하여 FLAN-T5 모델을 파인튜닝합니다.
- 엔티티는 특정 태그를 사용하여 표시됩니다. 엔티티의 종류와 위치를 인식하도록 합니다.
1. 텍스트 변환
- 화면상의 엔티티와 그 위치를 포함한 정보를 순수 텍스트 형태로 변환합니다.
2. 대화형 참조
- 타입 기반 참조(Type-based references): 사용자 쿼리와 엔티티 타입을 사용하여 가장 관련 있는 엔티티를 식별합니다.
- 설명 기반 참조(Descriptive references): 엔티티의 속성을 사용하여 특정 엔티티를 고유하게 식별합니다.
3. 화면상 참조
- 모든 엔티티와 그 주변 객체의 위치를 해당 바운딩 박스의 중심으로 표현할 수 있다고 가정하고,
- 상단에서 하단으로(세로축을 따라), 왼쪽에서 오른쪽으로(가로축을 따라) 정렬하는 새로운 알고리즘을 사용합니다.
6. Results & Conclusion and Future Work
- ReALM-80M는 화면상 참조에서 88.9%, ReALM-3B에서 93.0%의 정확도를 기록했습니다.
- GPT-4(90.1%)보다 높은 기록
- 최초로 언어 모델을 사용하여 참조 해결(Resolution) 문제를 수행하고, 언어 모델이 시각적 정보(화면상의 참조)를 처리할 수 있도록 했습니다.
'IT > 인공지능' 카테고리의 다른 글
[AI][NLP] 한국어 요약 모델 개발 코드 및 최적화 방법 (0) | 2024.05.15 |
---|---|
[LLM][프롬프트엔지니어링] CoT(Chain of Thought) (0) | 2024.05.07 |
[LLM] Social Skill Training with Large Language Models 논문 리뷰 (0) | 2024.04.10 |
[LLM] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 리뷰 (0) | 2024.03.30 |
[TTS] 외래어와 수사를 고려한 한국어 텍스트 발음 변환 (1) | 2024.03.24 |