본문 바로가기
IT/인공지능

[LLM] ReALM: Reference Resolution As Language Modeling 논문 리뷰

by 드인 2024. 4. 21.

ReALM: Reference Resolution As Language Modeling

논문 리뷰


ReALM엔터티, 대화 컨텍스트 및 백그라운드 프로세스에 대한 모호한 참조(Reference)를 이해하여 에이전트와 자연스러운 상호 작용 수행하는 방법론입니다.

  • 엔티티와 위치를 기반으로 텍스트 기반의 내용 표현을 생성하고, LM으로 파인튜닝합니다. 
  • 화면상의 참조에 대해 GPT-4보다 높은 성능을 보여줍니다.
  • 논문 링크 : https://arxiv.org/abs/2403.20329
 

ReALM: Reference Resolution As Language Modeling

Reference resolution is an important problem, one that is essential to understand and successfully handle context of different kinds. This context includes both previous turns and context that pertains to non-conversational entities, such as entities on th

arxiv.org

 

논문의 아이디어 위주로 러프하게 설명하니 읽기 전 참고 부탁드립니다.

 

1. Introduction

  • 대화에서 나타나는 모호한 참조("they" or "that")에 대해 사람들은 명확히 인식합니다.
  • 그러나, 에이전트는 컨텍스트 사용 및 이해 능력 없이 사용자 질의(query)를 이해하여 수행하는 것은 어렵습니다.
    • 대화 컨텍스트와 화면 컨텍스트를 모두 고려해야 합니다.

https://arxiv.org/abs/2403.20329

 

  • LLM에서는 해당 문제가 다소 해결되지만, 제한된 컴퓨팅 파워, API 호출이 불가능한 로컬 등의 시스템에서 사용하기 어렵고 모델 해석이 어렵습니다.
  • 따라서, 파싱된 엔티티와 위치를 기반으로 텍스트 기반의 내용 표현을 생성하고, LM으로 파인튜닝하는 ReALM을 제안합니다.

 

2. Related Work and Motivation

참조 관련 기존 연구 사례 및 한계 소개
 

3. Task

  • 관련 엔티티와 사용자가 수행하려는 작업이 주어지면, 현재 사용자 쿼리와 관련된 엔티티를 추출하도록 공식화합니다. 
  • 관련 엔티티(relevant entities)
    • On-screen Entities (사용자 화면에 현재 표시된 엔티티)
    • Conversational Entities (대화와 관련된 엔티티)
    • Background Entities (배경 프로세스에서 발생하는 엔티티 - 알람, 배경 등)
  • LM이 사용자 화면에 표시된 엔티티 중에서 하나 또는 여러 개의 옵션을 선택하는 다중 선택 작업으로 구성됩니다

 

4. Datasets

  • 대화형 데이터(Conversational Data): 사용자가 에이전트와 상호작용하는 동안 관련 있는 엔티티에 대해 수집된 데이터입니다. 평가자들은 합성된 엔티티 목록이 포함된 스크린샷을 보여 받고, 제공된 목록에서 임의로 선택된 특정 엔티티를 명확하게 참조하는 쿼리를 제공하도록 요청받습니다.
  • 합성 데이터(Synthetic Data): 템플릿을 통해 얻은 합성 데이터로, 사용자 쿼리와 엔티티 타입만으로 참조를 해결할 수 있는 타입 기반 참조에 유용합니다. 이 데이터셋은 "음악"과 "비디오" 타입의 모든 엔티티를 참조할 수 있는 쿼리인 "play it"과 같이, 하나의 참조로 여러 엔티티를 해결할 수 있는 데이터 포인트를 포함할 수 있습니다.
  • 온스크린 데이터(On-screen Data): 전화번호, 이메일 주소, 실제 주소 정보가 존재하는 다양한 웹 페이지에서 수집된 스크린 데이터입니다. 이 데이터는 두 단계의 주석 프로세스를 거쳤습니다. 첫 번째 단계에서는 스크린을 기반으로 쿼리를 추출하고, 두 번째 단계에서는 주어진 쿼리에 대해 엔티티와 언급을 식별했습니다.

 

5. Model

  • 방법론: 사용자 질의와 관련 엔티티를 텍스트 형태로 변환하여 모델에 입력으로 제공하여 FLAN-T5 모델을 파인튜닝합니다.
  • 엔티티는 특정 태그를 사용하여 표시됩니다. 엔티티의 종류와 위치를 인식하도록 합니다.

 

1. 텍스트 변환

  •  화면상의 엔티티와 그 위치를 포함한 정보를 순수 텍스트 형태로 변환합니다.

2. 대화형 참조

  • 타입 기반 참조(Type-based references): 사용자 쿼리와 엔티티 타입을 사용하여 가장 관련 있는 엔티티를 식별합니다.
  • 설명 기반 참조(Descriptive references): 엔티티의 속성을 사용하여 특정 엔티티를 고유하게 식별합니다.

3. 화면상 참조

  • 모든 엔티티와 그 주변 객체의 위치를 해당 바운딩 박스의 중심으로 표현할 수 있다고 가정하고,
  • 상단에서 하단으로(세로축을 따라), 왼쪽에서 오른쪽으로(가로축을 따라) 정렬하는 새로운 알고리즘을 사용합니다.

 

 

6. Results & Conclusion and Future Work

  • ReALM-80M는 화면상 참조에서 88.9%, ReALM-3B에서 93.0%의 정확도를 기록했습니다.
    • GPT-4(90.1%)보다 높은 기록
  • 최초로 언어 모델을 사용하여 참조 해결(Resolution) 문제를 수행하고, 언어 모델이 시각적 정보(화면상의 참조)를 처리할 수 있도록 했습니다.