[paper, ICML 2020] REALM(Retrieval-Augmented Language Model Pre-Training)

2025. 4. 30. 23:52·🤖 ai logbook
728x90
반응형

 

 

paper : https://arxiv.org/abs/2002.08909

github : https://github.com/google-research/language/blob/master/language/realm/README.md

 

ICML 2020

Google Research

 

대규모 텍스트 코퍼스를 활용한 언어 모델 사전학습(pre-training)은 별도의 라벨 없이도 세상에 대한 다양한 상식과 지식을 모델 내부에 담을 수 있는 방법으로 널리 사용되어 왔다.

예를 들어, BERT와 같은 모델은 “The ___ is the currency of the United Kingdom”이라는 문장에서 빈칸에 “pound”를 자연스럽게 채워 넣을 수 있으며, 이를 통해 모델이 영국의 통화 단위에 대한 지식을 어느 정도 내재하고 있음을 보여준다.

하지만 이러한 지식은 모델의 파라미터 안에 암묵적으로 저장되기 때문에, 모델이 어떤 지식을 얼마나 학습했는지를 명확히 파악하기 어렵고, 더 많은 지식을 포함하려면 모델의 규모를 더욱 키워야 하는 한계가 있다.

결과적으로 파라미터 수가 커질수록 학습 및 추론에 필요한 계산 자원이 증가하고, 이는 실용성을 저해할 수 있다.

REALM(Retrieval-Augmented Language Model)은 지식을 모델 내부에 저장하는 대신, 외부 지식 저장소로부터 필요한 정보를 검색하여 활용하는 새로운 언어 모델 사전학습 프레임워크를 제안했다.

즉, 예측을 수행하기 전, 모델이 위키피디아와 같은 대규모 문서 말뭉치에서 관련 정보를 선행적으로 검색(retrieve) 하고,

이 검색된 문서를 원래 입력 문장과 함께 모델에 제공하여 문맥을 확장하도록 한다.

이를 통해 모델은 필요한 지식을 외부로부터 명시적으로 가져다 쓰게 되며, 지식 저장소를 파라미터가 아닌 검색 가능한 모듈(텍스트 DB)로 대체함으로써 해석 가능성과 확장성을 함께 확보할 수 있다.

 

REALM

1. 지식 검색을 통합한 새로운 사전학습 프레임워크 제안

REALM은 언어 모델 사전학습 과정에 학습 가능한 지식 검색기(knowledge retriever)를 통합한 새로운 형태의 사전학습 패러다임을 제시하였다.

특히, 비지도 방식(unsupervised)으로 검색기를 사전학습하는 방법을 도입한 것은 해당 분야에서 최초의 시도이며, 라벨 없이도 수백만 개의 문서 중에서 관련 정보를 정확히 찾아내도록 검색기를 훈련할 수 있음을 보여주었다.

이 과정에서는 마스킹된 언어 모델링(MLM) 학습 신호가 핵심적으로 사용된다.

2. 파라미터 내장 지식 vs. 외부 지식의 구조적 전환

기존의 BERT, T5 등은 지식을 모델의 파라미터 내부에 암묵적으로 저장하는 반면, REALM은 지식을 외부 텍스트 문서로 분리하여 저장하고, 필요할 때마다 검색을 통해 불러오는 방식을 취한다.

이를 통해 모델이 어떤 근거 문서에 기반하여 답변했는지 확인 가능해져 해석 가능성이 높아지고, 지식 업데이트 시에도 모델 전체를 다시 학습할 필요 없이 문서 코퍼스나 검색기만 갱신하면 된다는 점에서 모듈화 측면에서도 이점이 크다.

3. 기존 연구와의 차별성

기존에도 오픈 도메인 질의응답을 위한 검색기-리더기 구조는 존재했다.

예를 들어, DrQA (Chen et al., 2017)는 전통적인 IR 기법(BM25)을 사용하여 문서를 검색하고, ORQA (Lee et al., 2019)는 질문-응답 쌍만으로 잠재 검색기를 학습하였다.

그러나 ORQA는 검색기 사전학습 없이 QA 데이터로만 훈련되었으며, 검색 인덱스를 고정해 두고 사용하는 한계가 있었다.

반면 REALM은 사전학습 단계에서부터 검색과 언어모델 예측을 end-to-end로 공동 학습하며, 학습 중에도 검색기를 동적으로 업데이트한다.

이로 인해 ORQA 대비 단순 사전학습만으로도 더 나은 성능을 달성했으며, 동등한 설정에서도 정확도 기준 4~8%p의 향상을 보였다.

이후 REALM은 잘 알려진 Facebook의 retrieval-augmented generation(RAG) 등의 후속 연구로 이어지는 중요한 기점이 되었다.

4. 뛰어난 성능 개선

REALM은 Open-domain QA 과제에서 당시 최고 성능(SOTA)을 큰 폭으로 경신하였다.

예를 들어, Natural Questions 데이터셋에서는 약 3억 파라미터 규모의 REALM 모델이 111억 파라미터의 T5 모델보다도 약 4포인트 높은 정확도를 기록하였다.

이처럼, 암시적 지식 모델(BERT, T5)과 명시적 검색 기반 모델(ORQA, DrQA) 모두를 상대적으로 작은 모델 규모로도 능가하는 성과를 보여주었다.

전체적으로 정확도 기준 4~16%p의 절대 향상을 달성하며 검색 결합형 언어 모델의 가능성을 입증하였다.

 

방법론

REALM의 개념 및 구조

REALM의 핵심 아이디어는 “Retrieve-then-Predict”, 즉 먼저 검색하고 그 다음 예측하는 두 단계로 언어모델을 구성하는 것이다.

그림 1은 REALM 모델의 전체 구조와 학습 흐름을 나타낸다.

먼저 질의 입력(예: 문장에서 [MASK]로 가려진 부분이 있는 텍스트) x에 대해, 신경망 기반 지식 검색기(Neural Knowledge Retriever)가 대규모 corpus Z에서 관련성이 높은 문서 z를 찾아낸다.

# [batch_size, hidden_dim]
query_emb = query_embedder_module(
    inputs=dict(
        input_ids=query_inputs.token_ids,
        input_mask=query_inputs.mask,
        segment_ids=query_inputs.segment_ids),
    signature="projected"
)

# [batch_size * num_candidates, hidden_dim]
flat_candidate_emb = embedder_module(
    inputs=dict(
        input_ids=candidate_inputs.token_ids,
        input_mask=candidate_inputs.mask,
        segment_ids=candidate_inputs.segment_ids),
    signature="projected"
)

# 복원된 모양: [batch_size, num_candidates, hidden_dim]
unflattened_candidate_emb = unflatten(flat_candidate_emb)

# 내적 기반 유사도 계산 → [batch_size, num_candidates]
retrieval_score = tf.einsum("BD,BND->BN", query_emb, unflattened_candidate_emb)

# softmax로 확률화: p(z | x)
candidate_log_probs = tf.math.log_softmax(retrieval_score)

 

그런 다음 원래 입력 x와 검색된 문서 z를 함께 지식-증강 인코더(Knowledge-Augmented Encoder)에 넣어, [MASK] 토큰이나 최종 답변 y를 예측한다.

 

# joint_inputs = concat(x, z)
flat_joint_inputs, unflatten = flatten_bert_inputs(joint_inputs)

flat_joint_bert_outputs = bert_module(
    inputs=dict(
        input_ids=flat_joint_inputs.token_ids,
        input_mask=flat_joint_inputs.mask,
        segment_ids=flat_joint_inputs.segment_ids),
    signature="mlm"
)

# 마스크된 위치에 대한 MLM 예측 결과 (before reshape): [B * N * M, vocab_size]
flat_mlm_logits = flat_joint_bert_outputs["mlm_logits"]

# MLM logits: [B, N, M, vocab_size]
mlm_logits = tf.reshape(flat_mlm_logits, [batch_size, num_candidates, num_masks, -1])
mlm_log_probs = tf.math.log_softmax(mlm_logits)

 

이처럼 REALM은 예측 시점마다 외부 지식을 latency로 불러와 활용하는 구조를 가지며, 학습 시에는 이 검색-활용 과정 전체를 통합적으로 훈련시키게 된다.

REALM의 학습은 잠재변수 모델 관점에서 formalize된다. 문서 z를 잠재 변수로 두고, 모델이 최종 출력 y (예: 정답 또는 마스크된 단어)를 생성할 확률을 다음과 같이 검색 단계와 예측 단계의 곱으로 분해한다:

p(y | x) = ∑_{z ∈ Z} p_θ(z | x) · p_φ(y | x, z)

여기서 p_θ(z | x)는 검색기(파라미터 θ)가 질의 x에 대해 문서 z를 선택할 확률 분포이고, p_φ(y | x, z)는 인코더(파라미터 φ)가 주어진 문서 z와 함께 x로부터 y를 예측할 확률이다.

 

# MLM log-probs + Retrieval log-probs를 더하여 joint log-likelihood 계산
# 이 때 ground truth y가 있는 위치만 고려 (mlm_mask로 선택)
mlm_log_probs_for_targets = tf.reduce_sum(  # [B, N]
    tf.one_hot(mlm_targets, depth=vocab_size) * mlm_log_probs,
    axis=-1
)  # [B, N, M] → 마스크 위치의 정답 예측 확률

masked_mlm_log_probs = mlm_log_probs_for_targets * tf.cast(mlm_mask, tf.float32)

# 문서 선택 확률과 곱셈 후 log-sum-exp
loss = -tf.reduce_mean(tf.reduce_logsumexp(
    candidate_log_probs[:, :, None] + masked_mlm_log_probs, axis=1
))
 

 

학습 시에는 정답 y에 대한 marginal likelihood p(y | x)를 최대화하도록, 이 식에 따라 검색기와 인코더를 공동 최적화한다.

다시 말해, 정답 예측 확률을 높이는 방향으로 검색기가 문서를 고르게 훈련하며, 반대로 쓸모없는 문서를 고르면 패널티를 받도록 학습된다.

이러한 성능 기반 신호(performance-based signal)를 통해 검색기를 간접 훈련함으로써, 별도의 정답 문서 라벨 없이도 비지도 방식의 학습이 가능해진다.

예를 들어 “We paid twenty [MASK] at the Buckingham Palace gift shop.”라는 입력에서, 모델이 “pounds”를 맞히기 위해서는 영국의 통화 지식이 필요한데, 이때 버킹엄 궁전에 관한 문서나 영국 통화 단위에 관한 문서 등을 검색해 오면 예측이 수월해진다.

REALM의 검색기는 이런 경우 “Buckingham Palace is the London residence of the British monarchy.” 같이 정답에 단서를 주는 문장을 찾아옴으로써, 결과적으로 [MASK] 자리에 “pounds”를 맞출 수 있도록 학습된다.

 

지식 검색 모델 (Neural Retriever)

REALM의 지식 검색기는 주어진 입력 x에 대해 방대한 문서 코퍼스 Z에서 관련 문서 z를 찾는 확률 분포 p_θ(z | x)를 모델링한다.

이는 연속 벡터 내적 기반(dense inner product) 신경 검색(Neural IR) 기법으로 구현되었다.

아이디어는, 입력과 모든 문서를 같은 임베딩 공간으로 매핑하여 유사도 검색을 수행하는 것이다. 구체적으로 함수 f(x, z)를 입력 x와 문서 z의 관련도 점수로 두고,

이를 softmax로 정규화하여:

p_θ(z | x) = exp(f(x, z)) / ∑_{z′ ∈ Z} exp(f(x, z′))

로 정의한다.

여기서 f(x, z)는 보통 입력 임베딩 벡터와 문서 임베딩 벡터의 내적으로 구현된다.

REALM에서는 이 임베딩 함수를 BERT 기반 텍스트 인코더로 구현하였는데, 입력 x는 [CLS] x [SEP] 형태로 토크나이즈 하여 BERT에 통과시키고 나온 [CLS] 토큰의 은닉표현을 Embed_input(x)로 삼는다.

마찬가지로 거대한 위키 문서 코퍼스의 각 문서 z도 (문서 제목과 본문 일부로 이루어진) 텍스트를 [CLS] z_title [SEP] z_body [SEP] 형태로 BERT에 넣어 [CLS] 은닉값을 추출하고, 이를 Embed_doc(z)로 정의한다. 그런 다음 선형 변환을 통해 임베딩 차원을 줄이고 (행렬 W_input, W_doc 곱),

최종적으로

f(x, z) = Embed_input(x)^T · Embed_doc(z)

로 스코어를 산출한다.

이렇게 하면 질의 임베딩과 문서 임베딩의 내적값이 곧 관련도가 되어, 주어진 x에 대해 전체 말뭉치 Z에 대한 softmax 분포 p_θ(z | x)를 정의할 수 있다.

이 검색 모듈은 사실상 dense passage retrieval과 유사하며, 파라미터 θ (BERT 가중치 및 투사 행렬)를 학습하게 된다.

 

사전학습(Pre-training) 전략

REALM은 기존 BERT와 유사하게 MLM(Masked Language Model) 방식으로 학습하되, 외부 문서 검색을 결합하여 다음과 같은 방식으로 수행된다.

 

1. 입력 x 문장에서 일부 토큰을 [MASK] 처리

2. 검색기(p_θ(z | x))가 관련 문서 z를 검색

3. 인코더 입력: [CLS]; x; [SEP]; z; [SEP]

4. [MASK] 위치를 복원하도록 예측

 

예컨대 입력 x = “Einstein was a _-born scientist.”에서 [MASK] 자리를 “German”으로 예측하려면, “아인슈타인은 독일 태생의 과학자”라는 정보를 알아야 한다.

REALM은 이처럼 학습 중에 필요 지식을 검색해와서 [MASK] 복원을 도와주고, 예측 성능이 향상되면 그 공로를 해당 문서를 찾은 검색기가 가져가도록 학습시킨다.

반대로 쓸모없는 문서를 가져오면 검색기의 확률 p_θ(z | x)를 낮추도록 그래디언트 신호가 전달된다.

이 과정에서 검색기와 인코더를 end-to-end로 공동학습 하기 위해, 앞서 언급한 잠재변수 marginal likelihood 최대화 기법을 채택하였다.

실제로 모든 문서를 고려해 이 확률을 계산하기는 불가능하므로, 구현상으로는 상위 k개 후보 문서에 대해서만 합을 근사한다.

매 스텝 검색기가 x에 대해 top-k 문서를 뽑아오면, 인코더가 그 중 하나 z를 사용해 [MASK]를 예측하고, 이 예측 확률이 높아지도록 (정답일 때) 파라미터 θ, φ를 업데이트한다.

학습 초기에 검색기는 랜덤에 가깝지만, 차츰 유용한 문서를 찾도록 조정되며, 시간이 지날수록 retriever와 encoder가 협력적으로 성능을 향상시킨다.

 

검색 효율성 및 인덱스 업데이트 전략

검색기와 인코더의 Warm-start 전략

이러한 학습 구조를 안정적으로 시작하기 위해, REALM은 검색기와 인코더 모두에 대해 초기화 전략을 도입했다.

먼저 검색기(Retriever) 는 Inverse Cloze Task(ICT) 를 통해 사전 학습된다. ICT는 문장에서 특정 문장을 선택한 뒤, 해당 문장이 포함된 원래 문서를 검색하도록 훈련함으로써, 질의–문서 간 유사도 학습을 가능하게 한다.

이 전략은 초기 검색기가 무작위에 가까운 문서를 선택해 쓸모없는 학습 신호만 생성하는 것을 방지하고, 관련 문서를 우선적으로 선택하도록 조기 안정화를 돕는다.

한편 인코더(Encoder) 는 사전학습된 BERT-base (12-layer, 768-dimension, uncased) 모델로 초기화되어, 문장 표현 학습 성능을 보장한다.

이와 같은 warm-start 기법은 학습 초기에 자칫 검색된 문서를 무시하게 되는 cold-start 문제를 방지하고, retriever와 encoder가 협력적으로 학습되도록 유도하는 데 핵심적인 역할을 한다

한 가지 도전 과제는 이렇게 수백만 문서에 대한 소프트맥스 분포를 학습하려면 매 스텝 모든 문서 임베딩을 다 계산해야 한다는 점이다.

이를 해결하기 위해 저자들은 MIPS(Maximum Inner Product Search)* 라이브러리를 활용하여, 임베딩 공간에서의 최근접 이웃 탐색으로 상위 문서들을 효율적으로 찾는 인덱스를 구축했다.

*MIPS : 쿼리 벡터 q에 대해, 데이터셋에 있는 벡터들 x 중에서 qᵀx(= 내적)가 가장 큰 벡터를 찾는 문제. 관련성 = 벡터 간 유사도 = 내적(qᵀx) 

 

구체적으로는 구글에서 개발한 고속 유사도 검색 라이브러리인 ScaNN 라이브러리(Scalable Nearest Neighbors)을 사용하여 사전 계산된 문서 임베딩들 중 질의 임베딩과 내적이 큰 상위 항목을 빠르게 검색했다.

하지만 문제는 훈련 중 모델 파라미터 θ가 계속 변하면 문서 임베딩들도 변동된다는 점이다.

REALM은 이를 위해 비동기식(asynchronous) 인덱스 업데이트 전략을 썼다.

즉, 메인 훈련 프로세스는 파라미터를 계속 업데이트하고, 별도 스레드가 주기적으로 (예: 매 500 스텝마다) 전체 문서 코퍼스를 최신 파라미터로 임베딩하여 색인 재구성을 수행한다.

이렇게 하면 약간의 지연은 있지만 현실적인 비용으로 거대 말뭉치에 대한 실시간 검색 훈련이 가능하다. (실제로 구현은 64 TPU로 학습을 돌리면서 추가 16 TPU로 문서 임베딩 계산을 병렬화했다고 보고한다.) 또한 fine-tuning(다운스트림 QA 학습) 시에는 사전학습 완료 후 고정된 θ로 단 한 번 인덱스를 구성하여 사용함으로써, 추가적인 업데이트 비용 없이 빠르게 활용했다.

 

마스킹 전략 (Salient Span Masking)

REALM 사전학습의 또 다른 중요 기법은 “Salient Span Masking”(중요 스팬 마스킹)이다.

일반 BERT는 마스킹 위치를 무작위로 정하지만, REALM에서는 외부 지식이 필요한 곳을 주로 가리도록 마스킹을 정한다.

예를 들어 일반 단어(전치사 “of” 등)보다는 고유명사, 전문용어, 숫자 등 지식이 담긴 중요한 연속 토큰(span)을 [MASK] 처리하는 것이다.

→ 검색기가 가져온 문서가 예측에 실질적인 도움을 주도록

저자들은 Section 3.4에서 이 salient span 선택 방법을 제안했고, 실험적으로도 랜덤 마스킹보다 성능이 크게 향상됨을 보였다. (실제로 무작위 토큰 마스킹으로 사전학습하면 Open-QA 정확도가 32.3%에 그쳤으나, salient span 마스킹을 쓰면 38.2%로 대폭 상승했다.) Null Document 기법

또한 모든 [MASK]가 항상 외부 지식을 요하는 것은 아니므로, “null document”라는 빈 문서를 후보에 포함시켜서 굳이 검색이 필요없는 경우에는 모델이 아무 문서도 선택하지 않을 수 있게 하였다.

즉, top-k 문서 중 하나는 내용이 빈 가짜 문서로, 만약 질문 자체로 충분한 경우엔 그 옵션을 선택하게 함으로써 불필요한 검색으로 인한 노이즈를 줄이도록 하였다.

 

검색-예측 (Retrieve-then-Predict) 과정

REALM의 추론(inference) 또는 다운스트림 태스크 훈련 시에도 “검색 후 예측”의 두 단계를 거친다. 우선 질의(예: 사용자의 질문 x)에 대해 지식 검색기가 거대 말뭉치에서 상위 k개의 관련 문서 조각들을 검색한다.

검색 결과 중 가장 관련도가 높은 문서부터 차례로, 원 질문 x와 함께 지식-증강 인코더에 넣어 답변을 생성한다.

Open-domain QA의 경우, 답변 y는 대부분 짧은 텍스트 조각(예: 인명, 지명 등)으로 질문에 대한 정답에 해당하며, 보통 말뭉치 어딘가에 정확히 그 문자열이 등장한다고 가정한다.

그래서 인코더는 질문과 문서를 결합한 입력에서 정답에 해당하는 토큰 시퀀스를 추출하거나 시작/끝 위치를 예측하는 방식으로 답을 찾는다 (이 논문에서는 추출형 QA 방식*으로 세팅)

* 추출형 QA 방식 : 지문 안에 정답이 포함되어 있을 때, 그 일부를 그대로 뽑아서 답하는 QA 방식

 

실험 및 결과

Open-domain Question Answering 성능 평가

저자들은 REALM의 효과를 검증하기 위해 오픈 도메인 질의응답(Open-domain QA) 태스크에 모델을 파인튜닝하여 실험을 진행했다 .

Open-domain QA는 지문(Context) 없이 질문만 주어지는 QA 설정으로, 시스템이 스스로 관련 문서를 찾아 정답을 찾아내야 하는 난이도 높은 QA 과제이다.

이는 REALM이 지향하는 바와 정확히 부합하므로, REALM의 지식검색 사전학습이 성능을 향상시키는지 평가하기에 적합한 벤치마크였다.

실험에는 Natural Questions Open(NQ), Web Questions (WQ), Curated TREC의 세 가지 대표적인 오픈도메인 QA 데이터셋이 사용되었다.

이들 데이터셋은 각각 실제 구글 검색 질의나 트리비아 질문 등으로부터 생성된 질의에 대한 정답을 평가하며, 정답이 위키피디아 문서 내에 존재하는 형태로 구성되어 있다.

REALM 모델은 위 데이터셋에 대해 파인튜닝되어 정확도(Exact Match) 지표로 평가되었다.

그 결과, 세 가지 벤치마크 모두에서 기존 최첨단 모델들의 성능을 크게 앞질렀다.

 

표 1. Open-domain QA 성능 비교 (Exact Match, %)

모델 NQ (Natural Questions) WQ (Web Questions) TREC (CuratedTREC)
DrQA (Chen et al., 2017) – 20.7 25.7
GraphRetriever (Min’19) 31.8 31.6 –
ORQA (Lee et al., 2019) 33.3 36.4 30.1
T5 (11B parameters, 2020) 34.5 37.4 –
REALM 40.4 40.7 46.8

 

표 1은 주요 모델들과의 성능 비교를 요약한 것이다. REALM은 NQ와 WQ에서 약 40%대 정확도를 기록하여, 이전까지 최고 성능이던 ORQA나 T5 등을 능가했다. 특히 Natural Questions의 경우, 파라미터가 15배 이상 큰 T5-11B 모델(약 34.5%)보다도 우수한 정확도(약 40% 이상)를 달성하였다.

또한 CuratedTREC 셋에서는 정확도 46.8%에 도달하여, 기존 최고보다 절대 16%p 이상 상승하는 놀라운 개선을 보였다 (ORQA의 TREC 정확도는 30.1%).

이는 REALM의 지식 검색 사전학습이 특히 지식이 파편화된 질의에 강점을 보였음을 시사한다.

 

기존 SOTA 모델들과의 비교 분석 결과

1. 명시적 지식 기반 모델과 비교 (e.g., ORQA)

  • 검색 성능(Recall@5): ORQA 13.9% → REALM 38.5%
  • 최종 QA 정확도(NQ): ORQA 31.3% → REALM 38.2%
  • 기존 최고 모델(GraphRetriever 등)보다도 2배 이상 높은 정확도 기록
  • 복잡한 질의(TREC)에서 특히 성능 우수

2. 암묵적 지식 기반 모델과 비교 (e.g., T5)

  • T5 (11억 파라미터): 정확도 34.5%
  • REALM (3억 파라미터): T5보다 4~6%p 높은 성능
  • Salient Span Masking을 적용한 T5보다도 REALM이 우수 (T5 36.6% vs REALM 40%대)

3. Ablation 분석(모델에서 특정 요소를 제거하거나 바꿔가며 그 요소의 중요도나 기여도를 분석하는 실험) 결과

  • 검색기와 인코더 모두 REALM 방식일 때 정확도 38.2% (최고 성능)
  • 검색기만 REALM일 경우: 37.4%
  • 인코더만 REALM일 경우: 35.3% → 검색 모듈의 사전학습 효과가 더 큼

4. 마스킹 전략 영향

  • 랜덤 마스킹: 32.3%
  • Salient Span 마스킹: 38.2% → 지식 의존 예제 중심 학습이 효과적임을 입증

 

REALM은 외부 문서를 검색하여 정답을 예측할 뿐 아니라, 그 판단의 근거도 함께 제시함으로써 성능과 해석 가능성 측면 모두에서 강점을 지닌다고 볼 수 있다.

예를 들어, 논문에서는 페르마의 마지막 정리(Fermat’s Last Theorem)에 대한 질문에서, 사전학습된 BERT는 “Fermat”이라는 토큰을 거의 예측하지 못했지만, REALM은 관련 문서들을 참고한 덕분에 해당 정답 토큰에 0.129의 높은 확률을 할당하여 정확히 예측할 수 있었다고 보고한다.

이 문서는 페르마의 생애와 업적을 설명하는 내용이었으며, 인간 독자 역시 그 문서를 보면 정답을 쉽게 유추할 수 있는 수준이었다.

이처럼 REALM은 질문에 적합한 문서를 검색하고 그 내용을 바탕으로 답을 도출함으로써, 기존 모델이 놓치던 정답도 맞히는 동시에 모델의 판단 과정을 투명하게 드러내는 해석 가능성도 제공한다.

 

한계점 및 미래 연구 방향

REALM은 혁신적인 접근이지만, 한계와 향후 개선 방향도 존재한다.

  • 높은 계산 비용: 대규모 말뭉치에서의 실시간 검색을 통합하여 학습하려면 상당한 연산 자원이 필요하다. 논문에서는 64 TPU 코어로 20만 스텝을 학습했다고 밝혔으며 , 매 500스텝마다 1300만 문서 임베딩을 갱신하는 등 시스템 구현의 복잡도가 높다. 비록 MIPS를 통한 최적화로 가능하게 한 것이 공헌이지만, 여전히 일반적인 언어모델 사전학습보다 복잡하고 비용이 큰 과정임은 분명하다.
  • 지식 코퍼스 의존성 및 한계: REALM의 지식은 고정된 문서 말뭉치(위키피디아 덤프 등)에 의존한다. 따라서 말뭉치에 없거나 희소한 지식은 모델이 답하기 어렵다.
  • 응답 생성의 유연성: REALM은 주로 추출형 QA에 집중되어, 정답이 문서에 있는 텍스트일 때 강점을 보인다. 서술형 답변 생성이나, 정답이 여러 문장의 조합인 경우에는 직접적인 적용이 어렵다.
  • 지식 업데이트와 도메인 적응: REALM은 지식이 외부 말뭉치에 있으므로 업데이트 및 도메인 변화에 비교적 유연하지만, 여전히 검색기가 훈련한 코퍼스에 최적화되어 있기 때문에 완전히 코퍼스가 바뀌면 재학습이 필요할 수 있다. 예를 들어, 전문 분야 문서를 코퍼스로 쓸 때는 해당 도메인에 맞게 retriever를 추가 학습하거나 해야 한다. 또한 지식이 시간에 따라 변하는 경우 이를 반영하려면 지속적 인덱스 업데이트와 추가 파인튜닝이 필요하다.
  • 복잡한 질문에 대한 한계: 멀티턴 대화 맥락이 있는 QA나, 문제를 이해하고 추론과정을 거쳐야 하는 질의(예: 퍼즐 문제 등)에 대해서는 REALM 기법만으로 충분치 않을 수 있다.
728x90
반응형

'🤖 ai logbook' 카테고리의 다른 글

[article] Multimodal Deep Learning for Time Series Forecasting Classification and Analysis  (0) 2025.05.07
[paper] LANISTR : LANguage, Image, and STRuctured data  (0) 2025.05.04
[paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델  (0) 2025.04.27
[paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델  (1) 2025.04.24
[paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델  (0) 2025.04.16
[paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델  (0) 2025.04.12
Simpson’s Paradox - 통계의 거짓말  (0) 2025.02.19
[paper] DeepSeek-R1 정리 및 Ollama를 이용해서 DeepSeek-R1 모델 간단하게 사용해보기  (0) 2025.02.10
'🤖 ai logbook' 카테고리의 다른 글
  • [article] Multimodal Deep Learning for Time Series Forecasting Classification and Analysis
  • [paper] LANISTR : LANguage, Image, and STRuctured data
  • [paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델
  • [paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (217)
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (67)
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    IBM
    방통대
    Coursera
    datascience
    데이터분석준전문가
    머신러닝
    자격증
    deeplearning
    온라인 강의 추천
    ADsP
    민법
    근로기준법
    인공지능 입문
    기본권의기초이론
    법학과
    Python
    데이터사이언스 입문
    형법
    certificate
    빅데이터분석기사
  • hELLO· Designed By정상우.v4.10.3
이소야
[paper, ICML 2020] REALM(Retrieval-Augmented Language Model Pre-Training)
상단으로

티스토리툴바