LLM 시대의 베이지안 머신러닝과 GFlowNet

How will Bayesian machine learning evolve in the era of LLMs? Discover how GFlowNet may hold the key to unlocking its full potential.

베이지안 추론의 어려움

딥러닝의 열렬한 지지자로서, 저는 처음에 베이지안들의 (딥러닝의 반대편에 서 있다고 생각했던) 연구 방법론과 그들이 추구하는 목표가 다소 허황하게 느껴졌습니다. 베이지안 접근법은 때로 고리타분하고 지나치게 엄격한 가정에 기반하여, 현실 문제에서 효율적인 성능을 보장하지 못하는 경우가 많았습니다. 반면, 컴퓨터 과학 분야에서는 단순함이 가장 큰 미덕인데, 베이지안들은 수많은 확률적 도구와 복잡한 수식들을 동원하여 결과적으로 매우 느린 알고리즘을 만들어내는 것처럼 보였습니다.

베이지안 접근법은 단순한 학문적 방법론의 집합이라기보다는, 모델 추정의 불확실성을 정량화하는 목표를 추구합니다. 근본적으로는 Bayesian posterior inference를 수행하는 것이 그 목적입니다. 이를 수식으로 표현하면 다음과 같습니다:

\[p(z \mid x) = \frac{p(z) \, p(x \mid z)}{\sum_z p(z)p(x \mid z)} = \frac{R(z;x)}{\sum_z R(z;x)}.\]

여기서 Bayesian posterior inference는 관측 데이터 $x$에 대해 잠재 변수 $z$의 확률 분포를 업데이트하는 방법을 의미합니다. 만약 $z$가 모델의 파라미터라면, 모델(즉, 함수)에 대한 확률 밀도를 얻을 수 있고, 이를 통해 불확실성을 자연스럽게 측정할 수 있습니다.

그러나 실제 문제에서는 분모에 해당하는 $\sum_z R(z;x)$를 계산하는 것이 현실적으로 불가능한 경우가 대부분입니다. $z$의 경우의 수가 너무 많거나 무한하기 때문에, 모든 경우에 대해 unnormalized density (or reward) $R(z;x)$를 일일이 계산하는 것은 불가능하기 때문입니다.

물론, 이러한 상황을 해결하기 위해 여러 방법들이 개발되었습니다. 그 중 가장 대표적인 방법은 MCMC 방법입니다. 이 방법은 $z$ 값을 조금씩 변경하면서, 정규화되지 않은 분포인 $R(z;x)$의 값을 비교합니다. 확률이 높은 영역에는 $z$가 더 많이 분포하기 때문에, $R(z;x)$ 값이 높아지는 방향으로 마치 산을 오르는 것처럼 $z$ 값을 업데이트합니다. 만약 $R(z;x)$ 값이 낮아진다면, $z$ 값을 그대로 유지합니다. 물론 확률이 낮은 경우에도 때때로 $z$ 값을 업데이트할 수 있는데, 이는 탐색 과정에서 우연히 낮은 값의 상태로 전환되는 경우가 있기 때문입니다.

문제는 대부분의 경우 $R(z;x)$ 분포가 여러 개의 산봉우리를 갖는다는 점입니다. 이러한 분포를 multi-modal distribution이라고 하는데, 여러 산봉우리를 촘촘히 탐색하는 것은 사실상 불가능에 가깝습니다. 산봉우리가 하나뿐이라면 계속 오르막길만 잘 올라가도 언젠가는 정상에 도달하겠지만, 산봉우리가 여러 개라면 때때로 내려가 다른 봉우리를 탐색해야 하므로 탐색이 매우 어려워집니다.

Generative Flow Network (GFlowNet) 추론

딥러닝 시대에 들어서면서, 뉴럴 네트워크의 강력한 성능을 활용해 이러한 다중 모드(산봉우리) 탐색 문제를 효과적으로 해결할 수 있는 방법들이 등장했습니다. 기존에는 지역적인 정보만을 바탕으로 산등성이를 따라 탐색했다면, 이제는 마치 헬리콥터를 띄워 산 아래 전경을 살펴보듯, 더 넓은 시야를 확보할 수 있습니다.

비유하자면, 헬리콥터에서 물줄기를 쏘아 해당 지점의 깊이를 측정하는 방식과 같습니다 (그 전에는 깊히/높이 를 알 수 없습니다). 이처럼 넓은 관점에서 탐색하면, 특정 지역에 국한되지 않고 빠르게 다른 봉우리를 찾아낼 수 있습니다.

이러한 접근법은 에이전트의 순차적 의사결정 문제로 해석할 수 있습니다. 에이전트를 물방울에 비유하면, 이 물방울은 하늘에서 시작해 여러 단계를 거쳐 결국 지면에 도달합니다. 이는 보상이 오직 마지막 단계에서만 주어지는 에피소드 기반 강화학습과 유사합니다.

GFlowNet은 심층 강화학습 기법을 활용하여 Bayesian posterior inference 문제를 해결합니다. 기존 강화학습과 다른 점은, 단순히 가장 높은 산봉우리를 찾는 것이 아니라 여러 모드(봉우리)를 포착하여 그 확률 분포 전체를 학습한다는 점입니다 (GFlowNet에 대한 자세한 방법은 여기서 다루지 않겠습니다).

최근 디퓨전 모델에서도 이러한 접근법의 성공을 엿볼 수 있습니다. 디퓨전 모델은 초기에는 가우시안 노이즈 $N(0,I)$로 시작해, 여러 단계를 거쳐 점진적으로 노이즈를 제거하면서 최종적으로 이미지를 생성합니다. 차이점은 디퓨전 모델이 주로 지도학습 방식으로 학습된다는 점입니다. 이미 모아진 데이터 (일부 모드, 산등성이)에만 탐색이 되도록 친절히 가이드가 되므로 학습이 쉽습니다. 반면, Bayesian 추론에서는 모든 모드를 탐색해야 합니다. 따라서 스스로 산등성이를 탐험을 해야하는 것으로 지도학습으로만 학습할 수가 없습니다. 이런 경우 디퓨전 모델을 backbone으로 하는 GFlowNet 추론방식을 사용하는것이 매우 유망한 방법으로 여겨지고 있고, 이런 분야를 Diffusion Sampler 라고 부릅니다.

요약하자면, 사람이 직접 땅을 밟아 보면서 하는 산 등성이 탐색이 기존 베이지안 방법론이였다면, 딥러닝 생성모델과 강화학습의 발전을 끌어와서 헬리콥터에서 물줄기를 쏘는 탐색 방법이 GFlowNet 추론이라고 할 수 있습니다.

Multimodal Posterior의 필요성

왜 산등성이에 존재하는 여러 모드를 모두 캡처해야 할까요? 그 이유는 모델이 생성하는 샘플의 다양성을 확보하기 위함입니다. 만약 모델의 결정이나 생성 결과가 한 가지 모드에 치우친다면, 해당 모드에 치명적인 문제가 있을 때 전체 시스템에 큰 위험을 초래할 수 있습니다. 극단적인 확신을 가진 단일 모드의 모델보다, 여러 선택지를 제공하는 모델이 훨씬 안전하고 신뢰할 수 있습니다.

생성 모델에게 다양성은 그 자체로 매우 중요한 요소이며, 안전성 측면에서도 큰 의미를 가집니다. AI는 인간을 돕는 도구여야 하며, 하나의 정답만을 내놓는 것보다 여러 가능성을 제시하여 최종 결정을 인간이 내릴 수 있도록 하는 것이 바람직합니다.

결론: 딥러닝 연구자들은 베이지안에 기여하라

GFlowNet 추론은 기존의 베이지안 추론 방법과 달리, 딥러닝의 강력한 도구들(예: LLM, 디퓨전 모델)을 그대로 활용하여 Bayesian posterior inference 문제를 해결할 수 있는 장점을 지닙니다. 만약 딥러닝의 성공 공식을 GFlowNet이라는 연결고리를 통해 베이지안 추론에 접목시킬 수 있다면, 베이지안 방법론은 단순히 이상적인 유토피아적 접근을 넘어서 신뢰할 수 있는 AGI 구축을 위한 중요한 디딤돌이 될 것입니다.

사실, 베이지안 방법론은 그 이상적인 장점으로 인해서 항상 일정한 지지를 받아왔습니다. 불확실성을 정량화하고, LLM이 자기 자신의 메타인지를 통해 모르는 것과 혼란스러운 부분을 인지하며, 모델 내부의 인과 관계를 밝힘으로써 블랙박스인 딥러닝 모델을 화이트박스로 전환할 수 있다면, 이는 엄청난 발전으로 이어질 것입니다. 이러한 기능을 갖춘 AI는 흔히 System 2 AI라고 불리며, 앞으로 더욱 발전할 가능성이 큽니다 (다음 블로그 포스트를 통해 System 2 AI에 대해 자세히 다루겠습니다).

저의 스승이자 딥러닝 분야의 대가인 Yoshua Bengio 교수님은 2022년까지 베이지안 접근법에 대해 큰 회의감을 가지고 계셨습니다. 교수님은 90년대 당시 벨 연구소에서 박사후 연구원으로 근무하시던 중, 주위 석학들이 베이지안에 대해 갖고 있던 반감을 직접 목격하셨다고 합니다. 그러나 GFlowNet 추론 방법이 등장한 이후, Bengio 교수님은 베이지안에 대한 견해를 바꾸시고 (2022년), “Why we need a multimodal posterior and why I became Bayesian“이라는 제목의 이메일을 랩 학생들에게 보내셨습니다. 이 메일은 Max Welling(Variational Autoencoder의 저자)과 Yarin Gal(MC Dropout을 통한 베이지안 추론의 저자)에게도 공유되었습니다.

이 글은 Bengio 교수님의 메일을 통해 나타난 생각을 제 견해와 함께 한국어로 재해석한 버전입니다. 그의 베이지안 전향은 베이지안 방법론이 딥러닝과 크게 융합될 것을 시사하는 상징적인 사건입니다. 물론 GFlowNet 추론에도 아직 여러 한계가 존재하며, 베이지안 추론 자체가 매우 어려운 문제임은 변함없습니다. 그럼에도 불구하고, 이와 같은 시도가 앞으로 더 많은 연구자들이 GFlowNet과 유사한 접근법을 발전시키는 계기가 되기를 기대하며, 저 역시 이 흐름에 적극 기여할 예정입니다.

노트: GFlowNet의 라이벌은 디퓨전모델이나 LLM, flow matching 모델같은 생성모델이 아닙니다. GFlowNet은 확률 추론 기법으로 이러한 성공적인 딥러닝 생성모델을 backbone으로 사용되기 위해 탄생된 기법입니다.