Stańczak, K. et al. (2025). Societal Alignment Frameworks Can Improve LLM Alignment. arXiv preprint
Introduction
인간의 가치에 맞게 LLM을 정렬(alignment, 인공지능을 인간이 의도한 목표, 선호, 윤리적 원칙에 맞게 조정하는 것)하는 일은 인공지능의 유용성을 담보하는 데 중요한 과제이다.
정렬에는 지침을 따르고 도움이 되는 것과 같은 명시적 가치와, 진실성을 유지하고 편향 혹은 해로운 출력물을 피하는 것과 같은 암묵적 가치가 모두 포함된다.
그럼에도 여전히 정렬은 어려운 과제이다. 이는 인간 가치의 복잡성과, 기술적 해결책의 협소함에서 비롯된다. 현재의 LLM 정렬 방식은 설계자가 제공한 시나리오 내에서만 보상 함수(reward functions)가 인간의 가치를 반영하여, 예상치 못한 맥락에서 일반화하지 못하는 결과를 초래하는 경우가 많다. 이 문제의 원인은 대부분 간과되었다.
저자들은 이러한 오정렬(misalignment)을 더 잘 이해하기 위해, 경제 이론에서 잘 정립된 주인-대리인(principal-agent, 주인이 대리인으로 하여금 자신의 이익과 관련된 행위를 재량으로 해결해 줄 것을 부탁하는 관계) 프레임워크를 이용한다. 이 프레임워크에서는 개발자 혹은 사용자가 주인 역할을 하고 LLM이 대리인 역할을 한다. 계약은 대리인이 수행하는 작업과 주인이 그에 제공하는 보상의 쌍으로 정의된다. LLM 훈련에서 계약은 정확한 답변을 내놓는 LLM에 보상을 하고 환각을 내놓는 LLM을 처벌한다. 완전한 계약은 주인의 목표에 대리인의 행동을 완벽하게 일치시키는 것이다.
그러나 LLM 훈련에서 가능한 모든 시나리오를 예상해 완전한 계약을 설계하는 건 불가능하다. 복잡하고 다양한 인간 가치를 정량화하기 어렵고, 이를 효과적으로 포착하는 데에 큰 비용이 들며, 가치들을 통합된 보상 신호로 집계하는 일도 사소하지 않다.
이러한 문제는 LLM에만 국한된 것이 아니고, 사회, 경제, 법률 같은 제도에서도 나타난다. 그러나 그러한 불완전성에도 불구하고 이러한 제도들이 우리가 번영할 수 있게 해준다. 저자들은 불완전한 계약 환경 내에서 LLM의 발전을 이끌기 위해서는 사회적 정렬 프레임워크에서 얻은 통찰을 활용해야 한다고 주장한다.
그러나 이러한 프레임워크 내에서도 불확실성은 불완전한 계약 환경의 내재적 요소로 남아 있다.
6절에서는 구체화되지 않은 목표를 기술적으로만 해결할 수 있는 결함으로 보기보다는, 다양한 이해관계자를 LLM 정렬에 적극적으로 참여시키는 참여형 정렬 인터페이스가 필요하다는 대안적 관점을 제시한다.
Contemporary Approach to LLM Alignment
LLM 정렬의 목표는 흔히 '3H'라고 하는 정직성(honesty), 유익함(helpfulness), 무해성(harmlessness)를 충족하는 것으로 개념화된다. 이러한 정렬을 위한 대표적인 접근이 RLHF와 같은 선호도 기반 접근이다. 여기서는 RLHF 과정 중 보상 모델링이 3절에서 설명할 불완전한 계약과 관련 있기 때문에 이에 초점을 맞춘다.
2.1. Reward modeling from human preference
보상 모델링 단계에서는 입력 프롬프트 x에 대해 모델이 응답 쌍 y0, y1을 생성하며, 인간 평가자가 둘 중 선호하는 응답을 선택하여 정렬을 위한 데이터를 제공한다. 인간의 선호도는 브래들리-테리 모형(Bradley-Terry model, 대상들을 한 쌍씩 비교한 결과를 바탕으로 대상들 전체의 순위를 매기는 방식) 같은 프레임워크를 사용하여 확률적으로 모델링한다.
LLM Alignment as a Contract
불완전한 정보 조건에서 계약이 어떻게 설계되는지를 연구하는, 경제학의 하위 분야인 계약 이론(contract theory)을 통해 LLM 정렬을 형식화할 수 있다. 여기서 인간-LLM 상호작용을 주인-대리인 관계로 설명한다. 이 프레임워크는 대리인의 행동과 그에 대한 보상[혹은 처벌]을 계약으로 사용하여 주인이 대리인의 행동을 목표와 일치시키는 방법을 제공한다. 이 절에서는 계약을 형식화하고(3.1절), 이 계약의 불완전성(3.2절)이 어떻게 잘못된 정렬로 이어지는지(3.3절) 살펴본다.
3.1. Contract Formalization
주인인 사용자가 대리인인 LLM에게 프롬프팅을 하여 상호작용을 시작함으로써 계약이 제안된다. 계약 거부는 원하지 않는 응답으로 나타난다(e.g., 혐오 표현이 포함된 응답). 계약을 수락하면 LLM은 계약을 만족하는 가능한 모든 응답에 대한 확률 분포로 볼 수 있는 행위를 수행한다. 그에 따라 훈련 단계의 LLM은 보상 함수에 따라 보상을 받는다. 사용자는 생성된 응답을 통해 효용을 얻거나 손해를 본다.
3.2. The Challenge of Incomplete Contracting in AI
완전한 계약은 모든 가능한 경우에 주인의 목표와 대리인의 행동이 완벽하게 일치하는 것이다. 그러나 완전한 계약은 불가능하다. 원하는 행동의 복잡성을 완전히 포착하는 보상 함수를 정의하는 것이 다음과 같은 이유로 어렵기 때문이다. (1) 가능한 모든 응답-보상 쌍을 지정하기 어렵다. (2) 복잡한 인간의 가치를 보상 함수로 변환하기 어렵다.
3.3. Misalignment due to an Incomplete Contract
저자들은 LLM 정렬의 문제를 불완전한 게약으로 인해 발생하는 문제로 본다.
보상 지정이 잘못되었을 때의 흔한 결과는 보상 해킹(reward hacking)이다(e.g., jailbreaking). 이것은 의도된 목표가 아닌 표면적인 훈련 목표를 LLM이 따른 경우 발생한다.
또다른 문제는 보상 함수의 내재적 맥락 의존성(inherent context dependence)이다. 계약은 좁은 맥락에서는 바람직한 응답을 지정해줄 수 있지만, 더 넓은 맥락에서는 애매할 수 있다.
4. Societal Alignment Frameworks
저자들은 불완전한 계약에서도 LLM 정렬을 위한 가이드라인을 제공할 수 있는 프레임워크를 제시한다. 사회 이론(4.1절), 경제 이론(4.2절), 계약 이론(4.3절)의 정렬 메커니즘을 논의하고 LLM 정렬 방식을 개선하기 위한 잠재적 해결책을 모색한다.
4.1. Social Alignment
인간의 의사소통은 복잡하고 암묵적인 규범, 가치, 단서에 의존한다. 그럼에도 인간은 특정 행동이 맥락상 적절한지를 이해하고 판단하는 규범적 능력을 가지고 있다. 사용자-LLM 상호작용에서는 공유된 규범과 가치가 없으면 잘못된 결과물이 나올 수 있다. e.g., 술이 금지된 지역에서 저녁 활동으로 음주를 추천
사회적 규범과 가치를 LLM에 통합하면 인간의 규범 체계를 해석하고 적응하는 메커니즘을 LLM이 갖추게 될 수 있을 것이다.
4.1.1. Instilling Norms and Values
규범: 상황에 따른 행동 규칙
가치: 중요한 목표와 열망을 나타내는 더 광범위한 이상
규범과 가치는 여러 방식으로 LLM 정렬 과정에 주입될 수 있다.
맥락 규칙은 문화적 관습과 관련된 규범을 뜻한다. 수집된 규칙들이 LLM을 정렬할 때 끼칠 수 있는 영향은 별로 탐구되지 않았다. 맥락 규칙은 문화적 기대에 맞는 언어적 스타일을 지도할 수 있다. 기존 모델은 주로 서구적 가치를 반영했으며, 따라서 다문화적 가치를 표현하는 데 한계가 있다. 인간의 규범과 가치는 언어, 표정, 제스처 등 복합적 신호 교환으로 이루어지는데, LLM과 상호작용할 때는 이런 단서가 부재한다. 따라서 비언어적 형태의 의사소통을 포함하는 다중 양상(multimodality) 모델을 연구하는 것이 도움이 될 수 있다.
4.1.2. Allowing for Dynamic Norms and Values
규범과 가치는 지속적 사회적 상호작용을 통해 변한다. LLM이 새로운 편견을 식별, 적응, 완화할 수 있도록 개발하는 것과, 사실을 업데이트할 수 있도록 하는 것이 향후 연구의 중요한 영역이다.
4.2. Economic Alignment
경제 시스템에서 효율적 배분을 위해 여러 집단 간 조정이 필요하다.
현대 경제 이론의 핵심 과제는 개별 행위자의 이해관계를 집단적 목표에 맞추는 것이다. 마찬가지로, 다양한 인간의 가치에 맞춰 LLM을 정렬하려면 개인적 목표와 집단적 목표 사이의 절충점을 탐색해야 한다. 또한, 우선순위를 정할 가치에 대한 집단적 결정이 필요하다.
4.2.1. Economic Mechanisms for Fair Alignment
이론 경제학에서 완전 시장은 공리주의적 틀 하에서 파레토 효율적(Pareto efficiency) 복지 분배를 달성하는 것으로 가정된다. 파레토 효율이란 누군가에게 해를 주지 않고는 더이상 이득을 얻을 수 없는 상태를 말하며, 효율적 자원 배분의 기준이 된다. 파레토 효율은 집단 공정성 개념을 최적화하여 포용적이고 공정한 LLM 정렬을 보장하는 기반이 될 수 있다. 파레토 효율을 달성한다는 것은 다양한 요구를 공평하게 해결하도록 조정하여 어떤 집단도 정당한 이유 없이 유리하거나 불리하지 않도록 보장하는 것이다. LLM 정렬에서 이것이 보상 시스템 개발의 지침이 될 수 있다.
4.2.2. Economic Mechanisms for Pluralistic Alignment
여러 사람이 LLM의 행동에 영향을 받을 때 사람들의 선호를 도출하고 집계하는 방법을 결정하는 일이 LLM 정렬에서 중요하다. 이러한 과제는 여러 목표를 정렬 과정에 통합하고 다양한 관점을 포착하는 방법(e.g., few-shot learning)을 활용해 해결할 수 있다.
다원적 가치 실현에 있어 또다른 중요한 문제는 범용 모델과 전문 모델 개발 사이의 절충이다. 전문 모델은 특정 영역에 잘 부합하지만 가치가 파편화될 위험이 있다. 반대로 범용 모델은 광범위한 적용이 가능하지만 윤리적으로 복잡한 영역에 적용하는 데 어려움이 있다. 협동적 게임 이론은 이러한 문제를 극복할 수 있는 프레임워크를 제공한다.
4.3. Contractual Alignment
법률 제정과 해석은 인간의 목표와 가치를 명시적으로 실행 가능한 지침으로 전환한다. 물론 완전한 계약을 작성하는 것은 불가능하다. 우선, 관찰하거나 검증할 수 없는 상태가 있다. 그리고, 인간의 제약된 합리성으로 인해 전체 상황을 예측하고 최적화할 수가 없다. 또한, 완전한 계약이 가능하더라도 그것을 작성하고 시행하는 데 드는 비용이 엄청날 것이다. 이러한 문제가 LLM을 정렬할 때 나타나는 문제와 유사하므로, 계약 이론에서 얻은 통찰을 LLM 정렬에 사용할 수 있다.
4.3.1. External Contractual Alignment
표준화된 문서는 LLM의 수행 특성을 정의하고 의사소통하는 데 중요한 역할을 한다. e.g., 재현성 체크리스트, 공정성 체크리스트, UN 인권 선언, 대중 의견 수렴
4.3.2. Internal Contractual Alignment
계약 당사자, 법, 민주적 기관이 원칙을 집행하는 방식에서도 통찰을 얻을 수 있다. 이 접근 방식은 헌법적 AI(constitutional AI)라고 불리며, 외부 감독만 하는 것이 아니라 LLM 내부 메커니즘에 규범적 원칙을 직접적으로 포함시킨다. LLM이 내재화된 원칙을 개발하여 스스로 비판하고 이미 정의된 규범들에 대한 반응을 다시 작성하도록 유도할 수 있다. 이러한 방법은 사례마다 사람이 직접 개입할 필요를 넘어섬으로써 확장 가능한 관리를 가능하게 한다.
5. Societal Alignment Frameworks and Their View on Uncertainty
LLM 정렬의 불확실성.
5.1. Unwanted Uncertainty in LLM Alignment
인식적 불확실성은 LLM 개발의 주요 과제 중 하나이다. 이러한 불확실성은 모델 지식의 부족에서 발생하며, 사실적 정보에 대한 불확실성으로 이어진다. 정렬된 모델조차도 인식적 불확실성에게 자신의 지식 한계를 인식하지 못하는 경우가 많다. e.g., 사실과 다른 주장을 확실한 듯이 응답
정렬된 LLM의 불확실성은 추가적인 복잡성을 야기한다. LLM이 전지하다는 착각 때문에 사용자가 모델의 불확실성을 식별하기 어렵게 만든다. 또한 LLM의 in-context learning 능력(사용자가 준 정보를 학습하여 응답하는 능력)과 결합해, 훈련 중에 구현된 안전 조치를 사용자가 의도치 않게 우회할 수도 있다.
5.2. Uncertainty Needed in LLM Alignment
특정 유형의 불확실성은 LLM의 윤리적 배포에서 필수적이다. 이러한 불확실성은 변하는 인간 가치관, 상충되는 사회 규범, 추상적 원칙을 LLM의 행동으로 번역하는 데 따르는 어려움으로 인해 발생할 수 있다.
상충하는 가치들 간 조정(e.g., 정확성과 공정성)은 불확실성의 또다른 원인이다. 그러나 이러한 조정은 단일 목표만 고수하면 해로운 결과를 초래할 수 있는 복잡한, 상황에 따라 달라지는 환경에서 LLM을 작동시킬 대 필수적인 작업이기도 하다.
5.3. Uncertainty Communication
위의 내용을 바탕으로 볼 때, LLM 정렬에 내재된 불확실성은 약점이 아니라 LLM이 복잡한 상황을 윤리적으로 처리할 수 있게 해주는 귀중한 특징이다. 불확실성 커뮤니케이션은 데이터 편향을 드러내고, 예측에 대한 의존도를 유도하여 의사 결정을 개선하고, 더 공정한 모델을 확보하는 데 유용할 수 있다. 따라서 사용자에게 불확실성을 전달하는 방법을 개발하는 것이 필수적이다.
LLM은 불확실성을 사용자에게 제대로 전달하지 못하며, 반면 인간은 확률과 통계에 대해 잘 이해하지 못하고 인지 편향도 존재한다. 효과적인 사용자 인터페이스 설계에서 적절한 커뮤니케이션 방법을 선택하고, 협동적인 상호 작용 환경을 설계함으로써 부분적으로 해결할 수 있다.
6. Alternative View: The Democratic Opportunity Inherent in the Under-specified Nature of LLMs' Objectives
LLM 정렬은 더 나은 보상 모델링, 훈련 목표, 감독 메커니즘 등 기술적으로 해결될 수 있는 문제로 인식되는 경우가 많다. 하지만 정렬은 근본적으로 사회적인 문제이다.
우리는 대화를 통해 직관을 다듬고 도덕적, 사회적 기대를 형성한다. 이런 가치관이 변화하고 충돌한다는 사실은 기존의 규범에 대한 비판적 참여와 의지가 지속된다는 좋은 신호이다.
이런 관점을 인공지능 정렬을 계약의 문제로 특징짓는 것 사이의 대조가 중요하다. LLM의 목표가 덜 구체화되어 있는 것은 구체화를 완벽하게 하는 것이 아니라 LLM이 무엇을 최적화해야 하는지 결정하는 과정 자체를 민주화할 수 있는 기회를 제공한다. 다양한 이해관계자가 LLM 개발에 의미 있게 참여할 수 있는 구체적 메커니즘이 필요하다. 여기에는 집단적 가치 표현을 위한 새로운 방법론 개발, LLM 개발에 대중 참여를 위한 제도적 구조 마련, LLM의 목표와 제약에 대한 사회적 관리 및 의견 수렴 메커니즘이 포함될 수 있다.
댓글 없음:
댓글 쓰기