자유롭지 못한…

말하는 앵무새와 인공지능 본문

쟁점

말하는 앵무새와 인공지능

때때로 2023. 12. 2. 23:48

오픈AI가 올해 공개한 GPT-4는 챗GPT-3.5와 달리 한달 20달러를 지불해야만 이용할 수 있다. 헌장에서 "모든 인류에게 혜택을 줄 수 있도록 하는 것"을 목표로 제시한 것과 달리 기업에게 돈을 받고 독점적 이용권을 판매하기도 한다. 비영리법인이라곤 하지만 '제한적 이익 기업'이라는 모순적 행태를 보이는 데는 이해할 만한 이유가 있긴 하다. 미국의 IT 전문지에 따르면 오픈AI는 지난해 5억4000만달러에 달하는 손실을 냈다. 챗GPT의 하루 운영비는 70만달러에 달하는 것으로 추정된다. 실제로 그들은 헌장에서 "상당한 자원을 동원해야 할 것"이라고 인정했었다. 한국에서도 챗GPT와 같은 거대언어모델 개발에 주력하고 있고 성과를 보이고 있는 곳이 네이버나 LG, KT와 같은 대기업들인 것은 그 때문일 것이다.

거대언어모델은 방대한 데이터와 컴퓨터 자원을 필요로 한다. 규모의 문제는 불가피하게 여러 부작용을 불러온다. 에밀리 벤더 워싱턴대 교수는 3년 전 논문에서 거대 모델이 지닌 재정적 환경적 문제를 지적한 바 있다. 물론 거대언어모델 중심의 인공지능(AI) 개발의 문제는 이뿐만이 아니다. 언어모델은 '확률적 앵무새'임에도 불구하고 인간과의 상호작용 과정에서 편견을 강화하고 소외 계층을 한층 더 배제할 가능성이 높다. 언어모델에 내재한 편향성은 웹에서 수집한 방대한 데이터 그 자체에서 기인한 것인데, 우리는 AI가 학습자료로 삼는 언어 데이터 자체의 불균형을 주의 깊게 살펴야 하는 이유다.

AI의 가능성을 외면하자는 건 아니다. 이 기술이 인류의 어떤 문제를 해결하는 데 도움을 줄 수도 있다. 하지만 반대로 무언가 해로운 영향을 미칠 수도 있다. 우리는 이 새로운 도구에 대해 긍정적이든 부정적이든 더 많이 알아야 할 필요가 있다. 벤더가 자신의 논문을 바탕으로 미국 매사추세츠주 노스이스턴대학의 경험적AI연구소(IEAI)에서 한 강연의 요약을 아래 옮긴다.

※Deepl.com을 이용해 초역한 후 다듬은 글입니다. ()는 원문, []와 본문 하단의 용어설명은 번역자가 이해를 위해 덧붙인 것입니다.

+ + +

'확률적 앵무새의 위험' 에밀리 벤더 IEAI 강연 요약
에밀리 벤더 강연, 타일로 웰스 린치 정리│IEAE(Institute for Experiential AI)│2022년 1월 4일│링크

경험적AI연구소(IEAIㆍThe Institute for Experiential AI)는 워싱턴대 언어학 교수이자 하워드-프란시스 노스트랜드 후원 교수인 에밀리 벤더를 초청해 자연어 처리(NLPㆍNatural Language Processing) 분야에서 거대언어모델(LLMㆍLarge Language Model)과 관련한 위험에 대해 강연을 열었다. 이 강연은 IEAI의 석학 강좌 시리즈로 기획됐다. 전체 다시 보기 또는 요약으로 볼 수 있다.

들어가기 전에

언어모델(LMㆍLanguage Model)은 데이터라는 딱딱한 세계와 인간 언어의 다층적인 세계를 연결하는 가교 역할을 한다. 언어모델은 기계 번역, 음성ㆍ필기인식, 작문 보조 등 다양한 분야에서 사용된다. 언어모델이 인간 개입 없이 미묘한 어조의 수필이나 장대한 문장을 쓸 수 있는 흥미롭고 새로운 거대언어모델(LLMㆍLarge Language Model)로 발전하면서 인공지능(AIㆍArtificial Intelligence)의 새로운 장을 열었다고 평가받는다.

하지만 에밀리 벤더는 이 최첨단 시스템에 치명적인 결함이 있다고 지적한다. 그는 이러한 결함을 2020년 논문
('확률적 앵무새의 위험:언어모델, 이렇게 커도 되는 걸까'ㆍ링크)에 상세히 논했다. 이어지는 강연에서 이를 요약해 소개한다.

이 논문엔 벤더와 함께 팀니트 게브루, 안젤리나 맥밀란-메이어, 마가렛 미첼이 공동 저자로 참여했다. 또 비노드쿠마르 프라하카란, 마크 디아즈, 벤 허치슨이 연구에 기여했다. 벤더와 맥밀란-메이어 외 다른 연구진은 당시 구글에 재직 중이었다. 구글은 연구 결과가 사업에 불리한 것으로 드러나자 논문의 철회와 참여한 직원을 공동 저자 명부에서 삭제해달라고 요구했다. 이를 거부한 팀니트 게브루가 구글에서 쫓겨나면서 논란을 일으켰다. 하지만 이는 이 연구에서 제기한 쟁점만 부각시키는 결과로 이어졌다.

언어모델의 간략한 역사

실제 언어모델이란 무엇일까. 언어모델의 핵심은 학습을 통해 문자열을 예측하는 것이다. 여기서 문자열은 알파벳과 같은 문자나 기호의 차례를 말한다. 언어모델의 과제는 문자열의 앞 부분에 몇 가지 단어가 주어졌을 때 그 뒤에 어떤 단어를 배치해야 하는지 예측하는 것이라 말할 수 있다. 따라서 이 시스템에서 데이터는 언어모델이 모사하고자 하는 언어로 된 문장 모음이고 학습 목표는 빠진 단어를 정확히 채우는 것이다.

이 개념은 컴퓨터 과학의 초창기부터 존재했지만 가장 기초적인 형태의 언어 모사를 구현하기까지는 수십 년이 걸렸다. 가장 먼저 성공한 것은 1980년대 초 나온 자동 음성 인식
(ASRㆍAutomatic Speech Recognition)과 기계 번역(MTㆍMachine Translation)이었다.

시간이 지나면서 학습 데이터의 크기가 폭발적으로 증가했고 언어의 양식을 구현하는 아키텍처가 바뀌었다. 2010년대 들어 신경망이 지배적인 아키텍처가 됐다. 그리고 최근 몇 년 사이 트랜스포머가 그 자리를 물려받았다. 순차적 입력값들의 맥락을 파악하는 능력이 더 우수했기 때문이다.

이 기간 연구자들은 언어모델을 평가하기 위한 성과지표에 근본적 한계가 있음을 발견했다. 일반적으로 더 많은 데이터와 더 큰 모델은 더 정교한 능력으로 이어져 높은 점수를 받지만 그게 끝일 뿐이다. 모델이 한계에 다다르면 연구자들은 더 많은 데이터를 활용하기 위해 새로운 아키텍처로 전환하고 또 다른 한계에 이르기 전까지 이를 이용한다.

모델이 커지면서 그에 맞춰 적용 범위도 확장된다. 특히 언어모델에서 복잡성의 '단위'로 취급되는 매개변수
(Parameter)의 크기에서 극명하게 나타난다. 정확히는 모델의 최적화를 위한 과거의 입력값과 학습 데이터를 말한다. 매개변수는 언어모델의 정교함과 밀접한 상관관계가 있다. (예를 들자면 당신이 오늘밤 볼 TV프로그램을 추천해주는 모델을 만든다고 할 때 과거에 시청한 프로그램 목록이 매개변수다.)

정리하자면 비교적 적은 학습 데이터와 겨우 수억 개 수준의 매개변수를 기반으로 한 제한적 목적의 어플리케이션이었던 언어모델은 이제 방대한 양의 데이터로 학습받으면서 여러 다양한 언어 기술 분야에 사용되고 있다. 실제로 오픈AI가 개발한 언어모델인 GPT-3는 1750억개의 매개변수를, 딥마인드가 최근 공개한 또다른 트랜스포머 언어모델은 2800억 개의 매개변수를 갖고 있다.

환경적 재정적 위험

클 수록 좋은 걸까. 데이터의 맥락을 파악해 윤리적인 조언과 전망을 할 수 있으려면 정말 그 규모가 더 커져야 할까. 이에 답하기 위해 거대언어모델과 관련된 위험을 살펴보자.

첫째 환경 문제다. 전 세계 인간은 매년 1인당 5t가량의 CO2를 배출한다. 이를 일반적인 언어모델의 탄소발자국과 비교해보자. 매사추세츠대학에서 추산한 바에 따르면 거대 AI모델은 전 수명 주기에 걸쳐 미국 일반 차량의 다섯 배에 가까운 탄소를 배출한다.

둘째 재정적 위험이다. 벤더의 논문에 따르면 기계 번역을 평가하는 성과지표인 BLEU
(Bilingual Evaluation Understudy)를 0.1% 올리려면 컴퓨터 성능 향상에 15만달러가량의 비용이 필요하다.

이는 거대한 벽이다. 그 안에서 '활약'하는 건 과연 누구일까. 엄두도 못낼 만큼 비싸고 데이터 집약적인 연구에서 소외되는 건 또 누구일까.

이미 이 사회에서 가장 많은 것을 가진 사람들에게 이 기술의 혜택이 돌아가고 있다. 언어로 놓고 보자면 영어를 비롯해 사용자 수가 많은 몇몇 언어가 그 혜택을 입는다. 그와 동시에 전 세계의 소외된 공동체들은 기후변화의 충격을 가장 앞에서 맞이하고 있으면서도 거대언어모델의 혜택을 즐기지 못할 것이다. 이 모델들은 디베히어
[몰디브의 공용어]나 수단아랍어와 같은 소수의 언어를 위해 구축되지 않았기 때문이다.

이러한 영향을 완화하기 위해 우리는 재생 가능한 에너지로 전환할 수 있다. 하지만 지속 가능한 에너지원조차 환경비용을 발생시키며 무제한으로 사용할 수 있는 것도 아니다. 일부 연구자는 효율성이 높은 컴퓨터 장비로 전환하고 탄소지표의 계측 방법을 개선해야 한다고 주장한다. 하지만 또 다른 연구자는 컴퓨터에 녹색 에너지를 사용하는 것은 여타 더 중요한 분야에서 친한경적이지 않은 자원을 사용하게 되는 것으로 이어질 수도 있다고 반박한다.

다루기 어려운 학습 데이터

대규모 데이터 모음이 꼭 다양한 것은 아님에도 불구하고 사람들은 규모가 크기 때문에 그것이 다양할 것이라고 여기곤 한다. 이를테면 인터넷은 크고 다양하기 때문에 사람들의 세계에 대한 관점을 폭넓게 보여줄 것이라고 생각하기 쉽다. 하지만 온라인에서의 참여와 토론을 협소하게 만드는 여러 요인들이 있다. 따라서 웹 크롤링[인터넷에서 정보를 자동으로 수집ㆍ분류ㆍ저장하는 것을 말한다.]에 포함될 자료도 협소해질 수밖에 없다.

실제로 우리는 웹 크롤링 결과 헤게모니적 관점을 고수하는 사람들의 목소리가 가장 많이 담긴다는 것을 발견했다. 인터넷에 접속해 참여하는 사람들이 누구인지를 고려하면 그 이유를 알 수 있다. 그들은 대부분 선진국 젊은이들이다. 여기서부터 이미 표본이 협소한 것을 알 수 있다. 게다가 부당하게도 소외된 사람들, 특히 흑인 여성들의 목소리가 콘텐트를 조정하는 과정에서 배제되는 것으로 나타났다.

크롤링 방식으로 웹에서 콘텐츠를 모으는 과정에서도 특정 목소리가 더 반영된다. 예를 들어 레딧의 이용자는 대부분 젊은 남성이다. 위키피디아 편집자 중 여성이나 소녀는 8.8~15%에 불과하다. 그리고 블로그처럼 외부 유입이나 연결이 적은 웹사이트도 수집될 가능성이 낮다.

특정 콘텐트를 배제하는 데는 몇몇 형식적 근거가 있다. 예를 들자면 음란하거나 혐오스러운 것들은 많은 검열 목록에서 제외 대상으로 삼고 있다. 학습 데이터에서 유해한 콘테트를 배제하겠다는 것이 반드시 나쁜 생각인 것은 아니다. 하지만 온라인의 LGBTQ 공간도 검열의 대상이 되곤 한다. 그곳이 긍정적인 방식으로 생생한 경험을 나누는 곳임에도 불구하고 말이다.

이렇게 모은 데이터에서 소외된 정체성에 대한 긍정적인 묘사는 찾아보기 어렵다는 것을 다시 확인할 수 있다. 그 결과 언어모델의 학습 데이터에 헤게모니적 관점이 과도하게 부각되고 있다. 이러한 경향은 데이터에 포함된 청중의 반응에 의해 다시 강화된다. 헤게모니적 관점을 고수하는 사람들 대부분은 의식적으로든 무의식적으로든 억압적 체제에 부합하는 말들을 내뱉기 일쑤다. 그렇기에 웹 크롤링을 통해 수집된 데이터들도 대부분 체제 옹호적일 가능성이 높다.

언어모델을 설계할 때 이러한 편향은 극복해야 할 과제다. 본질적으로 유동적이면서 적응이 빠른 SNS 세상은 공통의 언어를 사용하며 세계적 쟁점에 반응한다. 하지만 언어모델은 특정 시점까지 수집된 말들의 편린들로 학습받는다. 학습 데이터는 맥락 없는 과거의 유물일 뿐이다. 결국 언어모델은 폭넓지 못한 사고를 강화하는 '가치 고정'의 위험이 있다.

게다가 편향성 제거를 위한 자동화된 과정이 예측하기 어렵다는 문제도 있다. 예를 들면 자동 유해 감지 시스템은 해롭지 않은 비표준어도 유해한 것으로 잘못 분류해 왔다. 특히 아프리카계 미국인의 영어가 그렇게 취급됐다. 앞에서 말한 모든 이유로 사회적 범주와 관련해 언어모델이 편향적일 수 있음을 고려해야만 언어모델을 살펴 그 편향성을 제거할 수 있다. 이러한 기술을 전 세계에 일률적으로 배포하는 게 과연 적합한 일일까. 다시 묻자면 미국에서 만든 언어모델이 미얀마에서의 사회적 쟁점을 제대로 이해할 수 있을까.

벤더는 언어모델을 공개하기 전 지역에 밀착한 정보를 더 많이 입력해야 한다고 주장한다. 그는 언어모델 개발을 시작하기 전 자료조사를 위한 예산을 배정하고 가능한 많은 자료를 모으라고 제안한다. 검토자가 수집된 자료의 맥락을 살펴 편향성의 원천을 파악하고 실행 가능한 완화 전략을 수립할 수 있을 것이다.

기울어진 개발 과정

벤치마크는 언어모델의 진척도를 평가하는 데 중요하지만 이를 둘러싼 문화는 지나치게 편협하고 게임화돼 있다. 특히 자연어 이해(NLUㆍNatural Language Understanding) 분야에서 최신 벤치마크 달성에 경쟁적으로 매달리고 있다. 하지만 앞서 논의했 듯이 뛰어나 보이는 언어모델은 겉으로만 그럴싸한 데이터 모음에 의존하고 있다. 그렇다면 벤치마크를 경신할 수 있다는 것을 보여주기 위해 거대 모델을 방대한 데이터로 학습시키는 게 무슨 의미가 있을까.

우리가 더 물어야 할 것은 이해한다는 것의 본질이 무엇이냐는 것이다. 언어모델은
(인간이 이해하는) 의미에 대한 접근없이 언어를 단지 형식적으로 학습받기 때문에 자연어를 이해하는 것으로 볼 수는 없다. 언어모델이 순위표에서 어떤 점수를 받더라도 말이다. 기계는 아직 영혼을 가지지 못했다.

확률적 앵무새

우리는 언어가 본질적으로 사람과 사람 사이에 전달될 수 있는 의미를 담고 있다고 말한다. 하지만 현대 언어이론에서 언어는 허버트 클락이 '공동 활동'이라고 부르는 것에 의존한다. 즉 대화는 의사소통하려는 서로가 상대방의 의사를 이해하기 위해 함께 노력하는 과정이다. 듣는 사람은 그 의도가 무엇인지 알아내려고 노력하는데, 언어는 의사를 파악하는 여러 단서 중 하나일 뿐이다.

결국 인간의 언어는, 언어모델이 맥락이나 의미에 대한 고려없이 학습받은 방대한 데이터로부터 무작위로 조합해내 언어적 형태로 내뱉는 것과 무척 다른 것이다. 언어모델을 '확률적 앵무새'라고 부른 건 바로 이 때문이다. 앵무새는 말소리를 흉내내지만 그 의미는 이해하지 못한다. 언어모델은 되는 대로 말을 내뱉고 이는 때로 무척 그럴싸해 보이기도 한다. 하지만 합성된 문자열을 이해해야 하는 것은 여전히 인간이라는 존재다. 컴퓨터는 단지 인간이 의미를 부여할 수 있는 형태를 만드는 것이다.

언어모델이 조합해 내놓은 말이 고정관념이나 교묘한 혐오를 담고 있을 때 읽는 이에게 해로운 것은 당연하다. 방관자도 마찬가지다. 언어모델과의 상호작용을 통해 고정관념이 강화되면서 자신도 모르게 피해를 입을 수 있다.

크리스 맥거피와 알렉스 뉴하우스는 극단주의자들의 게시판과 모집 사이트에 GPT-3를 이용해 조합한 문장을 올렸을 때 그 게시판의 구독자들이 자신의 동조자가 실제보다 더 많다고 여기는 효과가 있음을 보여줬다. 마찬가지로 잘못된 번역이나 편향적인 문장도 문법에 맞게 쓰이고 유려하게 가다듬으면 사람들은 거기서 진정성을 느끼곤 한다.

여러 다른 피해 사례가 보고되고 있다. 개인식별정보
(PIIㆍPersonally Indentifiable Information)가 포함된 학습 데이터를 복제한 언어모델이 밝혀지기도 했다. 이 사례에서 언어모델이 개인식별정보를 인식하지 못했을 수도 있지만 그것은 결과물을 조작하는 데 이용될 수도 있다. 어찌 됐든 데이터와 요청(Query)들은 그리 믿음직스럽지 못 하다. 데이터 모음이 이용자 혹은 이해관계자와 무관하게 특정 보상체계에 의해 구성되기 때문이다.

위험을 완화하려면

벤더는 이러한 유해성을 완화할 수 있는 몇 가지 방안을 제안한다. 먼저 연구를 계획할 때 시간 배분을 숙고하는 것이다. 모델을 기획하고 평가할 때 조직은 에너지와 컴퓨터의 효율성을 따지는 동시에 데이터의 수집을 위한 역량 배분에 보다 더 의식적으로 개입해야 한다. 비나이 우다이 프라부[미국 카네기멜론대 출신 머신러닝 연구자]와 아비바 비르하네[아일랜드 더블린대학 출신 인지과학자]는 "세상의 아름다움과 함께 추한 것과 잔인한 것을 AI에 가르치면서 그것이 아름다운 것만을 배우길 바라는 것은 환상에 불과하다"고 지적했다.

또한 조직은 동기와 과정에 대한 근거를 문서화해야 한다. 언어모델의 잠재적 사용자와 이해관계자는 누구인지, 언어모델이 하류층에 도움이 되도록 설계할 수 있는지 사전에 따져봐야 한다. 개발자는 최악의 상황과 예상 밖의 일들을 고려하는 일종의 '사전 분석'을 통해 문제가 발생했을 때 그 원인을 되짚어 살펴볼 수도 있을 것이다.

물론 거대언어모델을 포기하는 데 따른 위험도 있다. 벤더는 "우리가 이 논문을 쓰면서 바랐던 일들이 이뤄지면 어떻게 될까"라고 묻는다. 불확실하고 비윤리적인 영역에 뛰어드는 대신 한발 물러서서 우리가 구축할 수 있는 시스템을 더 넓은 시각으로 살펴보면 어떨까.

우리는 음성 인식과 자동 자막에서 언어모델의 힘을 느낄 수 있다. 하지만 벤더가 질문했 듯이 이러한 이점을 누리려면 거대언어모델의 활용이 유일한 방법일까. 테라바이트 규모의 언어 데이터가 없는 소수만 사용하는 언어들에선 이러한 기술을 보다 간결한 방식으로 발전시켜 왔다. 이는 거대언어모델이 에너지 및 시간을 절약하기 위해 소수 언어를 배제하려는 경향이 있기 때문에 어쩔 수 없는 일이었다. 벤더는 "이러한 이점을 얻는데 있어 거대언어모델이 유일한 방법인 것은 아닐 것이라고 낙관한다"고 말했다.

+ + +

용어설명
신경망(Neural Network) 인간의 뇌가 신호를 주고받는 방식을 흉내내 만들어진 소프트웨어
트랜스포머(Transformer) 속도가 느리다는 단점을 개선한 새로운 신경망. 2017년 구글이 발표한 것으로 오픈AI의 챗GPT, 구글의 바드 등 거대언어모델의 핵심 기반이다. 챗GPT의 'T'가 트랜스포머를 말한다.
매개변수(Parameter) 학습 데이터의 처리 과정에서 적용되는 변수로 알고리즘의 작동 전 개발 과정에서 정해진다. 알고리즘이 작동할 때 외부에서 주어지는 입력값인 변수와는 다르다.
언어모델(Language Model) 학습 데이터를 기반으로 해 통계적으로 가장 적절한 어순으로 단어를 예측해 출력하는 시스템. 거대언어모델(Large Language Model)은 수십 억 개 이상의 매개변수로 구성된 언어모델을 말한다.
자연어 처리(Natural Language Processing) 컴퓨터가 인간의 언어를 알아들을 수 있게 하는 것.

Comments