메러디스 휘태커 시그널 CEO - 우리의 편향은 AI에 반영될 수밖에 없다

우리의 편향은 AI에 반영될 수밖에 없다
메러디스 휘태커 시그널 CEO


시대를 움직이는 기술이 등장하는 시기가 있다. 철기를 사용할 수 있게 된 때, 증기 기관차가 달리기 시작한 때, 개인용 컴퓨터가 개발된 때 우리는 무슨 일이 일어나는지 깨닫지도 못한 채 시대가 뒤집히는 것을 목격했다. 지금이 바로 그런 때인지도 모른다. 생성형 AI라는, ‘존재’의 등장은 우리가 상상하는 것 이상으로 이 세계를 빠르게 바꿔 나가고 있다. 하지만, 이 기술이 과연 인류를 더 행복하게 해줄 것인지에 관해서는 전망이 갈린다. ‘안전한 AI’를 개발해 나가기 위해서는 속도를 늦추고 원칙을 세워야 한다고 주장하는 학자들도 있다. 메러디스 휘태커는 2006년부터 구글에서 일하며 ‘오픈 리서치 그룹’을 설립하기도 했던 업계의 전문가다. 2017년 말, 구글이 미군과 비밀 AI 프로젝트를 진행하고 있다는 사실을 알게 돼 공개 비판에 나섰으며, 2019년 사상 초유의 구글 파업 사태를 주도하기도 했다. 구글 퇴사 이후에는 백악관, 유럽 의회 등 여러 정부 기관과 시민 단체에서 AI, 개인 정보 보호 및 보안에 대한 자문을 제공해 왔다. 2021년부터 미국 연방거래위원회(FTC) 위원장 AI 수석 고문으로 일하기도 했다. 휘태커는 업계의 생리를 잘 아는 사람으로서 경고한다. 지금의 생성형 AI는 기업의 이익 창출을 위한 것일 뿐, 사회적 책임에는 관심이 없다는 것이다. 비영리 보안 메신저 ‘시그널(signal)’의 CEO인 휘태커는, 현재의 패러다임을 뒤집어야 한다고 이야기한다.

생성형 AI 산업이 빅테크 기업들의 감시 데이터를 기반으로 성장했다는 점을 강조하고 있다.

지금의 AI 기술에 대한 열풍은 사실 새로운 것이 아니다. 10여 년 전, AI 기술이 주목받기 시작했을 때도 당시의 기술은 1980년대 후반에 개발된 것이었다. 하지만 2012년 무렵, 빅테크 기업들이 방대한 양의 데이터를 수집하고 이를 강력한 컴퓨팅 파워와 결합시켰다.

AI 이전에도 빅테크는 데이터를 활용해 이윤을 창출했다.

단순한 데이터 수집이 아니었다. 이러한 데이터를 통해 사용자들의 행동을 예측하고 관리하는 데 활용되었다. 예를 들어, 광고를 누구에게 보여줄지 결정하거나, 뉴스 피드를 알고리즘이 큐레이션하여 사용자의 참여도를 높였다. 결국, AI 산업의 성장도 이러한 감시 데이터와 빅테크 기업들의 막대한 컴퓨팅 파워 덕분에 가능했다고 볼 수 있다.

여전히 AI 기업에 데이터는 화두다.

감시 데이터를 보는 관점이 중요하다. 힘을 가진 사람들이 나머지 사람들을 분류하고 관리하기 위해 데이터를 사용하는 방식으로 이해할 필요가 있다. 예를 들어, 웹에 공개된 데이터도 감시 데이터로 사용할 수 있다. 내가 2000년대 초에 Flicker 서비스에 사진을 업로드할 당시에는 그 사진들이 어떻게 사용될지 알지 못했다. 하지만 지금 그 데이터들은 ‘클리어뷰(Clearview)’와 같은 회사에 의해 얼굴 인식을 위한 데이터로 활용되고 있다.

그렇다면 AI 모델이 특정 인종이나 계층에 대한 편향을 강화할 수 있다고 보나?

그런 위험이 있다. 우리가 갖고 있는 편향, 불평등, 힘의 불균형 등이 AI 모델에 반영될 수밖에 없다. AI 모델을 학습시키기 위한 데이터가 우리의 과거이자 현재이기 때문이다. 데이터를 아무리 정제한다고 해도 그러한 요소를 완벽히 제거할 수는 없다. AI 모델은 우리가 속해 있는 사회적, 역사적 현실을 반영한다. 또한, 마이크로소프트, 구글, 아마존, 메타 등은 미국에 기반을 둔 회사다. 다른 곳에서는 우려할 만한 부분이다. 이 회사들의 서비스는 과학적 진보의 산물이라기보다는 이윤 추구를 위해 배포된 제품들이다. 이들은 백엔드에서 보안 관행, 데이터 처리 방법, 데이터 판매 여부, 데이터를 AI 훈련에 사용할지 여부 등을 결정할 수 있다. 따라서 우리는 기술이 중립적이라는 전제하에, 문제에 접근해서는 안 된다. 궁극적으로 이익을 극대화하기 위해 설계된 제품이라는 점을 인식해야 한다. 특히 트럼프가 재집권할 가능성이 커지고 있으며 지정학적 변화가 일어나고 있다는 점을 고려할 때 더욱 주의할 필요가 있다.

AI가 일상으로 들어오면서 보안 관련한 우려도 크다.

많은 사람들이 AI를 인간과 유사한 시스템으로 생각한다. 그러나 AI는 소프트웨어일 뿐이다. 따라서 보안 취약점도 당연히 존재한다. 개인적으로 챗GPT와 같은 생성형AI 도구를 사용하지 않는다. 이러한 도구를 사용할 때 사용자는 자신이 입력하는 모든 정보가 AI 기업에 공유된다는 사실을 인지해야 한다. 대기업조차 반복적으로 데이터 유출을 겪고 있다. 예를 들어 구글의 모회사인 알파벳 산하의 ‘23andMe’의 경우 유전자 분석 데이터가 유출된 사건을 겪었다. 미국 통신사에서도, 한국의 삼성에서도 비슷한 일이 있었다.

그래서 주목받고 있는 것이 바로 온디바이스 AI다. 또, 구글에서는 ‘연합 학습’ 기술 등 보안을 유지하면서 AI 모델을 학습시킬 방법을 내놓기도 했다.

이론적으로는 도움이 될 수 있지만, 현재로서는 이러한 기술이 실제로 모든 문제를 해결할 수 있을지 확신할 수 없다. 예를 들어, 거대 모델들은 여전히 클라우드에서 실행되며, 개인 디바이스에서 처리하기 힘들다. 또한, 온디바이스 모델이 사용자의 데이터를 외부로 보내지 않는다고 하더라도, 여전히 그 데이터는 누군가에 의해 처리된다. 그 주체가 누구인지, 어떤 권력을 어떻게 활용하고자 하는지 등의 문제가 남는다. 결국, 기술이 진보하는 만큼 기술 산업의 이윤 추구 구조 자체를 바꿀 필요가 있다.

오픈AI나 앤트로픽과 같은 곳은 비영리로 시작했지만, 마이크로소프트와 아마존과 같은 빅테크로부터 큰 투자를 받았다.

거대 언어 모델(LLM)을 활용한 대형 AI 모델을 개발하기 위해서는 막대한 자원이 필요하다. 빅테크만이 이러한 자원을 제공할 수 있다. 결국, 빅테크의 투자와 지원 없이 AI 비영리 조직이 시장에서 생존하기는 어렵다. 깊이 있는 논의가 필요한 부분이다.

‘시그널’은 여전히 비영리 조직으로 운영되고 있다.

우리가 ‘보안’을 최우선으로 두고 있기 때문이다. 빅테크의 주요 수익 모델은 감시 데이터를 이용한 이윤 추구다. 우리가 영리 조직이었다면 수익 창출에 대한 압박이 분명 있었을 것이다. 투자자들은 수익을 바란다. 자선단체가 될 생각으로 비영리 조직을 선택한 것은 아니다. 외부의 압박 없이 우리의 미션에 집중하기 위해서는 비영리 조직이 최선의 선택이었다.

유럽연합의 AI 법, 미국 바이든 정부의 AI 행정명령 등 세계적으로 규제 움직임이 일고 있다. 생성형 AI 분야를 이끌고 있는 기업들은 ‘프론티어 모델 포럼’을 조직하여 이에 발맞추고 있다. 어떻게 평가하나?

올바른 방향으로 가고 있다고 평가하기는 어렵다. 명확한 계획이 보이지 않고, 법 조항은 모호하거나 다수의 예외 조항을 포함하고 있어 우려스럽다. 프론티어 모델 포럼에서는 여러 가지 아이디어가 제시되고 있지만, 실제로 기업들이 이를 어떻게 이행할지는 별개의 문제다. 더욱이 AI가 실제로 매우 위험하게 사용되는 예시는 이미 너무 익숙하다. AI 시스템이 이스라엘 가자지구에서 사용되어 자동으로 표적을 식별하고, 주거지와 건물을 폭격하는 데 사용되고 있다는 보고도 있었다. 우리가 진정으로 AI 안전을 고려한다면, 이러한 사례에 좀 더 집중해야 할 것이다.

일각에서는 프론티어 모델 포럼이 시장에 새롭게 진입하고자 하는 스타트업의 사다리를 걷어차고자 한다는 의혹도 제기된다.

AI 스타트업들이 빅테크의 자원을 필요로 하는 상황에서는 스타트업이 할 수 있는 일은 몹시 제한적이다. AI와 관련된 권력이 일부에게 집중되어 있다는 문제를 시급하게 다뤄야 한다.

AI 스타트업을 꿈꾸는 한국 청년들에게 한마디 해 준다면?

작은 AI 모델들, 창의적인 접근 방식을 통해 흥미로운 문제들을 해결할 수 있을 것이다. 빅테크가 주도하고 있는 ‘거대할수록 더 좋은 AI 모델’이라는 패러다임을 벗어나야 한다. 새로운 길을 모색해야 할 때다.


신아람 에디터

* 2024년 8월 28일에 이메일로 전해 드린 ‘북저널리즘 톡스’입니다. 다르게 생각하는 사람들의 인터뷰를 메일함에서 바로 받아 보시려면 뉴스레터를 구독해 주세요. 뉴스레터 구독하기

Close