자유게시판 및 Q&A

과학 하는 AI, 어디까지 믿을 수 있을까?

등록일: 2023-03-15
작성자: 바이오제약공학과
조회수: 89

인공지능 기술은 최근 10년 간 비약적으로 발전해 왔습니다. 학계와 대중의 주목을 고루 받고 있으며 연구비 규모 역시 날이 갈수록 커지고 있지요. 보통 지금의 흐름을 만들어낸 전환점으로는 보통 2012년에 발표된 알렉스넷(AlexNet)[1]을 꼽습니다. 알렉스넷 논문은 2023년 1월 기준으로 12만 번이 넘게 인용되었어요. 이후 컴퓨터과학 연구자를 중심으로 조용히 혁신이 진행되던 와중, 2016년 알파고 대국을 계기로 대중들의 입에도 오르내리게 되었지요. 2017년의 어텐션과 트랜스포머[2], 2022년 연말에 발표된 ChatGPT도 중요한 사례입니다.

컴퓨터과학 이외의 분야에서도 트렌드에 민감한 연구자들을 중심으로 AI의 중요성은 날로 높아지고 있습니다. CPU나 GPU의 집적도가 기하급수적으로 늘어나면서 합리적인 예산으로도 고성능 컴퓨터를 구축할 수 있게 되었습니다. 인프라가 발전하고 사용성이 개선되면서 복잡한 저수준 프로그래밍을 하지 않고도 GPU를 동원하여 AI를 훈련시킬 수 있게 되었고, 유튜브 강의나 대학의 온라인 공개강좌(MOOC)가 늘어나면서 반드시 컴퓨터과학 전공자가 아니더라도 간단한 AI를 본인의 연구에 접목할 수 있게 되었지요. 요즘에는 공대와 자연대, 의대를 막론하고 거의 모든 분야에서 AI를 활용한 연구가 수행됩니다.

하지만 AI 분야가 항상 이처럼 주목받았던 것은 아닙니다. 역사적인 흐름을 살펴보면 AI 연구에 대한 관심이 급격히 줄어들어서 연구비를 따기도 어렵고 결과를 출판하기도 어려운 혹한기가 나타나곤 했습니다. 이런 시기를 인공지능의 겨울(AI Winter)이라고 부르곤 하는데, 연구개발 분야의 큰손인 미국 정부의 지원금이 대량 삭감되는 사건을 계기로 했던 적이 많습니다. 마치 주식시장의 거품이 꺼지며 폭락장이 이어지는 것처럼, 인공지능의 겨울은 대개 AI가 어떤 문제든 해결할 수 있을 것 같은 기대(hype)가 사라지며 나타나는 경우가 많았습니다.

다가올 AI 겨울의 계기는 무엇일까요? 이번 호황만큼은 끝나지 않을 거라고 생각하는 사람들도 많고, AI 겨울이 올 거라고 외치는 사람들 사이에서도 의견이 분분합니다만, AI의 재현성 위기(reproducibility crisis)를 짚어봐야 한다는 견해가 많습니다.[3,4] AI의 재현성 위기 역시 다른 분야에서처럼, 논문으로 발표된 AI 모델의 성능을 검증해 보았을 때 논문의 주장이 재현되지 않는 상황을 말합니다. 특히 과학 문제에 적용된 AI 모델이 실제로는 주장하는 만큼의 성능을 내지 못하여 문제가 드러나는 경우가 많습니다.

최근에는 질병의 조기 진단을 목표로 도입된 의료 AI의 상당수가 유의미한 성능을 보이지 못했다는 분석이 발표되면서 논란을 일으키기도 했지요. 코로나19 감염을 빠르게 진단하기 위해 개발되고 발표된 수백 종의 모델을 체계적으로 분석한 결과, 실제로 의료 현장에 적용할 수 있는 모델은 단 하나도 없었다는 연구가 발표되기도 했습니다.[5] 40만 명의 환자 정보로 훈련된 패혈증 예측 모델이 실제 패혈증 환자 중 67%를 음성으로 판정했다는 분석도 있었고요.[6]

재현성 위기는 왜 나타나고 있을까요? 근본적인 원인 중 하나는 AI로 해결하려는 문제가 대개 매우 복잡하고 상관관계를 찾기 어렵다는 데 있습니다. AI 알고리즘은 흔히 ‘블랙박스’라고 불립니다. 입력을 넣으면 출력이 나오긴 하지만, 내부를 들여다볼 수도 없고 작동 원리를 직관적으로 이해할 수 없기 때문에 블랙박스라는 거죠. 어려운 문제를 풀기 위해 복잡한 수치 모델을 도입하는 만큼, 블랙박스와 데이터가 어떻게 상호작용하는지 논문의 저자도 학술지의 편집위원도, 전문가 리뷰어마저도 한눈에 알아보기 어렵습니다. 사실 현대 AI의 최고 권위자들도 자신들이 다루는 모델의 작동 원리를 완전히 이해하는 데는 실패했기 때문에, 이는 분야 자체가 갖는 근본적인 한계점이라고 볼 수 있겠습니다.

하지만 AI의 근본적인 어려움 이외에도, AI 기법 자체가 컴퓨터과학 외적으로 확장되면서 나타나는 과도기적 영향도 있는 것 같습니다. 서두에서 언급했든 지금은 연구자들이 몇 개월 정도 시간을 투자하면 간단한 AI 모델을 구축하여 자신의 데이터를 투입하여 AI 연구 결과를 내는 것이 그리 어렵지 않습니다. 그러나 이처럼 단기간 공부하여 활용하는 연구자들의 경우 데이터의 분포나 결함을 분석하는 역량이 전업 AI 연구자에 비해 떨어질 수밖에 없고, 재현성 이슈를 일으킬 만한 문제점을 잘 찾아내지 못하곤 합니다. 컴퓨터과학 외부 분야에서는 학술지의 편집위원과 리뷰어들 역시 AI 전문가들이 상대적으로 적기 때문에 논문 심사 과정에서 기초적인 오류가 걸러지지 않는 경우도 충분히 생길 수 있습니다. 실제로, 의학 분야의 AI 연구논문들이 타 분야에 비해 데이터셋이나 코드를 공개하지 않는 등 재현성을 평가하기 위한 수단이 부족하다는 분석도 있었지요.[7] 이는 개별 연구자의 잘못이나 역량 부족이라기보다는, 아직 AI를 적용한 과학 연구가 충분히 자리잡지 못하여 검증 절차가 표준화되지 못한 탓이겠습니다.

다학제 간 연구가 갖는 어려움이 한몫한다고 볼 수도 있습니다. 대규모 소프트웨어를 사용하는 시뮬레이션 연구 역시 AI처럼 다학제적 성격을 띱니다. AI와 마찬가지로, 컴퓨터의 가격 대 성능비가 빠르게 개선되고 소프트웨어의 사용성이 개선되면서 21세기 들어 시뮬레이션 연구의 비중 역시 크게 늘어났지요. 개발 역량과 연구 역량을 함께 갖추는 일이 워낙 어렵다 보니 치명적인 버그가 있는 소프트웨어가 걸러지지 않고 발표되기도 하고, 크게 주목받은 연구결과가 재현되지 않아 여러 사람이 고생했던 사례가 많이 있었습니다. 최근에는 미국화학회(ACS)를 비롯한 연구 기관에서 적극적으로 계산과학 연구의 표준을 제안하면서 재현성 위기에 대응하는 움직임을 보이고 있지요.[8]

재현성 위기는 잊을 만하면 수면 위로 떠오르며 연구자들을 긴장시키는 주제입니다. 현대과학의 기반을 흔드는 심각한 문제이기도 하지만, 논쟁을 거쳐 프로토콜을 확립하면서 과학은 더 발전할 거라고 희망을 품는 사람들도 많지요. 최근에는 바이오·의학을 비롯한 과학 연구에서 AI를 활용할 때 실수를 줄이고 재현성을 높이기 위한 방법론도 여럿 제안되고 있으니, AI와의 학제 간 연구를 준비하는 연구자라면 흐름을 놓치지 말고 지켜봐야 하겠습니다.

*참고 문헌

[1] A. Krizhevsky et al., Commun. ACM 60, 84 (2017).

[2] A. Vaswani et al., Adv. Neur. Inf. Process Syst. 30 (2017).

[3] E. Gibney/Nature News, Could machine learning fuel a reproducibility crisis in science? (Jul. 26, 2022).

[4] J. Aasman/Forbes, How to avoid another AI winter (Feb. 14, 2020).

[5] M. Roberts et al., Nat. Mach. Intell. 3, 199 (2021).

[6] A. Wong et al., JAMA Intern. Med. 181, 1065 (2021).

[7] M. B. A. McDermott, Sci. Transl. Med. 13, eabb1655 (2021).

[8] K. M. Merz Jr. et al., J. Chem. Inf. Model. 60, 5868 (2020).

출처: [BRIC Bio통신원] [여우원숭이가 읽어주는 오늘의 과학기술] 과학 하는 AI, 어디까지 믿을 수 있을까? ( https://www.ibric.org/myboard/read.php?Board=news&id=348981 )

출처: [BRIC Bio통신원] [여우원숭이가 읽어주는 오늘의 과학기술] 과학 하는 AI, 어디까지 믿을 수 있을까? ( https://www.ibric.org/myboard/read.php?Board=news&id=348981 )

프린트