최근에 쓴 논문의 내용을 바탕으로 HBR 기사를 투고했다. 요약하자면:

데이터를 기반으로 복잡하고 불투명한 (머신러닝) 분석을 도입하는 것도 좋지만, 데이터로부터 추출한 아주 간단한 “규칙"만 가지고도 (데이터가 없는 것 보다) 꽤나 좋은 성과를 달성할 수 있다.

자세한 이야기

기계 학습(머신러닝), 데이터, 그리고 의사 결정

알파고가 새로운 바둑 챔피언으로 급부상하면서, 머신러닝에 대한 관심도 세계적으로 높아지고 있다. 더불어, 바둑과 같은 복잡한 시스템을 이해해서 인간도 이길 수 있는 기술력이 있다면, 정치/사회/경제/의학 등 다양한 분야에도 그 기술을 적용해서 널리 이롭게 하고자 하는 의견도 적지 않다. 실제로, 기계 학습을 이용해서 범죄 용의자를 찾거나 각종 질병을 보다 정확하게 진단하는 등의 연구는 알파고가 위세를 떨치기도 전부터 수십년째 인기가 계속 되고 있다.

하지만, 알파고와 같은 기계 학습 기술은 인간의 직관이나 이해와는 무관하게 ‘훈련’이 되었다는 점에서 인간의 의사결정에 활용하기엔 문제가 있다. 바둑의 경우, 알파고가 어떤 수를 왜 두었는가에 대한 깊은 이해가 없더라도, 결과적으로 이겼는가 졌는가를 가지고 기계의 ‘성과’를 문제 없이 평가할 수 있지만, 원인/결과/영향력의 이슈가 조금만 복잡해지면 기계 학습을 통한 의사결정은 그 능력을 상실하게 된다.

구체적인 예로, 90년대에 있었던 한 폐렴 관련 연구¹는

연구 결과, 데이터를 활용한 기계 학습 방법은 폐렴 환자의 위험을 정확하게 진단했다.

다만, 알파고가 왜 어떤 수를 두었는지 알 수 없듯, 왜 어떤 환자들은 고위험군이고, 어떤 환자들은 저위험군인지 알 수는 없었다. 알고리즘의 놀라운 정확도에 힘 입어, 실제로 도입을 하려던 찰나에, 의사들과 상의 하던 연구자들은 이상한 현상을 발견했다. 천식 병력이 있으면 폐렴이 치명적임에도 불구하고, 알고리즘은 천식 환자들을 한결 같이 저위험군으로 분류한 것이다. 알고보니, 천식환자가 폐렴 증세로 입원을 할 경우, 워낙 위험도가 높기 때문에 바로 응급실로 이송이 되어 최우선순위의 치료를 받게 되는데, 그 결과 오히려 사망률이 낮았던 것이다. 그리고, 단순히 데이터로부터 패턴을 학습한 알고리즘은, “천식 환자는 사망률이 적다"는 관계만 배웠던 것이다.

투명성과 “성능”

위의 예에서 볼 수 있듯, 인과관계나 파급력이 불분명한 의사결정에서 의사결정 과정의 투명성은 치명적일 수 있다. 천식/폐렴과 같이, 우리가 이미 잘 알고 있는 관계는 직접 확인을 할 수 있다 치더라도, 앞뒤 가리지 않고 정치/경제/사회 등 분야에 데이터를 이용한 기계 학습을 도입한다면, 우리는 상상도하지 못한 수 많은 “오류"를 알고리즘은 배우게 될 위험이 있다. 반면, 연구자들 사이에서는, 인간이 이해할 수 없는 “복잡함"이 없이는, 알파고와 같은 알고리즘이 달성하는 좋은 성과를 이룰 수 없다는 신념이 강하게 있는데, 최근에 쓴 논문에서는, 반드시 그렇지 않다는 사실을 발견했다.

한 예로, 미국 형사 재판 과정에서 보석금(bail)을 설정하는 문제를 살펴 보았다. 미국에서는 형사 사건 관련한 용의자가 체포 되었을 때, 바로 재판(trial)을 하는 경우는 몹시 드물다. 하지만, 재판이 없이는 범죄의 유무를 따질 수가 없기 때문에, 무죄의 가능성이 있는 용의자를 가둘 수도, 유죄 일 가능성이 있는 용의자를 그냥 풀어줄 수도 없다. 때문에, 판사(judge)는 도주의 위험이 있는 용의자에게는 보석금을 요구해서, 보석금을 내면 풀어주고, 내지 못한다면 재판날까지 감옥에 가둔다. 물론, 보석금을 낸 용의자가 도주하지 않고 재판날에 맞춰 나타난다면 보석금을 전액 환불 받고, 재판관이 판단했을 때 도주 위험이 없는 용의자는 보석금 없이 풀어줄 수도 있다. 결국, 1차적으로 판사는 용의자의 도주 위험을 판단해서 보석금을 설정할지 말지를 결정해야 한다.

논문에서는 두 가지 방법으로 이 문제를 다루었다. 하나는, 용의자에 대한 수십가지 정보와 알파고와 같은 복잡한 알고리즘을 동원해서 용의자의 도주 위험도를 예측하는 것이었고, 또 하나는 과거 데이터를 이용하되, 용의자의 나이와 과거 도주 경력만을 가지고 용의자의 도주 위험도를 예측하는 단순한 방법이었다.

놀랍게도, 두 방법 간에는 큰 성과 차이가 없었다. 뿐만 아니라, 그 외에도 기계 학습이 흔히 활용되는 22 가지 의사결정 문제에 같은 실험을 했을 때도 결과는 마찬가지였다. 물론, 정확히 따지자면, 단순한 방법이 복잡한 방법보다 조금은 성과가 떨어졌지만, 과연 그 성과 차이가 인간이 이해할 수 있는 과정/결론과 그렇지 못한 것 간의 격차를 무시 할 만한지는 불분명하다.

예를 들어, 위 보석금 문제의 경우, 복잡한 모형과 단순한 모형이 모두 도주 위험이 높다고 분류한 용의자들을, 판사들은 현실적으로 대거 보석금도 없이 풀어주는 현상을 발견했다².

좋은 의사결정

크게는, 과연 “좋은 의사결정"이란 무엇인가 생각 해 볼 수 있다. 다시 알파고의 예로 돌아가서, 만약 알파고의 지시를 받고 바둑을 둔다면, 내가 왜 무슨 이유로 어떤 계획을 가지고 수를 두고 있는지 알 수 없더라도, 결과적으로 이기기만 한다면, “좋은 수를 두었다"고 말 할 수 있을까? 음주 운전을 했지만 집에 무사히 도착한 사람과, 음주 운전을 하지 않으려고 택시를 탔다가 사고가 나서 죽은 사람 간에 누가 더 “좋은 의사결정"을 한걸까? 보다 일반적으로, 좋은 결과를 가져오는 의사결정이 “좋은 의사결정"일까?

가치관과 철학에 따라 다를 수 있겠지만, 내가 생각하기에 의사결정의 좋고 나쁨은 결코 그 결과의 좋고 나쁨으로 평가 할 수 없는 것 같다. 오히려, 의사결정을 내리는 당시의 신념, 투명성, 확신으로만 그 의사결정의 질을 평가 할 수 있고, 그런 의미에서 — 적어도 인간이 내리는 의사결정에 있어서는 — 아무리 정확도가 높은 방법/기술도 인과관계나 과정에 대한 투명하고 이해 가능한 해석이 없이는 “좋은 의사결정"에 보탬이 되기 어려울 것이다.

보다 자세한 이야기는 해당 연구를 한 Richard Caruana 본인의 강의 영상에서 확인 할 수 있다 https://vimeo.com/125940125 폐렴 발병 환자의 위험도를 예측하는 데에 기계 학습을 활용하고자 했다. 연구의 목적은, 환자의 특성(나이, 병력, 성별 등)을 기반으로 어떤 환자들이 더 “위험"한지(사망에 이를 가능성이 큰지)를 정확하게 측정해서, 가장 위험에 처한 환자들을 우선으로 응급 치료하고, 위험이 적은 환자는 일단 귀가조치 하고 지켜 본다는 것이었다. ↩︎
이는 최근 나온 다른 논문에서 나타난 현상과 동일한데, 이들의 결론은 판사들이 용의자의 위험을 판단하는 능력이 생각보다 낮다는 것이었다. 복잡한 모형만을 이용했다면, “판사들이 용의자의 실제 위험을 판단하는 능력이 없다"는 다소 당연한 결론에 도달 할 것이다. 하지만, 위험도를 평가하는 기준과 과정이 투명한, 단순한 방법으로 봤을 때, 판사들이 풀어주는 소위 “고위험군” 용의자들이 대부분 18–21 세 사이의 청소년임을 쉽게 볼 수 있었다. 복잡하고 정확도가 조금 더 높은 방법을 무작정 도입한다면, 이 청소년들을 풀어주지 않고 일관적으로 보석금을 설정하게 되는 반면, 단순하고 투명한 방법을 도입함으로 인해 어쩌면 이 고위험도의 청소년들에게는 보석금 제도가 아닌, 일단 풀어주되 수시로 보호/관찰을 하는 등의 다른 제도를 적용하는 보다 최적의 가능성을 고려 해 볼 수 있게 된 것이다. 이 경우, 누가 도주를 할지 보다 정확하게 집어낸 복잡한 방법이 얼마나 더 정확해야 “더 좋다"고 할 수 있을지는 모르겠다. ↩︎