[프라임경제] 이런 장면을 상상해보자. 연말 성과 면담 날, 상사가 화면을 켜고 인공지능(AI)이 산출한 지표들을 보여준다. 업무 처리 속도, 응답률, 정량화된 협업 점수. 숫자는 정밀하고 화면은 깔끔하다. 그런데 그 숫자들이 내가 지난 한 해를 보낸 방식을 얼마나 담아내고 있는지, 나는 확신이 서지 않는다. 숫자는 있다. 그러나 맥락이 없다.
측정과 평가는 달라 보이지 않는다. 그러나 이 둘은 근본적으로 다른 행위다. 측정은 관찰 가능한 것을 수치로 환산하는 일이다. 평가는 그 수치가 무엇을 의미하는지, 그 사람이 무엇을 이루었는지, 그 성과가 어떤 맥락에서 나왔는지를 종합해서 판단하는 일이다. AI는 측정에 강하다. 측정 가능한 것은 거의 무엇이든 처리한다. 그러나 평가는 다르다. 평가는 숫자 너머를 묻는 행위이기 때문이다.
이를 실험으로 포착한 연구가 있다. 스위스 장크트갈렌 대학교(University of St.Gallen)와 네덜란드 에라스무스 대학교 로테르담경영대학원(Rotterdam School of Management, Erasmus University Rotterdam) 연구팀은 한 가지 물음을 붙들고 총 1만3342명을 대상으로 12편의 실험을 설계했다.
평가자가 AI라는 사실을 알았을 때 사람은 다르게 행동하는가. 2025년 5월 발표된 논문 「AI 평가는 인간 행동을 바꾼다(AI assessment changes human behavior)」의 답은 분명했다. AI가 평가한다고 알려주자, 참가자들은 자신의 직관이나 감정적 특성을 억누르고 분석적인 면모를 부각시키려는 행동을 일관되게 보였다. 연구팀은 이를 'AI 평가 효과(AI assessment effect)'라고 명명했다. AI는 분석적 특성을 더 높이 평가할 것이라는 믿음이 실제 행동을 바꿔버린 것이다.
이 결과가 불편한 이유는 하나다. AI 앞에서 우리는 우리 자신의 일부를 지워간다. 평가받는 사람이 AI 앞에서 감정과 직관을 숨기는 순간, AI가 포착하는 것은 그 사람의 온전한 모습이 아니라 AI가 선호한다고 여겨지는 모습의 편집본이다. 측정 도구가 바뀌자 측정 대상 자체가 달라진 것이다. 측정이 측정 대상을 변형시킨다는 역설이 여기서 발생한다.
또 다른 방향에서 이 문제를 들여다본 연구도 있다. 하버드 대학교(Harvard University) 등 미국 여러 대학 공동 연구팀이 2024년 10월 발표한 논문 「AI는 인간이 더 나은 결정을 내리도록 돕는가(Does AI help humans make better decisions?)」는 실제 미국 위스콘신주 법정을 실험 현장으로 삼았다. 판사들을 두 집단으로 나눠 한쪽에는 피의자의 재범 위험을 수치로 계산한 AI 권고안을 제공하고 다른 쪽에는 제공하지 않았다.
결론은 예상과 달랐다. AI 권고안을 받은 판사들의 판단 정확도가 받지 않은 판사들보다 나아지지 않았다. 판사 대신 AI가 직접 결정을 내렸을 때는 오류가 더 많았다. 풀어서 말하면, AI는 위험하지 않은 사람을 위험하다고 잘못 판단하는 경우가 인간 판사보다 뚜렷하게 많았다. 판사가 법정에서 읽어내는 것들, 피의자의 표정, 변호인의 말투, 그 자리에 흐르는 맥락들은 수치에 담기지 않는 판단의 근거였다.
두 연구는 서로 다른 현장을 다루지만 같은 지점을 가리킨다. AI는 잘 측정한다. 그러나 측정이 곧 평가는 아니다. 측정은 데이터를 정제하는 일이고, 평가는 그 데이터를 살아있는 인간의 맥락 위에 올려놓는 일이다. 취업 면접에서 AI가 지원자의 답변 속도와 어휘 빈도를 측정하는 동안, 면접관이 감지하는 것은 다르다. 그 사람이 질문을 받고 잠시 멈추는 이유, 눈빛에 담긴 확신의 결, 자신의 실패를 말할 때 깃드는 솔직함. 이런 것들은 수치 밖에 있다.
우리가 AI에 측정을 맡기는 속도는 빠르다. 이를테면 교사의 수업은 학생 응답 데이터로, 의사의 진료는 처방 패턴으로, 직원의 성과는 로그 기록으로 측정될 수 있다. 문제는 이렇게 측정된 것들이 평가의 전부처럼 여겨질 때 생긴다. 수치로 잡히지 않는 것들이 조용히 무시되기 시작한다. 교사의 말 한마디가 학생의 진로를 바꾸는 순간, 의사가 검사 결과지 밖에서 병의 실마리를 잡아내는 순간, 관리자가 직원의 침묵에서 위기의 신호를 읽어내는 순간, 그런 것들이다. 중요한 판단은 대개 수치가 끝나는 자리에서 시작된다.
이 연재에서 말해온 텍스터는 AI가 산출한 수치를 평가로 받아들이는 사람이다. 숫자가 있으니 판단은 끝났다고 여긴다. 컨텍스터는 그 수치 앞에서 한 발짝 물러선다. 이 숫자가 무엇을 포착했고 무엇을 놓쳤는가. 이 측정이 이뤄진 맥락은 무엇인가. 이 숫자를 근거로 내가 끝까지 책임질 수 있는 판단은 무엇인가. 이 세 질문이 측정을 평가로 바꾸는 과정이다.
숫자는 많아질수록 더 설득력 있어 보인다. 그러나 숫자가 많다는 것이 판단이 깊다는 것을 뜻하지 않는다. 측정은 지도를 그리는 일이고, 평가는 그 지도 위에서 어느 길을 갈지 결정하는 일이다. 지도가 아무리 정밀해도, 걸음을 내딛는 것은 사람이다. AI가 측정의 정밀도를 높이면 높일수록, 그 정밀함에 의존하지 않고 스스로 판단하는 능력은 더 희소해지고, 동시에 더 결정적인 것이 된다. 모두가 같은 수치를 보는 시대에, 그 수치 너머를 묻는 사람만이 진짜 평가자로 남는다. 그리고 평가자만이, 결국 어떤 AI도 대신할 수 없는 자리에 선다.
최홍규 EBS 연구위원 / 미디어학 박사