[프라임경제] 인공지능과 머신러닝을 활용한 기술은 의료, 자율주행, 금융 등 다양한 산업 분야에서 성과를 만들어 내고 있다. 이처럼 인공지능과 머신러닝이 현실적 수요에 부합하는 서비스를 제공하기 위해서는 학습을 위한 다량의 데이터가 필수적이다.
그러나 개인정보 보호법과 같은 법적 규제로 인하여 개인정보를 직접적으로 활용하는 행위는 많은 제한을 받는다. 많은 기업이 공개 데이터를 활용하고 있기는 하지만, 공개 데이터의 종류, 수량, 생성 속도에는 한계가 있기 때문에 각 기업이 다양하고 복잡한 목적으로 활용할 수 있는 대안으로 합성 데이터가 주목받고 있다.
합성 데이터는 컴퓨터 시뮬레이션 또는 알고리즘에 의해 생성된 정보로, 원본 데이터의 구조적 및 통계적 속성을 재현한 데이터이다. 숫자, 텍스트, 이미지, 비디오, 표 등 다양한 형식으로 생성될 수 있으며, 원본 데이터와 유사한 특성을 유지하면서도 개인정보 침해의 위험을 최소화할 수 있다.
이러한 특성 덕분에 인공지능/머신러닝 모델 학습, 자율주행 테스트 시뮬레이션, 의료 데이터 분석 등에서 데이터 부족 문제를 해결하는 핵심적인 역할을 하고 있다.
현행 법 체계에서는 합성 데이터가 설정된 안전성 수준에 따라 익명정보 또는 가명정보로 판단될 수 있다.
가명정보는 원래 상태로 복원하기 위한 추가 정보를 사용하거나 결합하지 않으면 특정 개인을 식별할 수 없는 정보로, 여전히 개인정보의 범주에 포함되는 반면, 익명정보는 시간, 비용, 기술 등을 합리적으로 고려했을 때 특정 개인을 식별할 수 없는 정보로 개인정보의 범주에서 제외된다.
따라서 합성 데이터가 익명정보로 인정받은 경우에는 별도의 관리를 필요로 하지 않고 자유롭게 활용할 수 있다.
그러나 실무적으로는 합성 데이터의 생성 방식, 활용 조건 등에 대한 불확실성으로 인하여 합성 데이터 활용을 망설이는 기업들이 많다. 이를 해결하기 위해 최근 개인정보보호위원회가 개인정보보호법을 준수하며 합성 데이터를 생성하고 활용할 수 있는 기준과 방법을 제시한 안내서를 발간했다.
합성 데이터의 생성 및 활용 절차는 ① 사전 준비, ② 합성 데이터 생성, ③ 안전성 및 유용성 검증, ④ 심의위원회 평가, ⑤ 활용 및 안전한 관리의 다섯 단계로 이뤄진다. 이 중 특히 생소하게 느껴질 수 있는 단계가 안전성·유용성 검증과 심의위원회 평가이다.
안전성 검증은 생성된 합성 데이터를 통해 원본 데이터 내 특정 개인이 식별될 가능성이 있는지를 검증하는 단계로, 익명성을 인정받기 위해 필수적인 절차인 반면, 유용성 검증은 합성 데이터와 원본 데이터의 분포 특성이 유사한지, 동일한 목표를 달성할 수 있는지 등을 확인하는 선택적 단계이다.
심의위원회 평가는 합성 데이터가 익명정보에 해당하는지 여부를 객관적으로 확인할 수 있는 방법으로, 역시 반드시 거쳐야 하는 절차는 아니다.
합성 데이터의 익명성을 스스로 검토 및 판단하는 것도 가능하지만, 생성된 합성 데이터를 통해 원본 데이터 내 개인이 식별될 가능성이 있는지를 검증하는 기준이나 방법에 대해서는 아직 명확히 확립된 판단 기준이 없는 상황이므로 합성 데이터를 익명정보로 자유롭게 활용하고자 한다면 심의위원회의 객관적인 평가를 받는 것이 더욱 바람직하다.
한편, 원본 데이터를 보유하지 않은 외부 기관이 합성 데이터를 생성할 수도 있다. 다만, 이 경우 위·수탁 계약을 체결하여 합성 데이터를 생성하는 경우와 제3자 제공 동의를 별도로 받아 데이터를 처리하는 경우에 원본 데이터 보유자와 합성 데이터 생성자 간의 법적 관계와 책임 범위가 달라질 수 있다. 또한, 원본 데이터의 특성에 따라 개인정보 보호법 외의 다른 법률을 준수해야 할 수도 있다.
예를 들어, 보건의료 데이터를 활용하여 합성 데이터를 생성하는 경우, 해당 연구가 기관생명윤리위원회의 심의 대상에 해당할 경우 별도의 심의 절차를 거쳐야 한다. 따라서 각 방식에 따른 법적 요구 사항을 충족하고, 개인정보 보호법과 기타 관련 법령, 그리고 필요한 심의 절차를 준수하기 위해서는 법무법인의 전문적인 검토와 자문을 받는 것이 권장된다.
개인정보 보호법을 준수하며 안전하고 유용한 합성데이터를 생성하고 활용하는 방법에 대한 이해는 스타트업이 경쟁력을 강화하고 새로운 기회를 발굴하는 데 중요한 기반이 될 것이다.
이번 안내서가 제공하는 가이드라인을 통해 혁신적인 서비스를 개발하고자 하는 스타트업이 합성 데이터의 가능성을 최대한 활용하기 위한 실질적인 도움을 받을 수 있기를 바란다.
김민혜 법무법인 디엘지 변호사/ KAIST 전기 및 전자공학부 석사 졸업