양질의 교육이 훌륭한 인재를 만드는 것처럼 ‘좋은 인공지능(AI)’ 역시 고품질 학습 데이터에서 나온다. 한국 사회에서 유용한 AI를 만들려면 한국의 언어, 제도, 문화, 산업 현실이 담긴 데이터가 필요하다. 좋은 데이터를 확보하는 일은 당연히 쉽지 않다. 민간의 고품질 데이터는 대부분 저작권 문제가 걸려 있고, 해당 권리자는 자신의 데이터가 AI 학습에 사용되는 것을 반기지 않는 경우가 많다. 관련 법과 제도도 아직은 AI 산업 편이 아니다.
그래서 민간 데이터 대신 활용할 수 있는 자원으로 행정, 복지, 안전, 산업 환경 등의 다양한 데이터들이 방대하게 축적된 공공데이터가 주목받는다. 이것들은 제대로 정리되기만 한다면 국내 AI 기업들에 중요한 자산으로 활용되어 전체 경쟁력을 높일 수 있다.
여기서 ‘제대로 정리된다면’이라는 단서가 중요하다. 공공데이터는 애초 행정의 효율을 위한 것이지, AI가 현실을 배우는 데 쓰이고자 만들어진 것이 아니기 때문이다. 민원 기록은 민원 처리를 위해, 시설 점검 데이터는 행정 보고를 위해, 산업 현장의 기록은 업무 관리와 사후 증빙을 위해 가장 적합한 방식으로 구성돼 있을 것이다. 이것들을 무제한 공개한다고 곧바로 좋은 AI 학습 데이터가 되지는 않는다. 인터넷에 퍼져 있는 방대한 데이터를 무작정 제공한다고 학생들이 좋은 인재로 성장하지 않는 것과 마찬가지다.
그래서 공공데이터를 AI 학습용으로 바꾸는 사업이 서서히 등장하고 있다. 데이터 획득, 정제, 가공, 검수 절차를 만들고 품질 관리 가이드를 적용하는 것이다. 이것은 어린이 교육을 위해 인터넷상의 자료를 활용해 교과서를 제작하는 일과 비슷하다. 자료를 잘 정리해 구성한다면 시대에 맞는 좋은 교과서가 나올 것이다. 그렇지 못하면 해로운 내용이 잔뜩, 그것도 정확하게 들어간 두껍기만 한 책을 아이들에게 던져주게 된다. 데이터가 방대하다는 것과 그 데이터로 ‘AI가 현실을 이해하는 데 도움이 되는가’는 완전히 별개의 문제이기 때문이다. 교과서를 만드는 데 전문가의 감수가 필요하듯이, 기존 데이터를 AI 학습에 활용하려면 데이터 다양성에 대한 보다 체계적 검토가 필수적이다.
여기서 다양성은 여럿이 각자 다르게 검토하는 것이 아니다. 검증자마다 느끼는 기준과 분류체계, 판단이 달라지면 그것은 다양성 관리가 아니라, 주관의 분산일 뿐이며 검증 기준의 불안정성이 된다. 일반적 방법인 수량, 구성비, 클래스 분포, 연령 분포, 목표 대비 충족률 평가도, 겉으로는 그럴듯하나 다양성 검토라기보다 분포 확인에 가깝다. 목표 분포와 실제 분포가 겹친다고 하더라도 데이터가 현실을 충실히 담았다는 의미는 되지 않는다. 인터넷상의 자료들을 분야별로 깔끔히 구성했다고 해서 어린이 교육에 적합한 내용이 되지 않는 것과 마찬가지다. 문제는 그것이 교육에 도움이 되는 내용인지, 다시 말해 그 목표가 특정 AI가 마주할 현실(기대공간)을 충분히 반영하게끔 설계되었는지이다.
가장 위험한 것은 이런 이유로 데이터가 기대만큼 효과를 내지 못했을 때, “데이터양이 부족하구나”로 가는 습관이다. 사실은 학습 데이터 내에, AI가 특정 상황에 대처하는 데 도움이 될 내용이 빠져 있었던 것인데, 이것을 데이터 분량의 문제로 오판하면 해결책은 다시 대량 수집이 된다. 그렇게 모은 더미 데이터는 저장 인프라와 학습 전력을 낭비하고, 데이터 중복으로 인해 AI의 판단을 더 편향적으로 만들 뿐, 정작 AI가 배워야 할 예외 상황, 위험 상황, 사회적 맥락은 여전히 빠져 있을 수 있다. AI 산업에 거품 우려가 있다면, 바로 이런 생각 때문에 한정된 자원을 불필요하게 과다 투입하는 데서 비롯할 것이다.
공공데이터 개방 핵심은 얼마나 많은 양을 공개하느냐가 아니라, 그것이 얼마나 현장에서 활용할 수 있게끔 정리되어 있느냐이다. 기업에 필요한 것이 데이터 몇만 건이라는 숫자보다, 이 데이터로 AI가 무엇을 학습할 수 있고, 무엇을 학습할 수 없는지 알 수 있는 기술적 판단 근거다. 기존의 품질 관리가 “정해진 대로 만들었는가”를 본다면, 충실도 진단은 “그 정해진 것이 올바른가”를 평가한 것이다. 따라서 공공데이터가 산업의 자산이 되려면 데이터 목록 외에도 분야별 충실도를 평가한 진단서가 함께 나와야 한다. 그 정도의 고려 없이 무작정 다량의 데이터를 공개하는 방식이라면 인공지능 산업에 실질적 경쟁력 대신 불필요한 거품만을 키우게끔 만드는 데이터 난지도가 될 수 있다.