인공지능 학습용 데이터, '공공데이터'로 해법 찾았다


인공지능 학습용 데이터 공개범위를 두고 과기정통부와 산업계, 문화체육관광부와 창작계가 갈등을 빚고 있었죠. 일단 부처 단위에서는 합의점을 찾은 걸로 보입니다. 지난 28일 열린 과학기술관계장관회의에서 공공저작물 자유이용 허락표시기준(공공누리)를 개정하고, 공공저작물 학습 활용 확대방안을 발표한 겁니다.

공공누리는 국가, 지방자치단체, 공공기관 등이 4가지 유형에 따라 공공이용 마크를 표기하고 이용하는 공공저작물 통합 제공 서비스입니다. 저작물 별 이용조건에 따라 무료로, 저작권 침해 걱정없이 사용할 수 있는 데이터셋인 셈입니다. 이번에 개정된 공공누리에는 '제 0유형'이 새롭게 도입되었습니다. 상업적 이용, 변경, 출처표기 의무 없이 자유롭게 이용할 수 있는 공공저작물을 의미하는데요. 이로써 국내 기업들은 대량 정보처리가 필요한 AI학습 환경에서 공공저작물을 제약 없이 이용할 수 있는 길이 열렸습니다.

그동안 산업계와 과기정통부는 무차별적인 데이터 학습을 허락해달라고 요구해왔는데, AI 학습을 위한 데이터 활용이 '공정이용'에 해당한다고 보는 입장이었기 때문입니다. 하지만 문체부와 창작계에서는 IP를 활용해 수익을 얻는 창작자들의 입장에서 일단 학습되고 나면 출처에 대한 크레딧도, 제대로 된 보상도 얻을 수 없는 인공지능 학습에 대해 최소한 '사후적 보상' 또는 '창작계를 위한 공공기금' 형태로라도 비용을 지불할 것을 요구해왔습니다.

여기에 과기정통부와 문체부는 제 0유형과 함께 'AI 유형'을 신규 도입하고, 기존 공공누리 유형인 1-4유형을 유지하고 AI 학습목적으로는 공공저작물을 자유롭게 활용할 수 있는 규정을 신설했습니다. 기존 상업적 이용, 변경이 허락되지 않는 공공저작물이라도 'AI유형' 표기가 붙으면 AI학습에 자유롭게 이용할 수 있게 됩니다. 공공저작물로 등록한 경우에는 상업적 이용을 허락한 경우도 있어 저작권 침해 요소가 현저히 줄어들 수 있습니다.

AI업계에선 "제 0유형 신설보다 AI유형 도입이 공공저작물 활용 범위 확대에 더 긍정적인 영향을 미칠 것"이라고 반응하는 등 긍정적으로 반응하고 있습니다. 또한 창작계에서도 기부 형태로 저작물을 제공하거나, 기술발전에 기여를 원하는 창작자의 경우에는 공공저작물로 자신의 저작물을 등록할 수 있어 선택지가 넓어졌다는 장점도 있습니다.

뿐만 아니라 저작권법 개정도 함께 추진되는데, 공공저작물의 공공누리 표시를 의무화 해 공공저작물이 AI산업 등 다양한 분야에 개방될 수 있도록 제도를 개선한다는 계획입니다. 한국문화정보원과 공공저작물을 AI 학습에 즉시 활용할 수 있는 데이터로 가공, 이를 개방하는 사업 역시 함께 추진됩니다. 정부에서 가지고 있는 데이터셋부터 개방하는 아이디어로 즉시 활용이 가능한 데이터를 우선적으로 확보했다는 점에서 의미가 큽니다.

공공저작물은 방대한 규모, 높은 신뢰성을 가진 데이터이기도 한데, 이전부터 AI학습용 데이터로 제격이라는 평가를 받아왔습니다. 하지만 산업현장에서는 개별 저작물마다 출처를 명시해야 해 사용기준이 매우 높아 정작 활용할 수 없다는 지적도 받아왔습니다. 이건 일반 이용자에게도 마찬가지인데, 이를테면 지난해 저작권보호원과 만화가협회가 함께 주관한 휴대폰 배경화면 기부 프로젝트의 경우 원본 파일을 다운로드 받기 위해선 매번 새롭게 서약서를 작성하고, 매번 새롭게 본인인증을 받아 다운로드를 받아야 하는 불편함이 있었습니다.

과기정통부는 이런 산업계 의견을 수렴, 문체부에 지속적인 공공저작물의 저작권 개방을 요청했고, 지난해 9월 협상끝에 AI 독자 파운데이션 모델 정예팀에게만 1~3유형 저작물 1,100만건을 학습할 수 있도록 허가했습니다. 과기정통부는 이후 문체부에 데이터 추가 개방을 요구했지만 간극이 쉽사리 좁혀지지 않았고, 이번 과기장관회의를 계기로 부처가 합의점을 찾았다고 관계자는 설명했습니다.

이번 협의를 계기로 과기정통부는 AI허브를 'AI 학습용 통합제공체계'로 고도화할 계획도 내놓았습니다. 공공, 민간 보유 데이터 중 가치와 활용도가 높은 데이터를 AI 학습용으로 전환, 개방하겠다는 겁니다. 결과적으로 공공에서 확인받은 '안전한 데이터'와 '신뢰도 높은 데이터'를 제공하는 효과는 덤이고, 창작자와 분쟁을 일으켜 개발단계부터 신뢰도와 기술에 대한 불신을 일으킬 가능성을 차단한다는 점에서도 높게 평가할 만 합니다.

문체부와 과기정통부는 공공저작물 개방 노력을 공공기관 평가에 반영하는 인센티브 제도도 검토중이라고 밝혔습니다. 최휘영 문체부 장관은 "공공저작물은 AI 산업을 이끌 수 있는 핵심 자원"이라며 "앞으로도 문체부는 신기술 분야에서 공공저작물이 활발히 활용될 수 있도록 지속적으로 정비, 지원해 나갈 것"이라고 밝혔습니다.

배경훈 과기정통부 부총리는 "국민 세금이 투입된 데이터는 최대한 개방한다는 원칙하에 관계 부처와 협력해 데이터가 막힘없이 흐르고 활용되는 생태계를 조성해 나가겠다"며 "새로운 공공누리 유형을 민간에서 수요가 많은 공공저작물부터 우선 적용하는 등 국민이 제도개선 효과를 체감할 수 있도록 노력하겠다"고 밝혔습니다.​

추천 기사
인기 기사