문장으로 이미지 만드는 DALL-E, 두번째 버전 공개


지난해 인공지능 언어 모델인 GPT-3을 기반으로 하는 DALL-E 라는 인공지능을 소개해드린 적이 있습니다. 그로부터 1년 3개월가량이 지난 지금, 그 두번째 버전이 공개됐습니다. 두번째 버전은 지난 버전이 생각나지 않을 만큼 엄청난 이미지를 만들어내고 있네요.



첫번째 버전은 보이는 걸 그대로 따라하는 건 잘 하지 못했습니다. 하지만 그럼에도 불구하고 명령어에 따라 이미지를 만들어내는 일은 꽤 놀랍게 해냈죠. 지난 버전에서도 '아보카도 모양 암체어'나 '중국 음식 사진', '샌프란시스코 알라모 공원의 야간 사진' 같은 이미지를 만들어내는 데에는 꽤나 성공적이었습니다. 하지만 DALL-E의 두번째 버전은 완전 다른 모습을 보여줍니다. 위 이미지는 "동틀 무렵 초원에 앉아 있는 여우를 모네 스타일로 그려줘"라는 명령어에 반응한 DALL-E 버전 1(좌)와 2(우)의 이미지입니다. 두가지만 비교해도, DALL-E 버전2의 성능이 더 뛰어나다는 걸 알 수 있죠.

일단 소개 페이지에서 제공하는 샘플만 봐도 성능이 완전히 달라졌습니다. 에디터는 "1980년대 달에서 새로운 AI 연구를 진행하고 있는 테디베어"라는 예문을 클릭했고, 오른쪽 이미지가 그 결과입니다. 개인적으로 가장 놀라웠던 "뜨개질로 만든 수프 한그릇이 괴물같이 생겼다"는 문장은 여러분께 직접 선택해볼 수 있도록 남겨두겠습니다.

테디베어의 하체 부분의 주름, 털의 모양, 빛이 비추는 방향과 컴퓨터의 모양까지 너무 요구한 이미지와 딱 맞아서 놀라움을 감출 수 없었습니다. 도대체 어떻게 이런게 가능했는지도, 사이트에서 제공하는 영상을 통해 간략하게 설명하고 있습니다. GPT-3을 기반으로 학습한 인공지능이 이미지의 스타일까지 파악해서 이렇게 결과물을 만들어낼 수 있다는 점이 놀랍습니다.




이 이미지는 좌측의 1-2-3번 번호에 '웰시코기'를 위치시키는 샘플입니다. 1번 안에 빈센트 반 고흐와 표정이 똑같은 웰시코기가 1번 위치에 들어가 있죠? 2번으로 옮기면 스타일과 표정이 바뀐 샘플들이 나오고, 3번으로 옮기면 아예 실사처럼 바뀝니다. 이게 어떻게 가능하지? 싶은 수준이예요.

"이거 다 샘플이고 어차피 써보지도 못할 거 아니냐?"라고 생각하실 분이 계실까봐, DALL-E의 버전2에서는 실제로 사용해볼 수 있도록 할 모양입니다. 홈페이지에선 "JOIN WAITLIST" 메뉴를 만들어서 이메일로 이용자들을 모으고, 순차적으로 사용해볼 수 있도록 할 예정이라고 하네요.

인공지능이 일러스트의 밑그림과 분위기를 만들어내고, 인간이 그걸 따라가는 세상이 올까요? 아직까진 그정도는 아닌 것 같지만, 상상만 해봤던 이미지들의 분위기를 미리 눈으로 확인할 수 있는 새로운 세상이 올 것 같긴 합니다. 엄청난 인공지능의 발전속도, 불과 1년만에 완전히 다른 결과물을 보여주는 DALL-E 버전2의 홈페이지는 아래 링크로 찾아가실 수 있습니다.

연관 기사
추천 기사
인기 기사