오픈AI소라(SORA)출시, 텍스트만으로 영상 자동제작, 스펙은?

오픈AI소라(SORA)가 최근에 출시되면서 많은 관심을 받고 있습니다. 텍스트만으로 영상을 제작할 수 있는 수준까지 AI가 발전한 것이죠.

1년 전 챗GPT를 개발해서 이미지 제작, GPTs라는 스토어까지 출시되었는데 이제는 오픈AI소라(SORA)를 통해서 영상까지 만들 수 있게 된 것입니다.

오픈AI소라(SORA)스펙, 특징

프롬프트에 입력된 텍스트만으로 영상을 만들 수 있습니다. 다만, 영상 길이는 현재 최대 1분입니다. 그래도 최근에 나와 있는 AI생성 영상들 길이가 4초 정도인 것에 비하면 길어진 것입니다.

영상 퀄리티도 움직임이 디테일한 부분까지 가능해졌습니다. 즉, 캐릭터 생성부터 행동, 배경 등 복잡한 장면들과 모습 모두 생성가능합니다.

DALL-E 3가 갖고 있는 재 캡션 기술이 활용된 것도 특징입니다. 고성능 캡션 모델을 훈련한 후 이를 통해서 모든 영상들에 대한 텍스트 캡션을 훈련의 세트로 생성하는 것이죠.

이 과정을 반복하여 훈련시키며 비디오 품질을 향상시키면서 텍스트 이해에 대한 충실도를 향상 시켰습니다.

여기에 표정과 행동 등 구체적인 명령어에 따라서 다양한 영상을 만들어낼 수 있습니다. 이런 스펙은 희소식이면서 슬픈 소식일 수 있습니다.

기존 영상제작과 애니메이션 제작을 하는 전문가분들에게는 업계에 타격이 될 것 같습니다. 다만, 크리에이터를 비롯해서 창의적인 글을 다루는 분야에는 시간을 줄여주는 역할을 할 것으로 보입니다.

이 부분 조차도 AI가 이미 많은 비중을 차지하기 시작했지만 창의적인 부분에 있어서 영감을 부여한수준의 감동을 주려면 인간의 감성을 자극해야합니다.

즉, 사람의 감성을 자극하는 영상 연출과 내용까지 다루려면 많은 시간이 걸리거나 어려울 수 있을 것입니다.

그래도 오픈AI소라(SORA)가 나온 것 만으로도 상당한 변화들이 예상됩니다. 현재 나온 영상 퀄리티 만으로도 실제 같은 영상과 애니메이션 제작도 가능한 수준이니깐요.

앞으로 더 발전 할 것 같은데 과연 어떤 수준까지 향상될 지 기대가 됩니다.

그동안 오픈AI는 소라에게 많은 유형의 비디오와 이미지를 학습시켰습니다. 기각적 데이터를 작은 단위로 분해해서 연결학습시켰다고 합니다.

이렇게 학습한 부분을 바탕으로 다시 이미지를 조성하고 자연스러운 영상을 만들어냈던 것입니다.

지속적인 훈련을 반복시키면서 더 많은 데이터를 학습시킨 결과 이 정도의 높은 퀄리티 있는 영상을 제작할 수 있는 단계가 된 것입니다.

아직은 영상에서 모순적인 내용들이 지적되고 있습니다. 과학적인 현상이나 이론을 배경으로 자연스럽게 영상 내에서 스스로 만들어내는 부분은 부족합니다.

딥페이크 기술의 잘못된 사용으로 사회적 어려움을 곳곳에서 겪고 있습니다. 즉, 가짜로 영상을 만들어 합성 및 유포하는 것으로 인해서 많은 사람들이 피해를 보고 있습니다.

오픈AI소라(SORA)의 기술력까지 남용한다면 그 파급력은 더 클 수 밖에 없는 것이죠. 오픈AI에서는 이런 문제를 대비해서 레드팀을 구성했습니다.

레드팀은 기능과 보안 문제가 있는지 살펴보는 팀입니다. 또한 예술가와 디자이너, 영상제작들 등 전문가들에게만 접근권을 부여하는 방안을 검토 중이라고 합니다.

만약 잘못된 정보나 혐오 콘텐츠를 제작 한다면 패널치를 부여하는 등 문제 소지를 사전에 막는다고 합니다. 그리고 생성정보 탐지툴도 개발 중입니다.

오픈AI소라는 현존하는 수 많은 영상 자료들을 이미지 및 더 작은 데이터 조각으로 학습하였습니다. 앞으로 그 학습량이 더 많아질 수록 영상 퀄리티가 높아질 수 밖에 없습니다.

영상 길이만 1분 이상으로 늘어나고 5분이 넘어간다면 그 파급력이 더 클 것으로 예상됩니다. 시대가 변할 수록 그에 대한 대응과 준비가 필요한데 요즘은 속도가 너무 빠른 것 같습니다.

함께 보면 좋은 영상

함께 보면 좋은 글