본문 바로가기
각종 Information

Sora란? OpenAI의 텍스트 기반 영상 만들기

by 경제적 자유를 위한 동행 2024. 2. 16.

Sora란 무엇인가? 

OpenAI에서 Text 기반으로 영상을 제작하는 Text-to-video 모델 Sora를 공개했습니다. Text-to-video는 사용자가 텍스트를 입력하면 영상을 생성하는 AI기술을 의미합니다 


OpenAI, Sora 공개

Sora는 최대 1분 길이의 영상을 제작할 수 있습니다 

기존의 Text-to-video의 업체는 피카랩스의 PIKA와 런웨이의 Gen2가 최대 4초 영상을 만드는 것과 비교하면, 1분은 굉장히 긴 시간입니다 

Open AI가 이 분야를 완전히 바꾸는 게임 체임저의 역할을 할 수 있을지 기대됩니다 


현재 Sora는 모델의 개선 위해 다수의 시각전문 예술가, 디자이너 및 영화 제작자에게 권한을 부여하여 피드백을 받고 있다고 합니다. 그리고 OpenAI 외부 사람들과의 협력하고 피드백을 받으며 AI기능이 등장할지에 대해 대중과 소통하기 위해 진행사항을 공유한다고 합니다


Sora에서 만든 영상을 잠시 살펴보겠습니다




Pompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.


Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.


Sora 주요 내용

🎈 Open AI홈페이지에 따르면 Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경에 대한 세부 텍스트 정보로 복잡한 영상을 생성할 수 있다고 합니다. Sora는 사용자가 입력한 텍스트 뿐만아니라 실제 세상의 여러 관계를 이해하고 작업을 한다고 합니다 


🎈 언어에 대한 이해를 기반으로 프롬프트를 정확하게 해석합니다. 이를 기반으로 세세한 감정을 표현하는 캐릭터를 생성할 수 있습니다. 또한 Sora는 생성된 단일 비디오 내에서 캐릭터와 시각적 스타일을 유지하는 여러 장면을 만들 수 있습니다 

🎈  Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경에 대한 세부 텍스트 정보로 복잡한 영상을 생성할 수 있다고 합니다. Sora는 사용자가 입력한 텍스트 뿐만아니라 실제 세상의 여러 관계를 이해하고 작업을 한다고 합니다 


🎈  Sora 영상은 한 번에 생성하거나 생성된 비디오를 더 확장하여 길게 만들 수도 있습니다. 


🎈  GPT모델과 유사하게 Sora는 변환기 아키텍처 사용하여 뛰어난 확장성 제공


🎈  텍스트 기반으로 비디오를 생성할 뿐만아니라 기존 정지 이미지를 가져와 비디오를 생성하여 이미지의 내용을 세세하게 수정하거나 애니메이션화 할 수 있습니다.


🎈  또한 기존 비디오를 가져오 확장하거나 누락된 프레임을 채울 수도 있습니다.


