본문 바로가기
나눔/인공지능 소식

GPT-4o의 향상된 이미지 생성과 사용 예시 소개

by 나누는 뭐맘 2024. 5. 23.
반응형

GPT-4o 소개

OpenAI에서 만든 ChatGPT의 새로운 버전인 GPT-4o는 한국시간 14일 라이브 데모를 통해 소개되었습니다.

엄청나게 향상된 속도와 인간처럼 보고 듣고 말하는 능력은 인공지능에 관심이 없는 사람들도 놀라게 만들었는데요.

 

https://sharemueomom.tistory.com/63

 

GPT-4o 출시 정보와 사용 후기

GPT-4oChatGPT를 만든 OpenAI에서 한국시간 5월 14일 새벽 2시 라이브를 통해 GPT4의 성능을 개선한 GPT-4o를 공개했습니다.4o의 o는 (“o” for “omni”) 통합된 모델을 뜻하는 옴니모델을 

sharemueomom.tistory.com

 

출시 정보와 간단한 사용후기가 필요하시면 위의 포스팅을 봐주세요.

 

향상된 이미지 생성

오픈AI의 블로그를 쭉 보다가 4o버전의 이미지 생성이 비약적으로 발전해 놀라워서 몇 가지 보여드리고자 합니다.

 

시각적 내러티브 (Visual Narratives)

내러티브는 서사라는 의미로 이미지의 자연스러운 흐름에 관한 예시입니다.

타이핑하는 로봇 생성
연결되는 이미지

 

로봇이 특정 문구를 타이핑하게끔 요청하니 그 문구가 이미지에 잘 반영되며, 그 이후의 상황에 대해서도 자연스럽게 이미지 서사가 이어지는 것을 보실 수 있습니다.

간단한 시놉시스를 제작하거나, 동화책 삽화 등 스토리가 연결되는 작업을 할 때 굉장히 유용해 보입니다.

 

캐릭터 생성
캐릭터를 유지한 그림들

캐릭터를 일관되게 유지하며 만드는 것도 가능합니다. 미드저니의 --cref와 --sref 파라미터를 합친 것 같습니다.

미드저니보다 더 쉽게 사용할 수 있다는 점이 강점입니다.

 

반복 편집을 통한 시적인 타이포그래피 (Poetic typography with iterative editing)

이번엔 자연스러운 손글씨를 생성하는 건 물론 해당 이미지를 자연스럽게 편집하는 과정 예시입니다.

자연스러운 손글씨 시
다크모드

자연스럽게 쓰인 손글씨 시를 출력하고 그 글씨를 다크모드로 변환하는 것까지 가능합니다. 아마 한국어가 이렇게 자연스럽게 되려면 시간이 좀 더 지나야 가능할 것 같긴 합니다.

 

텍스트를 글꼴로(Text to font)

디자이너로 근무했던 저에게 충격적인 예시입니다. 바로 폰트를 만드는 것입니다.

폰트 생성 과정
폰트 출력

예시를 쭉 입력하고, 초 미래적인 글꼴을 요청하니 위의 정보를 바탕으로 폰트를 생성해 주었습니다. 폰트 디자인도 AI가 하는 세상입니다. 이 역시 한글이 자연스럽게 되려면 좀 멀었지만 작업을 하다 원하는 글꼴이 없을 땐 즉석에서 만들어서 활용하는 것도 가능해집니다.

 

그 외 다양한 합성도 가능합니다.

3D
로고 합성

이미지를 3D로 재구성하거나 기존 이미지에 로고를 합성하는 등 다양한 합성(편집)도 됩니다.

 

지금 되나?

혹시 지금 사용이 가능한지 궁금해 바로 실행해 봤습니다만 아쉽게도 업데이트가 덜 된 것 같습니다 ㅠㅠ

한글 출력 미흡

 

다크모드 전환 불가

 

 

블로그에서 봤던 예시를 몇 개 따라 해봤는데 잘 구현되지 않았습니다. 언제쯤 데모 라이브에서 봤던 그 버전을 쓸 수 있을까요? 데모의 충격과 놀라움이 사라지기 전에 얼른 나왔으면 좋겠습니다.

 

 

 

반응형