이미지 생성용 서비스들은 많이 있죠. 전에 소개해드렸던 미드저니나 imageFX 도 괜찮고 다른 것들도 퀄리티가 나쁘지 않고요. 다만 이미지의 완성도와는 별개로 우리가 실생활에서 바로 사용할 수 있는가에 있어서는 조금 부족한 면이 없지 않았죠. 디자인을 위한 후작업이 필요하달까요. 이런 부분에서 최근 sora를 테스트해보면서유의미한 변화들이 보여서 공유를 해봅니다. 사용에 도움이 되셨으면 합니다. https://sora.chatgpt.com/ 프롬프트의 내용을 매우 깊이 있게 이해한 뒤에 구현한다는 인상을 받았습니다. 내부적으로 어떤 프리즘을 거쳐서 생성이 되는지는 모르겠지만특히 매우 복잡한 프롬프트인 경우에 다른 서비스하고 질적으로 좀 다르게 느껴져요 예전 글에서 환자 사진 이미지를 만드는 구조화된 프롬프트를 소개해드린 적이 있지요. AI로 만든 환자 사진들 일단은 그때 사용했던 프롬프트 그대로 써보면.. 위 사진이 이전버전, 아래 사진이 소라버전입니다.Hyperthyroid patient with eye protrusion, full face shot, clinical presentation, photo style by Harrison's Principles of Internal Medicine Function of helper T cell, graphical representation, medical illustration style by Junqueira's Basic Histology Facial herpes zoster with eye involvement in a Korean woman in her 40s, clinical presentation, photo style by Fitzpatrick's Color Atlas and Synopsis of Clinical Dermatology Pityriasis rosea back area, korean, photo, clinical presentation, style by Dermatology 전체적으로 표현이 조금 더 명확해졌다는 느낌이 들긴 합니다.
AI로 메디컬 일러스트 만들기 이 글에서는 인체의 해부학적 표현이 취약하다고 이야기를 드렸었는데요. 그 부분은 상당히 많이 개선 되었습니다. 이전에는 잘 구현하지 못하던 ober's test 프롬프트를 사용해보면요. Medical illustration, black-and-white line drawing of a physical therapist performing Ober's test on a patient. The patient is lying on their side on an examination table, with the bottom leg bent for support and the top leg extended and slightly lowered. The therapist is using one hand to stabilize the patient’s pelvis while the other hand supports the raised leg. The drawing is minimalist, with clean lines and no shading, designed for educational and clinical reference. 초음파 사진의 경우에도 polycystic ovary syndrome, transvaginal ultrasound showing multiple peripheral follicles, photo, radiologic imaging (ultrasound), style by Williams Obstetrics 이전보다 훨씬 표현이 좋아졌습니다. 해부학이나 인체관련 내용을 이전보다 잘 이해하는 것으로 보여지기 때문에, 하나씩 만들어보시면서 테스트해보시면 좋을거 같습니다.
아무튼 이미지 자체의 생성의 퀄리티도 좋아졌는데요. 그 외에도 조금 더 복잡한 작업도 가능하다는 점이었습니다. 고퀄리티의 이미지가 있다손 치더라도, 그걸 우리가 활용하려면 그걸 가지고 디자인 작업을 해야 하잖아. 미리캔버스나 망고보드 같은 곳에서 후작업을 해야하고. 디자인은 일단은 하나의 레이어가 아니라 여러가지 레이어 정보를 가지고 있고 그걸 어떻게 배치하느냐 하는 부분이 고려되어야 하기 때문에단일 이미지의 완성도와는 또 다른 어려움이 있는 것이고요. 근데 소라는 그것마저도 어느 정도 해낼 줄 아는 것 같습니다. 여러가지 디자인 작업이 있을 수 있겠지만 그 중에 썸네일을 가지고 테스트를 해봤습니다. 썸네일은 단순하게 만들 수도 있지만 생각보다 다양한 요소를 가지고 있는 디자인 작업이기도 해서요. 일단 분석은 제미나이에게 하게 하고 그 분석을 바탕으로 리버스 엔지니어링 방식으로 소라에서 사용할 프롬프트를 만들어서 테스트 해봤습니다. 제가 제미나이에게 분석을 요청한 썸네일은 다음의 것들인데요. 후경 배경이미지와, 주인공 인물, 관련 오브제, 메인텍스트오버레이, 콜아웃텍스트 등이 여러 요소가 복합적으로 작은 공간안에 배치되게 되는데 이때 레이아웃과 배치 같은 것들을 하나하나 하는게 쉬운 일은 아니죠. 저 이미지들을 주고 제미나이에게 분석하게 하면. 이 썸네일 스타일은 주로 '정보 전달형' 또는 '시사/교양 채널' 스타일이라고 부릅니다. 뉴스, 경제, 과학, 강의 등 전문적인 정보를 다루는 채널에서 시청자의 시선을 사로잡고 영상의 핵심 내용을 효과적으로 전달하기 위해 사용하는 매우 대중적인 방식입니다.이 스타일의 특징과 레이어 구조를 분석해 보겠습니다.## 썸네일 스타일 특징 분석이 스타일은 한정된 공간에 많은 정보를 압축적으로 담아내면서도, 시청자의 클릭을 유도해야 하는 두 가지 목표를 동시에 달성하기 위해 다음과 같은 특징을 보입니다.강렬한 대비와 색상: 어두운 배경에 밝은 색(주로 노란색, 흰색, 빨간색)의 텍스트를 사용하여 눈에 잘 띄게 만듭니다.핵심 인물 중심의 구도: 영상의 주인공이나 전문가의 사진을 크게 배치하여 신뢰감을 주고, 시청자와 눈을 맞추는 듯한 느낌을 줍니다.과감하고 큰 텍스트: 영상의 핵심 주제나 가장 자극적인 키워드를 큰 글씨의 헤드라인으로 만들어 호기심을 자극합니다.정보의 계층화: 중요한 정보(헤드라인)는 크게, 부가 정보(이름, 소속)는 작게 배치하여 시청자가 자연스럽게 정보의 중요도를 파악하게 합니다.그래픽 요소 활용: 특정 부분을 강조하기 위해 화살표, 원, 아이콘, 로고 등을 적극적으로 사용합니다.## 레이어 구조 분석 및 목적이런 썸네일은 여러 개의 시각적 '레이어(Layer)'를 겹쳐서 만듭니다.
각 레이어는 뚜렷한 목적을 가지고 있습니다.1. 배경 레이어 (Background Layer)내용: 영상의 주제와 관련된 이미지 (청중, 경기장, 추상적인 그래픽 등)를 사용합니다. 보통 어둡게 처리하거나 흐릿하게 만들어 다음 레이어의 요소들이 돋보이게 합니다.목적: 영상의 전반적인 분위기와 맥락을 암시하면서도, 다른 핵심 요소들을 방해하지 않는 배경을 제공하는 것이 주된 목적입니다.2. 인물/주요 피사체 레이어 (Main Subject Layer)내용: 영상의 발표자, 주인공 등 핵심 인물의 사진을 배경과 분리하여(누끼) 선명하게 배치합니다. 인물의 표정(심각함, 놀라움 등)은 영상의 톤을 전달하는 중요한 요소입니다.목적: 시청자에게 신뢰감과 인간적인 연결고리를 형성합니다. "누가" 이야기하는지를 명확히 보여주어 내용에 대한 기대감을 갖게 합니다.3. 헤드라인 텍스트 레이어 (Headline Text Layer)내용: 가장 크고 굵은 글씨로 영상의 핵심 주제나 결론을 담습니다. "1000조 시장 열린다", "진짜 비서 같은 AI 마침내 등장했습니다" 와 같이 시청자의 호기심을 최대로 자극하는 문구를 사용합니다.목적: 시선 집중과 주제 전달의 핵심적인 역할을 합니다. 시청자는 이 헤드라인을 보고 3초 안에 영상을 볼지 말지를 결정하게 됩니다.4. 보조/설명 텍스트 레이어 (Subtitle Text Layer)내용: 헤드라인을 보충하는 작은 글씨의 텍스트입니다. 인물의 이름과 직책, 영상의 부제, 해시태그 등이 포함됩니다.목적: 헤드라인만으로는 부족한 구체적인 정보나 신뢰도를 더해주는 역할을 합니다.
예를 들어 '김정호 카이스트 교수'라는 텍스트는 영상 내용에 전문성을 부여합니다.5. 그래픽/강조 레이어 (Graphic/Emphasis Layer)내용: 채널 로고, 아이콘, 특정 사물을 확대한 이미지(운동화), 도형(원, 네모), 화살표 등 시각적 요소들입니다.목적: 특정 정보를 시각적으로 강조하거나(예: 운동화 사진), 채널의 브랜드 정체성을 보여주는 역할을 합니다. 시청자의 시선을 의도한 곳으로 유도하는 기능도 합니다.이처럼 각 레이어를 기능적으로 이해하고 배치하면, 복잡해 보이지만 매우 체계적이고 설득력 있는 썸네일을 만들 수 있습니다. 매우 분석을 잘 해줍니다.. 내가 특정 주제를 주면 마찬가지 형태로 썸네일을 만들 수 있게 몇번의 대화를 거쳐서 가이드라인을 잡으면 되고요. 그건 지난번 이미지 생성을 위한 메타 프롬프팅과 비슷하게 진행하면 되죠. 그렇게 해서 몇개를 만들어봅니다. 주제는 "메시 호날두 누가 고트인가" A YouTube thumbnail in a cinematic movie poster style, about "Messi vs Ronaldo". The composition is a dramatic split-screen. The background is a dark, epic football stadium at night. A glowing, fiery energy line crackles down the absolute center, dividing the screen. On the left side of the screen is a photorealistic portrait of Lionel Messi in an Argentina jersey, with a serious and determined expression. On the right side of the screen is a photorealistic portrait of Cristiano Ronaldo in a Portugal jersey, with a powerful and confident expression.
Both are highlighted with dramatic rim lighting. OVERLAID at the top center, the main title text "GOAT WAR" is written in a large, bold, metallic gold font. OVERLAID in the very center, on top of the energy line, is a glowing red "VS" logo. OVERLAID at the bottom left, the text "MESSI" is written in a clean white font. OVERLAID at the bottom right, the text "RONALDO" is written in a clean white font. Hyper-detailed, epic, cinematic, dramatic lighting. --ar 16:9 조금은 단순한 정보만을 담고 있긴 하지만, 그래도 나름 그럴듯한 이미지를 만들어줍니다. 조금 더 정보 레이어가 많은 작업을 요청해봅니다. 전문 경제 채널의 정보 전달형 유튜브 썸네일. 주제는 '글로벌 공급망 위기와 반도체 산업의 미래'. 전체적으로 신뢰감 있고 진지하며 미래적인 분위기. 화면의 배경은 두 가지 이미지가 자연스럽게 혼합된 복합적인 이미지이다. 왼쪽 배경은 수많은 컨테이너선과 항구가 혼란스럽게 얽혀있는 모습이고, 오른쪽 배경은 푸른 빛을 내는 미래적인 반도체 웨이퍼와 회로 기판의 클로즈업 이미지이다. 이 배경은 전체적으로 어둡고 톤 다운되어 있다. 화면 오른쪽에, 안경을 쓴 40대 동양인 남성 경제 분석가가 회색 정장을 입고, 미래를 예측하듯 진지한 표정으로 턱을 괴고 왼쪽 상단을 응시하고 있다. 인물은 배경과 선명하게 분리되어 입체감이 느껴진다. 인물의 뒤, 배경 위에는 등락을 반복하는 가상의 주식 시장 그래프 홀로그램이 붉은 빛을 내며 희미하게 떠 있다. 이미지 상단 전체에 걸쳐, 가장 크고 중요한 헤드라인으로 "공급망 붕괴, K-반도체의 미래는?" 이라는 한글 텍스트가 굵고 강렬한 흰색 고딕체로 오버레이 되어 있다.
이 텍스트의 가독성을 극대화하기 위해, 글자 주변에는 선명한 검은색 테두리(아웃라인)와 은은한 그림자(드롭 섀도우) 효과가 적용되어 있다. 헤드라인 바로 아래에는, 더 작은 노란색 글씨로 '지금 사야 할 핵심 기업 TOP 3' 라는 자극적인 부제가 오버레이 되어 있다. 화면 왼쪽 하단에는, 반투명한 어두운 사각형 박스 3개가 나란히 있고, 각각의 박스 안에는 'TSMC', 'SAMSUNG', 'ASML' 이라는 흰색 텍스트가 선명하게 오버레이 되어 있다. 전체적인 이미지는 선명하고 현대적인 느낌이며, 시네마틱한 조명과 초고화질의 해상도를 가진다. "존2 러닝의 효과" 건강 및 피트니스 채널의 정보 전달형 유튜브 썸네일. 주제는 '존2 러닝의 과학적 효과'. 전체적인 분위기는 밝고 활기차면서도 과학적인 신뢰감을 준다. 배경은 햇살 좋은 아침의 공원 산책로. 푸른 나무와 길이 보이는 평화로운 풍경이며, 피사계 심도 효과로 배경은 부드럽게 아웃포커싱 되어 있다. 화면 오른쪽에, 30대 여성이 최신 러닝복을 입고 손목에는 스마트 워치를 차고 있다. 그녀는 약간의 미소를 띠고 힘들지 않은 편안한 표정으로 가볍게 달리는 중이다. 이 여성 러너의 전체 실루엣을 따라, 마치 스티커처럼 두껍고 선명한 주황색 테두리(Thick orange outline sticker effect)가 그려져 있어 배경과 강하게 구분된다. 테두리 바깥쪽으로는 은은한 흰색 외부 광선(Outer glow) 효과가 퍼져나간다. 화면 왼쪽에 깔끔한 반투명 그래픽 인터페이스 창이 떠 있다. 이 창 안에는 5단계 심박수 존 그래프가 그려져 있으며, 2구간인 'Zone 2' 영역이 밝은 주황색으로 하이라이트 되어 있다. 심박수 그래프 아래에는, '미토콘드리아'를 상징하는 세포 아이콘과 '지방'을 상징하는 불꽃 아이콘이 작은 원 안에 각각 그려져 있다. 화면 상단에, 가장 중요한 헤드라인으로 "느리게 뛰는데 살이 빠지는 이유?" 라는 한글 텍스트가 굵고 큰 흰색 고딕체로 오버레이 되어 있다.
헤드라인의 '느리게' 라는 단어는 주황색으로 강조되어 있다. 이 텍스트의 가독성을 위해, 글자 주변에는 선명한 검은색 테두리와 그림자 효과가 적용되어 있다. 심박수 그래프 창 옆에는 "#존2러닝" 이라는 해시태그가 세로로 쓰여 있고, 불꽃 아이콘 옆에는 "지방 연소 극대화" 라는 작은 설명 텍스트가 오버레이 되어 있다. 전체적인 이미지는 초고화질이며, 밝고 긍정적인 느낌, 건강 정보, 인포그래픽 스타일, 선명하고 깨끗한 디자인을 강조한다. 후작업 없이 그냥 생성된 이미지가 나쁘지 않죠. 여러가지 정보를 담고 있고. 한가지 특이점은 한국어로 작성해도 매우 잘 이해한다는 점이고요. 매우 복잡한 형태의 내용을 잘 반영해서 그려낸다는 점도 놀라운 점입니다. 간혹 한글이 깨져서 나올때도 있긴 하지만, 폰트까지도 지정해서 표현이 가능하고요. 일단은 제가 테스트 해본 건 이 정도까지이고 지금 수준에서도 활용하기에 나쁘지 않다고 판단하고 있습니다. 앞으로 점차 더 완성도가 높아지리라 생각해봅니다.