당장 써먹을 수 있는 Text to Image AI 활용법 #1
CHEIL WORLDWIDE 기사입력 2023.08.31 12:00 조회 1076
 제일기획 강태구 프로(Meta Lab)




Text to Image AI Tool을 통한 프롬프트 엔지니어링의 기본 이해

AI로 세상이 시끄럽다. LLM이니 Chat GPT니 하면서 새로운 것들이 계속해서 나오더니, 이제는 또 갑자기 프롬프트 엔지니어링의 시대라며 프롬프트 엔지니어링이 앞으로 개인 역량의 핵심이 될 것이라고 세상이 겁을 준다. 그런데 사실 프롬프트 엔지니어링이라는 용어는 듣기만큼 복잡한 것은 아니다. AI에 지시하고 대화하는 일종의 ‘소통법’일 뿐이다. 이번 칼럼에는 프롬프트의 기본 구조와 이를 구성하는 수식어들에 대해서 소개하고자 한다.

생성형 AI 프로그램을 몇 번 써본 이들은 ‘무슨 이론이냐. 해보면서 익히는 게 제일 아니냐’ 라고 생각하는 경우가 많을 것이다. 물론 틀린 말은 아니다. 하지만 최근 프롬프트 엔지니어링을 하는 데 있어 생성형 AI의 모델 버전이 올라감에 따라 이전에 잘 통하던 프롬프트 엔지니어링이 갑자기 달라지는 경우도 많다. 결과물도 이전과 달라지고, 더 나은 방법이 생기기도 한다. 이번 칼럼에는 프롬프트의 기초를 가장 쉽게 소개할 수 있는 Text to Image AI를 통해 이야기를 풀어가 보겠다. 사례에서 사용할 AI 프로그램은 쉽게 접할 수 있는 미드저니(Midjourney)를 골랐다.


프롬프트 엔지니어링이란?

미드저니에서 내린 정의가 가장 정확하기에 이를 빌려와 소개하자면, 프롬프트(Prompt)는 미드저니 봇(Midjourney Bot)이 이미지를 생성하기 위해 해석하는 짧은 텍스트 구문이다. 미드저니 봇은 프롬프트의 단어와 구를 토큰이라는 더 작은 조각으로 분해해 교육 데이터(이미지 데이터)와 비교한 다음 이미지를 생성하는 데 사용할 수 있다. 잘 만들어진 프롬프트는 독특하고 흥미로운 이미지를 만드는 데 도움을 준다.


프롬프트 엔지니어링의 구조와 작동 방법

모델에 따라 순서나 형태는 다르지만 대부분, 위와 같은 순서가 가장 잘 입력된다. 위와 같은 형태는 예를 들면 이런 식으로 구현된다.
사진, 웃고 있는 여성, 에드워드 호퍼 느낌, 파스텔 칼라, 8K 화질, 디테일을 매우 살려서 그려달라는 이야기다. 순서는 크게 상관없는 경우도 많지만 어떤 AI들은 텍스트의 순서가 중요도나 반영도에 영향을 미치기도 한다. 중요한 것은 주제와 디테일에 반영되는 것들이며, 이러한 프롬프트 수식어들을 분류하고 그 특성을 정리하면 다음과 같다.


프롬프트 엔지니어링 수식어 분류

내가 그리고 싶은 건 이거야 <주제어>

사용자가 만들고 싶은 그림의 주제다. 예를 들어 “A cat with a Hat” (모자 쓴 고양이)”가 주제어가 될 수 있다. 자유롭게 아무 이미지나 만들 것이 아니라면, 이미지 생성에서 정확하고 명료한 주제는 필수적이다. 다만 사용자가 감안해야 할 점은, Text-to-Image 시스템은 서술적인 텍스트와 연관하여 이미지를 훈련시키기 때문에 해당 시스템이 어떤 텍스트에 훈련이 덜 되어 있는 경우, 명료하게 입력한 주제 용어도 결과물에 잘 반영되지 않을 수 있다. 예를 들어 ‘한국인 남자’로 입력했는데 나온 것이 누가 봐도 한국인 같지 않은 경우도 해당 AI 모델이 ‘한국인 남자’라는 것에 대한 연관 이미지 훈련이 덜 되어 있는 경우로 볼 수 있다.




어떤 스타일로 그리면 좋을까? <스타일>

특정한 스타일의 이미지를 생성하기 위해 스타일 수식어를 프롬프트에 추가할 수 있다. “oil painting”이나 “mixed media” 같은 특정한 그림 스타일을 넣을 수도 있고, “#pixelart,” “hyper-realistic,” “abstract painting,” “surreal,” “Cubism”, “cubist,” “cabinet card,” “in the style of a cartoon,” 와 같은 예술 장르 등을 스타일 수식어로 넣어 이미지 결과물에 반영할 수도 있다.

예를 들어, ” by Francisco Goya”라는 수식어를 넣는다면 스페인의 미술가인 프란시스코 고야의 스타일로 디지털 이미지를 생성할 것이다. 스타일 수식어는 미술 시대, 학파, 스타일뿐만 아니라 미술 재료, 매체, 기법, 작가와 관련된 정보를 넣을 수도 있다.




내가 가진 이미지도 활용할 수 있어? <이미지 프롬프트>

이미지 프롬프트는 말 그대로 사용자가 이미 갖고 있는 이미지를 입력해 Text-to-Image 시스템의 이미지 생성에 활용하는 것을 말한다. 예를 들어 미드저니에는 디스코드(discord)에 내 얼굴 사진을 올린 뒤 그 올라간 URL을 프롬프트로 입력하는 기능이 있다. 이미지 프롬프트는 일반적으로 텍스트 입력 프롬프트에 추가되거나 혹은 별도의 배열로 제공되는 하나 또는 여러 개의 URL로 지정된다. 이미지 프롬프트는 활용되는 AI 모델에 따라 꼭 1개가 아닌 여러 개의 이미지로 구성될 수도 있으며, 반영 정도를 조정할 수도 있다. 가령 Stable Diffusion Model을 통해 내 얼굴과 연인 얼굴을 섞어 2세 얼굴을 미리 만들어 본다면, 나 20%, 연인 80%를 닮은 2세를 만들 수도 있다는 이야기다.



아주 멋지게 그려줘 <퀄리티 부스터>

퀄리티 부스터는 프롬프트에 추가되어 이미지의 미적 품질과 디테일 수준을 높이는 데 사용되는 수식어를 말한다. 대표적으로 “award-winning,” “masterpiece,” “highly detailed”, “awesome,” “#wow,” “epic,” “rendered in Unreal Engine.”과 같은 용어들이 있다. 이런 수식어를 넣어서 이미지 결과물을 더욱 풍성하게 만들 수 있다. 다만, 장점이 있으면 단점도 있듯이 이렇게 퀄리티를 높이려는 수식어를 쓰면, 이미지 풍성함은 높아지지만 그 대가로 주제 반영도가 약해질 수도 있기 때문에 주의해서 사용할 필요가 있다.


이건 정말 중요하니까 두 번 이야기할게 <용어 반복>

용어를 반복해서 입력하면 생성 시스템이 형성한 연관성을 강화할 수 있다. 다만 똑같은 단어를 두 번 쓰는 것이 아닌, 같은 모습을 표현하는 조금 다른 단어와 문장을 사용해야 효과가 있다. 다음 예처럼, “A cat that fight with a dog, fight each other “라는 프롬프트는 주제어 하나만 사용하는 것보다 좀더 명확한 결과물을 생성할 가능성이 높다. (가능성이 높을 뿐 항상 통하는 건 아니라는 점에 주의!) 서로 다른 표현과 동의어를 사용하면 Text-to-Image 시스템이 주제 용어와 관련된 신경망의 잠재 공간에서 더 잘 작용할 수 있게 해준다. 기술적으로 AI 모델들이 반복된 구문은 의도적으로 AI를 피드백 루프에 갇히도록 할 가능성이 있다 보니 다른 수식어보다 반영률이 높아질 수 있기 때문이다.


이 단어를 넣었더니 신기한 효과가! <마법의 용어들>

‘마법 용어’는 일종의 문학적 표현으로 이미지에 렌덤성을 강화해서 놀라운 결과물을 얻는 용어를 말한다. 쉽게 말해 ‘이 단어를 넣었더니 이미지가 엄청 재밌게 변했다’라는 것이다. 예를 들어, 트위터 사용자인 @jd_pressman은 “orchestra conductor leading a chorus of sound wave audio waveforms swirling around him on the orchestral stage”라는 프롬프트에 “control the soul”이라는 마법 용어를 추가했다.

이 프롬프트 작성자는 “더 많은 마법적이고 마법사 같은 이미지”를 얻기 위해 이런 단어를 추가했다고 말했다. 이런 일련의 ‘마법’ 용어는 결과 이미지에 예측할 수 없는 요소와 놀라움을 더하여 이미지 결과물의 다양성을 높이는 데 활용된다. 즉 랜덤으로 이미지가 나올 확률을 높인다는 이야기다. 이런 마법 용어는 프롬프트의 주제와 먼 용어일 수도 있으며, “feed the soul”과 “feel the sound”와 같이 비시각적인 특성인 촉각(체각), 청각(청각), 후각(후각), 미각(미각)과 관련된 용어일 수도 있다. 물론 정확도가 필요한 작업에선 이런 마법 단어를 쓰는 건 적절하지 않다. 어이없는 결과가 나올 수도 있기 때문이다.


이렇게 프롬프트 수식어들을 정리해 보았다. 결국 프롬프트 엔지니어링이란 여러 경험을 통해 이러한 수식어구를 조합해 나가며 어떤 것이 생성형 AI의 반응을 잘 끌어오는지 알아보는 작업이다.

이번에 소개한 기초적인 지식은 글로만 볼 땐 이해하기 어려울 수도 있다. 실제로 프로그램을 켜고 사용하며 익혀간다면 프롬프트 엔지니어링이 어떻게 구현되는지 이해가 빠를 것이다. 결국 실행과 경험이 바탕이 되어야만 효과적인 결과가 나온다는 삶의 원칙에는 AI도 예외가 아닌 셈이다. 많은 독자가 프롬프트 엔지니어링을 즐기며 익히고 멋진 작품을 만들어 내길 바란다.

[본 글은 JONAS OPPENLAENDER, (University of Jyväskylä, Finland)의 논문 ‘A Taxonomy of Prompt Modifiers for Text-To-Image Generation’ 을 참고, 발췌하여 소개하였습니다.]

 
AI ·  AI활용법 ·  ChatGPT ·  생성형AI ·  엔지니어링 ·  이미지프롬프트 ·  제일기획 ·  프롬프트 · 
이 기사에 대한 의견 ( 총 0개 )
2023년 광고 시장 결산 및 2024년 전망
2023년 연초 광고 시장에 드리웠던 불안한 예감은 현실이 됐다. 지난 2021년 20.4%라는 큰 성장 이후 2022년 5.4% 재 성장하며 숨 고르기로 다시 한번 도약을 준비하던 광고 시장이었다. 하지만 발표된 다수의 전망들은 2023년 광고 시장의 축소를 내다보고 있다. 한국방송광고진흥공사에 따르면 2023년 광고비는 전년 대비 3.1%p 하락으로 전망됐고, 이중 방송 광고비는 17.7% 감소가 예상됐다.
[월간 2024밈] 7월 편 - 7월에 공휴일 없음? 이것 뭐에요~???
  GOAT 하다? 느낌 좋은 밈&좋은 느낌을 줌 07월 공휴일 없음? 이것 뭐에요~??? 아이폰 스.꾸? 티라미수 케익~? T라 미숙하다고?  GOAT 하다?    Greatest Of All Time의 줄임말 GOAT. 해외에서 시작된 밈이에요. '역사상 최고의 스포츠 선수'를 의미하며 하며 주로 운동선수들에게 사용하는 밈인데요.   현재, 특히 국내에서는 운동선수뿐
[Digital Feed]프로토타입, 차원이 다른 솔루션을 제시하다
프로토타입, 차원이 다른 솔루션을 제시하다.
이노션, 세계 최대 크리에이티브 축제 2024 칸 라이언즈서 ‘그랑프리’ 수상, 역대 최고 성적 거둬
    이노션이 세계 최대&최고의 권위를 자랑하는 국제광고제인 ‘칸 라이언즈’에서 최고상인 ‘그랑프리’를 처음으로 수상하는 쾌거를 달성했다. 2005년 창립 이후 칸 라이언즈에서 그랑프리를 받은 것은 이번이 최초이며, 그랑프리1개 외에도 금상 1개, 동상 3개 등 총 5개의 본상을 수상, 역대 최고 성적을 거뒀다.   이번 ‘그랑프리(Grand Prix
[BRAND REPORT] 건강한 세상을 만드는 건강한 소통 헬스 커뮤니케이션
최근 헬스 커뮤니케이션(Health Communication)에 대한 관심이 뜨겁다. 여러 분야에서 커뮤니케이션, 즉 소통의 중요성이 강조되고 있지만, 유독 헬스 커뮤니케이션의 중요성이 강조 되는 것을 보면 그만큼 이 분야에서 소통의 중요성이 등한시 되어 왔던 것은 아니었는지 생각해 본다.
2023년 광고 시장 결산 및 2024년 전망
2023년 연초 광고 시장에 드리웠던 불안한 예감은 현실이 됐다. 지난 2021년 20.4%라는 큰 성장 이후 2022년 5.4% 재 성장하며 숨 고르기로 다시 한번 도약을 준비하던 광고 시장이었다. 하지만 발표된 다수의 전망들은 2023년 광고 시장의 축소를 내다보고 있다. 한국방송광고진흥공사에 따르면 2023년 광고비는 전년 대비 3.1%p 하락으로 전망됐고, 이중 방송 광고비는 17.7% 감소가 예상됐다.
구글의 AI는 자비스를 꿈꾸고 있을까?
 전승민 과학 전문 저술가   챗GPT를 발표해 세상을 놀라게 했던 오픈AI가 챗GPT의 새 버전 ‘GPT-4o’를 깜짝 발표했다. GPT-4o의 가장 큰 특징은 지금까지 키보드로 소통해야 했던 대화형 AI에 사람의 말을 알아듣고 반응하는 ‘음성 대화’ 기능을 추가했다는 점이었다.   GPT-4o를 활용한 각종 기능을 시연하는 라이브 데모 (출처 : OpenAI
디자이너 VS 개발자, 판교 밈으로 풀어낸 KT AI
제일기획 배재현 프로 (비즈니스 17팀)   “AI는 기술 발전과 사회 변화의 중추적 역할을 하고 있습니다. 데이터 분석부터 자율주행, 의료 진단 교육 방식까지 AI 기술이 다양한 산업 분야에 보급되면서 새로운 경제적 기회가 창출되고 우리의 삶을 변화시키고 있습니다.”   ‘AI가 불러온 변화는 무엇인가’라는 질문에 챗GPT가 스스로 답한 내용이다. AI의 자화자찬(?)이 아닌 실제로
[빅데이터 리뷰] 우리 마케팅 활동의 효과는 얼마나 될까?
많은 마케터가 실제 매출이나 기대되는 매출의 증가로 마케팅의 효과를 알고 싶어 한다. 그래서 제일DnA센터가 마케팅 캠페인을 경험한 소비자로부터 발생하는 매출 효과를 측정하는 간단한 수학 공식을 제안한다.
이노션, 강남대로 최대 LED 미디어월 ‘더 몬테 강남’ 론칭
  -디지털 아트 캔버스로 새롭게 태어난 옥외 전광판 - 이노션이 서울시 강남대로에 최대 규격 및 최고 화질의 LED 미디어월 ‘더 몬테 강남’을 새롭게 론칭하고 다채로운 콘텐츠를 선보일 계획이다. 대규모 LED 미디어월 ‘더 몬테 강남’은 이노션이 자체 운영하는 옥외 미디어 프라퍼티로, 강남역 사거리 몬테소리 빌딩에 설치된 기존의 전광판을 리뉴얼해 재탄생했다. 총 면적은 337.5㎡로
2023년 광고 시장 결산 및 2024년 전망
2023년 연초 광고 시장에 드리웠던 불안한 예감은 현실이 됐다. 지난 2021년 20.4%라는 큰 성장 이후 2022년 5.4% 재 성장하며 숨 고르기로 다시 한번 도약을 준비하던 광고 시장이었다. 하지만 발표된 다수의 전망들은 2023년 광고 시장의 축소를 내다보고 있다. 한국방송광고진흥공사에 따르면 2023년 광고비는 전년 대비 3.1%p 하락으로 전망됐고, 이중 방송 광고비는 17.7% 감소가 예상됐다.
구글의 AI는 자비스를 꿈꾸고 있을까?
 전승민 과학 전문 저술가   챗GPT를 발표해 세상을 놀라게 했던 오픈AI가 챗GPT의 새 버전 ‘GPT-4o’를 깜짝 발표했다. GPT-4o의 가장 큰 특징은 지금까지 키보드로 소통해야 했던 대화형 AI에 사람의 말을 알아듣고 반응하는 ‘음성 대화’ 기능을 추가했다는 점이었다.   GPT-4o를 활용한 각종 기능을 시연하는 라이브 데모 (출처 : OpenAI
디자이너 VS 개발자, 판교 밈으로 풀어낸 KT AI
제일기획 배재현 프로 (비즈니스 17팀)   “AI는 기술 발전과 사회 변화의 중추적 역할을 하고 있습니다. 데이터 분석부터 자율주행, 의료 진단 교육 방식까지 AI 기술이 다양한 산업 분야에 보급되면서 새로운 경제적 기회가 창출되고 우리의 삶을 변화시키고 있습니다.”   ‘AI가 불러온 변화는 무엇인가’라는 질문에 챗GPT가 스스로 답한 내용이다. AI의 자화자찬(?)이 아닌 실제로
[빅데이터 리뷰] 우리 마케팅 활동의 효과는 얼마나 될까?
많은 마케터가 실제 매출이나 기대되는 매출의 증가로 마케팅의 효과를 알고 싶어 한다. 그래서 제일DnA센터가 마케팅 캠페인을 경험한 소비자로부터 발생하는 매출 효과를 측정하는 간단한 수학 공식을 제안한다.
이노션, 강남대로 최대 LED 미디어월 ‘더 몬테 강남’ 론칭
  -디지털 아트 캔버스로 새롭게 태어난 옥외 전광판 - 이노션이 서울시 강남대로에 최대 규격 및 최고 화질의 LED 미디어월 ‘더 몬테 강남’을 새롭게 론칭하고 다채로운 콘텐츠를 선보일 계획이다. 대규모 LED 미디어월 ‘더 몬테 강남’은 이노션이 자체 운영하는 옥외 미디어 프라퍼티로, 강남역 사거리 몬테소리 빌딩에 설치된 기존의 전광판을 리뉴얼해 재탄생했다. 총 면적은 337.5㎡로
2023년 광고 시장 결산 및 2024년 전망
2023년 연초 광고 시장에 드리웠던 불안한 예감은 현실이 됐다. 지난 2021년 20.4%라는 큰 성장 이후 2022년 5.4% 재 성장하며 숨 고르기로 다시 한번 도약을 준비하던 광고 시장이었다. 하지만 발표된 다수의 전망들은 2023년 광고 시장의 축소를 내다보고 있다. 한국방송광고진흥공사에 따르면 2023년 광고비는 전년 대비 3.1%p 하락으로 전망됐고, 이중 방송 광고비는 17.7% 감소가 예상됐다.
구글의 AI는 자비스를 꿈꾸고 있을까?
 전승민 과학 전문 저술가   챗GPT를 발표해 세상을 놀라게 했던 오픈AI가 챗GPT의 새 버전 ‘GPT-4o’를 깜짝 발표했다. GPT-4o의 가장 큰 특징은 지금까지 키보드로 소통해야 했던 대화형 AI에 사람의 말을 알아듣고 반응하는 ‘음성 대화’ 기능을 추가했다는 점이었다.   GPT-4o를 활용한 각종 기능을 시연하는 라이브 데모 (출처 : OpenAI
디자이너 VS 개발자, 판교 밈으로 풀어낸 KT AI
제일기획 배재현 프로 (비즈니스 17팀)   “AI는 기술 발전과 사회 변화의 중추적 역할을 하고 있습니다. 데이터 분석부터 자율주행, 의료 진단 교육 방식까지 AI 기술이 다양한 산업 분야에 보급되면서 새로운 경제적 기회가 창출되고 우리의 삶을 변화시키고 있습니다.”   ‘AI가 불러온 변화는 무엇인가’라는 질문에 챗GPT가 스스로 답한 내용이다. AI의 자화자찬(?)이 아닌 실제로
[빅데이터 리뷰] 우리 마케팅 활동의 효과는 얼마나 될까?
많은 마케터가 실제 매출이나 기대되는 매출의 증가로 마케팅의 효과를 알고 싶어 한다. 그래서 제일DnA센터가 마케팅 캠페인을 경험한 소비자로부터 발생하는 매출 효과를 측정하는 간단한 수학 공식을 제안한다.
이노션, 강남대로 최대 LED 미디어월 ‘더 몬테 강남’ 론칭
  -디지털 아트 캔버스로 새롭게 태어난 옥외 전광판 - 이노션이 서울시 강남대로에 최대 규격 및 최고 화질의 LED 미디어월 ‘더 몬테 강남’을 새롭게 론칭하고 다채로운 콘텐츠를 선보일 계획이다. 대규모 LED 미디어월 ‘더 몬테 강남’은 이노션이 자체 운영하는 옥외 미디어 프라퍼티로, 강남역 사거리 몬테소리 빌딩에 설치된 기존의 전광판을 리뉴얼해 재탄생했다. 총 면적은 337.5㎡로
중국공상은행
poppop01
Stych
poppop01
소프롤레
woo8166
Sicredi
woo8166
프리맨스
woo8166