AI 이미지·영상 프롬프트 작성법: Midjourney·Veo 실전

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

AI 이미지·영상의 퀄리티는 모델이 아니라 프롬프트에서 갈린다. 같은 미드저니를 써도 광고에 바로 쓸 컷을 뽑는 사람이 있고, 손가락 여섯 개짜리에서 못 벗어나는 사람도 있다.

이 글은 Veo 3.1 공식 가이드와 Higgsfield 문서, Midjourney 커뮤니티 자료를 정리한 것이다. 도구별 문법보다 어떤 모델에든 통하는 원리를 먼저 다룬다. (2026년 6월 기준이고, 파라미터는 자주 바뀐다.)

핵심을 한 줄로 줄이면 이렇다. 사물이 아니라 장면을 묘사할 것.

예를 들어 "고양이"보다는
"황금빛 햇살 드는 창가에서 졸고 있는 러시안블루를 85mm 렌즈로 얕은 심도로 잡은 클로즈업"이다. 뒤로 갈수록 결국 이 얘기를 변주하게 된다.

1. 모든 모델에 통하는 공통 원리#

특정 도구의 문법을 외우기 전에, 어떤 모델에 넣어도 결과가 좋아지는 보편 원리가 있다. 도구가 바뀌어도 살아남는 것들이라 먼저 잡아두면 편하다.

1-1. 프롬프트 해부도(anatomy)#

좋은 프롬프트는 아래 요소들의 조합이다. 전부 넣을 필요는 없지만, 무엇이 빠졌는지는 알고 있는 게 좋다.

요소	영문	역할	예시 키워드
주체	Subject	무엇을/누구를	a 30-year-old fisherman, weathered face
행동	Action	무엇을 하는가	mending a net, looking at the horizon
환경	Environment	배경·장소	on a wooden pier at dawn
조명	Lighting	빛의 종류·방향	soft golden hour light, backlit
구도·카메라	Composition / Camera	앵글·렌즈·프레이밍	low angle, 85mm, shallow depth of field
스타일·매체	Style / Medium	사진·유화·애니 등	shot on Kodak Portra 400, oil painting
품질	Quality	해상도·완성도	sharp focus, highly detailed
제외	Negative	빼고 싶은 것	no text, no extra fingers

초보와 고수의 차이는 대개 조명·카메라·환경 세 칸이 비어 있느냐에서 갈린다. 이 칸을 비워두면 모델이 알아서 채우는데, 그 결과가 의도와 맞을 확률은 높지 않다.

1-2. 순서가 곧 가중치다#

대부분의 이미지·영상 모델은 프롬프트 앞쪽 단어에 더 큰 비중을 둔다. 그러니 가장 중요한 것을 문장 맨 앞에. "강조하고 싶은 게 인물이면 인물을, 분위기면 분위기를" 먼저 쓴다.

1-3. 길이의 트레이드오프#

길다고 좋은 게 아니다. 보통 20~60단어 사이에서 시작하는 것을 권한다. 너무 짧으면 모델이 빈칸을 임의로 채우고, 너무 길면 핵심 키워드가 희석된다. 디테일을 더하고 싶으면 한꺼번에 쏟지 말고 한 요소씩 늘려라.

1-4. 구체성: 형용사 대신 묘사#

"예쁜 색감"보다 "warm amber tones"(따뜻한 호박색)나 "cool desaturated blues"(차갑게 탈색된 파랑)
RGB·Hex 코드를 정확히 적기보다 분위기로 연상시키는 색 표현 (대부분의 생성 모델은 정확한 코드값을 못 지킨다)
"좋은 조명"보다 "soft key light from a window on the left, subtle rim light"

모호한 형용사일수록 모델이 알아서 해석하는 여지가 커진다. 구체적인 명사와 묘사를 써야 결과를 통제할 수 있다.

1-5. 공통 프롬프트(재사용 스타일 블록)#

여러 장을 같은 톤으로 뽑아야 한다면, 한 번 잘 만든 "스타일 블록"을 베이스로 고정하고 주체만 바꿔라. 예를 들어:

[스타일 블록 — 고정]
shot on 35mm film, soft natural window light, muted pastel palette,
minimalist composition, shallow depth of field, calm and intimate mood

이 블록을 모든 프롬프트 뒤에 붙이면 시리즈 전체가 같은 "브랜드 룩"을 갖는다. 브랜드 이미지 스타일 가이드를 만드는 것과 비슷한 발상이다.

1-6. 반복 개선 워크플로#

한 번에 완성하려 하지 마라. 한 번에 변수 하나만 바꿔 최소 3버전을 돌려보는 식이다.

기본 프롬프트로 생성 → 결과 확인
조명만 바꿔 재생성
만족스러우면 카메라/렌즈만 조정
마지막에 negative로 잔여 결함 제거

순서를 외우기 쉽게: 구도(block) → 조명(light) → 스타일(style) → 제외(negatives). 두 개를 동시에 바꾸면 어느 쪽이 효과였는지 알 수 없게 된다.

2. 이미지 생성 프롬프트 정교화#

2-1. 주체를 구체화하라#

"woman"은 약하다. 나이 + 외형 + 표정 + 복장까지 적는다.

약함: a woman taking a selfie
강함: a young woman in her 20s taking a selfie, shoulder-length black hair, beige knit sweater, soft smile

2-2. 배경은 전경·중경·배경으로 레이어링#

공간감을 통제하려면 깊이를 셋으로 나눠 지시한다.

foreground: moss-covered rocks, close detail
midground: a misty waterfall
background: snow-capped mountains fading into haze

이렇게 하면 모델이 평면적 배경 대신 입체적 장면을 만든다.

2-3. 조명#

분위기를 가장 크게 좌우하는 건 조명이다. 자주 쓰는 키워드:

golden hour: 따뜻하고 부드러운 해질녘 빛
soft key light from the window: 창에서 들어오는 부드러운 주광
cinematic lighting: 명암 대비가 강한 영화풍
neon lights: 사이버펑크·도시 야경
인물 사진이라면 3점 조명을 명시: key light on the left, soft fill, subtle rim light

2-4. 카메라와 렌즈 — 사진의 언어를 빌려라#

초점거리(렌즈)는 실제 사진 원리 그대로 작동한다. 렌즈를 지정하는 것만으로 결과가 크게 달라진다.

렌즈	효과	쓰임
24mm 광각	넓은 환경, 가장자리 왜곡	풍경·공간 강조
35mm	자연스러운 시야	스냅·다큐
50mm	표준, 균형 잡힌 원근	일상·인물
85mm	배경 흐림(보케), 인물 강조	포트레이트
200mm 망원	배경 압축, 피사체 강조	압축감 연출

예: 85mm f/1.8, shallow depth of field, creamy background blur → 인물만 또렷하고 배경이 부드럽게 녹는 사진.

2-5. 캐릭터 일관성 — 같은 인물을 여러 장에#

가장 까다로운 문제다. 모델·기법별로 정리한다.

Midjourney: 버전에 따라 기능이 다르다 (2026년 6월 기준)

Midjourney의 캐릭터 일관성 기능은 버전마다 이름과 문법이 다르다. 공식 문서 기준으로 정리하면:

V7(현행): Omni Reference: --oref [이미지URL] + 가중치 --ow(범위 1~1,000, 기본 100). 참조 이미지의 인물·사물·차량 등을 새 이미지에 넣는다. V7 전용이며, Omni Reference 이미지를 넣으면 자동으로 V7로 실행된다.

young woman in a summer dress, sunny park --oref https://이미지URL --ow 200

V6·niji 6(레거시): Character Reference: --cref [URL] + --cw(0~100). 동일 인물을 여러 장면에 재현한다. --cw 100(기본)은 얼굴·머리·옷까지 복제하고, --cw 0은 얼굴만 고정해 옷·헤어를 자유롭게 바꾼다. "같은 얼굴, 다른 의상"이면 --cw를 낮춘다.

스타일은 버전 공통으로 --sref(Style Reference)로 고정한다. 색감·질감·조명 등 "분위기"만 복제하고 인물·사물 자체는 복제하지 않는다.

Higgsfield Soul ID
같은 인물 사진을 학습시켜 일관성을 유지한다. 권장 장수는 공식 문서마다 10장 이상~20장 이상으로 다르게 안내하니,
넉넉히 다양한 각도·표정으로 준비하는 게 좋다. 학습은 약 5분, 인물 1명 단위로 진행되며, 이후 어떤 스타일·조명·각도에서도 동일 인물을 무제한 생성한다. Midjourney보다 초기 비용(학습 시간)은 크지만 일관성은 더 높다.

Seed 고정
구식이지만 여전히 유효하다. 같은 seed + 같은 프롬프트는 비슷한 결과를 재현한다. 미세 변형 실험에 좋다.

2-6. 가중치 문법(모델별로 다름)#

Midjourney: :: 사용, beautiful woman::3 forest::1은 인물을 숲보다 3배 강조.
Stable Diffusion: 괄호, (white horse:1.5) (blue sky:0.8)는 백마를 강조, 하늘을 약화.

같은 문법을 모든 모델에 쓰면 안 된다. Midjourney의 ::는 SD에서 안 통하고 그 반대도 마찬가지다.

2-7. Negative Prompt — 결함 제거#

빼고 싶은 것을 명시한다. 인물에서 특히 효과적이다.

Midjourney: --no extra fingers, deformed hands, watermark, text
Stable Diffusion: 별도 negative 입력란에 bad anatomy, extra fingers, low quality, jpeg artifacts

주의 두 가지. ① 너무 많이 넣으면 창의성을 죽인다. ② 모델마다 효과가 다르다: SD에서 30개를 넣어도 Midjourney에선 거의 안 먹힐 수 있다.

2-8. 모델별 성향 요약#

모델	입력 성향	특징
Midjourney	키워드 + 파라미터	V7 `--oref/--ow`·공통 `--sref/--ar/--s` 등 제어 풍부
Higgsfield	영어 UI(모델 따라 한글도 지원)	Soul(포토리얼)·Soul ID(인물 고정)·Cinema Studio(카메라 프리셋)
Gemini / Nano Banana	자연문 문장	과도한 형용사는 오히려 역효과, 담백하게

AI는 한국어보다 영어 프롬프트를 더 정확히 이해한다. 이미지·영상 모델 대부분이 영어 중심으로 학습됐기 때문이다. "한국어 지원"도 모델마다 의미가 달라(FLUX.2만 비라틴 프롬프트를 네이티브로 이해, GPT Image 2는 한글 글자 렌더링, Kling 3.0은 오디오 출력 언어)
프롬프트 이해와는 대체로 별개다. 결과의 일관성과 이미지 내 텍스트 정확도까지 영어가 유리하니, 한글 아이디어도 구체 명사 중심으로 영어로 옮겨 넣자.

2-9. 실전 예시 + 해부#

예시 A: 영화풍 인물 사진

Cinematic portrait of a 25-year-old woman with long black hair,
wearing a cream-colored knit sweater, sitting by a rain-streaked window
in a dimly lit cafe, soft key light from the window, shallow depth of field,
warm amber tones, Kodak Portra 400 film grain, 85mm lens, melancholic mood

해부: 주체(여성·머리·옷) → 환경(비 오는 카페 창가) → 조명(창의 부드러운 주광) → 매체(코닥 필름) → 렌즈(85mm) → 분위기(우울). 해부도 8칸 중 7칸이 채워져 있다.

예시 B: 레이어링 풍경

serene forest landscape, moss-covered rocks in the foreground,
a misty waterfall in the midground, snow-capped mountains in the background,
dappled golden light through the trees, ethereal morning mist, wide-angle 24mm
--no people, paths, buildings

해부: 전경·중경·배경을 명시(깊이) + 광각 렌즈(공간) + negative로 인공물 제거.

3. 영상 생성 프롬프트 (Veo 3.1 / Google Flow)#

영상은 이미지에 시간·움직임·소리가 더해진다. 그만큼 통제할 변수가 늘어난다. 아래는 Google Cloud 공식 가이드 기준이다.

3-1. Google 공식 5요소 공식#

[Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]

Cinematography(촬영): 카메라 워크·샷 구성
Subject(주체): 중심 인물/사물
Action(행동): 주체가 하는 일
Context(맥락): 환경·배경
Style & Ambiance(스타일·분위기): 미감·무드·조명

3-2. 카메라 무빙 — 단, 동시에 2개까지#

영상에서는 카메라 움직임이 특히 중요하다. 자주 쓰는 용어:

dolly in/out(전후 이동), tracking shot(피사체 따라가기), crane shot(크레인 상승·하강), aerial view(항공), slow pan(좌우 패닝), POV shot(1인칭 시점).

현장 팁(공식 규칙은 아님): Google 공식 가이드에는 "카메라 동사 개수 제한"이 없다. 오히려 공식 타임스탬프 예시는 한 영상에서 여러 무빙을 연속으로 쓴다. 다만 커뮤니티 경험칙상 한 컷에 움직임을 너무 많이 겹치면 불안정해지므로,
동시 움직임은 1~2개로 절제하는 편이 안정적이다. 예: slow dolly in while panning slightly right.

3-3. 오디오·대사 — Veo의 강점#

Veo 3.1은 영상과 소리를 함께 생성한다. 오디오 지시까지 챙겨야 Veo를 제대로 쓰는 것이다. 공식 문법:

대사: 따옴표로, A woman says, "We have to leave now."
효과음: SFX: thunder cracks in the distance
배경음/분위기: Ambient noise: the quiet hum of a starship bridge

팁: 대사를 따옴표로 정확히 주면 자막 없이 입모양과 음성이 맞는다. (원치 않는 자막이 생기면 "no subtitles"를 덧붙이는 커뮤니티 관행이 있다.)

3-4. 캐릭터·장면 일관성 기능#

Flow/Veo 3.1에는 일관성 전용 기능이 있다.

Ingredients to Video: 인물·사물·배경의 참조 이미지를 넣어 여러 컷에 같은 모습 유지.
시작·끝 프레임(first and last frame): 시작 이미지와 끝 이미지를 지정하면 그 사이를 자연스럽게 보간한다(Flow UI에서는 "Frames to Video"로 부르기도 한다).
Extend(장면 연장): 생성된 클립의 마지막 프레임에서 이어 더 긴 샷을 만든다.

이음매 팁: 연장·연결 시 앞 클립의 마지막 프레임과 뒤 클립의 첫 프레임이 구도·노출에서 1~2프레임 내로 일치해야 하고,
색감(palette)·필름 그레인·렌즈/심도·조명이 끊기지 않게 유지해야 자연스럽다.

3-5. JSON·타임스탬프 프롬프트(고급)#

영상 커뮤니티에서 떠오르는 방식이 구조화 프롬프트다.

JSON 프롬프트: 카메라·주체·동작·스타일·오디오를 필드로 나눠 적는다. 모호성이 줄고 재현성이 올라가, 같은 톤의 광고 컷을 반복 생산할 때 유리하다. 단점은 과설계: 한 컷짜리 실험엔 오히려 번거롭다.

타임스탬프 프롬프트: 한 클립 안의 시간 구간을 나눠 지시한다. 공식 가이드 예시:

[00:00-00:02] Medium shot from behind a young female explorer with a leather
satchel, as she pushes aside a large jungle vine to reveal a hidden path.

[00:02-00:04] Reverse shot of the explorer's face, filled with awe as she
gazes upon ancient, moss-covered ruins. SFX: rustle of leaves, distant bird calls.

[00:04-00:06] Tracking shot following her as she runs her hand over the carvings
on a crumbling stone wall. Emotion: wonder and reverence.

이렇게 하면 한 영상 안에서 샷 전환·감정·효과음을 시간순으로 통제할 수 있다.

3-6. 실전 예시(공식)#

예시 C: 5요소 기본형

Medium shot, a tired corporate worker, rubbing his temples in exhaustion,
in front of a bulky 1980s computer in a cluttered office late at night.
The scene is lit by harsh fluorescent overhead lights and the green glow of
the monochrome monitor. Retro aesthetic, shot as if on 1980s color film, slightly grainy.

예시 D: 대사 + Ingredients

Using the provided images for the detective, the woman, and the office setting,
create a medium shot of the detective behind his desk. He looks up at the woman
and says in a weary voice, "Of all the offices in this town, you had to walk into mine."

4. 공통 함정과 발행 전 체크리스트#

자주 하는 실수#

키워드만 나열한다: woman, cafe, rain, sad. 모델은 문장형 묘사를 더 잘 이해한다.
한 번에 여러 변수를 바꿔 무엇이 효과였는지 모른다.
조명을 안 적는다. 분위기를 좌우하는 요소를 통째로 모델에 맡기는 셈이다.
일관성 장치(cref·Soul ID·seed)를 안 쓰고 같은 인물이 매번 바뀐다고 불평한다.
negative를 과용해 결과가 밋밋해진다.

재현성 챙기기#

마음에 든 결과는 프롬프트 + seed + 파라미터를 통째로 저장해 나만의 라이브러리로 만든다.
시리즈는 스타일 블록을 고정한다(1-5 참고).

복붙 템플릿#

이미지용 템플릿

[주체: 나이·외형·표정·복장], [행동], [환경: 전경/중경/배경],
[조명], [렌즈/구도], [스타일/매체], [분위기]
--no [제외 항목]

영상용 템플릿(Veo/Flow)

[Cinematography: 샷+카메라무빙(1~2개)], [Subject], [Action],
[Context: 환경], [Style & Ambiance: 조명·무드].
대사: "..."  SFX: ...  Ambient noise: ...

마무리#

정리하면, 채워야 할 칸은 주체·행동·환경·조명·카메라·스타일이고, 앞에 둔 단어일수록 강하게 반영된다. 이 두 가지만 의식해도 결과가 꽤 달라진다.

일관성은 도구에 맡기면 된다. Midjourney의 Omni Reference와 구버전 --cref/--cw,
Higgsfield Soul ID, Veo의 Ingredients·시작끝 프레임·Extend가 그 역할을 한다. 영상이라면 카메라 무빙은 한두 개로 절제하고, 오디오를 함께 생성하는 것을 잊지 않는다.

프롬프트는 외워서 느는 게 아니다. 한 번에 한 변수씩 바꿔 돌려보고 괜찮았던 줄을 따로 모아두면, 그게 결국 자기 라이브러리가 된다.

참고: 본문의 영상 관련 공식·예시는 Google Cloud — Ultimate prompting guide for Veo 3.1 기준이며, 이미지 관련 노하우는 Higgsfield 공식 문서와 Midjourney 커뮤니티 가이드에서 정리했다. 모델 기능·파라미터는 2026년 6월 기준으로, 이후 업데이트로 달라질 수 있다.