AI 이미지·영상 생성 프롬프트 완벽 가이드 — Midjourney·Higgsfield·Veo 3.1·Flow 실전
AI로 이미지나 영상을 만들 때, 같은 모델·같은 아이디어인데도 누구는 광고에 바로 쓸 결과를 뽑고 누구는 손가락이 여섯 개인 그림만 건진다. 차이는 재능이 아니라 프롬프트의 구조다.
이 글은 "그냥 잘 쓰는 법"이 아니라, Google이 공개한 Veo 3.1 공식 프롬프트 가이드와 Higgsfield 공식 문서, Midjourney 커뮤니티에서 반복 검증된 노하우를 정리한 것이다. 이미지(Midjourney·Higgsfield·Gemini/Nano Banana)와 영상(Veo 3.1·Google Flow)을 함께 다루되, 모든 모델에 공통으로 통하는 원리부터 쌓는다. (기준: 2026년 6월. 모델 기능·파라미터는 빠르게 바뀐다.)
가장 먼저 머리에 새길 한 줄이 있다.
사물(thing)이 아니라 한 장면(shot)을 묘사하라.
"고양이"가 아니라 "황금빛 햇살이 드는 창가에서 졸고 있는 러시안블루 고양이를, 85mm 렌즈로 얕은 심도로 잡은 클로즈업". 이 차이가 이 글 전체를 관통한다.
1. 모든 모델에 통하는 공통 원리
특정 도구의 문법을 외우기 전에, 어떤 모델에 넣어도 결과가 좋아지는 보편 원리가 있다. 여러 프롬프트 가이드(Leonardo.Ai, ImprovePrompt 등)가 공통으로 말하는 것들이다.
1-1. 프롬프트 해부도(anatomy)
좋은 프롬프트는 아래 요소들의 조합이다. 전부 넣을 필요는 없지만, 무엇이 빠졌는지 의식하는 것이 핵심이다.
| 요소 | 영문 | 역할 | 예시 키워드 |
|---|---|---|---|
| 주체 | Subject | 무엇을/누구를 | a 30-year-old fisherman, weathered face |
| 행동 | Action | 무엇을 하는가 | mending a net, looking at the horizon |
| 환경 | Environment | 배경·장소 | on a wooden pier at dawn |
| 조명 | Lighting | 빛의 종류·방향 | soft golden hour light, backlit |
| 구도·카메라 | Composition / Camera | 앵글·렌즈·프레이밍 | low angle, 85mm, shallow depth of field |
| 스타일·매체 | Style / Medium | 사진·유화·애니 등 | shot on Kodak Portra 400, oil painting |
| 품질 | Quality | 해상도·완성도 | sharp focus, highly detailed |
| 제외 | Negative | 빼고 싶은 것 | no text, no extra fingers |
초보와 고수의 차이는 대개 조명·카메라·환경 세 칸이 비어 있느냐다. 주체만 적으면 모델이 나머지를 멋대로 채운다.
1-2. 순서가 곧 가중치다
대부분의 이미지·영상 모델은 프롬프트 앞쪽 단어에 더 큰 비중을 둔다. 가장 중요한 것을 문장 맨 앞에 둬라. "강조하고 싶은 게 인물이면 인물을, 분위기면 분위기를" 먼저 쓴다.
1-3. 길이의 트레이드오프
길다고 좋은 게 아니다. 보통 20~60단어 사이에서 시작하는 것을 권한다. 너무 짧으면 모델이 빈칸을 임의로 채우고, 너무 길면 핵심 키워드가 희석된다. 디테일을 더하고 싶으면 한꺼번에 쏟지 말고 한 요소씩 늘려라.
1-4. 구체성: 형용사 대신 묘사
- ❌ "예쁜 색감" → ✅ "warm amber tones"(따뜻한 호박색), "cool desaturated blues"(차갑게 탈색된 파랑)
- ❌ RGB·Hex 코드를 정확히 적기 → ✅ 분위기로 연상시키는 색 표현 (대부분의 생성 모델은 정확한 코드값을 못 지킨다)
- ❌ "좋은 조명" → ✅ "soft key light from a window on the left, subtle rim light"
모호한 형용사는 모델에게 "알아서 해석하라"는 신호다. 구체적 명사·묘사가 통제권을 준다.
1-5. 공통 프롬프트(재사용 스타일 블록)
여러 장을 같은 톤으로 뽑아야 한다면, 한 번 잘 만든 "스타일 블록"을 베이스로 고정하고 주체만 바꿔라. 예를 들어:
[스타일 블록 — 고정]
shot on 35mm film, soft natural window light, muted pastel palette,
minimalist composition, shallow depth of field, calm and intimate mood
이 블록을 모든 프롬프트 뒤에 붙이면 시리즈 전체가 같은 "브랜드 룩"을 갖는다. 이는 브랜드 이미지 스타일 가이드를 만드는 것과 같은 발상이다.
1-6. 반복 개선 워크플로
한 번에 완성하려 하지 마라. 한 번에 변수 하나만 바꿔 최소 3버전을 돌리는 게 검증된 방법이다.
- 기본 프롬프트로 생성 → 결과 확인
- 조명만 바꿔 재생성
- 만족스러우면 카메라/렌즈만 조정
- 마지막에 negative로 잔여 결함 제거
순서를 외우기 쉽게: 구도(block) → 조명(light) → 스타일(style) → 제외(negatives). 두 개를 동시에 바꾸면 무엇이 효과였는지 알 수 없어 학습이 안 된다.
2. 이미지 생성 프롬프트 정교화
이제 위 원리를 이미지에 적용한다.
2-1. 주체를 구체화하라
"woman"은 약하다. 나이 + 외형 + 표정 + 복장까지 적는다.
- 약함:
a woman taking a selfie - 강함:
a young woman in her 20s taking a selfie, shoulder-length black hair, beige knit sweater, soft smile
2-2. 배경은 전경·중경·배경으로 레이어링
공간감을 통제하려면 깊이를 셋으로 나눠 지시한다.
foreground: moss-covered rocks, close detail
midground: a misty waterfall
background: snow-capped mountains fading into haze
이렇게 하면 모델이 평면적 배경 대신 입체적 장면을 만든다.
2-3. 조명
분위기의 80%는 조명이 결정한다. 자주 쓰는 키워드:
golden hour— 따뜻하고 부드러운 해질녘 빛soft key light from the window— 창에서 들어오는 부드러운 주광cinematic lighting— 명암 대비가 강한 영화풍neon lights— 사이버펑크·도시 야경- 인물 사진이라면 3점 조명을 명시:
key light on the left, soft fill, subtle rim light
2-4. 카메라와 렌즈 — 사진의 언어를 빌려라
초점거리(렌즈)는 실제 사진 원리 그대로 작동한다. 이건 여러 가이드에서 반복 검증된 강력한 지렛대다.
| 렌즈 | 효과 | 쓰임 |
|---|---|---|
| 24mm 광각 | 넓은 환경, 가장자리 왜곡 | 풍경·공간 강조 |
| 35mm | 자연스러운 시야 | 스냅·다큐 |
| 50mm | 표준, 균형 잡힌 원근 | 일상·인물 |
| 85mm | 배경 흐림(보케), 인물 강조 | 포트레이트 |
| 200mm 망원 | 배경 압축, 피사체 강조 | 압축감 연출 |
예: 85mm f/1.8, shallow depth of field, creamy background blur → 인물만 또렷하고 배경이 부드럽게 녹는 사진.
2-5. 캐릭터 일관성 — 같은 인물을 여러 장에
가장 어려운 문제다. 모델·기법별로 정리한다.
Midjourney — 버전에 따라 기능이 다르다 (★ 2026년 6월 기준)
Midjourney의 캐릭터 일관성 기능은 버전마다 이름과 문법이 다르다. 공식 문서 기준으로 정리하면:
- V7(현행): Omni Reference —
--oref [이미지URL]+ 가중치--ow(범위 1~1,000, 기본 100). 참조 이미지의 인물·사물·차량 등을 새 이미지에 넣는다. V7 전용이며, Omni Reference 이미지를 넣으면 자동으로 V7로 실행된다.
young woman in a summer dress, sunny park --oref https://이미지URL --ow 200
- V6·niji 6(레거시): Character Reference —
--cref [URL]+--cw(0~100). 동일 인물을 여러 장면에 재현한다.--cw 100(기본)은 얼굴·머리·옷까지 복제하고,--cw 0은 얼굴만 고정해 옷·헤어를 자유롭게 바꾼다. "같은 얼굴, 다른 의상"이면--cw를 낮춘다.
스타일은 버전 공통으로 --sref(Style Reference)로 고정한다 — 색감·질감·조명 등 "분위기"만 복제하고 인물·사물 자체는 복제하지 않는다.
Higgsfield Soul ID 같은 인물 사진을 학습시켜 일관성을 유지한다. 권장 장수는 공식 문서마다 10장 이상~20장 이상으로 다르게 안내하니 넉넉히 다양한 각도·표정으로 준비하는 게 좋다. 학습은 약 5분, 인물 1명 단위로 진행되며, 이후 어떤 스타일·조명·각도에서도 동일 인물을 무제한 생성한다. Midjourney보다 초기 비용(학습 시간)은 크지만 일관성은 더 높다.
Seed 고정 구식이지만 여전히 유효하다. 같은 seed + 같은 프롬프트는 비슷한 결과를 재현한다. 미세 변형 실험에 좋다.
2-6. 가중치 문법(모델별로 다름)
- Midjourney:
::사용 —beautiful woman::3 forest::1은 인물을 숲보다 3배 강조. - Stable Diffusion: 괄호 —
(white horse:1.5) (blue sky:0.8)는 백마를 강조, 하늘을 약화.
같은 문법을 모든 모델에 쓰면 안 된다. Midjourney의 ::는 SD에서 안 통하고 그 반대도 마찬가지다.
2-7. Negative Prompt — 결함 제거
빼고 싶은 것을 명시한다. 인물에서 특히 효과적이다.
- Midjourney:
--no extra fingers, deformed hands, watermark, text - Stable Diffusion: 별도 negative 입력란에
bad anatomy, extra fingers, low quality, jpeg artifacts
주의 두 가지: ① 너무 많이 넣으면 창의성을 죽인다. ② 모델마다 효과가 다르다 — SD에서 30개를 넣어도 Midjourney에선 거의 안 먹힐 수 있다.
2-8. 모델별 성향 요약
| 모델 | 입력 성향 | 특징 |
|---|---|---|
| Midjourney | 키워드 + 파라미터 | V7 --oref/--ow·공통 --sref/--ar/--s 등 제어 풍부 |
| Higgsfield | 영어 UI(모델 따라 한글도 지원) | Soul(포토리얼)·Soul ID(인물 고정)·Cinema Studio(카메라 프리셋) |
| Gemini / Nano Banana | 자연문 문장 | 과도한 형용사는 오히려 역효과, 담백하게 |
Higgsfield는 인터페이스가 영어 기반이고 한국어 현지화가 없다. 한글 프롬프트 지원은 모델마다 의미가 다르다 — FLUX.2는 한국어 등 비라틴 문자 프롬프트를 네이티브로 이해한다고 공식 명시한다. 반면 GPT Image 2의 "한국어 지원"은 이미지 속 한글 글자를 깨끗이 렌더링하는 능력, Kling 3.0의 한국어는 생성 오디오의 출력 언어를 뜻해 프롬프트 이해와는 별개다. 그래도 일관된 결과와 이미지 내 텍스트 정확도 측면에서는 영어 프롬프트가 무난한 기본값이며, 영어로 옮길 땐 구체 명사 중심으로 번역해 의도가 새지 않게 한다.
2-9. 실전 예시 + 해부
예시 A — 영화풍 인물 사진
Cinematic portrait of a 25-year-old woman with long black hair,
wearing a cream-colored knit sweater, sitting by a rain-streaked window
in a dimly lit cafe, soft key light from the window, shallow depth of field,
warm amber tones, Kodak Portra 400 film grain, 85mm lens, melancholic mood
해부: 주체(여성·머리·옷) → 환경(비 오는 카페 창가) → 조명(창의 부드러운 주광) → 매체(코닥 필름) → 렌즈(85mm) → 분위기(우울). 해부도 8칸 중 7칸이 채워져 있다.
예시 B — 레이어링 풍경
serene forest landscape, moss-covered rocks in the foreground,
a misty waterfall in the midground, snow-capped mountains in the background,
dappled golden light through the trees, ethereal morning mist, wide-angle 24mm
--no people, paths, buildings
해부: 전경·중경·배경을 명시(깊이) + 광각 렌즈(공간) + negative로 인공물 제거.
3. 영상 생성 프롬프트 (Veo 3.1 / Google Flow)
영상은 이미지에 시간·움직임·소리가 더해진다. 그래서 프롬프트도 한 칸 더 복잡하다. 아래는 Google Cloud 공식 가이드 기준이다.
3-1. Google 공식 5요소 공식
[Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]
- Cinematography(촬영): 카메라 워크·샷 구성
- Subject(주체): 중심 인물/사물
- Action(행동): 주체가 하는 일
- Context(맥락): 환경·배경
- Style & Ambiance(스타일·분위기): 미감·무드·조명
3-2. 카메라 무빙 — 단, 동시에 2개까지
영상의 생명은 카메라 움직임이다. 자주 쓰는 용어:
dolly in/out(전후 이동), tracking shot(피사체 따라가기), crane shot(크레인 상승·하강), aerial view(항공), slow pan(좌우 패닝), POV shot(1인칭 시점).
현장 팁(공식 규칙은 아님): Google 공식 가이드에는 "카메라 동사 개수 제한"이 없다 — 오히려 공식 타임스탬프 예시는 한 영상에서 여러 무빙을 연속으로 쓴다. 다만 커뮤니티 경험칙상 한 컷에 움직임을 너무 많이 겹치면 불안정해지므로, 동시 움직임은 1~2개로 절제하는 편이 안정적이다. 예: slow dolly in while panning slightly right.
3-3. 오디오·대사 — Veo의 결정적 무기
Veo 3.1은 영상과 소리를 동시에 생성한다. 이걸 안 쓰면 절반만 쓰는 것이다. 공식 문법:
- 대사: 따옴표로 —
A woman says, "We have to leave now." - 효과음:
SFX: thunder cracks in the distance - 배경음/분위기:
Ambient noise: the quiet hum of a starship bridge
팁: 대사를 따옴표로 정확히 주면 자막 없이 입모양과 음성이 맞는다. (원치 않는 자막이 생기면 "no subtitles"를 덧붙이는 커뮤니티 관행이 있다.)
3-4. 캐릭터·장면 일관성 기능
Flow/Veo 3.1에는 일관성 전용 기능이 있다.
- Ingredients to Video: 인물·사물·배경의 참조 이미지를 넣어 여러 컷에 같은 모습 유지.
- 시작·끝 프레임(first and last frame): 시작 이미지와 끝 이미지를 지정하면 그 사이를 자연스럽게 보간한다(Flow UI에서는 "Frames to Video"로 부르기도 한다).
- Extend(장면 연장): 생성된 클립의 마지막 프레임에서 이어 더 긴 샷을 만든다.
연장·연결 시 이음매 팁: 앞 클립의 마지막 프레임과 뒤 클립의 첫 프레임이 구도·노출에서 1~2프레임 내로 일치해야 하고, 색감(palette)·필름 그레인·렌즈/심도·조명이 끊기지 않게 유지해야 자연스럽다.
3-5. JSON·타임스탬프 프롬프트(고급)
영상 커뮤니티에서 떠오르는 방식이 구조화 프롬프트다.
JSON 프롬프트: 카메라·주체·동작·스타일·오디오를 필드로 나눠 적는다. 모호성이 줄고 재현성이 올라가, 같은 톤의 광고 컷을 반복 생산할 때 유리하다. 단점은 과설계 — 한 컷짜리 실험엔 오히려 번거롭다.
타임스탬프 프롬프트: 한 클립 안의 시간 구간을 나눠 지시한다. 공식 가이드 예시:
[00:00-00:02] Medium shot from behind a young female explorer with a leather
satchel, as she pushes aside a large jungle vine to reveal a hidden path.
[00:02-00:04] Reverse shot of the explorer's face, filled with awe as she
gazes upon ancient, moss-covered ruins. SFX: rustle of leaves, distant bird calls.
[00:04-00:06] Tracking shot following her as she runs her hand over the carvings
on a crumbling stone wall. Emotion: wonder and reverence.
이렇게 하면 한 영상 안에서 샷 전환·감정·효과음을 시간순으로 통제할 수 있다.
3-6. 실전 예시(공식)
예시 C — 5요소 기본형
Medium shot, a tired corporate worker, rubbing his temples in exhaustion,
in front of a bulky 1980s computer in a cluttered office late at night.
The scene is lit by harsh fluorescent overhead lights and the green glow of
the monochrome monitor. Retro aesthetic, shot as if on 1980s color film, slightly grainy.
예시 D — 대사 + Ingredients
Using the provided images for the detective, the woman, and the office setting,
create a medium shot of the detective behind his desk. He looks up at the woman
and says in a weary voice, "Of all the offices in this town, you had to walk into mine."
4. 공통 함정과 발행 전 체크리스트
초보가 가장 자주 하는 실수 5가지
- 키워드만 나열한다 —
woman, cafe, rain, sad. 모델은 문장형 묘사를 더 잘 이해한다. - 한 번에 여러 변수를 바꿔 무엇이 효과였는지 모른다.
- 조명을 안 적는다 — 분위기의 절반을 모델에 위임한다.
- 일관성 장치(cref·Soul ID·seed)를 안 쓰고 같은 인물이 매번 바뀐다고 불평한다.
- negative를 과용해 결과가 밋밋해진다.
재현성 챙기기
- 마음에 든 결과는 프롬프트 + seed + 파라미터를 통째로 저장해 나만의 라이브러리로 만든다.
- 시리즈는 스타일 블록을 고정한다(1-5 참고).
복붙용 치트시트
이미지용 템플릿
[주체: 나이·외형·표정·복장], [행동], [환경: 전경/중경/배경],
[조명], [렌즈/구도], [스타일/매체], [분위기]
--no [제외 항목]
영상용 템플릿(Veo/Flow)
[Cinematography: 샷+카메라무빙(1~2개)], [Subject], [Action],
[Context: 환경], [Style & Ambiance: 조명·무드].
대사: "..." SFX: ... Ambient noise: ...
마무리
핵심을 다시 압축하면 이렇다.
- 사물이 아니라 장면을 묘사하라 — 주체·행동·환경·조명·카메라·스타일을 의식적으로 채운다.
- 앞쪽 단어가 더 세고, 모호한 형용사보다 구체 묘사가 통제권을 준다.
- 일관성은 도구가 해결한다 — Midjourney(V7 Omni Reference, 구버전
--cref/--cw), Higgsfield Soul ID, Veo의 Ingredients·시작끝프레임·Extend. - 영상은 카메라 무빙은 1~2개로 절제 + 오디오 동시 생성이 차별점이다.
- 마지막은 언제나 한 번에 한 변수씩 반복 개선.
프롬프트는 외우는 게 아니라 구조를 이해하고 자기 라이브러리를 쌓아가는 과정이다. 오늘 만든 좋은 한 줄을 저장해 두는 것부터 시작하자.
참고: 본문의 영상 관련 공식·예시는 Google Cloud — Ultimate prompting guide for Veo 3.1 기준이며, 이미지 관련 노하우는 Higgsfield 공식 문서와 Midjourney 커뮤니티 가이드에서 반복 검증된 내용을 정리했다. 모델 기능·파라미터는 2026년 6월 기준으로, 이후 업데이트로 달라질 수 있다.
저자
Bileo Tools
일상의 작은 계산을 위한 도구장
읽을거리
이런 글도 읽어보세요
관련 도구
전체 도구 보기