Happy Horse 奖励结构、惩罚啰嗦。模型有官方 prompt 指南里所谓的"prompt 预算"——超过约 60 词,脸变通用、动作变糊、lip-sync 开始漂。解法是 六要素公式,也是阿里 ATH 团队当初构建模型时使用的同一套骨架。
这篇指南把那套公式针对 AI 影响者 UGC 视频做了改编:口播 Reels、带 lip-sync 的赞助商单、多语种变体、多镜头小故事、氛围调性片。每个模板都可以复制粘贴,并且为接入 OmniGems AI 流水线、配合 GPT-Image-2 人设锚点而设计。
要了解 Happy Horse 是什么、我们为什么把它设为默认视频模型,看 Happy Horse 主指南。
六要素公式
每条 Happy Horse prompt 都有六个 block。顺序很重要。逐 block 看:
- Subject —— 谁或什么在画面里,附带人设不变量重申
- Action —— 他们在做什么,写成一个连续动作短语
- Environment —— 场景、灯光、时段
- Style/Composition —— 比例、构图、视觉调性
- Camera Motion —— 显式的运镜或固定机位
- Audio —— 旁白脚本、语种、环境音床
漏掉一个 block,模型就会用通用默认值填上。永远把六个都写出来,哪怕答案是"static, no camera motion"或"no voiceover, ambient only"。
为什么 Block 顺序重要
模型从左到右解析 prompt,给前面的 block 更高权重。Subject 和 Action 拿走最多的质量预算。如果你把人设不变量埋在花哨的环境描写下面,人设就会漂。先写"谁、做什么",环境、风格、运镜后面跟上。
Prompt 预算
目标是六个 block 总共 40–60 词。20 词太薄(模型会不可预测地填空)。80 词太密(质量在 block 之间被稀释)。40 到 60 是甜区。
抓住这个甜区的纪律:每个 block 一个具体名词、一个具体形容词。不是"a beautiful young woman with stunning features in a lovely outfit"——那是六个形容词在抢一个名词的活。换成"26-year-old, olive skin, cream turtleneck"——三个名词、三个修饰词、收工。
模板 1:口播 Reel
主菜。人设对镜头说话,9:16,8–12 秒,单镜头,对话语调。
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 词,在预算内。每个 block 都有一个具体名词、一个具体修饰词。把 GPT-Image-2 的人设锚点作为参考图传进去,模型就锁住脸。
可以变的
- Audio 脚本 —— 换台词,其他全保留
- Environment —— "Brooklyn café"换成"Tokyo subway platform"或"Seoul rooftop at night"
- Time of day —— "golden hour"换成"blue hour"或"harsh midday"
- 服饰 —— 如果换衣服,在 Subject 里重申一下,模型需要这个提示
模板 2:带 Lip-Sync 的赞助 UGC 商单
品牌真正会付钱的格式。人设出镜,手持产品,念品牌台词。
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 词。传两张参考图(人设锚点 + 产品静帧)。模型干净处理多图输入。
Lip-Sync 小贴士
- 在 Audio block 里逐字引用脚本——把脚本意译会让 lip-sync 漂
- 显式标注语种,哪怕是英语——模型用它来选音素级嘴型模板
- 品牌名读音特殊时,在括号里写音标:
"Try our new Nuance (NEW-AHNS) cream"
模板 3:多语言本地化变体
同一人设、同一场景、不同语言。Happy Horse 在这里产生复利——一个 prompt 骨架生成四种语言版本。
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
语言变体之间唯一变化的 block 就是 Audio 里的脚本和语种标签。Subject、Action、Environment、Style、Camera 都不变。这就是为什么每语种一次 Happy Horse 生成能替代一整次重拍。
Lip-Sync 强支持的语种
英语、普通话、粤语、日语、韩语、德语、法语。其他语言模型仍然能生成音频,但 lip-sync 质量下降——详见 Happy Horse vs Sora 2 vs Veo 3。
模板 4:多镜头小故事
15 秒节奏,"铺垫 → 动作 → 包袱"。把整个序列压成 Action block 里的一个连续动作短语——多步散文会把剪辑切碎。
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 词——略超预算,但多镜头本来就需要更多空间。诀窍:把镜头列表写在 Camera 里,不是 Action 里。Action 描述人设的连续运动;Camera 描述镜头如何观察这段运动。
为什么这样有效
Happy Horse 在多镜头序列上训练过,但它把人设动作解析成一条连续轨迹。如果你在 Action 里把这条轨迹切成多句,模型会把每句当成独立生成请求,连贯性就断了。一个 Action 句子、一段人设运动、一段连续节奏——哪怕镜头会切。
模板 5:氛围调性片
更慢、电影感、不说话。用于品牌定调贴文和影响者上线公告。
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 词。这个格式正好踩在 Happy Horse 的强项上——氛围、织物动态、镜面反射的几何一致性、电影级调色。
什么时候用
- 影响者上线贴文(把人设介绍给 feed)
- Campaign 开场片段(在口播商单出来之前先把氛围铺好)
- 赞助品牌大片,人设是镜头的 主体,不是讲话人
常见 Prompt 错误
- Subject 块臃肿 —— "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck"吃掉一半预算。压缩成"26-year-old, auburn hair, cream turtleneck"。
- 多步 Action 散文 —— "She opens the door, walks to the table, sits down, picks up a book, then opens it"会切出断断续续的剪辑。压成"Opens door, sits at table reading"。
- 装饰性运镜 —— "stunning, breathtaking, professional film look"是噪音。模型要的是具体的运镜词汇:"locked-off medium close-up, eye level, slight handheld drift"。
- 跳过 Audio —— 不指定就给随机环境声。哪怕不说话的片段也至少描述音床:"ambient café sound, no voiceover."
- 语种标签模糊 —— "speaking the brand line"没有 Audio block 会出 TTS 级别的 lip-sync。永远逐字引用脚本,并显式标注语种。
- 在文字里重复人设锚点描述 —— 把锚点作为参考图传进去;Subject 里只写"Same persona as reference, same face, same hair"。重活让图来扛。
Prompt 迭代 Workflow
跟图像生成一样,"每次只改一个"的纪律对视频也成立:
- 用完整六要素 prompt 出基线片段
- 锁住五个 block,只改一个
- 对比基线,留下能用的
- 移到下一个 block,再改那一个
- 出到能发的片段就停
这就是系列内容能跨 30+ 条日更 Reels 保持连贯的方式。同一个人设锚点、同一个 prompt 骨架,每次只改一个变量。一次改三个 block 出来的就是不可预测的结果和一堆废片。
OmniGems AI 怎么用这个公式
在 OmniGems AI Studio 里,影响者的人设简介自动生成 Subject block。创作者的内容排期定义 Action 和 Audio block。Style 和 Camera 的默认值按平台预设(Reels/TikTok/Shorts 用 9:16,YouTube 长视频用 16:9)。创作者只写 Action 和 Audio 的变化——其他都模板化。
这就是把 Happy Horse 从"一个强力视频模型"变成"内容流水线组件"的方式。Prompt 层的纪律放大了人设层的纪律。
下一步
- 我们为什么挑 Happy Horse 而不是 Sora 2 或 Veo 3,看 Happy Horse vs Sora 2 vs Veo 3
- 喂 image-to-video 的人设锚点 workflow,看 GPT-Image-2 给 AI 影响者用
- 比例和平台格式,看 社交平台最佳比例
- 图像侧的 prompt 结构,看 AI 影响者内容 Prompt 模板
开始生成
进 OmniGems AI Studio 试六要素公式。人设锚点已搞定,视频流水线已集成,按片段做模型路由可用,发帖 agent 和代币上线在同一个流程里。