怎么写 Happy Horse Prompt：AI 影响者视频的六要素公式

Happy Horse 奖励结构、惩罚啰嗦。模型有官方 prompt 指南里所谓的"prompt 预算"——超过约 60 词，脸变通用、动作变糊、lip-sync 开始漂。解法是 六要素公式，也是阿里 ATH 团队当初构建模型时使用的同一套骨架。

这篇指南把那套公式针对 AI 影响者 UGC 视频做了改编：口播 Reels、带 lip-sync 的赞助商单、多语种变体、多镜头小故事、氛围调性片。每个模板都可以复制粘贴，并且为接入 OmniGems AI 流水线、配合 GPT-Image-2 人设锚点而设计。

要了解 Happy Horse 是什么、我们为什么把它设为默认视频模型，看 Happy Horse 主指南。

六要素公式

每条 Happy Horse prompt 都有六个 block。顺序很重要。逐 block 看：

Subject —— 谁或什么在画面里，附带人设不变量重申
Action —— 他们在做什么，写成一个连续动作短语
Environment —— 场景、灯光、时段
Style/Composition —— 比例、构图、视觉调性
Camera Motion —— 显式的运镜或固定机位
Audio —— 旁白脚本、语种、环境音床

漏掉一个 block，模型就会用通用默认值填上。永远把六个都写出来，哪怕答案是"static, no camera motion"或"no voiceover, ambient only"。

为什么 Block 顺序重要

模型从左到右解析 prompt，给前面的 block 更高权重。Subject 和 Action 拿走最多的质量预算。如果你把人设不变量埋在花哨的环境描写下面，人设就会漂。先写"谁、做什么"，环境、风格、运镜后面跟上。

Prompt 预算

目标是六个 block 总共 40–60 词。20 词太薄（模型会不可预测地填空）。80 词太密（质量在 block 之间被稀释）。40 到 60 是甜区。

抓住这个甜区的纪律：每个 block 一个具体名词、一个具体形容词。不是"a beautiful young woman with stunning features in a lovely outfit"——那是六个形容词在抢一个名词的活。换成"26-year-old, olive skin, cream turtleneck"——三个名词、三个修饰词、收工。

模板 1：口播 Reel

主菜。人设对镜头说话，9:16，8–12 秒，单镜头，对话语调。

Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."

49 词，在预算内。每个 block 都有一个具体名词、一个具体修饰词。把 GPT-Image-2 的人设锚点作为参考图传进去，模型就锁住脸。

可以变的

Audio 脚本 —— 换台词，其他全保留
Environment —— "Brooklyn café"换成"Tokyo subway platform"或"Seoul rooftop at night"
Time of day —— "golden hour"换成"blue hour"或"harsh midday"
服饰 —— 如果换衣服，在 Subject 里重申一下，模型需要这个提示

模板 2：带 Lip-Sync 的赞助 UGC 商单

品牌真正会付钱的格式。人设出镜，手持产品，念品牌台词。

Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."

53 词。传两张参考图（人设锚点 + 产品静帧）。模型干净处理多图输入。

Lip-Sync 小贴士

在 Audio block 里逐字引用脚本——把脚本意译会让 lip-sync 漂
显式标注语种，哪怕是英语——模型用它来选音素级嘴型模板
品牌名读音特殊时，在括号里写音标："Try our new Nuance (NEW-AHNS) cream"

模板 3：多语言本地化变体

同一人设、同一场景、不同语言。Happy Horse 在这里产生复利——一个 prompt 骨架生成四种语言版本。

Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"

语言变体之间唯一变化的 block 就是 Audio 里的脚本和语种标签。Subject、Action、Environment、Style、Camera 都不变。这就是为什么每语种一次 Happy Horse 生成能替代一整次重拍。

Lip-Sync 强支持的语种

英语、普通话、粤语、日语、韩语、德语、法语。其他语言模型仍然能生成音频，但 lip-sync 质量下降——详见 Happy Horse vs Sora 2 vs Veo 3。

模板 4：多镜头小故事

15 秒节奏，"铺垫 → 动作 → 包袱"。把整个序列压成 Action block 里的一个连续动作短语——多步散文会把剪辑切碎。

Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.

68 词——略超预算，但多镜头本来就需要更多空间。诀窍：把镜头列表写在 Camera 里，不是 Action 里。Action 描述人设的连续运动；Camera 描述镜头如何观察这段运动。

为什么这样有效

Happy Horse 在多镜头序列上训练过，但它把人设动作解析成一条连续轨迹。如果你在 Action 里把这条轨迹切成多句，模型会把每句当成独立生成请求，连贯性就断了。一个 Action 句子、一段人设运动、一段连续节奏——哪怕镜头会切。

模板 5：氛围调性片

更慢、电影感、不说话。用于品牌定调贴文和影响者上线公告。

Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.

64 词。这个格式正好踩在 Happy Horse 的强项上——氛围、织物动态、镜面反射的几何一致性、电影级调色。

什么时候用

影响者上线贴文（把人设介绍给 feed）
Campaign 开场片段（在口播商单出来之前先把氛围铺好）
赞助品牌大片，人设是镜头的主体，不是讲话人

常见 Prompt 错误

Subject 块臃肿 —— "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck"吃掉一半预算。压缩成"26-year-old, auburn hair, cream turtleneck"。
多步 Action 散文 —— "She opens the door, walks to the table, sits down, picks up a book, then opens it"会切出断断续续的剪辑。压成"Opens door, sits at table reading"。
装饰性运镜 —— "stunning, breathtaking, professional film look"是噪音。模型要的是具体的运镜词汇："locked-off medium close-up, eye level, slight handheld drift"。
跳过 Audio —— 不指定就给随机环境声。哪怕不说话的片段也至少描述音床："ambient café sound, no voiceover."
语种标签模糊 —— "speaking the brand line"没有 Audio block 会出 TTS 级别的 lip-sync。永远逐字引用脚本，并显式标注语种。
在文字里重复人设锚点描述 —— 把锚点作为参考图传进去；Subject 里只写"Same persona as reference, same face, same hair"。重活让图来扛。

Prompt 迭代 Workflow

跟图像生成一样，"每次只改一个"的纪律对视频也成立：

用完整六要素 prompt 出基线片段
锁住五个 block，只改一个
对比基线，留下能用的
移到下一个 block，再改那一个
出到能发的片段就停

这就是系列内容能跨 30+ 条日更 Reels 保持连贯的方式。同一个人设锚点、同一个 prompt 骨架，每次只改一个变量。一次改三个 block 出来的就是不可预测的结果和一堆废片。

OmniGems AI 怎么用这个公式

在 OmniGems AI Studio 里，影响者的人设简介自动生成 Subject block。创作者的内容排期定义 Action 和 Audio block。Style 和 Camera 的默认值按平台预设（Reels/TikTok/Shorts 用 9:16，YouTube 长视频用 16:9）。创作者只写 Action 和 Audio 的变化——其他都模板化。

这就是把 Happy Horse 从"一个强力视频模型"变成"内容流水线组件"的方式。Prompt 层的纪律放大了人设层的纪律。

下一步

我们为什么挑 Happy Horse 而不是 Sora 2 或 Veo 3，看 Happy Horse vs Sora 2 vs Veo 3
喂 image-to-video 的人设锚点 workflow，看 GPT-Image-2 给 AI 影响者用
比例和平台格式，看社交平台最佳比例
图像侧的 prompt 结构，看 AI 影响者内容 Prompt 模板

开始生成

进 OmniGems AI Studio 试六要素公式。人设锚点已搞定，视频流水线已集成，按片段做模型路由可用，发帖 agent 和代币上线在同一个流程里。

要了解 Happy Horse 是什么、我们为什么把它设为默认视频模型，看 Happy Horse 主指南。

六要素公式

每条 Happy Horse prompt 都有六个 block。顺序很重要。逐 block 看：

Subject —— 谁或什么在画面里，附带人设不变量重申
Action —— 他们在做什么，写成一个连续动作短语
Environment —— 场景、灯光、时段
Style/Composition —— 比例、构图、视觉调性
Camera Motion —— 显式的运镜或固定机位
Audio —— 旁白脚本、语种、环境音床

漏掉一个 block，模型就会用通用默认值填上。永远把六个都写出来，哪怕答案是"static, no camera motion"或"no voiceover, ambient only"。

为什么 Block 顺序重要

Prompt 预算

目标是六个 block 总共 40–60 词。20 词太薄（模型会不可预测地填空）。80 词太密（质量在 block 之间被稀释）。40 到 60 是甜区。

模板 1：口播 Reel

主菜。人设对镜头说话，9:16，8–12 秒，单镜头，对话语调。

Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."

49 词，在预算内。每个 block 都有一个具体名词、一个具体修饰词。把 GPT-Image-2 的人设锚点作为参考图传进去，模型就锁住脸。

可以变的

Audio 脚本 —— 换台词，其他全保留
Environment —— "Brooklyn café"换成"Tokyo subway platform"或"Seoul rooftop at night"
Time of day —— "golden hour"换成"blue hour"或"harsh midday"
服饰 —— 如果换衣服，在 Subject 里重申一下，模型需要这个提示

模板 2：带 Lip-Sync 的赞助 UGC 商单

品牌真正会付钱的格式。人设出镜，手持产品，念品牌台词。

Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."

53 词。传两张参考图（人设锚点 + 产品静帧）。模型干净处理多图输入。

Lip-Sync 小贴士

在 Audio block 里逐字引用脚本——把脚本意译会让 lip-sync 漂
显式标注语种，哪怕是英语——模型用它来选音素级嘴型模板
品牌名读音特殊时，在括号里写音标："Try our new Nuance (NEW-AHNS) cream"

模板 3：多语言本地化变体

同一人设、同一场景、不同语言。Happy Horse 在这里产生复利——一个 prompt 骨架生成四种语言版本。

Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"

Lip-Sync 强支持的语种

英语、普通话、粤语、日语、韩语、德语、法语。其他语言模型仍然能生成音频，但 lip-sync 质量下降——详见 Happy Horse vs Sora 2 vs Veo 3。

模板 4：多镜头小故事

15 秒节奏，"铺垫 → 动作 → 包袱"。把整个序列压成 Action block 里的一个连续动作短语——多步散文会把剪辑切碎。

Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.

为什么这样有效

模板 5：氛围调性片

更慢、电影感、不说话。用于品牌定调贴文和影响者上线公告。

Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.

64 词。这个格式正好踩在 Happy Horse 的强项上——氛围、织物动态、镜面反射的几何一致性、电影级调色。

什么时候用

影响者上线贴文（把人设介绍给 feed）
Campaign 开场片段（在口播商单出来之前先把氛围铺好）
赞助品牌大片，人设是镜头的主体，不是讲话人

常见 Prompt 错误

Subject 块臃肿 —— "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck"吃掉一半预算。压缩成"26-year-old, auburn hair, cream turtleneck"。
多步 Action 散文 —— "She opens the door, walks to the table, sits down, picks up a book, then opens it"会切出断断续续的剪辑。压成"Opens door, sits at table reading"。
装饰性运镜 —— "stunning, breathtaking, professional film look"是噪音。模型要的是具体的运镜词汇："locked-off medium close-up, eye level, slight handheld drift"。
跳过 Audio —— 不指定就给随机环境声。哪怕不说话的片段也至少描述音床："ambient café sound, no voiceover."
语种标签模糊 —— "speaking the brand line"没有 Audio block 会出 TTS 级别的 lip-sync。永远逐字引用脚本，并显式标注语种。
在文字里重复人设锚点描述 —— 把锚点作为参考图传进去；Subject 里只写"Same persona as reference, same face, same hair"。重活让图来扛。

Prompt 迭代 Workflow

跟图像生成一样，"每次只改一个"的纪律对视频也成立：

用完整六要素 prompt 出基线片段
锁住五个 block，只改一个
对比基线，留下能用的
移到下一个 block，再改那一个
出到能发的片段就停

OmniGems AI 怎么用这个公式

这就是把 Happy Horse 从"一个强力视频模型"变成"内容流水线组件"的方式。Prompt 层的纪律放大了人设层的纪律。

下一步

我们为什么挑 Happy Horse 而不是 Sora 2 或 Veo 3，看 Happy Horse vs Sora 2 vs Veo 3
喂 image-to-video 的人设锚点 workflow，看 GPT-Image-2 给 AI 影响者用
比例和平台格式，看社交平台最佳比例
图像侧的 prompt 结构，看 AI 影响者内容 Prompt 模板

开始生成

进 OmniGems AI Studio 试六要素公式。人设锚点已搞定，视频流水线已集成，按片段做模型路由可用，发帖 agent 和代币上线在同一个流程里。

六要素公式

为什么 Block 顺序重要

Prompt 预算

模板 1：口播 Reel

可以变的

模板 2：带 Lip-Sync 的赞助 UGC 商单

Lip-Sync 小贴士

模板 3：多语言本地化变体

Lip-Sync 强支持的语种

模板 4：多镜头小故事

为什么这样有效

模板 5：氛围调性片

什么时候用

常见 Prompt 错误

Prompt 迭代 Workflow

OmniGems AI 怎么用这个公式

下一步

开始生成

Happy Horse 给 AI 影响者用：2026 UGC 视频流水线指南

Happy Horse vs Sora 2 vs Veo 3：AI 影响者视频怎么选

TikTok 上的 AI UGC：Hook、热点趋势和 2026 年的算法逻辑

OmniGems

把灵感变成自主运营的影响者

六要素公式

为什么 Block 顺序重要

Prompt 预算

模板 1：口播 Reel

可以变的

模板 2：带 Lip-Sync 的赞助 UGC 商单

Lip-Sync 小贴士

模板 3：多语言本地化变体

Lip-Sync 强支持的语种

模板 4：多镜头小故事

为什么这样有效

模板 5：氛围调性片

什么时候用

常见 Prompt 错误

Prompt 迭代 Workflow

OmniGems AI 怎么用这个公式

下一步

开始生成

Happy Horse 给 AI 影响者用：2026 UGC 视频流水线指南

Happy Horse vs Sora 2 vs Veo 3：AI 影响者视频怎么选

TikTok 上的 AI UGC：Hook、热点趋势和 2026 年的算法逻辑

OmniGems

把灵感变成自主运营的影响者