Field Notes
文章 · happy-horse

怎么写 Happy Horse Prompt:AI 影响者视频的六要素公式

Happy Horse 的六要素 prompt 公式,专为 AI 影响者 UGC 而调:口播 Reels、赞助商单、多语种 lip-sync、多镜头小故事——全是可复制粘贴的模板。

2026年5月2日4 分钟阅读
happy-horseprompt 工程AI 影响者UGC 视频

Happy Horse 奖励结构、惩罚啰嗦。模型有官方 prompt 指南里所谓的"prompt 预算"——超过约 60 词,脸变通用、动作变糊、lip-sync 开始漂。解法是 六要素公式,也是阿里 ATH 团队当初构建模型时使用的同一套骨架。

这篇指南把那套公式针对 AI 影响者 UGC 视频做了改编:口播 Reels、带 lip-sync 的赞助商单、多语种变体、多镜头小故事、氛围调性片。每个模板都可以复制粘贴,并且为接入 OmniGems AI 流水线、配合 GPT-Image-2 人设锚点而设计。

要了解 Happy Horse 是什么、我们为什么把它设为默认视频模型,看 Happy Horse 主指南。

六要素公式

每条 Happy Horse prompt 都有六个 block。顺序很重要。逐 block 看:

  1. Subject —— 谁或什么在画面里,附带人设不变量重申
  2. Action —— 他们在做什么,写成一个连续动作短语
  3. Environment —— 场景、灯光、时段
  4. Style/Composition —— 比例、构图、视觉调性
  5. Camera Motion —— 显式的运镜或固定机位
  6. Audio —— 旁白脚本、语种、环境音床

漏掉一个 block,模型就会用通用默认值填上。永远把六个都写出来,哪怕答案是"static, no camera motion"或"no voiceover, ambient only"。

为什么 Block 顺序重要

模型从左到右解析 prompt,给前面的 block 更高权重。Subject 和 Action 拿走最多的质量预算。如果你把人设不变量埋在花哨的环境描写下面,人设就会漂。先写"谁、做什么",环境、风格、运镜后面跟上。

Prompt 预算

目标是六个 block 总共 40–60 词。20 词太薄(模型会不可预测地填空)。80 词太密(质量在 block 之间被稀释)。40 到 60 是甜区。

抓住这个甜区的纪律:每个 block 一个具体名词、一个具体形容词。不是"a beautiful young woman with stunning features in a lovely outfit"——那是六个形容词在抢一个名词的活。换成"26-year-old, olive skin, cream turtleneck"——三个名词、三个修饰词、收工。

模板 1:口播 Reel

主菜。人设对镜头说话,9:16,8–12 秒,单镜头,对话语调。

Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."

49 词,在预算内。每个 block 都有一个具体名词、一个具体修饰词。把 GPT-Image-2 的人设锚点作为参考图传进去,模型就锁住脸。

可以变的

  • Audio 脚本 —— 换台词,其他全保留
  • Environment —— "Brooklyn café"换成"Tokyo subway platform"或"Seoul rooftop at night"
  • Time of day —— "golden hour"换成"blue hour"或"harsh midday"
  • 服饰 —— 如果换衣服,在 Subject 里重申一下,模型需要这个提示

模板 2:带 Lip-Sync 的赞助 UGC 商单

品牌真正会付钱的格式。人设出镜,手持产品,念品牌台词。

Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."

53 词。传两张参考图(人设锚点 + 产品静帧)。模型干净处理多图输入。

Lip-Sync 小贴士

  • 在 Audio block 里逐字引用脚本——把脚本意译会让 lip-sync 漂
  • 显式标注语种,哪怕是英语——模型用它来选音素级嘴型模板
  • 品牌名读音特殊时,在括号里写音标:"Try our new Nuance (NEW-AHNS) cream"

模板 3:多语言本地化变体

同一人设、同一场景、不同语言。Happy Horse 在这里产生复利——一个 prompt 骨架生成四种语言版本。

Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"

语言变体之间唯一变化的 block 就是 Audio 里的脚本和语种标签。Subject、Action、Environment、Style、Camera 都不变。这就是为什么每语种一次 Happy Horse 生成能替代一整次重拍。

Lip-Sync 强支持的语种

英语、普通话、粤语、日语、韩语、德语、法语。其他语言模型仍然能生成音频,但 lip-sync 质量下降——详见 Happy Horse vs Sora 2 vs Veo 3。

模板 4:多镜头小故事

15 秒节奏,"铺垫 → 动作 → 包袱"。把整个序列压成 Action block 里的一个连续动作短语——多步散文会把剪辑切碎。

Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.

68 词——略超预算,但多镜头本来就需要更多空间。诀窍:把镜头列表写在 Camera 里,不是 Action 里。Action 描述人设的连续运动;Camera 描述镜头如何观察这段运动。

为什么这样有效

Happy Horse 在多镜头序列上训练过,但它把人设动作解析成一条连续轨迹。如果你在 Action 里把这条轨迹切成多句,模型会把每句当成独立生成请求,连贯性就断了。一个 Action 句子、一段人设运动、一段连续节奏——哪怕镜头会切。

模板 5:氛围调性片

更慢、电影感、不说话。用于品牌定调贴文和影响者上线公告。

Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.

64 词。这个格式正好踩在 Happy Horse 的强项上——氛围、织物动态、镜面反射的几何一致性、电影级调色。

什么时候用

  • 影响者上线贴文(把人设介绍给 feed)
  • Campaign 开场片段(在口播商单出来之前先把氛围铺好)
  • 赞助品牌大片,人设是镜头的 主体,不是讲话人

常见 Prompt 错误

  • Subject 块臃肿 —— "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck"吃掉一半预算。压缩成"26-year-old, auburn hair, cream turtleneck"。
  • 多步 Action 散文 —— "She opens the door, walks to the table, sits down, picks up a book, then opens it"会切出断断续续的剪辑。压成"Opens door, sits at table reading"。
  • 装饰性运镜 —— "stunning, breathtaking, professional film look"是噪音。模型要的是具体的运镜词汇:"locked-off medium close-up, eye level, slight handheld drift"。
  • 跳过 Audio —— 不指定就给随机环境声。哪怕不说话的片段也至少描述音床:"ambient café sound, no voiceover."
  • 语种标签模糊 —— "speaking the brand line"没有 Audio block 会出 TTS 级别的 lip-sync。永远逐字引用脚本,并显式标注语种。
  • 在文字里重复人设锚点描述 —— 把锚点作为参考图传进去;Subject 里只写"Same persona as reference, same face, same hair"。重活让图来扛。

Prompt 迭代 Workflow

跟图像生成一样,"每次只改一个"的纪律对视频也成立:

  1. 用完整六要素 prompt 出基线片段
  2. 锁住五个 block,只改一个
  3. 对比基线,留下能用的
  4. 移到下一个 block,再改那一个
  5. 出到能发的片段就停

这就是系列内容能跨 30+ 条日更 Reels 保持连贯的方式。同一个人设锚点、同一个 prompt 骨架,每次只改一个变量。一次改三个 block 出来的就是不可预测的结果和一堆废片。

OmniGems AI 怎么用这个公式

在 OmniGems AI Studio 里,影响者的人设简介自动生成 Subject block。创作者的内容排期定义 Action 和 Audio block。Style 和 Camera 的默认值按平台预设(Reels/TikTok/Shorts 用 9:16,YouTube 长视频用 16:9)。创作者只写 Action 和 Audio 的变化——其他都模板化。

这就是把 Happy Horse 从"一个强力视频模型"变成"内容流水线组件"的方式。Prompt 层的纪律放大了人设层的纪律。

下一步

  • 我们为什么挑 Happy Horse 而不是 Sora 2 或 Veo 3,看 Happy Horse vs Sora 2 vs Veo 3
  • 喂 image-to-video 的人设锚点 workflow,看 GPT-Image-2 给 AI 影响者用
  • 比例和平台格式,看 社交平台最佳比例
  • 图像侧的 prompt 结构,看 AI 影响者内容 Prompt 模板

开始生成

进 OmniGems AI Studio 试六要素公式。人设锚点已搞定,视频流水线已集成,按片段做模型路由可用,发帖 agent 和代币上线在同一个流程里。

归类于happy-horseprompt 工程AI 影响者UGC 视频视频 prompt
// 继续阅读

更多来自Field Notes

2026年5月2日↗

Happy Horse 给 AI 影响者用:2026 UGC 视频流水线指南

AI 影响者创作者如何用阿里巴巴的 Happy Horse 模型做出电影级 UGC 视频、多语种 lip-sync 商单和多镜头 Reels——附 prompt 公式与工作流。

happy-horseAI 影响者UGC 视频
2026年5月2日↗

Happy Horse vs Sora 2 vs Veo 3:AI 影响者视频怎么选

Happy Horse、Sora 2、Veo 3 三款模型在 AI 影响者 UGC 视频上的正面对比——lip-sync、多语种覆盖、运动保真度和定价。

happy-horsesora-2veo-3
2026年5月2日↗

TikTok 上的 AI UGC:Hook、热点趋势和 2026 年的算法逻辑

2026 年 AI 影响者怎么在 TikTok 上跑赢——2 秒内的 hook、热门音乐嫁接、原生质感、lip-sync 和 For You Page 算法拆解。

AI UGCTikTokAI 影响者

OmniGems

// 亲自打造

把灵感变成自主运营的影响者

启动你的 AI 角色,将其内容代币化,让 Studio 自动发布——覆盖每个平台、每种画幅比例、每种模型。

打开 Studio →探索 agents