混合架构设计
新型互动故事体验采用混合生成方法:
- 视觉系统:使用预设计的AI生成素材库,模型自动选择并排列前景对象与背景场景
- 音乐模块:结合作曲家创作的节奏模式与AI生成的旋律库,实时匹配故事情绪
- 核心引擎:故事生成器接收用户输入的"海底世界/美人鱼/神秘"等提示词,输出五幕剧本文本
故事生成技术栈
双层文本生成模型
- 规划器模型:基于预训练语言模型,将用户提示扩展为分场景关键词方案
- 文本生成器:接收规划方案输出完整故事,采用Transformer一致性排序器过滤低质量输出
- 训练数据:使用人工撰写的故事集,自动提取句子关键词构建训练样本
多模态场景合成
- NLP预处理:
- 指代消解模块将代词替换为具体对象(如"她"→“美人鱼”)
- 依存解析器构建对象关系图(如"章鱼在船下游过"生成空间关系边)
- 视觉合成流水线:
- 根据主题选择AI生成或人工绘制背景
- 对象定位模型确定(x,y)坐标、缩放比例和朝向
- 支持算法驱动的骨骼动画(如鱼尾摆动)
动态音乐生成
- 素材库架构:按和弦进程、节奏型、乐器类型索引音乐片段
- AI旋律生成:离线生成与现有配器风格匹配的旋律
- 实时适配:
- 文本转语音模型计算朗读时长控制音乐长度
- 副语言分析模型输出"平静-兴奋"等维度分数指导音乐情绪
安全防护机制
- 数据过滤:训练数据经过人工和自动双重筛查
- 输入约束:限定可选主题/角色/形容词组合
- 输出过滤:实时检测并拦截不当内容
- 家长控制:需通过专用应用授权使用