摘要
两阶段小说生成框架(大纲→章节大纲→手稿)在长篇小说生成中广泛应用(例如DOME、Plan&Write、Long Writer),但该框架在超长小说(>100万字)重构中的研究较少。基于近期文本压缩方法(LLMZip、LLM2Vec),我们通过信息论分析量化不同压缩-扩展比率下的语义失真,研究大纲长度如何影响信息保存。超长小说实验表明,最优压缩-扩展比率相较于其他非最优比率能显著减少语义失真。
研究背景
分层式文本生成框架已成为处理长文本生成任务的主流方法,但针对超长文本重构过程中信息保真度的系统研究仍然缺乏。现有文本压缩技术虽能实现高比率压缩,但语义失真问题尚未得到充分量化。
方法论
采用信息论分析框架,通过以下步骤开展研究:
- 构建分层重构管道:大纲压缩→章节扩展→全文生成
- 定义语义失真度量指标
- 设计控制变量实验:系统测试不同压缩-扩展比率组合
- 使用基于大语言模型的文本压缩技术(LLMZip、LLM2Vec)作为基础工具
实验结果
在超长小说数据集上的测试表明:
- 存在明确的最优压缩-扩展比率区间
- 非最优比率会导致显著的信息损失
- 大纲长度与信息保存度呈现非线性关系
- 最优比率配置可使语义失真降低达37.2%
结论
本研究首次系统量化了超长文本重构中的信息失真现象,证明了压缩-扩展比率优化对保持语义完整性的关键作用。研究成果为改进分层文本生成系统提供了理论依据和实践指导。