使用机器学习简化机构沟通
项目概述
机构沟通往往复杂难懂,成为许多人获取服务的障碍。苏黎世州政府长期致力于使沟通更具包容性和可及性。随着内容量持续增长,我们看到了利用AI支持这一目标的机会。该应用是2023年秋季启动的试点项目成果之一。
核心功能
- 文本简化:根据「简易德语」或「浅易德语」规则重写复杂文本
- 写作指导:提供逐句分析的详细反馈功能
- 可理解性评分:在-10(非常复杂)到+10(非常易懂)范围内评估文本
- 一键多模型:同时向所有配置的LLM发送文本,生成格式化Word文档
技术实现
模型配置
通过OpenRouter统一API访问多个领先语言模型:
- 编辑config.yaml自定义可用模型
- 支持Anthropic Claude、OpenAI GPT、Google Gemini等主流模型
- 提供专用OpenAI API版本配置
部署方式
本地运行(推荐使用uv):
|
|
云端运行:
- 使用小型虚拟机(2 vCPU,2GB RAM)
- 推荐使用Caddy服务器设置反向代理和HTTPS
- 支持GitHub Codespaces云端开发环境
可理解性评分系统
开发了「Zürcher Verständlichkeits-Index」(ZIX)评分系统:
- 考虑句子长度、RIX可读性指标
- 分析常见词出现频率和CEFR词汇表重叠度
- 已发布为pip可安装包
- 针对瑞士德语进行优化(使用ss替代ß)
成本效益
- 仅需支付OpenRouter/OpenAI的token使用费用
- 100页标准文本简化成本约0.5-10瑞士法郎
- 硬件要求低,小型虚拟机月费用仅数法郎
语言指南
提示规则存储在utils_prompts.py中,可根据机构需求自定义:
- 基于苏黎世州通用语言指南
- 参考浅易德语指南和交通局规范
重要注意事项
- 仅使用非敏感数据,文本将发送至第三方模型提供商
- LLM可能产生幻觉和错误,输出结果必须人工审核
- 针对瑞士德语优化,使用ss而非ß字符
技术架构
- 前端:Streamlit应用界面
- NLP处理:spaCy德语模型(de_core_news_sm)
- 模型集成:OpenRouter多模型API
- 日志记录:本地app.log文件存储用户交互
项目团队
苏黎世州政府多部门协作项目,涉及信息访问、交通局、统计局等多个团队。
许可证
MIT开源许可证,详见LICENSE文件。
免责声明:该软件根据瑞士法律开发,使用者需自行确保符合欧盟AI法案及其他适用法律法规的要求。