机器学习简化机构语言沟通指南

该项目利用大型语言模型简化机构复杂文本,支持简易德语和浅易德语转换,提供可理解性评分系统,包含本地部署和云端运行方案,采用OpenRouter多模型API集成。

使用机器学习简化机构沟通

项目概述

机构沟通往往复杂难懂,成为许多人获取服务的障碍。苏黎世州政府长期致力于使沟通更具包容性和可及性。随着内容量持续增长,我们看到了利用AI支持这一目标的机会。该应用是2023年秋季启动的试点项目成果之一。

核心功能

  • 文本简化:根据「简易德语」或「浅易德语」规则重写复杂文本
  • 写作指导:提供逐句分析的详细反馈功能
  • 可理解性评分:在-10(非常复杂)到+10(非常易懂)范围内评估文本
  • 一键多模型:同时向所有配置的LLM发送文本,生成格式化Word文档

技术实现

模型配置

通过OpenRouter统一API访问多个领先语言模型:

  • 编辑config.yaml自定义可用模型
  • 支持Anthropic Claude、OpenAI GPT、Google Gemini等主流模型
  • 提供专用OpenAI API版本配置

部署方式

本地运行(推荐使用uv)

1
2
3
4
5
6
pip3 install uv
cd simply-simplify-language/
uv sync
source .venv/bin/activate
cd _streamlit_app/
streamlit run sprache-vereinfachen.py

云端运行

  • 使用小型虚拟机(2 vCPU,2GB RAM)
  • 推荐使用Caddy服务器设置反向代理和HTTPS
  • 支持GitHub Codespaces云端开发环境

可理解性评分系统

开发了「Zürcher Verständlichkeits-Index」(ZIX)评分系统:

  • 考虑句子长度、RIX可读性指标
  • 分析常见词出现频率和CEFR词汇表重叠度
  • 已发布为pip可安装包
  • 针对瑞士德语进行优化(使用ss替代ß)

成本效益

  • 仅需支付OpenRouter/OpenAI的token使用费用
  • 100页标准文本简化成本约0.5-10瑞士法郎
  • 硬件要求低,小型虚拟机月费用仅数法郎

语言指南

提示规则存储在utils_prompts.py中,可根据机构需求自定义:

  • 基于苏黎世州通用语言指南
  • 参考浅易德语指南和交通局规范

重要注意事项

  • 仅使用非敏感数据,文本将发送至第三方模型提供商
  • LLM可能产生幻觉和错误,输出结果必须人工审核
  • 针对瑞士德语优化,使用ss而非ß字符

技术架构

  • 前端:Streamlit应用界面
  • NLP处理:spaCy德语模型(de_core_news_sm)
  • 模型集成:OpenRouter多模型API
  • 日志记录:本地app.log文件存储用户交互

项目团队

苏黎世州政府多部门协作项目,涉及信息访问、交通局、统计局等多个团队。

许可证

MIT开源许可证,详见LICENSE文件。


免责声明:该软件根据瑞士法律开发,使用者需自行确保符合欧盟AI法案及其他适用法律法规的要求。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计