Demo: TOSense——您刚刚同意了什麼?
摘要
在线服务通常要求用户同意冗长晦涩的服务条款(ToS),导致信息不对称和法律风险。本文提出TOSense——一款Chrome扩展程序,允许用户用自然语言提问并实时获取简明答案。系统结合:(i)自动提取ToS内容的爬虫"tos-crawl";(ii)轻量级大语言模型管道:采用MiniLM进行语义检索,BART编码器进行答案相关性验证。为避免昂贵的人工标注,我们提出新颖的问答评估管道(QEP),通过聚类主题匹配生成合成问题并验证答案正确性。在Apple、Google、X(原Twitter)、Microsoft和Netflix五大平台的实验显示,TOSense在不同主题聚类数量下均有效(最高准确率44.5%)。演示期间将展示TOSense的实际运行,参会者可体验无缝提取、交互式问答以及新站点的即时索引功能。
技术架构
核心组件
- tos-crawl爬虫:自动化提取服务条款内容
- 双阶段LLM管道:
- MiniLM模型:负责语义检索
- BART编码器:进行答案相关性验证
- QEP评估管道:通过聚类主题匹配自动生成问题并验证答案,无需人工标注
实验验证
在五大平台(Apple/Google/X/Microsoft/Netflix)的测试表明:
- 最高准确率达到44.5%
- 支持可变主题聚类数量
- 实现新站点的即时索引
应用场景
- 实时解析服务条款
- 自然语言交互式问答
- 自动化条款内容提取
- 法律风险识别与预警
本文已被IEEE LCN 2025接收为演示论文