Featured image of post TOSense:实时解析服务条款的智能浏览器扩展

TOSense:实时解析服务条款的智能浏览器扩展

本文介绍TOSense——一款Chrome扩展程序,通过自然语言处理技术帮助用户实时解析冗长的服务条款。系统结合自动爬虫tos-crawl和轻量级LLM管道(MiniLM语义检索+BART答案验证),并创新性提出无需人工标注的问答评估管道QEP。在五大平台测试中准确率最高达44.5%。

Demo: TOSense——您刚刚同意了什麼?

摘要

在线服务通常要求用户同意冗长晦涩的服务条款(ToS),导致信息不对称和法律风险。本文提出TOSense——一款Chrome扩展程序,允许用户用自然语言提问并实时获取简明答案。系统结合:(i)自动提取ToS内容的爬虫"tos-crawl";(ii)轻量级大语言模型管道:采用MiniLM进行语义检索,BART编码器进行答案相关性验证。为避免昂贵的人工标注,我们提出新颖的问答评估管道(QEP),通过聚类主题匹配生成合成问题并验证答案正确性。在Apple、Google、X(原Twitter)、Microsoft和Netflix五大平台的实验显示,TOSense在不同主题聚类数量下均有效(最高准确率44.5%)。演示期间将展示TOSense的实际运行,参会者可体验无缝提取、交互式问答以及新站点的即时索引功能。

技术架构

核心组件

  1. tos-crawl爬虫:自动化提取服务条款内容
  2. 双阶段LLM管道
    • MiniLM模型:负责语义检索
    • BART编码器:进行答案相关性验证
  3. QEP评估管道:通过聚类主题匹配自动生成问题并验证答案,无需人工标注

实验验证

在五大平台(Apple/Google/X/Microsoft/Netflix)的测试表明:

  • 最高准确率达到44.5%
  • 支持可变主题聚类数量
  • 实现新站点的即时索引

应用场景

  • 实时解析服务条款
  • 自然语言交互式问答
  • 自动化条款内容提取
  • 法律风险识别与预警

本文已被IEEE LCN 2025接收为演示论文

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计