Windows Copilot深度技术解析:AI助手如何融入操作系统

本文深入分析微软Windows Copilot的技术实现,揭示其基于云端AI模型、本地操作集成及潜在安全隐私风险,探讨AI与操作系统融合带来的技术挑战与未来发展方向。

AI在Windows中的实践:Windows Copilot技术调查

AI正变得无处不在,GitHub和Photoshop等广泛使用工具的开发者正在快速实施和迭代支持AI的功能。随着微软最近将Copilot集成到Windows中,AI甚至进入了计算的老牌主力——桌面系统。

将AI助手集成到整个操作系统中是一个重大发展,值得深入研究。在这篇博客文章中,我想分享我对微软如何将Copilot集成到其传统桌面系统中的简要调查结果。我将总结集成的一些关键特性,并探讨AI在桌面环境中角色的一些担忧和未来考虑。

重要注意事项

在深入细节之前,有两个重要的注意事项需要牢记。

首先,也是最重要的,Microsoft Copilot仅在有功能的互联网连接下工作。这告诉我们使用的模型是托管的,而不是本地的,并且必然地,每当使用AI功能时,您机器上的一些数据会被发送到微软。

其次,与其他支持AI的工具一样,Copilot的结果并不总是稳定或可靠。Copilot可能给出意想不到的结果,这需要一些适应时间,并需要初步的试错期来发现什么有效、什么无效。这意味着即使是资源充足的生成式AI公共部署,也未能充分缓解幻觉问题。

Windows中的Copilot

在最新的Windows 11版本中,微软正式推出了Windows Copilot——一个存在于桌面上、随时准备回答任何问题的日常AI伴侣。根据微软的说法:

Copilot将独特地结合网络的情报、您的工作数据以及您当前在PC上的活动,以提供更好的协助——同时将您的隐私和安全放在首位。

在支持Copilot的Windows版本上,您将能够看到一个新的桌面图标,打开一个侧边栏到Copilot界面:

虽然这个侧边栏可能看起来是全新的,但在底层,它只是Microsoft Edge在msedge.exe进程中运行Bing AI的一个视图。然而,Copilot确实包含了一些超越“常规”Bing AI的新特性和能力。

就像Bing AI一样,Copilot没有本地AI模型。所有查询和操作都是通过Web界面到远程机器处理请求并返回答案。因此,Copilot需要活跃的互联网连接才能工作。Copilot将搜索自己的知识库或访问网络,以回答您提出的任何问题(就像任何LLM一样,这些答案可能自信地错误)。默认情况下,Copilot仅执行一般网络查询,不会访问任何用户数据或与当前网络会话相关的数据。然而,即使在这种默认状态下,Copilot确实可以访问浏览器和操作系统提供的元数据,如IP地址、位置(由浏览器提供)和首选语言。

一个可选的设置(默认禁用)允许Copilot访问当前浏览器会话,以收集有关当前打开的网页的URL和标题以及活动网页内容的信息。它不应访问任何私人数据,如密码或浏览器历史记录。

Copilot还具有超越回答基本查询能力的其他功能。第一个是与DALL-E集成以生成AI艺术。您可以通过向Copilot发出一般请求或键入#graphic_art("prompt")来访问此功能。例如,键入#graphic_art("tree")将生成一棵树的图片。

另一个有趣的功能允许用户通过#win_action("command")提示访问硬编码的本地操作。每个操作都会导致Copilot在执行操作之前请求用户确认的消息。以下是目前似乎可用的硬编码#win_action选项列表:

操作 描述 必需参数 示例命令
change_volume_level 将音频音量级别增加或减少10点 “increase” 或 “decrease” #win_action("change_volume_level", "increase")
launch_app 打开已安装的应用 要打开的应用程序名称 #win_action("launch_app", "Calculator")
list_apps 获取已安装应用列表 #win_action("list_apps")
launch_screen_cast 将屏幕投射到无线设备 #win_action("launch_screen_cast")
launch_troubleshoot 打开音频、相机、打印机、网络、蓝牙或Windows更新故障排除器之一 故障排除类别 #win_action("launch_troubleshoot", "Audio")
manage_device 打开设备设置以添加、删除或管理设备 #win_action("manage_device")
mute_volume 静音或取消静音音频 “mute” 或 “unmute” #win_action("mute_volume", "mute")
set_bluetooth 启用或禁用蓝牙 “on” 或 “off” #win_action("set_bluetooth", "on")
set_change_theme 更改颜色主题 “dark” 或 “light” #win_action("set_change_theme", "dark")
set_do_not_disturb 启用或禁用“请勿打扰”模式 “on” 或 “off” #win_action("set_do_not_disturb", "on")
set_focus_session 设置请求分钟数的专注会话 分钟数 #win_action("set_focus_session", "30")
set_volume 将音频音量级别设置为指定值 0到100之间的数字,代表音量百分比 #win_action("set_volume", "50")
set_wallpaper 个性化您的背景(即,在设置中打开个性化 > 背景页面) #win_action("set_wallpaper")
snap_window 对齐您的活动窗口并在单个屏幕上共享多个应用窗口 “left”, “right”, 或 “none” 选择"none"允许您选择首选布局 #win_action("snap_window", "left")
start_snipping_tool 使用截图工具截图 (可选)0到30之间的数字,指定截图前的延迟 默认:3秒 #win_action("start_snipping_tool", "5")

目前,虽然所有这些操作都是本地的,但它们不能在机器离线时使用。随着Copilot的成熟,我们期待看到它能提供哪些新能力。

尽管Microsoft Copilot处于早期阶段,但它展示了显著的能力。但就像任何基于云的AI应用程序一样,它引发了安全和隐私担忧。这些担忧主要围绕查询必须发送到服务器进行处理,并且它们可能被存储、用于进一步训练AI模型,或与其他公司共享用于各种目的(如个性化广告)。此外,Copilot影响本地系统变化的能力尤其值得注意。这一功能引入了关于AI在桌面环境中角色的新担忧,这一角色超出了大多数当前支持AI的产品的范围。例如,通过Copilot访问本地操作的能力可能帮助攻击者在机器上执行本地操作而不被检测;如果微软将来扩展可用操作列表,这种担忧只会增加。虽然将AI集成到桌面环境中是一个令人兴奋的发展,但随着微软继续迭代Copilot,以及更多AI-操作系统集成不可避免地出现,这些担忧必须成为开发人员和研究人员的关键焦点。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计