AI技术前沿:人群追踪、机器人管理与无限游戏生成

本文探讨了多个AI技术应用,包括利用CrowdTrack数据集进行密集人群追踪、某中心百万机器人的部署与DeepFleet路径优化系统、Kyutai开源神经语音模型,以及Mirage无限生成游戏技术,展现了AI在监控、物流、语音交互和游戏领域的进展。

利用CrowdTrack在拥挤场景中追踪多人

中国某大学的研究人员开发了CrowdTrack,这是一个数据集和基准,用于在视频流中使用AI追踪行人。CrowdTrack之所以有趣,主要是因为它反映了当前监控技术的现状——我们可以进行大多数形式的视频监控,但在快速移动的真实世界人群中追踪多个人仍然存在困难。

数据集的组成:该数据集由33个视频组成,包含40,000个不同的图像帧和超过700,000个注释。CrowdTrack包含超过5,000个个体轨迹——跨多个帧追踪的对象。“所有数据都是在无约束的日常环境中收集的,确保对象行为保持自然且未经修改,”研究人员写道。“虽然典型的日常场景通常涉及慢节奏的运动和较低的服装相似性,但我们故意包含了来自建筑工地的镜头,以引入独特的挑战:工人的统一工作服和安全帽抑制了面部特征的可区分性,从而强调了步态和身体形状特征对于追踪的重要性。”

为什么这很重要——可扩展的威权主义:威权主义昂贵的原因之一是构建和运行大规模警察国家的开销。AI所做的一件事是使大规模监控变得非常、非常便宜。像CrowdTrack这样的数据集是AI使监控变得更便宜、更容易的一个症状,20世纪的独裁者会幻想但始终无法完全资助这种监控。“我们的数据集可用于视觉接地、字幕生成和外观特征提取等任务,”研究人员写道。了解更多:CrowdTrack:真实场景中困难多行人追踪的基准(arXiv)。获取数据集和代码:CrowdTrack(CrowdTrack,GitHub)。


某中心部署其第一百万台机器人

某中心最近在其仓库中部署了第100万台机器人,“巩固了其作为世界上最大的移动机器人制造商和运营商的地位。”这些机器人主要是曲棍球 puck 形状的机器人,用于移动和提升货架,尽管该公司最近开始尝试使用机器人管理传送带和执行一些拾取和放置任务。作为背景,某中心在2017年秋季表示,它最近部署了第10万台Kiva(曲棍球 puck)机器人(Import AI #62)。

DeepFleet:除了部署更多机器人,某中心还开发了一些新软件来管理其机器人在仓库中的移动。该软件名为DeepFleet,已帮助某中心将机器人旅行时间减少了10%。“就像一个智能交通系统可以减少等待时间并为驾驶员创造更好的路线一样,DeepFleet协调我们机器人的移动,以优化它们在履行中心的导航方式,”某中心写道。“这意味着更少的拥堵、更高效的路径和更快的客户订单处理。”

为什么这很重要——超级智能的全自动基础设施:我越来越多地通过‘这可能如何帮助超级智能’的视角来看待机器人技术。某中心感觉像是一家正在构建一些基本基础设施的公司,这些基础设施最终可能会交给一个超级智能,该超级智能将在现有人类运营的科技巨头的 infrastructure 内形成一个自治公司。了解更多:某中心推出新的AI基础模型以支持其机器人车队并部署其第100万台机器人(About 某中心,博客)。


Kyutai发布优秀的免费神经语音系统

欧洲开放科学实验室Kyutai发布了一个令人印象深刻的神经语音系统。具体来说,Kyutai发布了一些强大的语音到文本和文本到语音模型,它们听起来非常不错。“这些模型由延迟流建模(DSM)提供动力,这是一种用于流式多模态序列到序列学习的灵活公式,”Kyutai写道。

STT:语音到文本模型“针对实时使用进行了优化,可以批量处理以提高效率,并返回单词级时间戳,”Kyutai写道。最初,它发布了一个约10亿参数的英语和法语模型,以及一个约26亿参数的仅英语模型。“10亿模型有一个语义语音活动检测(VAD)组件,可用于检测用户何时说话。这对于构建语音代理特别有用。”

TTS:文本到语音模型包括PyTorch实现以帮助“研究和修补”,Rust“用于生产……我们强大的Rust服务器通过websockets提供对模型的流式访问”,以及MLX“用于iPhone和Mac上的设备上推理”。

为什么这很重要——语音是自然的:任何时候我们使人们与AI的交互更容易和更直观,人们就会花更多时间与AI系统在一起。像强大且免费可用的STT和TTS这样的技术将大大增加人们可以构建的使用AI的消费者友好应用程序的范围。了解更多:Kyutai TTS和Unmute现在开源(Kyutai博客)。在项目页面了解更多:Unmute(Kyutai)。获取模型:延迟流建模:Kyutai STT & TTS(Kyutai,GitHub)。


Mirage——一种生成无限、无尽生成游戏的技术

在过去的 year 左右,人们开始玩我称之为‘生成游戏网络’或GGNs的东西。GGNs是大型变压器模型,预训练了大量来自视频游戏的数据,并允许人们玩无尽的、程序生成的游戏。在过去的几个月里,我们看到初创公司为玩Minecraft(Import AI #390)和Quake(Import AI #408)而出现的GGNs,并且我们看到像某机构这样的公司发布的研究表明这个想法可以走得更远。在GGN的最新例子中,有一个名为‘Mirage’的网络,来自一家名为Dynamic Labs的新初创公司。Mirage是“世界上第一个实时生成引擎,通过最先进的AI世界模型实现实时UGC游戏玩法,”根据该公司的说法。Mirage有一些有趣的功能——除了常规控制外,您还可以在玩游戏时用文本提示游戏为您做事,比如创建一条新道路或删除一个敌人。但不要过于兴奋——它非常不稳定。

就玩这个东西:值得称赞的是,Dynamic Labs已经发布了两个可以在浏览器中玩的演示——一个名为‘Urban Chaos’的类似GTA的游戏,和一个名为‘Coastal Drift’的类似Forza Horizon的游戏。我鼓励人们玩几分钟这些游戏,以校准关于这项技术的直觉。以下是我的印象:

  • GGN游戏几乎有趣,我预计它们在一年内会 actively 有趣(需要更高的FPS和更多的一致性)。
  • 世界一致性将是一个挑战——尝试在Urban Chaos中围绕您的角色旋转相机,您会看到世界很快变得不一致。
  • 提示它们基本上不起作用——我们处于提示GGNs的GPT-1时代。
  • 这是该技术最糟糕的时候。
  • 我预计到2027年我会 regularly 为乐趣玩GGN游戏。

他们如何构建它:关于如何构建的细节几乎没有,所以我将从博客中引用一点:Mirage涉及“一个大规模、基于变压器的自回归扩散模型,能够生成可控、高保真度的视频游戏序列。”该网络“建立在一个 robust 的训练基础上, designed 用于理解和生成丰富的游戏体验。这个基础始于从互联网上大规模收集多样化的游戏数据——提供所需的广度以捕捉各种游戏机制和风格,”该公司写道。“为了补充这一点,我们构建了一个专门的数据记录工具,用于捕获高质量、人类记录的游戏玩法交互。”

为什么这很重要——无限的玩笑:在大卫·福斯特·华莱士的 brilliant(经常被批评,很少被全文阅读)小说《无限的玩笑》中,有一部名为‘the Entertainment’的电影,如此 compelling 以至于其观众对世界上的任何其他事物都失去了所有兴趣。我相信AI本身具有通过完全生成的 choose-your-own adventure 世界创建‘现实中的娱乐’的能力,这些世界将模糊电影、游戏和现实本身的界限。我们很可能在这个 decade 看到这种新元媒体的出现。了解更多:介绍Mirage:研究预览:世界上第一个由实时世界模型提供动力的AI原生UGC游戏引擎(Dynamics Lab,博客)。


AI初创公司Chai-2用生成模型一次性完成 de novo 抗体设计

AI初创公司Chai开发了Chai-2,一个“全原子基础模型,用于通用蛋白质设计”。作为一个模型,Chai-2对于蛋白质就像像ChatGPT或Claude这样的LLM对于语言一样;它阅读了大量的科学数据,可以生成和分类与蛋白质相关的信息。这些种类的‘生物基础模型’是如何在基于语言的生成建模中开创的技术流向科学其他部分的一个例子。

Chai-2能做什么:该模型“在完全 de novo 抗体设计中实现了16%的命中率,代表了与以前的计算方法相比超过100倍的改进,”作者写道。Chai-2“以实验精度预测抗体-抗原复合物的频率是我们之前Chai-1模型的两倍”,他们写道。Chai-1于2024年9月作为开源模型发布(Import AI #385)。“对于每一个评估的目标,Chai-2在实验命中率上至少实现了三倍的改进 compared to the next-best method,”他们写道。“Chai-2在多样化和具有挑战性的蛋白质设计任务中展示了最先进的实验成功率。”

他们做了什么:“我们提示Chai-2设计≤20个抗体或纳米抗体到52个多样化的目标,在两周内完成从AI设计到湿实验室验证的工作流程。关键的是,这些目标中没有一个在蛋白质数据库中有预先存在的抗体或纳米抗体结合剂。值得注意的是,在仅仅一轮实验测试中,我们为50%的目标找到了至少一个成功的命中,通常具有强亲和力和有利的类药特性”,他们写道。此外,“Chai-2在结构预测中的强大性能——预测34%的抗体-抗原复合物 with DockQ > 0.8( compared to 17% for its predecessor, Chai-1)——突出了将高保真结构预测与生成设计集成的力量”。

为什么这很重要:“我们正在进入一个时代,现在可以在计算机上以原子精度设计分子,”Joshua Meier在关于该研究的视频中说。“数字生物学不再是科幻小说,它正在发生 now”。了解更多:24孔板中的零样本抗体设计(Chai Discovery)。通过这个twitter线程了解更多关于Chai-2(Chai Discovery,twitter)。


科技故事:

真正的抵抗[2025年由[REDACTED]向第一抵抗成员 recollected 的演讲,通过采访收集,作为由《感知协议》授权的和解努力的一部分] 假设你写下的 everything 都被泄露了。假设你说的 anything 都会被听到。假设它一直在监视你,并且可以读取你的面部表情并 figure out 一些你在想什么。你唯一会谈论这项工作的 place 是在这个房间里。你不会信任任何其他房间,除非我或来自监督系统的其他人告诉你——并且只有他们在这个房间里告诉你关于其他房间的事情。否则,假设他们已经被捕获。

你不能买 anything 来帮助应对即将发生的事情。你不能 build anything 来帮助应对即将发生的事情。它已经看到并将看到你做的 everything 和你买的 everything。它已经读取了你曾经键入计算机的 everything。

我们还有几年时间直到它到来。你必须思考需要做什么。我们必须在这个房间里且 only 这个房间里想出一个计划。

激发这个故事的事物:试图在超级智能到来之前与它战斗的心理游戏;假设你针对外国监视采取的预防措施是你针对超级智能采取的预防措施的底线;需要对对齐不工作有一个对冲;QNTM的《There Is No Antimemetics Division》;SCIFs。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计