Llamafile v0.8.14发布:全新UI界面、性能大幅提升与更多功能

本文介绍了Llamafile v0.8.14的重要更新,包括全新的命令行聊天界面、性能显著提升(部分硬件提速达10倍)、新增Llamafiler API服务器、支持多达4050亿参数的大型模型,以及新增的Whisperfile语音转文本功能。

Llamafile v0.8.14:全新UI、性能提升与更多功能

我们刚刚发布了Llamafile 0.8.14,这是我们流行的开源AI工具的最新版本。作为Mozilla Builders项目,Llamafile将模型权重转换为快速、便捷的可执行文件,可在大多数计算机上运行,让任何人都能使用现有硬件充分发挥开源LLM的潜力。

全新聊天界面

此版本的关键特性是我们色彩丰富的全新命令行聊天界面。现在,当您启动Llamafile时,我们会自动在终端中打开这个新的聊天UI。这个新界面快速、易用,整体体验比我们之前默认启动的基于Web的界面更简单。(该界面继承自上游llama.cpp项目,仍然可用并支持一系列功能,包括图片上传。只需将浏览器指向本地主机的8080端口即可)。

其他近期改进

这个新的聊天UI只是冰山一角。自我们上次发布博客文章以来的几个月里,首席开发人员Justine Tunney一直忙于发布一系列新版本,每个版本都以重要方式推动项目向前发展。以下是一些亮点:

Llamafiler:我们正在构建自己的全新OpenAI兼容API服务器,名为Llamafiler。这个新服务器将比其替代品更可靠、稳定,尤其是更快。我们已经发布了嵌入端点,其运行速度比llama.cpp中的快三倍。Justine目前正在开发补全端点,届时Llamafiler将成为Llamafile的默认API服务器。

性能改进:在k-quant发明者@Kawrakow等开源贡献者的帮助下,Llamafile在过去几个月中实现了一系列显著的速度提升。特别是,在各种架构上预填充(提示评估)速度显著提高:

  • Intel Core i9从100 tokens/秒提升到400(4倍)
  • AMD Threadripper从300 tokens/秒提升到2,400(8倍)
  • 即使是普通的Raspberry Pi 5也从8 tokens/秒跃升到80(10倍)

结合上述新的高速嵌入服务器,Llamafile已成为运行使用检索增强生成(RAG)等方法的复杂本地AI应用程序的最快方式之一。

支持强大的新模型:Llamafile持续跟进开源LLM的进展,增加了对数十种新模型和架构的支持,参数规模从4050亿一直下至10亿。以下是在Hugging Face上可供下载的一些新Llamafile:

  • Llama 3.2 1B和3B:以其小尺寸提供了极其令人印象深刻的性能和品质
  • Llama 3.1 405B:一个真正的"前沿模型",在具有足够系统RAM的情况下可以在家中运行
  • OLMo 7B:来自我们Allen Institute的朋友,OLMo是首批真正开放和透明的可用模型之一
  • TriLM:一种新的"1.58位"微型模型,针对CPU推理进行了优化,并指向矩阵乘法可能不再主导的近未来

Whisperfile,单文件语音转文本:感谢社区成员@cjpais的贡献,我们创建了Whisperfile,它为whisper.cpp做了Llamafile为llama.cpp所做的事情:即将其转换为几乎可在所有地方运行的多平台可执行文件。因此,Whisperfile使得使用OpenAI的Whisper技术将语音高效转换为文本变得容易,无论您拥有哪种硬件。

参与其中

我们的目标是让Llamafile成为构建复杂的本地运行AI应用程序的坚实基础。Justine在新Llamafiler服务器上的工作是其中的重要部分,但支持新模型和为尽可能多的用户优化推理性能的持续工作也同样重要。我们感到自豪和感激的是,项目在这些领域及其他领域的一些最大突破来自社区,像@Kawrakow、@cjpais、@mofosyne和@Djip007这样的贡献者经常留下他们的印记。

我们邀请您加入他们和我们。我们欢迎在我们的GitHub仓库中提交问题和PR。我们也欢迎您加入Mozilla的AI Discord服务器,该服务器有一个专门用于Llamafile的频道,您可以在那里直接访问项目团队。希望在那里见到您!

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计