开源AI如何打破技术垄断

关键要点

开源倡议在 democratize 人工智能技术方面至关重要，提供透明、可扩展的工具，赋予用户更多能力。
开源社区迅速将新研究转化为实用AI工具，使其更强大、更有用。
在开发过程中蒸馏大语言模型能够创建准确、快速且私有的任务特定模型，减少对通用API的依赖。
有效监管应区分面向人类的AI应用和底层面向机器的组件，在解决数据隐私、安全和公平访问问题的同时确保创新。

开源的反垄断作用

与垄断控制的担忧相反，开源软件正在 disrupt 人工智能领域的垄断观念。开源倡议确保没有任何单一实体能够主导AI领域。开源软件具有诸多优势，使其成为个人和公司的有吸引力选择：

透明：开源软件透明，允许您确切看到所获得的内容。
无锁定：您不会被锁定到特定供应商。虽然有一定承诺，但您永远不会失去访问权。
内部运行：开源软件可以在内部运行，这对于处理私人数据且不希望将其发送到外部服务器的情况至关重要。
社区审查：社区审查方面意味着您可以看到什么流行以及谁使用什么，确保一定程度的信任和可靠性。
最新：开源项目通常是最新的，通过拉取请求和社区贡献纳入最新研究。
可编程：软件非常可编程，很少需要端到端解决方案，并且可以轻松集成到现有流程中。
易于入门：开源软件易于入门，您只需使用像 pip install 这样的命令即可下载并开始。
可扩展：软件可扩展，如果需要，您可以分叉并自行运行。

开源的经济方面

关于开源软件的一个常见误解是，公司选择它主要是因为它是免费的。虽然许多开源项目是免费提供的，但真正的价值在于其可访问性和自由。虽然成本因素有助于初始采用，但许多令人信服的理由推动了开源解决方案的主导地位。

AI和机器学习中的开源

AI和机器学习中的开源不仅仅是关于软件，它是代码和数据的协同作用。不断增长的开源模型生态系统涵盖从代码到数据和权重的所有内容，使强大工具广泛可访问。为澄清这一领域，我们将这些模型分为三种类型：

任务特定模型：这些是专为特定任务设计的专用模型。示例包括与spaCy及其社区项目一起分发的模型、斯坦福Stanza库的模型，以及Hugging Face等平台上的众多模型。这些模型通常小、快且运行成本低。然而，它们并不总是泛化良好，通常需要针对特定领域数据进行微调。
编码器模型：这些模型，如某中心的BERT及其不同变体，用于生成可以驱动任务特定模型的嵌入。它们相对较小、快速且负担得起在内部运行，提供比任务特定模型更好的泛化，但仍需要一些微调以适应特定应用。
大生成模型：这一类别包括像Falcon、Mistral和LLaMA这样的模型。这些模型显著更大、更慢且运行成本更高，但在泛化和适应方面表现出色，需要很少或无需微调即可执行特定任务。

误解LLMs

“大语言模型”（LLMs）一词经常被广泛且不精确地使用， mudding 关于其能力和应用的讨论。因此，编码器模型和大生成模型之间的区别非常重要。编码器模型涉及预测结构化数据的任务特定网络，而大生成模型依赖提示生成自由格式文本，需要额外逻辑来提取可操作的见解。

规模经济的作用

由于其复杂性和运营成本，大生成模型通常通过像某机构和某中心等公司提供的API访问。这些公司利用规模经济，受益于访问顶级人才、批发计算资源以及允许高效批处理的高请求量。这种设置就像繁忙城市的火车时刻表，由于高需求，使得提供频繁服务变得可行。

面向人类与面向机器的AI的区别

AI领域的一个关键区别是面向人类的系统和面向机器的模型之间。对于面向人类的系统，如ChatGPT和某机构Gemini，最重要的区别是产品特性，包括用户体验、用户界面和定制，通常 incorporate 约束以防止不良输出。这些产品直接与用户交互，并 heavily 依赖用户数据来改进和 refine 其功能。相比之下，底层模型如GPT-4和Bard是更大系统中的组件，形成这些面向消费者应用的 backbone。面向机器的模型是基于公开研究和数据构建的可交换组件，性能以速度、准确性、延迟和成本量化。

理解这些类型的AI应用之间的差异至关重要。这种区别有助于澄清关于垄断AI的误解。像某机构这样的公司可能主导面向用户产品的市场，但不一定是其背后的AI和软件组件。虽然用户数据有利于改进面向人类的产品，但对于增强基础面向机器的任务 less critical。获得一般知识不需要特定数据，这是大生成模型创新背后的核心。

实践中的AI能力

实践中的AI能力可以大致分为生成和预测任务：

生成任务：摘要、推理、问题解决、问答、 paraphrasing 和风格转移是由生成模型启用的新能力。
预测任务：文本分类、实体识别、关系提取、共指解析、语法和形态学、语义解析和话语结构。这些任务涉及将非结构化文本转换为结构化表示，然后用于各种应用。

虽然生成AI提供了许多新的可能性，但许多行业挑战也保持不变，主要关注于结构化非结构化数据如语言。AI的出现使我们能够更高效、更大规模地解决这些问题，实现更多结构化数据创建和项目完成。

告诉计算机做什么的演变

指示计算机的过程经历了几个迭代：

基于规则的系统：最初，我们使用条件逻辑和正则表达式提供规则或指令。
机器学习：引入了通过示例编程，也称为监督学习，其中模型使用特定示例进行训练。
上下文学习：最近，以自然语言形式提供规则和指令（提示）。

每种方法都有其优缺点。指令直观且易于非专家使用，但容易受到数据漂移的影响。示例高度具体，可以表达细微行为，但生成 labor-intensive。那么，一个结合两种方法并使用大通用模型与特定数据开发专注、任务特定模型的工作流程可能是什么样的？

实际应用和迁移学习

一个实际的AI工作流程涉及迭代评估和纠正模型预测，使用迁移学习将通用模型蒸馏为特定模型。迁移学习对于实际应用仍然 relevant，允许模块化、可解释和成本效益高的解决方案。

使用大生成模型有助于克服冷启动问题，使原型开箱即用。这些原型可以被 refine 和蒸馏成更小、更快、更具体的模型。这种方法避免了从零开始生成示例的 labor-intensive 过程，并减少了运行时对 massive、复杂模型的依赖。

任务特定模型的人机循环蒸馏

开发蒸馏任务特定模型与软件最佳实践一致，提供诸多好处：

模块化：该方法高度模块化，与软件开发最佳实践一致。这允许维护现代工作流程并相应地适应模型开发。
无锁定：用户不 tied 到任何特定提供商。模型可以与各种提供商开发，但可以在运行时独立拥有和管理。
可测试：组件可以单独测试，使得监控和检测故障比单一黑盒系统更容易。
灵活且运行成本低：模型是系统中的灵活组件，可以优化以高效运行，甚至在CPU上或具有小 footprint，显著降低运营成本。
内部运行：这对于安全处理敏感数据而不依赖外部API至关重要，确保数据隐私和监管合规。
透明和可预测：用户对模型的工作有 visibility，允许更好地理解和预测模型行为。
可编程：模型可以以编程方式集成到现有工作流程中，与业务需求一致并最小化集成挑战。

这些是公司选择开源软件的相同原因，这不是巧合：AI开发仍然是一种软件开发，相同原则适用。

解决担忧和监管

规模经济， once thought crucial for monopolistic dominance，在科技领域面临挑战，因为激烈竞争推动成本下降。能够在开发期间依赖 otherwise 成本高的开源模型而不是生产，使这成为一个 even less relevant moat。

监管 emerges as another strategy pursued by big tech companies to secure their monopoly in the space， lobbying governments across the world to implement AI legislation that only they can comply with。

保持监管清晰对于确保AI发展 without monopolistic control 至关重要。通过区分应用和核心技术，政策制定者可以 foster 一个鼓励创新同时保护消费者利益的竞争 landscape。这种区别在 steering AI towards a future of innovation and accessibility 方面至关重要，其中没有任何单一实体持有 undue market influence。

结论

AI开发和部署的 landscape 以透明和可访问性为特征，而不是秘密优势。在大语言模型（LLMs）领域，这些是集成组件而不是独立产品，没有从专有知识或独家数据访问中 inherent monopoly-building advantage。

这些模型可以有效地被其他方法替换或补充， foster interoperability and competition，垄断的反面。开源软件在确保这种灵活性方面 plays a crucial role，并通过协作开发和社区审查 promotes innovation。

然而，监管措施 inadvertently favor monopolistic practices 的潜力仍然是一个担忧。为防止这种情况，监管应专注于监管行动和使用案例，而不是针对特定技术或软件组件。

这种平衡方法对于维护AI开发中的竞争和包容环境至关重要。它还避免了行业游说努力可能 seek to distort regulatory frameworks for their own gain 的 undue influence。