SmarterX借助Google Cloud为客户提供定制化大语言模型
2025年10月22日 - Nic Smith(数据与分析产品营销负责人)
编辑注记
SmarterX通过AI驱动工具帮助零售商、制造商和物流公司最小化监管风险、最大化销售额,并保护消费者与环境。该公司运用BigQuery、Gemini和Vertex AI收集、处理和分析来自网络的海量非结构化监管与产品数据,据此训练定制化、高精度的大语言模型(LLMs),助力大型消费品品牌和零售商合规地销售、运输、存储和处置受监管产品。
数据科学视角下的零售世界
SmarterX产品与技术执行副总裁Russell Foltz-Smith从搜索角度审视零售行业:“如果通用产品代码真正通用,查找产品及其相关信息本应一步完成。但现实中,这种理想状态并不存在。”
这正是我们日常在浏览器搜索栏中输入内容时面临的现实:很少有查询能保证返回单一答案。因此,数据科学家所说的“基于算法索引和排序策略的概率搜索”(即我们常说的“谷歌搜索”)应运而生。
Foltz-Smith补充道:“在许多方面,所有数据科学和LLM构建都归结为准确的信息检索。”
应对监管数据的挑战
SmarterX的客户——包括消费品品牌、第三方零售商、分销商和物流公司——依赖该平台理解网络上庞大的监管产品数据。该平台帮助确保产品的销售、运输、存储和处置方式符合所有适用法律法规。
“SmarterX收集和索引数据,对缺失数据点进行三角测量,并提供可查询接口,帮助客户在最大化销售的同时最小化监管风险,”Foltz-Smith解释道。为实现这一目标,SmarterX使用机器学习和自然语言处理驱动的爬虫,从网站、研究论文、安全数据表和其他网络角落定位、抓取和解析监管信息。
Google Cloud技术的完美契合
“Google Cloud技术完全符合我们的需求,”Foltz-Smith表示,“其核心能力是从不可估量的海量数据中呈现正确的搜索结果,其中输入和输出并非预先确定,数据本身也是非结构化的。”
实时数据处理与快速模型构建
为收集和存储所有数据,SmarterX采用BigQuery和Cloud Storage。“我们的数据源分散且格式不可预测,”他继续道,“BigQuery容纳非结构化和半结构化数据,然后作为作业引擎,在运行时递归地清洗、规范化、模式化和分类这些数据。”
Google Cloud的可扩展计算资源和存储还支持实时数据处理。“我们永远不必担心数据中心是否有足够的服务器或带宽,”Foltz-Smith补充道,“Google Cloud隐藏了所有这些复杂性,因此可以自动且经济高效地处理。”
Gemini加速数据处理
BigQuery与Gemini的集成进一步加速了数据处理,Gemini管理数据处理作业队列,并构成SmarterX为客户构建的许多大语言模型的基础。“Gemini部分包含了Google已经爬取的所有内容,因此我们不需要自己重新爬取,”Foltz-Smith指出。这使得模型构建更快。
内置的接地(grounding)能力——将模型输出连接到可验证信息源——使Gemini成为为SmarterX客户组装数据更安全、更谨慎的方式。而检索增强生成(RAG)允许SmarterX将Gemini与客户的专有数据库连接,增强LLMs的准确性和相关性,同时帮助确保客户数据的安全。
适应电商和监管合规需求
SmarterX为每个客户在Vertex AI上构建多个独立的LLMs,其中许多会随着客户业务需求的变化而更新。
“Vertex AI不仅使我们能够直接访问Gemini,还提供指向针对特定狭窄主题(如化学公式)的较小、公开可用AI模型的链接,”他说。SmarterX基于Gemini的模型甚至可以执行复杂计算,如化学计算以确定闪点、沸点和pH水平。这些数据随后用于自动三角测量缺失数据、增强现有数据或更新过时信息。
Vertex AI还能大规模运行,这对于客户包括八家主要零售商的公司来说是必需的,每家零售商都有数千家受监管消费品供应商。SmarterX的客户也包括这些供应商,每家都在亚马逊和TikTok等第三方市场上销售产品。
“品牌仅在自己拥有的实体店销售商品的日子已经一去不复返了,”Foltz-Smith解释道,“零售网站和特定市场产品变体的激增给我们的工作带来了巨大复杂性。”在任何给定的一天,SmarterX都在处理数百万个SKU,必须用任何新的合规数据更新每个客户特定的LLM,这可能影响客户整个供应链——从产品配方到销售和营销,再到产品处置。
集成工作流程的优势
Foltz-Smith将SQL集成到BigQuery以及整个Google Cloud技术星座的互操作性归功于让SmarterX能够跟上这种数据量。
“我们不再需要维护单独的工作流程、学习多个工具并不断在它们之间切换,”他指出,“我们可以在一个连贯、精心编排的系统内爬取网络、将数据存入BigQuery、处理数据、以编程方式或SQL语句编写代码、整理训练数据、构建新LLMs,并评估、部署和更新它们,整个系统使用相同的熟悉接口。Google Cloud工作流程是为高容量数据科学而构建的。”
赋能领域专家
Google工作流程也为民主化数据科学而构建,具有使未经数据科学培训的非技术领域专家能够直接处理数据,甚至自行部署模型的功能。
据Foltz-Smith称,这些功能包括轻松交换新的训练数据集、参数化的辅助决策功能、易于理解的即用可视化模型评估,以及格式化评估框架的模板。
“过去,你需要知道如何使用建模工具、数据库工具和API部署工具,以及理解特定模型的数学基础和如何编写代码才能构建和部署模型,”他说,“将所有功能集中在具有熟悉用户界面的单一环境中,使没有数据科学背景的人能够更高效。这对他们来说是非常解放和赋权的。”
加速产品开发
这种自由转化为加速的产品开发。
具有监管要求行业特定知识的SmarterX团队成员现在可以评估、纠正和部署向SmarterX客户提供这些知识的模型;以前,他们必须等待数据科学家帮助将这些专业知识转化为模型。
“Google组织世界所有信息并使其普遍可用的使命在它今天提供的工具中显而易见,这一使命与SmarterX运用数据科学为客户服务的方式完全吻合,”Foltz-Smith总结道。“我担任数据科学家已超过二十年,Google Cloud中的工具不断超出我的期望。”
发布类别:数据分析
相关客户案例