<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>SparkSQL on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/sparksql/</link>
    <description>Recent content in SparkSQL on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Thu, 11 Sep 2025 06:27:19 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/sparksql/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>使用Apache Iceberg构建可复现ML系统</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8apache-iceberg%E6%9E%84%E5%BB%BA%E5%8F%AF%E5%A4%8D%E7%8E%B0ml%E7%B3%BB%E7%BB%9F/</link>
      <pubDate>Thu, 11 Sep 2025 06:27:19 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8apache-iceberg%E6%9E%84%E5%BB%BA%E5%8F%AF%E5%A4%8D%E7%8E%B0ml%E7%B3%BB%E7%BB%9F/</guid>
      <description>&lt;h2 id=&#34;构建可复现的ml系统apache-iceberg与sparksql开源基础&#34;&gt;构建可复现的ML系统：Apache Iceberg与SparkSQL开源基础&lt;/h2&gt;&#xA;&lt;h3 id=&#34;机器学习数据可复现性问题&#34;&gt;机器学习数据可复现性问题&lt;/h3&gt;&#xA;&lt;h4 id=&#34;常见痛点&#34;&gt;常见痛点&lt;/h4&gt;&#xA;&lt;p&gt;数据漂移悄无声息地发生：特征分布随时间变化，直到模型开始做出不合理预测时才被发现。特征管道本应是确定性的，但实际上并非如此；由于时间戳逻辑或竞态条件，相同管道运行两次会产生微妙不同的输出。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
