<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>数据去重 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E6%95%B0%E6%8D%AE%E5%8E%BB%E9%87%8D/</link>
    <description>Recent content in 数据去重 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Sun, 07 Dec 2025 12:46:06 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E6%95%B0%E6%8D%AE%E5%8E%BB%E9%87%8D/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>存储技术优化显神威：AAA游戏安装体积从154GB暴降至23GB</title>
      <link>https://blog.qife122.com/p/%E5%AD%98%E5%82%A8%E6%8A%80%E6%9C%AF%E4%BC%98%E5%8C%96%E6%98%BE%E7%A5%9E%E5%A8%81aaa%E6%B8%B8%E6%88%8F%E5%AE%89%E8%A3%85%E4%BD%93%E7%A7%AF%E4%BB%8E154gb%E6%9A%B4%E9%99%8D%E8%87%B323gb/</link>
      <pubDate>Sun, 07 Dec 2025 12:46:06 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%AD%98%E5%82%A8%E6%8A%80%E6%9C%AF%E4%BC%98%E5%8C%96%E6%98%BE%E7%A5%9E%E5%A8%81aaa%E6%B8%B8%E6%88%8F%E5%AE%89%E8%A3%85%E4%BD%93%E7%A7%AF%E4%BB%8E154gb%E6%9A%B4%E9%99%8D%E8%87%B323gb/</guid>
      <description>&lt;h1 id=&#34;hdd最適化からssd最適化に変更したことでaaaゲームのデータ量が154gbから23gbへスリム化&#34;&gt;HDD最適化からSSD最適化に変更したことでAAAゲームのデータ量が154GBから23GBへスリム化&lt;/h1&gt;&#xA;&lt;p&gt;近年の大作ゲームはインストール容量が数百GBに上る事例もありますが、Arrowhead Game Studiosは『HELLDIVERS 2』で154GBから23GBへの大幅なスリム化に成功しています。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用Jaccard相似度和MinHash查找近似重复文档</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8jaccard%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%92%8Cminhash%E6%9F%A5%E6%89%BE%E8%BF%91%E4%BC%BC%E9%87%8D%E5%A4%8D%E6%96%87%E6%A1%A3/</link>
      <pubDate>Thu, 27 Nov 2025 11:26:05 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8jaccard%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%92%8Cminhash%E6%9F%A5%E6%89%BE%E8%BF%91%E4%BC%BC%E9%87%8D%E5%A4%8D%E6%96%87%E6%A1%A3/</guid>
      <description>&lt;h1 id=&#34;使用jaccard相似度和minhash查找近似重复文档&#34;&gt;使用Jaccard相似度和MinHash查找近似重复文档&lt;/h1&gt;&#xA;&lt;h2 id=&#34;问题背景&#34;&gt;问题背景&lt;/h2&gt;&#xA;&lt;p&gt;假设我们有一个大型文档集合，希望识别哪些文档彼此大致相同。例如，我们可能在一段时间内爬取了网页，期望多次获取&amp;quot;相同页面&amp;quot;，但会看到元数据的细微差异，或者看到经过小编辑后的多个页面版本。&lt;/p&gt;</description>
    </item>
    <item>
      <title>机器学习中重复数据管理的最佳实践</title>
      <link>https://blog.qife122.com/p/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE%E7%AE%A1%E7%90%86%E7%9A%84%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5/</link>
      <pubDate>Thu, 18 Sep 2025 02:26:17 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE%E7%AE%A1%E7%90%86%E7%9A%84%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5/</guid>
      <description>&lt;h1 id=&#34;掌握机器学习中的重复数据管理以实现最佳模型性能&#34;&gt;掌握机器学习中的重复数据管理以实现最佳模型性能&lt;/h1&gt;&#xA;&lt;p&gt;在当今数据驱动的世界中，机器学习从业者经常面临一个关键但未被充分认识的挑战：重复数据管理。大量多样化数据为当今的ML模型提供动力。尽管收集大规模数据集变得比以往任何时候都更容易，但重复记录的存在会显著影响其质量、性能，并经常导致有偏差的结果。本文试图深入探讨重复数据如何影响机器学习模型，以及它如何影响其准确性和其他性能指标。我们将尝试揭示有效识别、分析和管理重复数据的实用策略。您将找到有关管理重复数据、最佳实践、当前趋势等的部分。我们希望您觉得本文发人深省！&lt;/p&gt;</description>
    </item>
    <item>
      <title>表格数据去重技术实战指南</title>
      <link>https://blog.qife122.com/p/%E8%A1%A8%E6%A0%BC%E6%95%B0%E6%8D%AE%E5%8E%BB%E9%87%8D%E6%8A%80%E6%9C%AF%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</link>
      <pubDate>Tue, 16 Sep 2025 20:14:02 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E8%A1%A8%E6%A0%BC%E6%95%B0%E6%8D%AE%E5%8E%BB%E9%87%8D%E6%8A%80%E6%9C%AF%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</guid>
      <description>&lt;h1 id=&#34;表格数据去重技术实战指南&#34;&gt;表格数据去重技术实战指南&lt;/h1&gt;&#xA;&lt;h2 id=&#34;技术概述&#34;&gt;技术概述&lt;/h2&gt;&#xA;&lt;p&gt;Prodigy是由某机构开发的现代化标注工具，专为机器学习模型训练数据收集而设计。本教程演示如何利用半自动标注和现代迁移学习技术，从零开始训练命名实体识别模型。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
