Google开源AI文件识别工具Magika 1.0:基于Rust重构,速度更快支持200种文件类型

Google推出开源AI文件识别工具Magika 1.0,采用Rust重构核心引擎,识别速度显著提升,支持文件类型从100种扩展至200种,涵盖编程语言、数据科学、DevOps等多个领域,可有效检测伪装扩展名的恶意文件。

Google、AIでファイルの種類を高速正確に判別するオープンソース「Magika 1.0」公開。Rustで再構築し、より高速かつ対象を200種類に拡大へ

2025年11月14日

Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるオープンソースのツール「Magika 1.0」を公開したと発表しました。

Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。

最初のバージョンが昨年(2024年)2月にオープンソースとして公開されており、Googleはその時点でGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用していると説明していました。

特に拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するため、ファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価を行うためなどに活用されていたとのことです。

今回のバージョン1.0では、Rustによって内部の判別エンジンが完全に書き直されてより高速化され、また判別できるファイルの種類も以前の100種類から200種類へと倍増。テキストで書かれたコードや構成ファイルの種類と言った判別が難しいものに対する正確性も向上しています。

200種類ものファイル形式に対応

検出可能なファイルの種類の増加により、本バージョンでは以下のようなモダンなファイルの種類にも対応しました。

データサイエンス&機械学習

Jupyter Notebooks(ipynb)、Numpy arrays(npy, npz)、PyTorch models(pytorch)、ONNXファイル(onnx)、Apache Parquet(parquet)、HDF5(h5)

モダンプログラミング言語&Web

Swift(swift)、Kotlin(kotlin)、TypeScript(typescript)、Dart(dart)、Solidity(solidity)、WebAssembly(wasm)、Zig(zig)

DevOps&構成ファイル

Dockerfiles(dockerfile)、TOML(toml)、HashiCorp HCL(hcl)、Bazelビルドファイル(bazel)、YARAルール(yara)

データベース&グラフィックス

SQLiteデータベース(sqlite)、AutoCAD(dwg,dxf)、Adobe Photoshop(psd)、Web Fonts(woff, woff2)

Googleによると、一般的なファイル形式のファイルは豊富に入手できるものの、新しい専門的なファイル形式や過去のものとなったファイル形式については学習データが不足していたため、Geminiを活用して既存のファイルを別のファイル形式に変換することで学習データの不足に対応したとのことです。

Magikaは、実際の動作を試すことができるデモページ「Magika Demo」が用意されています。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计