Google、AIでファイルの種類を高速正確に判別するオープンソース「Magika 1.0」公開。Rustで再構築し、より高速かつ対象を200種類に拡大へ
2025年11月14日
Googleは、AIを用いることでファイルの種類を高速かつ正確に判別できるオープンソースのツール「Magika 1.0」を公開したと発表しました。
Magikaは、あるファイルの中味が何なのか、記述されたプログラミング言語の種類、動画や画像、音声などのフォーマットの種類、ExcelやWord、PDFなどのオフィス系ソフトウェアの種類、OSの実行形式バイナリなどの種類を瞬時に判別してくれます。
最初のバージョンが昨年(2024年)2月にオープンソースとして公開されており、Googleはその時点でGmailやGoogle Driveなどの何百万ものファイル処理にすでに活用していると説明していました。
特に拡張子を偽ってユーザーにファイルを開かせようとするマルウェアに対処するため、ファイルの内容から種類を適切に判断し、ファイルの種類に合わせて用意されたスキャナーによる安全性評価を行うためなどに活用されていたとのことです。
今回のバージョン1.0では、Rustによって内部の判別エンジンが完全に書き直されてより高速化され、また判別できるファイルの種類も以前の100種類から200種類へと倍増。テキストで書かれたコードや構成ファイルの種類と言った判別が難しいものに対する正確性も向上しています。
200種類ものファイル形式に対応
検出可能なファイルの種類の増加により、本バージョンでは以下のようなモダンなファイルの種類にも対応しました。
データサイエンス&機械学習
Jupyter Notebooks(ipynb)、Numpy arrays(npy, npz)、PyTorch models(pytorch)、ONNXファイル(onnx)、Apache Parquet(parquet)、HDF5(h5)
モダンプログラミング言語&Web
Swift(swift)、Kotlin(kotlin)、TypeScript(typescript)、Dart(dart)、Solidity(solidity)、WebAssembly(wasm)、Zig(zig)
DevOps&構成ファイル
Dockerfiles(dockerfile)、TOML(toml)、HashiCorp HCL(hcl)、Bazelビルドファイル(bazel)、YARAルール(yara)
データベース&グラフィックス
SQLiteデータベース(sqlite)、AutoCAD(dwg,dxf)、Adobe Photoshop(psd)、Web Fonts(woff, woff2)
Googleによると、一般的なファイル形式のファイルは豊富に入手できるものの、新しい専門的なファイル形式や過去のものとなったファイル形式については学習データが不足していたため、Geminiを活用して既存のファイルを別のファイル形式に変換することで学習データの不足に対応したとのことです。
Magikaは、実際の動作を試すことができるデモページ「Magika Demo」が用意されています。