Box AIによる企業コンテンツのためのMeta Llama 4モデルの評価

公開日:2025.04.14 Box Japan

1488x600-Blog banner@2x (1)_0-2 Metaは最近、Mixture of Experts（MoE）アーキテクチャを搭載した最初のモデルであるLlama 4 ScoutとMaverickを発表しました。Boxでは、このMoE戦略とモデルのオープンウェイト特性が、実際の企業コンテンツの需要に対してどのように機能するかを確認しました。

企業タスクにおけるLlamaのパフォーマンス

Llama 4 ScoutとMaverickを企業ワークフローに関連するタスクでテストしました。Box AI Enterprise Evalプロセスを使用して複雑な契約書から情報を抽出して、パフォーマンスを測定しました。調査結果は、次のとおりです。

情報の複雑さ: MaverickとScoutは、単純な情報項目（ドキュメント内の名前付き当事者や特定の日付の特定など）の抽出において、ほぼ完璧な精度（約99%）を示しました。しかし、より複雑なロジック、ニュアンス、または条件文（特定の権利、制限、または義務を定義する条項など）を含むドキュメントセクションを分析においては、128のMoEエキスパートを擁するMaverickが、Scout（16のエキスパート）を大幅に上回り、Scoutの45～70%に対して85～92%の精度を達成しました。これは、Maverickが企業ドキュメントに共通する複雑な要件とエッジケースを把握する能力に優れていることを示しています。
複雑な要件の推論: Scoutは一般的に優れたパフォーマンスを発揮しますが、Maverickの深い推論と複雑な要件の処理における優位性は、そのアーキテクチャに根ざしているようです。パラメータ数（4,000億対1,090億）は、より豊富なナレッジベースを示唆しており、エキスパート数（128対16）は、多様なビジネスコンセプトに関連するよりきめ細かな専門性を発揮します。この組み合わせにより、Maverickは複雑な情報をより効果的に処理できるので、高い精度と微妙な理解が求められる高度な企業タスクにより適しています。
Llama 3からの進化: Llama 4とその前身であるLlama 3 Nemotronを比較すると、Llama 4 MaverickはLlama 3 Nemotronよりも精度が33%向上しています。Llama 4 Maverick は、テストしたほぼすべての項目で Llama 3 よりも高い精度を一貫して達成していますが、監査権限や発効日などの特定の抽出項目では Llama 3 がLlama 4 Scout を依然として上回っています。

Boxの分析によると、Llama 4 Scoutは、特に複数のドキュメント処理や一般的なドキュメントQ&Aなどのタスクにおいて、Claude Haiku、Gemini Flash、GPT-4 Turboなどの同クラスの主要モデルに匹敵するパフォーマンスを達成しています。これにより、Scoutは、企業の幅広い情報検索ニーズに対応できる優れた基盤であることが確認できました。

企業におけるオープンウェイトモデルの役割

Llama 4ファミリーは、高性能なオープンウェイトモデルのトレンドを継承しています。企業にとって、このエコシステムにいくつかの潜在的なメリットをもたらします。

コスト効率: オープンウェイトモデル、特にMoEのような効率的なアーキテクチャを採用したモデルは、コストに対して魅力的なパフォーマンスを提供できます。
制御とカスタマイズ: モデルの重み付けにアクセスできるため、特定のビジネスニーズに合わせて微調整し、好みのインフラストラクチャに展開でき、ベンダーロックインを軽減できます。
透明性: オープンウェイトモデルにより、モデルのアーキテクチャと運用の可視性を高めることができます。

Llama 4とBox AI

Box AI StudioおよびBox AI APIでLlama 4を試したい場合は、ailabs@box.comまでメールを送信して、早期アクセスプログラムへの参加をリクエストしてください。

※このブログは Box, Inc 公式ブログ（https://blog.box.com/）2025年4月9日付投稿の翻訳です。
著者：Vishal Naik, Head of Product Marketing, Platform at Box
原文リンク：https://blog.box.com/evaluating-metas-llama-4-models-enterprise-content-box-ai

＜関連コンテンツ＞