<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=139163818022217&amp;ev=PageView&amp;noscript=1"> <img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=271598307802760&amp;ev=PageView&amp;noscript=1">

First look: Grok 3がBox AI StudioとBox AIに近日登場

 公開日:2025.04.24  更新日:2025.04.25

Grok3 1新しいモデルがリリースされるたびに、推論の向上、処理の高速化、より微妙な理解など、能力の限界が押し広げられています。Grok 3が本日リリースされたことで、xAIにフォーカスして、最新のGrokモデルが要求の厳しいインテリジェントコンテンツ管理(ICM)ワークフローにどのように対応できるかを検証しました。

ICMワークフローの要求に対するGrok 3の能力を評価するために、Boxの評価プロセスとCUADから派生したチャレンジドキュメントセットを利用しました。これらは、これまで他の主要モデルの分析で使用した複雑な法的契約書と同じものです。このベンチマークは、特に実際のユースケースにおけるパフォーマンスをテストします。慎重なデータ抽出と計算を必要とする複雑で多面的な問題を一回で抽出する精度が求められます。この特定のベンチマークにおいて、Grok 3は他の同様の上位モデルと同等のパフォーマンスを発揮しました。このパフォーマンスは大きな進歩であり、要求の厳しいエンタープライズグレードのコンテンツ処理において、Grok 3は最先端であることを裏付けています。

Grok3 2このパフォーマンスの根底には、特に深いドキュメントの理解が求められる場面における、Grok 3の高度な分析タスク能力と、多段階推論、情報検索、定量分析の可能性があります。さらに、Grok 3は前身のGrok 2と比べて9%も高い能力を発揮し、個々のドキュメントから情報を効果的に取得、活用する能力が向上していることがわかりました。

これらの有望な結果は、より詳しく調査する必要があります。データを詳細に見ていきましょう。

Grok 3は高度な分析タスクに優れる

Grok 3は、単純な情報検索以上のものを必要とする高度な分析タスクに取り組む際に優れた能力を発揮します。特に、複雑なクエリ内での多段階な推論と計算における可能性は顕著です。このモデルは、複雑な質問を分解し、ドキュメントから関連するデータポイントを抽出し、必要な計算を実行し、指示に従って結果を統合することができます。この連鎖した操作を処理できる能力は、複雑な分析ワークフローを管理するのに適したアーキテクチャであることを示唆しています。

Grok 3の情報検索と関連性フィルタリングについても調査しました。これは、より大きなドキュメントに埋め込まれている場合でも、クエリの核心となる具体的な情報やニュアンスのある情報を識別し、抽出する能力を示しています。文脈を理解し、関連性の低い情報を無視して関連する詳細情報をフィルタリングする能力を示唆しており、完全で的を絞った回答が得られます。

さらに、Grok 3で定量分析と基準に基づくランキングをテストしました。データセット内の特定の数値指標に基づいてエンティティを識別し、ランキング付けする必要があるタスクにおいて、このモデルは定義されたパラメータに基づいて、最もパフォーマンスの高いエンティティまたは特定のデータポイントを特定しました。これは、定量的な評価と評価基準の適用を必要とするタスクにおいて、高い可能性を示唆しています。

これらのパフォーマンス特性は、特にドキュメントの深い理解、計算、および情報統合を伴うシナリオで、Grok 3が複雑な分析を実行できる可能性を浮き彫りにしています。

Grok 3の複数ドキュメント想起能力の評価

Grok 3の能力を真に理解するには、大まかなベンチマークにとどまらず、より詳細な分析が必要です。特定の難解なタスクにおいて、他の最先端(SOTA)モデルと直接比較することで、パフォーマンスの微妙な違いが明らかになります。以下の分析では、さまざまな情報源からの情報を統合する必要がある実際のアプリケーションにとって重要な領域である、複数ドキュメントに対する質問応答にフォーカスを当てます。

  • 文脈の理解: Grok 3 は、ほとんどのシナリオで優れた文脈理解力を発揮します。政策関連の質問応答タスクにおけるテストでは、文脈再現率において他の主要なモデルと同等、あるいは場合によってはわずかに優位に立ちました。複数のドキュメントから関連する文章を正確に特定する能力は、異なる情報源から効果的に情報を統合するのに不可欠です。
  • 事実の正確性: 事実の正確性に関して、Grok 3は多くのシナリオで高い信頼性を示しました。一般に、これらの評価における高い正確性スコアは、提供されたドキュメントに基づいて情報を生成する際の信頼性のレベルを示します。
  • 回答再現率と有用性: 他のSOTAモデルは現在、これらの特定の複数ドキュメントQAの比較において、特定の回答を直接再現する能力と全体的な有用性において高いパフォーマンスを示していますが、Grok 3は他のSOTAモデルと比較して高い競争力を持ち、標準的な信頼区間内に収まっています。これは、これらのタスクにおける全体的な回答生成と有用性において、同等のパフォーマンスを有することを示しています。

お客様にとっての意味

これらの強みを活かして、Grok 3をどのように活用できるでしょうか?データテーブル、人事フレームワーク、SEC提出書類などのビジネス文書でテストしました。

  • Grok 3 は、各国の経済情報を含むデータテーブルからGDPで国を特定し、関連する数値を抽出して、人口密度の中央値と1人当たりのGDPを計算し、四捨五入しました。この例では、データの処理と複数のステップにわたる計算の実行に成功しました。これは、他のSOTAモデルがテスト中につまずいたタスクでしたが、ドキュメント内の高度な分析を必要とするユーザーにとってGrok 3の能力が実証されました。
  • Grok 3は、キャリアフレームワークガイドから、指定された職務属性をリストして回答し、具体的なクエリに沿った包括的な情報を提供しました。
  • SECへの提出書類全体で、収益データに基づいて企業をランク付けする際に、Grok 3の基準に基づく識別におけるパフォーマンスが確認できました。特定のパラメータに従って主要なエンティティまたはデータポイントを特定する方法をユーザーに提供します。

Grok 3は、分析的な問題への取り組むにおいて大きな可能性を秘めています。ドキュメントを詳細に分析してデータを抽出し、計算を実行し、詳細な指示に従うことができます。ただし、この機能が必ずしも完璧な表現につながるわけではありません。Grok 3は、言葉遣いが正確でなかったり、少し冗長だったり、数学や複雑なロジックでつまずいたりすることがあります。そのため、Grok 3は、複雑な調査やデータ分析タスクのためのツールとして位置付けられます。

Box AI StudioおよびBox AI APIでGrok 3を今すぐ試すには、ailabs@box.comまたはBox Japan担当営業にお問い合わせください。

※このブログは Box, Inc 公式ブログ(https://blog.box.com/)2025年4月15日付投稿の翻訳です。
著者:Vishal Naik, Head of Product Marketing, Platform at Box
原文リンク:https://blog.box.com/first-look-grok-3-and-box-ai-coming-soon-box-ai-studio

<関連コンテンツ>

わかる!Enterprise Advanced

RECENT POST「Box製品情報」の最新記事


Box製品情報

Google Cloud Next 2025: BoxとGoogle CloudがAIで企業コンテンツを変革する

Box製品情報

サイボウズ x Box リーダー対談レポート 〜Box Japan FY26 パートナーキックオフミーティングより〜

Box製品情報

Box AI Enterprise Eval: OpenAI o3とo4-miniによるBox AIでのデータ抽出

Box製品情報

First look: GPT-4.1がBox AI Studioで利用可能に

First look: Grok 3がBox AI StudioとBox AIに近日登場
Box製品セミナー

RECENT POST 最新記事

ブログ無料購読