世界のAIモデルにアクセス - 次世代アプリ開発を加速

汎用から専門まで - 全AIモデルを一つのプラットフォームで

LLMツール：

モデル比較コスト計算機アリーナオープンソースモデル

発布時間

入力価格

出力価格

フィルター

サービスプロバイダー

分類

機能

コンテキスト長

326個のモデルが条件に一致します

発布時間

入力価格

出力価格

Gemini 2.0 Flash Lite

テキスト生成マルチ言語ツール呼び出し

Gemini 2.0 Flash Liteは、Gemini 2.0シリーズの中で最も高速なモデルで、より高いコスト効率と低遅延を実現するために最適化されています。高スループットの軽量級タスクを処理することを目的としており、画像、ドキュメント、音声などのマルチモーダル入力をサポートし、非常に大きな入力トークン上限を持っています。

更新時間：

テキスト生成多言語ツール呼び出し

GPT-4.1 miniはOpenAIが発表した中小型のマルチモーダルモデルで、100万トークンのコンテキストをサポートし、テキスト、画像、ビデオを処理できます。性能はGPT-4oに匹敵し、MMMUテストのスコアは73%で前代を上回り、遅延は半減し、コストは83%削減されます。開発者がAPIを呼び出して長いコンテンツとビジュアルタスクを処理するのに適しています。

更新時間：

テキスト生成多言語

Grok 4 Fastは、xAIが2025年にリリースした大規模言語モデルの軽量版で、高速推論とコスト最適化を主な特長としています。その核心的な特徴は以下の通りです：毎秒75トークンの生成速度（標準版より10倍速い）、200万トークンの超長文脈ウィンドウで、1冊の本やコードライブラリを一度に処理できます；推論コストが98％削減され、アーキテクチャを最適化することで推論トークンの消費量を40％削減しています。Grok 4シリーズの基礎版として、テキスト/画像入力、リアルタイムのウェブアクセス（DeepSearchツール）、関数呼び出し機能を統合しており、日常の質問応答や文書処理などの軽量なシナリオを対象としています。無料ユーザーの基本サービスとしてGrok 3を徐々に置き換える予定です。このモデルは、マルチモーダル機能を維持しながら、一般ユーザーのニーズに合わせて効率を優先した設計となっています。

更新時間：

テキスト生成多言語ツール呼び出し

OpenAIのo3 - miniは2025年1月にリリースされた小型推論モデルで、STEM分野の専門化されたソリューションを目指しています。関数呼び出しや構造化出力などの高度な開発者機能をサポートし、精度と効率をバランスさせるために低/中/高の推論レベルを提供します。科学計算やプログラミング開発などのシナリオに適しており、低コストと低遅延の特性を兼ね備えています。

更新時間：

テキスト生成多言語

GPT-5 CodexはOpenAIが開発した多モデル混合コード生成システムで、高効率な基礎モデルと深度推論モジュールを統合し、インテリジェントルーティングによってリソースを動的に調整します。コード生成能力が大幅に向上し、複雑なフロントエンドアプリケーションを迅速に構築したり、大規模なコードベースをデバッグしたりできます。単一のプロンプトで完全なウェブサイトやゲームを生成することも可能で、デザイン美学の処理にも優れています。プログラミング開発、アプリケーション構築、コードデバッグのシナリオに適しており、無料ユーザーは基本的な機能を利用でき、有料版ではより高い制限と拡張された推論能力を提供します。

更新時間：

テキスト生成多言語ツール呼び出し

Claude 3 OpusはAnthropicが開発したトップクラスの大規模モデルで、Claude 3シリーズのハイエンドバージョンに属し、マルチモーダル機能を備え、20万Tokenのコンテキストウィンドウをサポートしています。特徴は、高度な知能レベルで、MMLUやGPQAなどのベンチマークテストで同類を上回る成績を収め、複雑なタスクを深く理解し、人間に近い対話を実現できます。タスク自動化（API/データベース操作）、研究開発（医薬品開発、研究レビュー）、戦略分析（財務トレンド予測、グラフ解釈）などのシナリオに適しています。

更新時間：

Gemini 2.0 Flash

テキスト生成多言語ツール呼び出し

Gemini 2.0 FlashはGoogleが発表したマルチモーダルAIモデルで、Gemini 2.0セットのサブモデルに属します。テキスト理解、画像生成と編集能力を備え、100万トークンのコンテキストウィンドウをサポートし、応答速度は1.5 Proの2倍速です。広告デザイン、ソーシャルメディアコンテンツ作成、教育用イラスト生成などのシナリオに適しており、開発者はGoogle AI StudioとGemini APIを通じてアクセスできます。

更新時間：

Claude Haiku 4.5

テキスト生成多言語ツール呼び出し

Claude Haiku 4.5はAnthropicが開発した小型のハイブリッド推論AI言語モデルで、性能は中型モデルのSonnet 4に近く、コストはその三分の一で、推論速度は二倍以上向上しています。20万トークンのコンテキスト処理能力を備え、マルチモーダルなプロンプトをサポートし、AIセキュリティレベルはASL - 2です。スマートカスタマーサービス、プログラミング支援、対話型アシスタントなどのリアルタイム応答シーンに適しており、Claudeアプリ、APIおよび主要なクラウドプラットフォームを通じて統合できます。

更新時間：

Gemini 2.5 Flash

テキスト生成多言語ツール呼び出し

Gemini 2.5 FlashはGoogleが開発したマルチモーダルの軽量AIモデルで、テキスト、画像、音声、ビデオの入力をサポートし、適応的な推論能力を備えており、トークンの使用効率が20 - 30％向上しています。高スループット、低レイテンシのタスク、例えば翻訳、分類、マルチモーダルインタラクションなどに適しており、開発者や企業ユーザーに向けて公開されています。

更新時間：

Claude Sonnet 4.5

テキスト生成

Claude Sonnet 4.5は、2025年9月にAnthropicがリリースした中級バランス型AIモデルで、Claudeシリーズの「中サイズ」製品で、性能とコストの妥協点を目指しています。そのプログラミング能力は突出しており、SWE - bench Verifiedテストで77.2%の得点を獲得し、30時間以上の連続プログラミングをサポートし、本番レベルのアプリケーションを構築することができます。また、効率的な推論と視覚処理能力を兼ね備え、応答速度が速く、コストも適度で、ソフトウェア開発、複雑なエージェントの構築、企業レベルのタスクに適しています。

更新時間：

Claude 3 Sonnet

テキスト生成多言語

Claude 3 SonnetはAnthropicが発表した大規模言語モデルで、Claude 3シリーズの中級モデルで、能力と速度のバランスが取れており、企業レベルのアプリケーションに適しています。前世代の2倍の速度で、高い制御性を備え、コンテンツ生成、分類、データ抽出、知識検索などをサポートしており、APIとAmazon Bedrockで利用可能です。

更新時間：

Gemini 2.5 Flash Lite

テキスト生成マルチ言語ツール呼び出し

Gemini 2.5 Flash-LiteはGoogleが提供する軽量AI推論モデル（プレビュー版）で、超高速応答とコスト最適化を謳い、現在最速のGeminiモデルです。マルチモーダル入力、100万トークンのコンテキスト、Googleのネイティブツール（検索、コード実行など）をサポートし、高スループット、低レイテンシーのシナリオ（翻訳、分類など）に適しており、開発者にAPIサービスを提供しています。

更新時間：

視覚理解ツール呼び出し

Qwen3-VL-plusはアリの通義千問が発表した視覚言語モデルの強化版で、Qwen3-VLシリーズに属し、InstructとThinkingのバージョンを提供します。特徴は少ないパラメータ数で高い性能を発揮し、8Bのパラメータで前世代の72Bの旗艦モデルに近い性能を持ち、超百万画素解像度の画像をサポートし、細部の識別、文字理解、複雑な視覚推論能力を強化しています。スマートカスタマーサービス、画像認識、コンテンツ作成、意思決定支援などのシナリオに適しています。

更新時間：

Qwen Image Plus

Qwen-image-plusはアリクラウドの通義千問シリーズのテキストから画像を生成するモデルで、Qwen-Imageのプロフェッショナル版に属し、複雑なテキストレンダリングに長けており、中英語の両方と複数行のレイアウトをサポートしています。ポスターや対聯など、正確な文字生成が必要なシーンに適しており、基本版よりもコストが低く、APIを介して呼び出すことができ、品質と効率を両立させています。

更新時間：

Wan2.5 I2i Preview

Wan2.5-i2i-previewは画像生成モデルで、画像編集機能をサポートしており、アリババクラウドの画像生成サービスの一員で、画像創作と編集のシナリオに適しています。

更新時間：

Qianfan Lightning

テキスト生成中国語,英語ツール呼び出し

Qianfan-Lightning（千帆 - 极速版/閃電版）は、百度知能雲千帆大モデルプラットフォーム上で提供される、高性能で超低遅延のモデルシリーズまたはサービスモードです。

更新時間：

テキスト生成ツール呼び出し

Qwen3-MaxはアリのQwen3シリーズの最高レベルの大規模モデルで、兆単位のパラメータを持ち、36Tトークンで事前学習され、26万以上のトークンのコンテキストをサポートし、多言語をカバーし、明示的な推論モードがあります。企業レベルの政策質問応答、コードレビュー、データ分析などの複雑なタスクに適しています。

更新時間：

Qwen3 Coder Plus

テキスト生成ツール呼び出し

Qwen3-Coder-Plusはアリババの通義千問シリーズの強化版コード生成モデルで、480Bパラメータのハイブリッドエキスパート（MoE）アーキテクチャに属し、活性化パラメータは350億で、1Mのコンテキストウィンドウを備えています。特徴はコード理解と生成能力が強く、多言語と複雑な論理推論をサポートし、性能はClaude Sonnetに匹敵し、大型プロジェクトの分析やコードライブラリの操作などのエージェントプログラミングタスクに適しています。

更新時間：

Qwen3 Vl 235b A22b Thinking

視覚理解ツール呼び出し

Qwen3-VL-235B-A22B-Thinkingは、アリの通義千問Qwen3シリーズの旗艦ビジュアル言語モデルで、MoEアーキテクチャを採用し、2350億のパラメータを持っています。GUIレベルのビジュアルエージェント能力を備え、32種類の言語のOCR、256Kのコンテキスト（最大1Mまで拡張可能）をサポートし、ビデオ理解とマルチモーダル推論に優れており、複雑なマルチモーダルワークフロー、長文書検索、およびインテリジェントインタラクションシーンに適しています。

更新時間：

Qwen Image Edit

画像生成多言語

Qwen-Image-Editはアリがオープンソースで公開したOmni製品レベルの拡散モデルで、200億パラメータのQwen-Imageをベースに構築され、意味と外観の両方の編集をサポートしています。特徴としては、正確な中英文字の編集（フォントスタイルを保持）、SOTAベースラインの性能があり、画像コンテンツの生成、画像とテキストの組み合わせ出力、マルチモーダルアシスタントアプリケーションに使用できます。

更新時間：

Qwen3 Livetranslate Flaltimeash Re 2025 09 22

音声認識多言語

Qwen3-LiveTranslate-Flashは、阿里通義千問が発表した多言語リアルタイム音声ビデオ同時通訳モデルで、Qwen3-Omniをベースに、マルチモーダルデータを融合して訓練されています。18種類の言語と方言のオフライン/リアルタイム翻訳をサポートし、3秒の低遅延で、ビジュアル強化技術により複雑なシーンでの精度が向上し、主流モデルを上回っています。国際会議、遠隔教育、国際協力などのシーンに適しています。

更新時間：

豆包シード翻訳

テキスト生成

豆包シード翻訳は、ByteDanceの火山エンジンによって開発された多言語翻訳の大規模モデルです。Transformerアーキテクチャに基づいており、28の言語間の相互翻訳をサポートしています。高い精度（BLEUスコア42.5）と流暢さを備えており、越境電子商取引、国際協力、教育学習などの一般的なテキスト翻訳シナリオに適しています。

更新時間：

Wan2.5 I2v Preview

ビデオ生成

wan2.5-i2v-previewはアリ通義万相2.5シリーズの画像からビデオを生成するモデルで、マルチモーダル生成モデルに属します。これは統一フレームワークを採用し、テキスト、画像、ビデオ、オーディオの生成能力を融合し、1080Pの高解像度ビデオ出力をサポートし、音声と映像の同期を実現でき、カメラワークの言語を理解し、要素IDの一貫性を維持し、オーディオによるビデオ生成をサポートし、広告、電子商取引、映画、教育などの分野のコンテンツ作成に適しています。

更新時間：

Wan2.5 T2v Preview

ビデオ生成

Wan2.5-t2v-previewは阿里通義が発表したマルチモーダル生成モデルで、文章からビデオ/画像からビデオの生成、文章から画像の生成、画像編集機能を統合し、1080P/24fpsの出力をサポートし、音声と映像の同期を実現し、人の声、効果音、音楽に合ったビデオを生成できます。カメラワークの制御、要素の一貫性の最適化などの特徴を備え、広告、映画、教育などの分野に応用されます。

更新時間：

Wan2.5 T2i Preview

wan2.5-t2i-previewはアリの通義万相シリーズの文章から画像を生成するモデルで、マルチモーダル生成モデルに属します。特徴は、リアルなシーンと写真スタイルをサポートし、画像品質と応答速度のバランスに配慮していることです。一般的なリアルなシーンや写真スタイルの画像生成に適しており、広告や電子商取引などの分野で応用できます。

更新時間：

Qwen3 Next 80B A3B Instruct

テキスト生成多言語

Qwen3-Next-80B-A3B-Instructは、阿里云通義チームが2025年9月に発表した命令微調整大規模モデルです。高い疎度のMoEアーキテクチャに基づいており、総パラメータ800億のうち、活性化されるのはわずか30億です。混合注意力機構と多トークン予測を採用しており、トレーニングコストはQwen3-32Bの1/10で、32kコンテキストの推論スループットは10倍向上し、ネイティブで262Kトークンのコンテキストをサポートし、百万レベルのテキスト処理に外挿可能です。長文書理解や法律分析などの長コンテキストシナリオに適しており、オープンソース化され、主流のフレームワークでのデプロイをサポートしています。

更新時間：

Qwen3 Omni Flash Realtime

全モーダル多言語

qwen3-omni-flash-realtimeは阿里通義千問がリリースしたリアルタイム全モーダルAIモデルで、テキスト、画像、オーディオ、ビデオなどのマルチモーダル処理をサポートし、ストリーミング対話、途中での中断などのリアルタイムインタラクション機能を備えており、音声アシスタント、マルチメディア分析、スマートクリッピングなどのシナリオに応用でき、119種類のテキスト言語と20種類の音声対話をサポートします。

更新時間：

Qwen3 Omni 30b A3b Captioner

Qwen3-Omni-30B-A3B-Captionerはアリがオープンソースで公開したオーディオの詳細な字幕モデルで、Instruct微調整から派生し、オーディオ入力をテキスト出力に変換します。特徴は詳細で低幻覚のオーディオ記述で、オーディオビデオコンテンツ分析、バリアフリーサービス、スマートクリッピングなどのシナリオに適しています。

更新時間：

Qwen3 Tts Flash

音声合成多言語

Qwen3-TTS-Flashはアリ通義が発表したテキストを音声に変換するモデルで、10種類の言語、17種類の音色、9種類の中国語方言をサポートし、自動的に語調を調整でき、最初のパケットの遅延は97ミリ秒で、スマートカスタマーサービス、オーディオコンテンツの作成、音声アシスタントなどのシナリオに適しています。

更新時間：

Qwen3 Tts Flash Realtime

音声合成多言語

Qwen3-TTS-Flash-Realtimeはアリ通義が発表したリアルタイムのテキストを音声に変換するモデルで、最初のパケットの遅延は97ミリ秒で、17種類の音色、10種類の言語、17種類の方言をサポートし、音声は自然で流暢です。スマートカスタマーサービス、オーディオブック、AI教師、映画やテレビの吹き替えなどのシナリオに適しています。

更新時間：

AIBase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2026AIBase