Azure AI モデル カタログには、さまざまなプロバイダーから Azure AI Foundry モデルが多数用意されています。 モデル カタログからモデルをデプロイするためのさまざまなオプションがあります。 この記事では、サーバーレス API デプロイの推論例を示します。
Important
プレビュー段階のモデルには、モデル カタログ内のモデル カードで "プレビュー" のマークが付けられます。
モデルで推論を実行するには、 Nixtla の TimeGEN-1 や Cohere rerank などの一部のモデルで、モデル プロバイダーのカスタム API を使用する必要があります。 他のユーザーは、 モデル推論 API を使用した推論をサポートしています。 個々のモデルの詳細については、 Azure AI Foundry ポータルのモデル カタログでモデル カードを確認します。
Cohere
Cohere のモデル ファミリには、rerank、チャットの完了、埋め込みモデルなど、さまざまなユース ケース向けに最適化されたさまざまなモデルが含まれています。
推論の例: Cohere コマンドと埋め込み
次の表は、Cohere モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| Web リクエスト | Bash | 
              Command-RCommand-R+  cohere-embed.ipynb  | 
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link | 
| OpenAI SDK (試験段階) | Python | Link | 
| LangChain | Python | Link | 
| Cohere SDK | Python | 
              Command   Embed  | 
| LiteLLM SDK | Python | Link | 
取得拡張生成 (RAG) とツールの使用サンプル: Cohere コマンドと埋め込み
| Description | Packages | Sample | 
|---|---|---|
| Cohere 埋め込みを使用してローカルの Facebook AI 類似性検索 (FAISS) ベクター インデックスを作成する - Langchain | 
              langchain、langchain_cohere | 
cohere_faiss_langchain_embed.ipynb | 
| Cohere コマンド R/R+ を使用して、ローカルの FAISS ベクター インデックスのデータから質問に回答する - Langchain | 
              langchain、langchain_cohere | 
command_faiss_langchain.ipynb | 
| Cohere コマンド R/R+ を使用して、AI 検索ベクター インデックスのデータから質問に回答する - Langchain | 
              langchain、langchain_cohere | 
cohere-aisearch-langchain-rag.ipynb | 
| Cohere コマンド R/R+ を使用して、AI 検索ベクター インデックスのデータから質問に回答する - Cohere SDK | 
              cohere、azure_search_documents | 
cohere-aisearch-rag.ipynb | 
| LangChain を使用したコマンド R+ ツールおよび関数呼び出し | 
              cohere、 langchain、 langchain_cohere | 
command_tools-langchain.ipynb | 
Cohere 再ランク付け
Cohere rerank モデルで推論を実行するには、Cohere のカスタム rerank API を使用する必要があります。 Cohere rerank モデルとその機能の詳細については、 Cohere rerank を参照してください。
Cohere Rerank モデルの価格
クエリは、ユーザーのクエリと混同しないように、Cohere Rerank モデルの推論の入力として使用されるトークンに関連するコストを指す価格メーターです。 Cohere では、1 つの検索単位がクエリとしてカウントされ、最大 100 個のドキュメントがランク付けされます。 検索クエリの長さを含めると、500 個を超えるトークン (Cohere-rerank-v3.5 の場合) または 4096 個を超えるトークン (Cohere-rerank-v3-English および Cohere-rerank-v3-multilingual の場合) が複数のチャンクに分割され、各チャンクは 1 つのドキュメントとしてカウントされます。
Azure AI Foundry ポータルの Cohere モデル コレクションを参照してください。
Core42
次の表は、Jais モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link | 
DeepSeek
DeepSeek のモデル ファミリには DeepSeek-R1 が含まれています。DeepSeek-R1 は、言語、科学的推論、コーディング タスク、DeepSeek-V3-0324、エキスパート混合 (MoE) 言語モデルなど、段階的なトレーニング プロセスを使用した推論タスクに優れています。
次の表は、DeepSeek モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| Python 用 Azure AI 推論パッケージ | Python | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| Java 用 Azure AI 推論パッケージ | Java | Link | 
Meta
Meta Llama のモデルとツールは、事前トレーニングおよび微調整された生成 AI テキストと画像推論モデルのコレクションです。 メタ モデルの範囲は、次を含むようにスケーリングされています。
- 1B や 3B Base およびデバイス上およびエッジ推論用の Instruct モデルなどの小規模言語モデル (SLM)
 - 7B、8B、70B の Base および Instruct モデルなどの中規模の大規模言語モデル (LLM)
 - 合成データ生成および蒸留ユース ケース向けの Meta Llama 3.1-405B Instruct などの高性能モデル。
 - 高パフォーマンスのネイティブマルチモーダル モデルである Llama 4 Scout と Llama 4 Maverick は、エキスパートの混合アーキテクチャを活用して、テキストと画像の理解において業界をリードするパフォーマンスを提供します。
 
次の表は、Meta Llama モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| CURL リクエスト | Bash | Link | 
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link | 
| Python Web リクエスト | Python | Link | 
| OpenAI SDK (試験段階) | Python | Link | 
| LangChain | Python | Link | 
| LiteLLM | Python | Link | 
Microsoft
Microsoft モデルには、MAI モデル、Phi モデル、医療 AI モデルなど、さまざまなモデル グループが含まれています。 使用可能なすべての Microsoft モデルを表示するには、 Azure AI Foundry ポータルで Microsoft モデル コレクションを表示します。
次の表は、Microsoft モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link | 
| LangChain | Python | Link | 
| Llama-Index | Python | Link | 
Azure AI Foundry ポータルの Microsoft モデル コレクションを参照してください。
Mistral AI(ミストラルAI)
Mistral AI では、次の 2 つのカテゴリのモデルを提供しています。
- Premium モデル: これらには、Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)、および Ministral 3B モデルが含まれており、従量課金制トークンベースの課金でサーバーレス API として利用できます。
 - オープンモデル:ミストラル-small-2503、 Codestral、および Mistral Nemo (従量課金制トークン ベースの課金でサーバーレス API として利用できます)、Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01、Mistral-7B-v01 (セルフホステッドマネージド エンドポイントでダウンロードして実行できます)。
 
次の表は、Mistral モデルの使用方法の例へのリンクを示しています。
| Description | Language | Sample | 
|---|---|---|
| CURL リクエスト | Bash | Link | 
| C# 用 Azure AI 推論パッケージ | C# | Link | 
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link | 
| Python Web リクエスト | Python | Link | 
| OpenAI SDK (試験段階) | Python | Mistral - OpenAI SDK サンプル | 
| LangChain | Python | Mistral - LangChain サンプル | 
| Mistral AI(ミストラルAI) | Python | Mistral - Mistral AI サンプル | 
| LiteLLM | Python | Mistral - LiteLLM サンプル | 
Nixtla
Nixtla の TimeGEN-1 は、時系列データ用の生成的な事前トレーニング済みの予測および異常検出モデルです。 TimeGEN-1 では、履歴値と外因性共変量のみを入力として使用して、トレーニングなしで新しい時系列の正確な予測を生成できます。
推論を実行するには、TimeGEN-1 で Nixtla のカスタム推論 API を使用する必要があります。 TimeGEN-1 モデルとその機能の詳細については、 Nixtla を参照してください。
必要なトークンの数を見積もる
TimeGEN-1 デプロイを作成する前に、使用して課金するトークンの数を見積もると便利です。 1 つのトークンは、入力データセットまたは出力データセット内の 1 つのデータ ポイントに対応します。
次の入力時系列データセットがあるとします。
| Unique_id | Timestamp | ターゲット変数 | 外因性変数 1 | 外因性変数 2 | 
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 | 
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 | 
トークン数を決定するには、行の数 (この例では 2) と予測に使用する列 (unique_id と timestamp の列は数に含めない) の数 (この例では 3) を掛け合わせて、合計 6 トークンとなります。
次の出力データセットがあるとします。
| Unique_id | Timestamp | 予測ターゲット変数 | 
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 | 
| BE | 2016-10-22 03:00:00 | 48.57 | 
また、データ予測後に返されるデータ ポイントの数を数えることによって、トークンの数を決定することもできます。 この例では、トークンの数は 2 です。
トークンに基づいて価格を見積もる
支払う価格を決定する 4 つの価格メーターがあります。 これらのメーターは次のとおりです。
| 価格メーター | Description | 
|---|---|
| paygo-inference-input-tokens | finetune_steps = 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト | 
| paygo-inference-output-tokens | finetune_steps = 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト | 
| paygo-finetuned-model-inference-input-tokens | finetune_steps> 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト | 
| paygo-finetuned-model-inference-output-tokens | finetune_steps> 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト | 
Azure AI Foundry ポータルの Nixtla モデル コレクションを参照してください。
安定性 AI
サーバーレス API デプロイを介してデプロイされた安定性 AI モデルは、ルート /image/generationsにモデル推論 API を実装します。
安定性 AI モデルの使用方法の例については、次の例を参照してください。
- テキストから画像への要求に対して安定性 AI モデルで OpenAI SDK を使用する
 - Requestsライブラリを使用して、テキストから画像へのリクエストをStability AIモデルに送信する
 - ステーブルディフュージョン 3.5 Large と Requests ライブラリを使用して、画像から画像へのリクエストを処理する
 - 完全にエンコードされた画像生成応答の例
 
Gretel Navigator
Gretel Navigator は、10 を超える業界ドメインにわたって微調整された、オープンソースの上位の小規模言語モデル (SMM) を組み合わせることにより、合成データ用に特別に設計された複合 AI アーキテクチャを採用しています。 この専用システムにより、数百から数百万の例の規模で、分野固有の多様なデータセットが作成されます。 また、このシステムは複雑な統計的関係も保持し、手動によるデータ作成と比較して速度と精度が向上します。
| Description | Language | Sample | 
|---|---|---|
| JavaScript 用 Azure AI 推論パッケージ | JavaScript | Link | 
| Python 用 Azure AI 推論パッケージ | Python | Link |