Foundry モデルのサーバーレス API 推論の例

2025-08-22

Azure AI モデルカタログには、さまざまなプロバイダーから Azure AI Foundry モデルが多数用意されています。モデルカタログからモデルをデプロイするためのさまざまなオプションがあります。この記事では、サーバーレス API デプロイの推論例を示します。

Important

プレビュー段階のモデルには、モデルカタログ内のモデルカードで "プレビュー" のマークが付けられます。

モデルで推論を実行するには、 Nixtla の TimeGEN-1 や Cohere rerank などの一部のモデルで、モデルプロバイダーのカスタム API を使用する必要があります。他のユーザーは、モデル推論 API を使用した推論をサポートしています。個々のモデルの詳細については、 Azure AI Foundry ポータルのモデルカタログでモデルカードを確認します。

Cohere

Cohere のモデルファミリには、rerank、チャットの完了、埋め込みモデルなど、さまざまなユースケース向けに最適化されたさまざまなモデルが含まれています。

推論の例: Cohere コマンドと埋め込み

次の表は、Cohere モデルの使用方法の例へのリンクを示しています。

Description	Language	Sample
Web リクエスト	Bash	Command-R Command-R+ cohere-embed.ipynb
C# 用 Azure AI 推論パッケージ	C#	Link
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
Python 用 Azure AI 推論パッケージ	Python	Link
OpenAI SDK (試験段階)	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

取得拡張生成 (RAG) とツールの使用サンプル: Cohere コマンドと埋め込み

Description	Packages	Sample
Cohere 埋め込みを使用してローカルの Facebook AI 類似性検索 (FAISS) ベクターインデックスを作成する - Langchain	`langchain`、`langchain_cohere`	cohere_faiss_langchain_embed.ipynb
Cohere コマンド R/R+ を使用して、ローカルの FAISS ベクターインデックスのデータから質問に回答する - Langchain	`langchain`、`langchain_cohere`	command_faiss_langchain.ipynb
Cohere コマンド R/R+ を使用して、AI 検索ベクターインデックスのデータから質問に回答する - Langchain	`langchain`、`langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
Cohere コマンド R/R+ を使用して、AI 検索ベクターインデックスのデータから質問に回答する - Cohere SDK	`cohere`、`azure_search_documents`	cohere-aisearch-rag.ipynb
LangChain を使用したコマンド R+ ツールおよび関数呼び出し	`cohere`、 `langchain`、 `langchain_cohere`	command_tools-langchain.ipynb

Cohere 再ランク付け

Cohere rerank モデルで推論を実行するには、Cohere のカスタム rerank API を使用する必要があります。 Cohere rerank モデルとその機能の詳細については、 Cohere rerank を参照してください。

Cohere Rerank モデルの価格

クエリは、ユーザーのクエリと混同しないように、Cohere Rerank モデルの推論の入力として使用されるトークンに関連するコストを指す価格メーターです。 Cohere では、1 つの検索単位がクエリとしてカウントされ、最大 100 個のドキュメントがランク付けされます。検索クエリの長さを含めると、500 個を超えるトークン (Cohere-rerank-v3.5 の場合) または 4096 個を超えるトークン (Cohere-rerank-v3-English および Cohere-rerank-v3-multilingual の場合) が複数のチャンクに分割され、各チャンクは 1 つのドキュメントとしてカウントされます。

Azure AI Foundry ポータルの Cohere モデルコレクションを参照してください。

Core42

次の表は、Jais モデルの使用方法の例へのリンクを示しています。

Description	Language	Sample
C# 用 Azure AI 推論パッケージ	C#	Link
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
Python 用 Azure AI 推論パッケージ	Python	Link

DeepSeek

DeepSeek のモデルファミリには DeepSeek-R1 が含まれています。DeepSeek-R1 は、言語、科学的推論、コーディングタスク、DeepSeek-V3-0324、エキスパート混合 (MoE) 言語モデルなど、段階的なトレーニングプロセスを使用した推論タスクに優れています。

次の表は、DeepSeek モデルの使用方法の例へのリンクを示しています。

Description	Language	Sample
Python 用 Azure AI 推論パッケージ	Python	Link
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
C# 用 Azure AI 推論パッケージ	C#	Link
Java 用 Azure AI 推論パッケージ	Java	Link

Microsoft

Microsoft モデルには、MAI モデル、Phi モデル、医療 AI モデルなど、さまざまなモデルグループが含まれています。使用可能なすべての Microsoft モデルを表示するには、 Azure AI Foundry ポータルで Microsoft モデルコレクションを表示します。

次の表は、Microsoft モデルの使用方法の例へのリンクを示しています。

Description	Language	Sample
C# 用 Azure AI 推論パッケージ	C#	Link
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
Python 用 Azure AI 推論パッケージ	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

Azure AI Foundry ポータルの Microsoft モデルコレクションを参照してください。

Mistral AI（ミストラルAI）

Mistral AI では、次の 2 つのカテゴリのモデルを提供しています。

Premium モデル: これらには、Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)、および Ministral 3B モデルが含まれており、従量課金制トークンベースの課金でサーバーレス API として利用できます。
オープンモデル:ミストラル-small-2503、 Codestral、および Mistral Nemo (従量課金制トークンベースの課金でサーバーレス API として利用できます)、Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01、Mistral-7B-v01 (セルフホステッドマネージドエンドポイントでダウンロードして実行できます)。

次の表は、Mistral モデルの使用方法の例へのリンクを示しています。

Description	Language	Sample
CURL リクエスト	Bash	Link
C# 用 Azure AI 推論パッケージ	C#	Link
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
Python 用 Azure AI 推論パッケージ	Python	Link
Python Web リクエスト	Python	Link
OpenAI SDK (試験段階)	Python	Mistral - OpenAI SDK サンプル
LangChain	Python	Mistral - LangChain サンプル
Mistral AI（ミストラルAI）	Python	Mistral - Mistral AI サンプル
LiteLLM	Python	Mistral - LiteLLM サンプル

Nixtla

Nixtla の TimeGEN-1 は、時系列データ用の生成的な事前トレーニング済みの予測および異常検出モデルです。 TimeGEN-1 では、履歴値と外因性共変量のみを入力として使用して、トレーニングなしで新しい時系列の正確な予測を生成できます。

推論を実行するには、TimeGEN-1 で Nixtla のカスタム推論 API を使用する必要があります。 TimeGEN-1 モデルとその機能の詳細については、 Nixtla を参照してください。

必要なトークンの数を見積もる

TimeGEN-1 デプロイを作成する前に、使用して課金するトークンの数を見積もると便利です。 1 つのトークンは、入力データセットまたは出力データセット内の 1 つのデータポイントに対応します。

次の入力時系列データセットがあるとします。

Unique_id	Timestamp	ターゲット変数	外因性変数 1	外因性変数 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

トークン数を決定するには、行の数 (この例では 2) と予測に使用する列 (unique_id と timestamp の列は数に含めない) の数 (この例では 3) を掛け合わせて、合計 6 トークンとなります。

次の出力データセットがあるとします。

Unique_id	Timestamp	予測ターゲット変数
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

また、データ予測後に返されるデータポイントの数を数えることによって、トークンの数を決定することもできます。この例では、トークンの数は 2 です。

トークンに基づいて価格を見積もる

支払う価格を決定する 4 つの価格メーターがあります。これらのメーターは次のとおりです。

価格メーター	Description
paygo-inference-input-tokens	finetune_steps = 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト
paygo-inference-output-tokens	finetune_steps = 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト
paygo-finetuned-model-inference-input-tokens	finetune_steps> 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト
paygo-finetuned-model-inference-output-tokens	finetune_steps> 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト

Azure AI Foundry ポータルの Nixtla モデルコレクションを参照してください。

安定性 AI

サーバーレス API デプロイを介してデプロイされた安定性 AI モデルは、ルート /image/generationsにモデル推論 API を実装します。安定性 AI モデルの使用方法の例については、次の例を参照してください。

Gretel Navigator

Gretel Navigator は、10 を超える業界ドメインにわたって微調整された、オープンソースの上位の小規模言語モデル (SMM) を組み合わせることにより、合成データ用に特別に設計された複合 AI アーキテクチャを採用しています。この専用システムにより、数百から数百万の例の規模で、分野固有の多様なデータセットが作成されます。また、このシステムは複雑な統計的関係も保持し、手動によるデータ作成と比較して速度と精度が向上します。

Description	Language	Sample
JavaScript 用 Azure AI 推論パッケージ	JavaScript	Link
Python 用 Azure AI 推論パッケージ	Python	Link

フィードバック

このページはお役に立ちましたか?