次の方法で共有


Foundry モデルのサーバーレス API 推論の例

Azure AI モデル カタログには、さまざまなプロバイダーから Azure AI Foundry モデルが多数用意されています。 モデル カタログからモデルをデプロイするためのさまざまなオプションがあります。 この記事では、サーバーレス API デプロイの推論例を示します。

Important

プレビュー段階のモデルには、モデル カタログ内のモデル カードで "プレビュー" のマークが付けられます。

モデルで推論を実行するには、 Nixtla の TimeGEN-1Cohere rerank などの一部のモデルで、モデル プロバイダーのカスタム API を使用する必要があります。 他のユーザーは、 モデル推論 API を使用した推論をサポートしています。 個々のモデルの詳細については、 Azure AI Foundry ポータルのモデル カタログでモデル カードを確認します。

Cohere

Cohere のモデル ファミリには、rerank、チャットの完了、埋め込みモデルなど、さまざまなユース ケース向けに最適化されたさまざまなモデルが含まれています。

推論の例: Cohere コマンドと埋め込み

次の表は、Cohere モデルの使用方法の例へのリンクを示しています。

Description Language Sample
Web リクエスト Bash Command-RCommand-R+
cohere-embed.ipynb
C# 用 Azure AI 推論パッケージ C# Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link
OpenAI SDK (試験段階) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

取得拡張生成 (RAG) とツールの使用サンプル: Cohere コマンドと埋め込み

Description Packages Sample
Cohere 埋め込みを使用してローカルの Facebook AI 類似性検索 (FAISS) ベクター インデックスを作成する - Langchain langchainlangchain_cohere cohere_faiss_langchain_embed.ipynb
Cohere コマンド R/R+ を使用して、ローカルの FAISS ベクター インデックスのデータから質問に回答する - Langchain langchainlangchain_cohere command_faiss_langchain.ipynb
Cohere コマンド R/R+ を使用して、AI 検索ベクター インデックスのデータから質問に回答する - Langchain langchainlangchain_cohere cohere-aisearch-langchain-rag.ipynb
Cohere コマンド R/R+ を使用して、AI 検索ベクター インデックスのデータから質問に回答する - Cohere SDK cohereazure_search_documents cohere-aisearch-rag.ipynb
LangChain を使用したコマンド R+ ツールおよび関数呼び出し coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere 再ランク付け

Cohere rerank モデルで推論を実行するには、Cohere のカスタム rerank API を使用する必要があります。 Cohere rerank モデルとその機能の詳細については、 Cohere rerank を参照してください。

Cohere Rerank モデルの価格

クエリは、ユーザーのクエリと混同しないように、Cohere Rerank モデルの推論の入力として使用されるトークンに関連するコストを指す価格メーターです。 Cohere では、1 つの検索単位がクエリとしてカウントされ、最大 100 個のドキュメントがランク付けされます。 検索クエリの長さを含めると、500 個を超えるトークン (Cohere-rerank-v3.5 の場合) または 4096 個を超えるトークン (Cohere-rerank-v3-English および Cohere-rerank-v3-multilingual の場合) が複数のチャンクに分割され、各チャンクは 1 つのドキュメントとしてカウントされます。

Azure AI Foundry ポータルの Cohere モデル コレクションを参照してください。

Core42

次の表は、Jais モデルの使用方法の例へのリンクを示しています。

Description Language Sample
C# 用 Azure AI 推論パッケージ C# Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link

DeepSeek

DeepSeek のモデル ファミリには DeepSeek-R1 が含まれています。DeepSeek-R1 は、言語、科学的推論、コーディング タスク、DeepSeek-V3-0324、エキスパート混合 (MoE) 言語モデルなど、段階的なトレーニング プロセスを使用した推論タスクに優れています。

次の表は、DeepSeek モデルの使用方法の例へのリンクを示しています。

Description Language Sample
Python 用 Azure AI 推論パッケージ Python Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
C# 用 Azure AI 推論パッケージ C# Link
Java 用 Azure AI 推論パッケージ Java Link

Meta

Meta Llama のモデルとツールは、事前トレーニングおよび微調整された生成 AI テキストと画像推論モデルのコレクションです。 メタ モデルの範囲は、次を含むようにスケーリングされています。

  • 1B や 3B Base およびデバイス上およびエッジ推論用の Instruct モデルなどの小規模言語モデル (SLM)
  • 7B、8B、70B の Base および Instruct モデルなどの中規模の大規模言語モデル (LLM)
  • 合成データ生成および蒸留ユース ケース向けの Meta Llama 3.1-405B Instruct などの高性能モデル。
  • 高パフォーマンスのネイティブマルチモーダル モデルである Llama 4 Scout と Llama 4 Maverick は、エキスパートの混合アーキテクチャを活用して、テキストと画像の理解において業界をリードするパフォーマンスを提供します。

次の表は、Meta Llama モデルの使用方法の例へのリンクを示しています。

Description Language Sample
CURL リクエスト Bash Link
C# 用 Azure AI 推論パッケージ C# Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link
Python Web リクエスト Python Link
OpenAI SDK (試験段階) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft モデルには、MAI モデル、Phi モデル、医療 AI モデルなど、さまざまなモデル グループが含まれています。 使用可能なすべての Microsoft モデルを表示するには、 Azure AI Foundry ポータルで Microsoft モデル コレクションを表示します

次の表は、Microsoft モデルの使用方法の例へのリンクを示しています。

Description Language Sample
C# 用 Azure AI 推論パッケージ C# Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link
LangChain Python Link
Llama-Index Python Link

Azure AI Foundry ポータルの Microsoft モデル コレクションを参照してください。

Mistral AI(ミストラルAI)

Mistral AI では、次の 2 つのカテゴリのモデルを提供しています。

  • Premium モデル: これらには、Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)、および Ministral 3B モデルが含まれており、従量課金制トークンベースの課金でサーバーレス API として利用できます。
  • オープンモデル:ミストラル-small-2503、 Codestral、および Mistral Nemo (従量課金制トークン ベースの課金でサーバーレス API として利用できます)、Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01、Mistral-7B-v01 (セルフホステッドマネージド エンドポイントでダウンロードして実行できます)。

次の表は、Mistral モデルの使用方法の例へのリンクを示しています。

Description Language Sample
CURL リクエスト Bash Link
C# 用 Azure AI 推論パッケージ C# Link
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link
Python Web リクエスト Python Link
OpenAI SDK (試験段階) Python Mistral - OpenAI SDK サンプル
LangChain Python Mistral - LangChain サンプル
Mistral AI(ミストラルAI) Python Mistral - Mistral AI サンプル
LiteLLM Python Mistral - LiteLLM サンプル

Nixtla

Nixtla の TimeGEN-1 は、時系列データ用の生成的な事前トレーニング済みの予測および異常検出モデルです。 TimeGEN-1 では、履歴値と外因性共変量のみを入力として使用して、トレーニングなしで新しい時系列の正確な予測を生成できます。

推論を実行するには、TimeGEN-1 で Nixtla のカスタム推論 API を使用する必要があります。 TimeGEN-1 モデルとその機能の詳細については、 Nixtla を参照してください。

必要なトークンの数を見積もる

TimeGEN-1 デプロイを作成する前に、使用して課金するトークンの数を見積もると便利です。 1 つのトークンは、入力データセットまたは出力データセット内の 1 つのデータ ポイントに対応します。

次の入力時系列データセットがあるとします。

Unique_id Timestamp ターゲット変数 外因性変数 1 外因性変数 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

トークン数を決定するには、行の数 (この例では 2) と予測に使用する列 (unique_id と timestamp の列は数に含めない) の数 (この例では 3) を掛け合わせて、合計 6 トークンとなります。

次の出力データセットがあるとします。

Unique_id Timestamp 予測ターゲット変数
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

また、データ予測後に返されるデータ ポイントの数を数えることによって、トークンの数を決定することもできます。 この例では、トークンの数は 2 です。

トークンに基づいて価格を見積もる

支払う価格を決定する 4 つの価格メーターがあります。 これらのメーターは次のとおりです。

価格メーター Description
paygo-inference-input-tokens finetune_steps = 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト
paygo-inference-output-tokens finetune_steps = 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト
paygo-finetuned-model-inference-input-tokens finetune_steps> 0 の場合、推論の入力として使用されるトークンに関連付けられたコスト
paygo-finetuned-model-inference-output-tokens finetune_steps> 0 の場合、推論の出力として使用されるトークンに関連付けられたコスト

Azure AI Foundry ポータルの Nixtla モデル コレクションを参照してください。

安定性 AI

サーバーレス API デプロイを介してデプロイされた安定性 AI モデルは、ルート /image/generationsにモデル推論 API を実装します。 安定性 AI モデルの使用方法の例については、次の例を参照してください。

Gretel Navigator

Gretel Navigator は、10 を超える業界ドメインにわたって微調整された、オープンソースの上位の小規模言語モデル (SMM) を組み合わせることにより、合成データ用に特別に設計された複合 AI アーキテクチャを採用しています。 この専用システムにより、数百から数百万の例の規模で、分野固有の多様なデータセットが作成されます。 また、このシステムは複雑な統計的関係も保持し、手動によるデータ作成と比較して速度と精度が向上します。

Description Language Sample
JavaScript 用 Azure AI 推論パッケージ JavaScript Link
Python 用 Azure AI 推論パッケージ Python Link