Foundry 모델에 대한 서버리스 API 유추 예제

2025-08-22

Azure AI 모델 카탈로그는 광범위한 공급자에서 다양한 Azure AI Foundry 모델을 제공합니다. 모델 카탈로그에서 모델을 배포하기 위한 다양한 옵션이 있습니다. 이 문서에서는 서버리스 API 배포에 대한 유추 예제를 나열합니다.

Important

미리 보기에 있는 모델은 모델 카탈로그의 모델 카드에서 미리 보기로 표시됩니다.

모델로 추론을 수행하기 위해서는 Nixtla의 TimeGEN-1 및 Cohere 재순위 설정과 같은 일부 모델이 모델 제공자의 맞춤형 API를 사용해야 합니다. 다른 사용자는 모델 유추 API를 사용하여 추론을 지원합니다. Azure AI Foundry 포털의 모델 카탈로그에서 모델 카드를 검토하여 개별 모델에 대한 자세한 내용을 확인할 수 있습니다.

Cohere

Cohere 모델군에는 다양한 사용 사례에 최적화된 재정렬, 채팅 완료 기능, 임베딩 모델이 포함되어 있습니다.

유추 예제: Cohere 명령 및 임베딩

다음 표에서는 Cohere 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.

Description	Language	Sample
웹 요청	Bash	Command-R Command-R+ cohere-embed.ipynb
C용 Azure AI 유추 패키지#	C#	Link
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
Python용 Azure AI 유추 패키지	Python	Link
OpenAI SDK(실험용)	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

RAG(검색 증강 생성) 및 도구 사용 샘플: Cohere 명령 및 임베드

Description	Packages	Sample
Cohere embeddings를 사용하여 로컬 Facebook FAISS(AI 유사성 검색) 벡터 인덱스 만들기 - Langchain	`langchain`, `langchain_cohere`	cohere_faiss_langchain_embed.ipynb
Cohere 명령 R/R+를 사용하여 로컬 FAISS 벡터 인덱스의 데이터를 기반으로 질문에 답변합니다 - Langchain	`langchain`, `langchain_cohere`	command_faiss_langchain.ipynb
Cohere 명령 R/R+을 사용하여 Langchain의 AI 검색 벡터 인덱스에서 데이터를 검색하고 질문에 답변합니다.	`langchain`, `langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
Cohere 명령 R/R+을 사용하여 AI 검색 벡터 인덱스의 데이터 질문에 답변 - Cohere SDK	`cohere`, `azure_search_documents`	cohere-aisearch-rag.ipynb
LangChain을 사용하여 R+ 도구/함수 호출 명령	`cohere`, , `langchainlangchain_cohere`	command_tools-langchain.ipynb

코헤어 재순위 결정

Cohere 리랭크 모델을 사용하여 추론 작업을 수행하려면 Cohere의 맞춤형 리랭크 API를 사용해야 합니다. Cohere 재정렬 모델 및 해당 기능에 대한 자세한 내용은 Cohere 재정렬을 참조하세요.

Cohere 재랭킹 모델의 가격 책정

사용자의 쿼리와 혼동하지 않는 쿼리는 Cohere Rerank 모델의 유추를 위해 입력으로 사용되는 토큰과 관련된 비용을 참조하는 가격 측정기입니다. Cohere는 단일 검색 단위를 최대 100개의 문서가 순위가 매겨진 쿼리로 계산합니다. 검색 쿼리의 길이를 포함하는 경우 500개 이상의 토큰(Cohere-rerank-v3.5의 경우) 또는 4096개 이상의 토큰(Cohere-rerank-v3-English 및 Cohere-rerank-v3-multilingual의 경우)은 각 청크가 단일 문서로 계산되는 여러 청크로 분할됩니다.

Azure AI Foundry 포털에서 Cohere 모델 컬렉션을 참조하세요.

Core42

다음 표에서는 Jais 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.

Description	Language	Sample
C용 Azure AI 유추 패키지#	C#	Link
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
Python용 Azure AI 유추 패키지	Python	Link

DeepSeek

모델의 DeepSeek 제품군에는 언어, 과학적 추론 및 코딩 작업, DeepSeek-V3-0324, MoE(Mixture-of-Experts) 언어 모델 등과 같은 단계별 학습 프로세스를 사용하여 추론 작업을 수행하는 DeepSeek-R1이 포함됩니다.

다음 표에서는 DeepSeek 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.

Description	Language	Sample
Python용 Azure AI 유추 패키지	Python	Link
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
C용 Azure AI 유추 패키지#	C#	Link
Java용 Azure AI 유추 패키지	Java	Link

Microsoft

Microsoft 모델에는 MAI 모델, Phi 모델, 의료 AI 모델 등과 같은 다양한 모델 그룹이 포함됩니다. 사용 가능한 모든 Microsoft 모델을 보려면 Azure AI Foundry 포털에서 Microsoft 모델 컬렉션을 확인합니다.

다음 표에서는 Microsoft 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.

Description	Language	Sample
C용 Azure AI 유추 패키지#	C#	Link
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
Python용 Azure AI 유추 패키지	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

Azure AI Foundry 포털에서 Microsoft 모델 컬렉션을 참조하세요.

미스트랄 인공지능

Mistral AI는 다음과 같은 두 가지 범주의 모델을 제공합니다.

프리미엄 모델: Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3(25.05) 및 Ministral 3B 모델이 포함되며 종량제 토큰 기반 청구가 있는 서버리스 API로 사용할 수 있습니다.
오픈 모델: 여기에는 Mistral-small-2503이 포함됩니다. Codestral 및 Mistral Nemo(종량제 토큰 기반 청구를 사용하여 서버리스 API로 사용 가능) 및 Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 및 Mistral-7B-v01(자체 호스팅 관리형 엔드포인트에서 다운로드 및 실행할 수 있음).

다음 표에서는 Mistral 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.

Description	Language	Sample
CURL 요청	Bash	Link
C용 Azure AI 유추 패키지#	C#	Link
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
Python용 Azure AI 유추 패키지	Python	Link
Python 웹 요청	Python	Link
OpenAI SDK(실험용)	Python	Mistral - OpenAI SDK 샘플
LangChain	Python	Mistral - LangChain 샘플
미스트랄 인공지능	Python	Mistral - Mistral AI 예제
LiteLLM	Python	Mistral - LiteLLM 샘플

Nixtla

Nixtla의 TimeGEN-1은 시계열 데이터에 대한 미리 학습된 생성 예측 및 변칙 검색 모델입니다. TimeGEN-1은 기록 값과 외인성 공변만 입력으로 사용하여 학습 없이 새 시계열에 대한 정확한 예측을 생성할 수 있습니다.

추론을 수행하려면 TimeGEN-1에서 Nixtla의 사용자 지정 유추 API를 사용해야 합니다. TimeGEN-1 모델 및 해당 기능에 대한 자세한 내용은 Nixtla를 참조하세요.

필요한 토큰 수 예측

TimeGEN-1 배포를 만들기 전에 사용하고 청구할 토큰 수를 예측하는 것이 유용합니다. 하나의 토큰은 입력 데이터 세트 또는 출력 데이터 세트의 한 데이터 요소에 해당합니다.

다음과 같은 입력 시계열 데이터 세트가 있다고 가정합니다.

Unique_id	Timestamp	대상 변수	외인성 변수 1	외인성 변수 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

토큰 수를 확인하려면 행 수(이 예제에서는 2개)와 예측에 사용되는 열 수를 곱합니다. unique_id와 타임스탬프 열(이 예제에서는 3개)을 계산하지 않고 총 6개의 토큰을 가져옵니다.

다음과 같은 출력 데이터 세트가 제공됩니다.

Unique_id	Timestamp	예측 대상 변수
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

또한 데이터 예측 후 반환되는 데이터 요소 수를 계산하여 토큰 수를 확인할 수 있습니다. 이 예제에서는 토큰 수가 2개입니다.

토큰을 기반으로 가격 책정 예측

지불하는 가격을 결정하는 4개의 가격 책정 미터는 다음과 같습니다. 이러한 미터는 다음과 같습니다.

가격 책정 미터	Description
paygo-inference-input-tokens	finetune_steps = 0인 경우 유추를 위한 입력으로 사용되는 토큰과 관련된 비용
paygo-inference-output-tokens	finetune_steps = 0인 경우 유추를 위해 출력으로 사용되는 토큰과 관련된 비용
paygo-finetuned-model-inference-input-tokens	finetune_steps> 0일 때 유추를 위한 입력으로 사용되는 토큰과 관련된 비용
paygo-finetuned-model-inference-output-tokens	finetune_steps> 0일 때 유추를 위해 출력으로 사용되는 토큰과 관련된 비용

Azure AI Foundry 포털에서 Nixtla 모델 컬렉션을 참조하세요.

안정성 AI

서버리스 API 배포를 통해 배포된 안정성 AI 모델은 경로 /image/generations에서 모델 유추 API를 구현합니다. 안정성 AI 모델을 사용하는 방법에 대한 예제는 다음 예제를 참조하세요.

그레텔 네비게이터

Gretel Navigator는 10개 이상의 산업 도메인에서 미세 조정된 최고 오픈 소스 SLLM(작은 언어 모델)을 결합하여 합성 데이터를 위해 특별히 설계된 복합 AI 아키텍처를 사용합니다. 이 특수 목적 시스템은 수백 개에서 수백만 개에 달하는 규모로 다양하고 도메인별 데이터 세트를 만듭니다. 또한 이 시스템은 복잡한 통계적 관계를 보존하고 수동 데이터 만들기에 비해 속도와 정확도가 더 높습니다.

Description	Language	Sample
JavaScript용 Azure AI 유추 패키지	JavaScript	Link
Python용 Azure AI 유추 패키지	Python	Link

피드백

이 페이지가 도움이 되었나요?