Azure AI 모델 카탈로그는 광범위한 공급자에서 다양한 Azure AI Foundry 모델을 제공합니다. 모델 카탈로그에서 모델을 배포하기 위한 다양한 옵션이 있습니다. 이 문서에서는 서버리스 API 배포에 대한 유추 예제를 나열합니다.
Important
미리 보기에 있는 모델은 모델 카탈로그의 모델 카드에서 미리 보기로 표시됩니다.
모델로 추론을 수행하기 위해서는 Nixtla의 TimeGEN-1 및 Cohere 재순위 설정과 같은 일부 모델이 모델 제공자의 맞춤형 API를 사용해야 합니다. 다른 사용자는 모델 유추 API를 사용하여 추론을 지원합니다. Azure AI Foundry 포털의 모델 카탈로그에서 모델 카드를 검토하여 개별 모델에 대한 자세한 내용을 확인할 수 있습니다.
Cohere
Cohere 모델군에는 다양한 사용 사례에 최적화된 재정렬, 채팅 완료 기능, 임베딩 모델이 포함되어 있습니다.
유추 예제: Cohere 명령 및 임베딩
다음 표에서는 Cohere 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
웹 요청 | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
C용 Azure AI 유추 패키지# | C# | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |
OpenAI SDK(실험용) | Python | Link |
LangChain | Python | Link |
Cohere SDK | Python |
Command Embed |
LiteLLM SDK | Python | Link |
RAG(검색 증강 생성) 및 도구 사용 샘플: Cohere 명령 및 임베드
Description | Packages | Sample |
---|---|---|
Cohere embeddings를 사용하여 로컬 Facebook FAISS(AI 유사성 검색) 벡터 인덱스 만들기 - Langchain |
langchain , langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
Cohere 명령 R/R+를 사용하여 로컬 FAISS 벡터 인덱스의 데이터를 기반으로 질문에 답변합니다 - Langchain |
langchain , langchain_cohere |
command_faiss_langchain.ipynb |
Cohere 명령 R/R+을 사용하여 Langchain의 AI 검색 벡터 인덱스에서 데이터를 검색하고 질문에 답변합니다. |
langchain , langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
Cohere 명령 R/R+을 사용하여 AI 검색 벡터 인덱스의 데이터 질문에 답변 - Cohere SDK |
cohere , azure_search_documents |
cohere-aisearch-rag.ipynb |
LangChain을 사용하여 R+ 도구/함수 호출 명령 |
cohere , , langchain langchain_cohere |
command_tools-langchain.ipynb |
코헤어 재순위 결정
Cohere 리랭크 모델을 사용하여 추론 작업을 수행하려면 Cohere의 맞춤형 리랭크 API를 사용해야 합니다. Cohere 재정렬 모델 및 해당 기능에 대한 자세한 내용은 Cohere 재정렬을 참조하세요.
Cohere 재랭킹 모델의 가격 책정
사용자의 쿼리와 혼동하지 않는 쿼리는 Cohere Rerank 모델의 유추를 위해 입력으로 사용되는 토큰과 관련된 비용을 참조하는 가격 측정기입니다. Cohere는 단일 검색 단위를 최대 100개의 문서가 순위가 매겨진 쿼리로 계산합니다. 검색 쿼리의 길이를 포함하는 경우 500개 이상의 토큰(Cohere-rerank-v3.5의 경우) 또는 4096개 이상의 토큰(Cohere-rerank-v3-English 및 Cohere-rerank-v3-multilingual의 경우)은 각 청크가 단일 문서로 계산되는 여러 청크로 분할됩니다.
Azure AI Foundry 포털에서 Cohere 모델 컬렉션을 참조하세요.
Core42
다음 표에서는 Jais 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
C용 Azure AI 유추 패키지# | C# | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |
DeepSeek
모델의 DeepSeek 제품군에는 언어, 과학적 추론 및 코딩 작업, DeepSeek-V3-0324, MoE(Mixture-of-Experts) 언어 모델 등과 같은 단계별 학습 프로세스를 사용하여 추론 작업을 수행하는 DeepSeek-R1이 포함됩니다.
다음 표에서는 DeepSeek 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
Python용 Azure AI 유추 패키지 | Python | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
C용 Azure AI 유추 패키지# | C# | Link |
Java용 Azure AI 유추 패키지 | Java | Link |
Meta
Meta Llama 모델 및 도구는 미리 학습되고 미세 조정된 생성 AI 텍스트 및 이미지 추론 모델의 컬렉션입니다. 메타 모델 범위는 다음을 포함하도록 크기 조정됩니다.
- 1B 및 3B Base 및 Instruct 모델과 같은 SLM(소규모 언어 모델)은 디바이스 및 에지 유추를 위한 것입니다.
- 7B, 8B 및 70B 기본 및 지시 모델과 같은 중형 LLM(대규모 언어 모델)
- 메타 라마 3.1-405B와 같은 고성능 모델은 합성 데이터 생성 및 증류 사용 사례에 대한 지침을 제공합니다.
- 고성능 네이티브 멀티모달 모델인 라마 4 스카우트와 라마 4 매버릭은 텍스트와 이미지 이해에서 업계 최고의 성능을 제공하기 위해 전문가 혼합 아키텍처를 활용합니다.
다음 표에서는 Meta Llama 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
CURL 요청 | Bash | Link |
C용 Azure AI 유추 패키지# | C# | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |
Python 웹 요청 | Python | Link |
OpenAI SDK(실험용) | Python | Link |
LangChain | Python | Link |
LiteLLM | Python | Link |
Microsoft
Microsoft 모델에는 MAI 모델, Phi 모델, 의료 AI 모델 등과 같은 다양한 모델 그룹이 포함됩니다. 사용 가능한 모든 Microsoft 모델을 보려면 Azure AI Foundry 포털에서 Microsoft 모델 컬렉션을 확인합니다.
다음 표에서는 Microsoft 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
C용 Azure AI 유추 패키지# | C# | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |
LangChain | Python | Link |
Llama-Index | Python | Link |
Azure AI Foundry 포털에서 Microsoft 모델 컬렉션을 참조하세요.
미스트랄 인공지능
Mistral AI는 다음과 같은 두 가지 범주의 모델을 제공합니다.
- 프리미엄 모델: Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3(25.05) 및 Ministral 3B 모델이 포함되며 종량제 토큰 기반 청구가 있는 서버리스 API로 사용할 수 있습니다.
- 오픈 모델: 여기에는 Mistral-small-2503이 포함됩니다. Codestral 및 Mistral Nemo(종량제 토큰 기반 청구를 사용하여 서버리스 API로 사용 가능) 및 Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 및 Mistral-7B-v01(자체 호스팅 관리형 엔드포인트에서 다운로드 및 실행할 수 있음).
다음 표에서는 Mistral 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
Description | Language | Sample |
---|---|---|
CURL 요청 | Bash | Link |
C용 Azure AI 유추 패키지# | C# | Link |
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |
Python 웹 요청 | Python | Link |
OpenAI SDK(실험용) | Python | Mistral - OpenAI SDK 샘플 |
LangChain | Python | Mistral - LangChain 샘플 |
미스트랄 인공지능 | Python | Mistral - Mistral AI 예제 |
LiteLLM | Python | Mistral - LiteLLM 샘플 |
Nixtla
Nixtla의 TimeGEN-1은 시계열 데이터에 대한 미리 학습된 생성 예측 및 변칙 검색 모델입니다. TimeGEN-1은 기록 값과 외인성 공변만 입력으로 사용하여 학습 없이 새 시계열에 대한 정확한 예측을 생성할 수 있습니다.
추론을 수행하려면 TimeGEN-1에서 Nixtla의 사용자 지정 유추 API를 사용해야 합니다. TimeGEN-1 모델 및 해당 기능에 대한 자세한 내용은 Nixtla를 참조하세요.
필요한 토큰 수 예측
TimeGEN-1 배포를 만들기 전에 사용하고 청구할 토큰 수를 예측하는 것이 유용합니다. 하나의 토큰은 입력 데이터 세트 또는 출력 데이터 세트의 한 데이터 요소에 해당합니다.
다음과 같은 입력 시계열 데이터 세트가 있다고 가정합니다.
Unique_id | Timestamp | 대상 변수 | 외인성 변수 1 | 외인성 변수 2 |
---|---|---|---|---|
BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
토큰 수를 확인하려면 행 수(이 예제에서는 2개)와 예측에 사용되는 열 수를 곱합니다. unique_id와 타임스탬프 열(이 예제에서는 3개)을 계산하지 않고 총 6개의 토큰을 가져옵니다.
다음과 같은 출력 데이터 세트가 제공됩니다.
Unique_id | Timestamp | 예측 대상 변수 |
---|---|---|
BE | 2016-10-22 02:00:00 | 46.57 |
BE | 2016-10-22 03:00:00 | 48.57 |
또한 데이터 예측 후 반환되는 데이터 요소 수를 계산하여 토큰 수를 확인할 수 있습니다. 이 예제에서는 토큰 수가 2개입니다.
토큰을 기반으로 가격 책정 예측
지불하는 가격을 결정하는 4개의 가격 책정 미터는 다음과 같습니다. 이러한 미터는 다음과 같습니다.
가격 책정 미터 | Description |
---|---|
paygo-inference-input-tokens | finetune_steps = 0인 경우 유추를 위한 입력으로 사용되는 토큰과 관련된 비용 |
paygo-inference-output-tokens | finetune_steps = 0인 경우 유추를 위해 출력으로 사용되는 토큰과 관련된 비용 |
paygo-finetuned-model-inference-input-tokens | finetune_steps> 0일 때 유추를 위한 입력으로 사용되는 토큰과 관련된 비용 |
paygo-finetuned-model-inference-output-tokens | finetune_steps> 0일 때 유추를 위해 출력으로 사용되는 토큰과 관련된 비용 |
Azure AI Foundry 포털에서 Nixtla 모델 컬렉션을 참조하세요.
안정성 AI
서버리스 API 배포를 통해 배포된 안정성 AI 모델은 경로 /image/generations
에서 모델 유추 API를 구현합니다.
안정성 AI 모델을 사용하는 방법에 대한 예제는 다음 예제를 참조하세요.
- 텍스트-이미지 요청에 대해 안정성 AI 모델과 함께 OpenAI SDK 사용
- HTTP 요청 라이브러리를 사용하여 Stability AI 모델로 텍스트를 이미지로 변환 요청하기
- Stable Diffusion 3.5 Large와 함께 이미지 간 요청을 위한 Requests 라이브러리 사용
- 완전히 인코딩된 이미지 생성 응답의 예
그레텔 네비게이터
Gretel Navigator는 10개 이상의 산업 도메인에서 미세 조정된 최고 오픈 소스 SLLM(작은 언어 모델)을 결합하여 합성 데이터를 위해 특별히 설계된 복합 AI 아키텍처를 사용합니다. 이 특수 목적 시스템은 수백 개에서 수백만 개에 달하는 규모로 다양하고 도메인별 데이터 세트를 만듭니다. 또한 이 시스템은 복잡한 통계적 관계를 보존하고 수동 데이터 만들기에 비해 속도와 정확도가 더 높습니다.
Description | Language | Sample |
---|---|---|
JavaScript용 Azure AI 유추 패키지 | JavaScript | Link |
Python용 Azure AI 유추 패키지 | Python | Link |