다음을 통해 공유


Azure Databricks AI Functions를 사용하여 데이터에 AI 적용

중요한

이 기능은 공개 미리 보기 상태입니다.

이 문서에서는 Azure Databricks AI Functions 및 지원되는 함수에 대해 설명합니다.

AI Functions란?

AI 함수는 Databricks에 저장된 데이터에 텍스트 번역 또는 감정 분석과 같은 AI를 적용하는 데 사용할 수 있는 기본 제공 함수입니다. Databricks SQL, Notebook, Lakeflow 선언적 파이프라인 및 워크플로를 포함하여 Databricks의 어디에서나 실행할 수 있습니다.

AI 함수는 사용하기 쉽고 빠르며 확장 가능합니다. 분석가는 이를 사용하여 독점 데이터에 데이터 인텔리전스를 적용할 수 있으며, 데이터 과학자와 기계 학습 엔지니어는 이를 사용하여 프로덕션 수준의 일괄 처리 파이프라인을 빌드할 수 있습니다.

AI 함수는 범용 및 작업별 함수를 제공합니다.

  • ai_query 데이터에 모든 유형의 AI 모델을 적용할 수 있는 범용 함수입니다. 범용 함수: ai_query을 참조하세요.
  • 작업별 함수는 텍스트 및 번역 요약과 같은 작업에 대해 높은 수준의 AI 기능을 제공합니다. 이러한 작업별 함수는 Databricks에서 호스트 및 관리하는 최신 생성 AI 모델에 의해 구동됩니다. 지원되는 함수 및 모델에 대한 작업별 AI 함수 참조하세요.

범용 함수: ai_query

ai_query() 함수를 사용하면 정보 추출, 콘텐츠 요약, 사기 식별 및 수익 예측 등 생성 AI 및 클래식 ML 작업 모두에 대한 데이터에 AI 모델을 적용할 수 있습니다. 구문 세부 정보 및 매개 변수는 함수를 참조 ai_query 하세요.

다음 표에는 지원되는 모델 유형, 연결된 모델 및 각각에 대한 엔드포인트 구성 요구 사항을 제공하는 모델이 요약되어 있습니다.

유형 지원되는 모델 요구 사항
AI Functions에 최적화된 Databricks 호스팅 기본 모델 이러한 모델은 일괄 처리 유추 시나리오 및 프로덕션 워크플로를 시작하는 데 권장됩니다.
  • databricks-gpt-oss-20b
  • databricks-gpt-oss-120b
  • databricks-gemma-3-12b
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

다른 Databricks 호스팅 모델은 AI Functions와 함께 사용할 수 있지만 대규모 일괄 처리 유추 프로덕션 워크플로에는 권장되지 않습니다.
이 기능을 사용하려면 Databricks Runtime 15.4 LTS 이상이 필요합니다. 엔드포인트 프로비저닝 또는 구성이 필요하지 않습니다. 이러한 모델을 사용하는 경우 적용 가능한 모델 개발자 라이선스 및 사용 약관 및 AI Functions 지역 가용성이 적용됩니다.
미세 조정된 기본 모델 Mosaic AI 모델 제공에 배포된 미세 조정된 기본 모델 모델 제공에서 프로비전된 처리량 엔드포인트를 생성해야 합니다. 기본 모델 및 사용자 지정 또는 미세 조정된 기본 모델을 참조ai_query하세요.
Databricks 외부에서 호스트되는 파운데이션 모델 외부 모델을 사용하여 사용할 수 있는 모델 Databricks 외부에서 호스트되는Access 기본 모델을 참조하세요. 엔드포인트 제공하는 외부 모델을만들어야 합니다.
사용자 지정 기존 ML 및 DL 모델 scikit-learn, xgboost 또는 PyTorch와 같은 기존의 ML 또는 DL 모델 엔드포인트를 제공하는 사용자 지정 모델을 만들어야 합니다.

기본 모델에서 ai_query 사용

다음 예제에서는 Databricks에서 호스트하는 기본 모델을 사용하여 ai_query 사용하는 방법을 보여 줍니다.

  • 구문 세부 정보 및 매개 변수는 함수를 참조 ai_query 하세요.
  • 고급 사용 사례 에 대한 매개 변수를 구성하는 방법에 대한 지침은 고급 시나리오에 대한 예제를 참조하세요.

SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

기존 ML 모델에서 ai_query 사용

ai_query 완전히 사용자 지정 모델을 포함하여 기존 ML 모델을 지원합니다. 이러한 모델은 모델 서비스 엔드포인트에 배포되어야 합니다. 구문 세부 정보 및 매개 변수는 ai_query 함수 함수를 참조하세요.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

작업별 AI 함수

작업별 함수는 특정 작업에 대해 범위가 지정되므로 간단한 요약 및 빠른 번역과 같은 일상적인 작업을 자동화할 수 있습니다. Databricks는 Databricks에서 유지 관리하는 최신 생성 AI 모델을 호출하고 사용자 지정이 필요하지 않으므로 이러한 함수를 시작하는 것이 좋습니다.

예제는 AI Functions 사용하여 고객 리뷰 분석을 참조하세요.

다음 표에서는 지원되는 함수와 각 함수가 수행하는 작업을 나열합니다.

기능 설명
AI 감성 분석 최신 생성 AI 모델을 사용하여 입력 텍스트에 대한 감정 분석을 수행합니다.
ai_classify 최첨단 생성 AI 모델을 사용하여 제공하는 레이블에 따라 입력 텍스트를 분류합니다.
ai_extract 최신 생성 AI 모델을 사용하여 텍스트에서 레이블로 지정된 엔터티를 추출합니다.
ai_문법_수정 최신 생성 AI 모델을 사용하여 텍스트의 문법 오류를 수정합니다.
ai_gen 최신 생성 AI 모델을 사용하여 사용자가 제공한 프롬프트에 응답합니다.
ai_mask 최첨단 생성 AI 모델을 사용하여 텍스트에서 지정된 엔터티를 마스크합니다.
ai_parse_document (베타) 최신 생성 AI 모델을 사용하여 구조화되지 않은 문서에서 구조화된 콘텐츠를 추출합니다.
ai_similarity 두 문자열을 비교하고 최첨단 생성 AI 모델을 사용하여 의미 체계 유사성 점수를 계산합니다.
ai_summarize SQL 및 최신 생성 AI 모델을 사용하여 텍스트 요약을 생성합니다.
ai_translate 최첨단 생성 AI 모델을 사용하여 텍스트를 지정된 대상 언어로 번역합니다.
ai_forecast 지정된 수평선까지 데이터를 예측합니다. 이 테이블 반환 함수는 시계열 데이터를 미래로 추정하도록 설계되었습니다.
vector_search 최신 생성 AI 모델을 사용하여 Mosaic AI Vector Search 인덱스를 검색하고 쿼리를 수행합니다.

기존 Python 워크플로에서 AI Functions 사용

AI 함수는 기존 Python 워크플로에 쉽게 통합할 수 있습니다.

다음에서는 ai_query의 출력을 출력 테이블에 기록합니다.

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

다음은 요약된 텍스트를 표에 씁니다.

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

프로덕션 워크플로에서 AI Functions 사용

대규모 일괄 처리 유추의 경우 작업별 AI 함수 또는 범용 함수 ai_query 를 Lakeflow 선언적 파이프라인, Databricks 워크플로 및 구조적 스트리밍과 같은 프로덕션 워크플로에 통합할 수 있습니다. 이를 통해 프로덕션 등급 처리를 대규모로 수행할 수 있습니다. 예제 및 세부 정보는 AI Functions를 사용하여 일괄 처리 LLM 유추 수행 을 참조하세요.

AI 함수 진행률 모니터링

완료 또는 실패한 유추 수를 파악하고 성능 문제를 해결하려면 쿼리 프로필 기능을 사용하여 AI 함수의 진행률을 모니터링할 수 있습니다.

Databricks Runtime 16.1 ML 이상의 작업 영역의 SQL 편집기 쿼리 창에서 다음을 수행합니다.

  1. 원시 결과 창 아래쪽에서 실행--- 링크를 선택합니다. 성능 창이 오른쪽에 나타납니다.
  2. 쿼리 프로필을 클릭하여 성능 세부 정보를 확인합니다.
  3. AI 쿼리 클릭하여 완료 및 실패한 유추 수와 요청이 완료되는 데 걸린 총 시간을 포함하여 특정 쿼리에 대한 메트릭을 확인합니다.

AI 기능 진행률 모니터