다음을 통해 공유


Azure AI Foundry 포털의 콘텐츠 안전

Azure AI 콘텐츠 보안은 애플리케이션과 서비스에서 사용자가 생성한 유해한 콘텐츠와 AI가 생성한 콘텐츠를 검색하는 AI 서비스입니다. Azure AI Content Safety에는 유해한 콘텐츠의 출력을 감지하고 방지하는 데 도움이 되는 API가 포함되어 있습니다. 대화형 콘텐츠 안전 체험하기 페이지는 Azure AI Foundry 포털에서 유해한 콘텐츠를 다양한 형식으로 감지하기 위한 샘플 코드를 보고, 탐색하고, 사용할 수 있는 기능을 제공합니다.

Features

다음 시나리오에 Azure AI Content Safety를 사용합니다.

Text content

  • 텍스트 콘텐츠 조정: 텍스트 콘텐츠를 검사하고 조정합니다. 적절한 응답을 보장하기 위해 다양한 수준의 심각도에 따라 텍스트를 식별하고 분류합니다.
  • 근거 검색: AI의 응답이 신뢰할 수 있는 사용자 제공 원본을 기반으로 하는지 여부를 결정합니다. 이 기능은 답변이 의도한 자료에 "접지"되도록 합니다. 근거 감지는 응답의 안정성 및 사실 정확도를 향상시키는 데 도움이 됩니다.
  • 텍스트에 대한 보호된 자료 검색: 알려진 노래 가사, 기사 또는 기타 콘텐츠와 같은 보호된 텍스트 자료를 식별합니다. 이 기능은 AI가 권한 없이 이 콘텐츠를 출력하지 않도록 합니다.
  • 코드에 대한 보호된 자료 검색: 퍼블릭 리포지토리의 알려진 코드와 일치하는 모델 출력의 코드 세그먼트를 검색합니다. 이 기능은 소스 코드의 미인정 또는 무단 복제를 방지하는 데 도움이 됩니다.
  • 프롬프트 보호: "탈옥" 및 "간접 공격"을 해결하기 위한 통합 API를 제공합니다.
    • 탈옥 공격: 사용자가 AI를 조작하여 안전 프로토콜 또는 윤리적 지침을 우회하려고 시도합니다. 예를 들어 AI를 속여 부적절한 응답을 제공하거나 방지하도록 프로그래밍된 작업을 수행하도록 설계된 프롬프트가 있습니다.
    • 간접 공격: 도메인 간 프롬프트 삽입 공격이라고도 합니다. 간접 공격에는 AI가 처리할 수 있는 문서 내에 악의적인 프롬프트가 포함됩니다. 예를 들어 문서에 숨겨진 명령이 포함된 경우 AI가 실수로 지침에 따라 의도하지 않거나 안전하지 않은 출력을 생성할 수 있습니다.

Image content

  • 보통 이미지 콘텐츠: 텍스트 조정과 유사하게 이 기능은 이미지 콘텐츠를 필터링하고 평가하여 부적절하거나 유해한 시각적 개체를 검색합니다.
  • 멀티모달 콘텐츠 조정: 텍스트와 이미지의 조합을 처리하도록 설계되었습니다. 여러 유형의 콘텐츠에서 전체 컨텍스트 및 잠재적 위험을 평가합니다.

Custom filtering

  • 사용자 지정 범주: 사용자가 콘텐츠를 조정하고 필터링하기 위한 특정 범주를 정의할 수 있습니다. 고유한 요구 사항에 맞게 안전 프로토콜을 조정합니다.
  • 안전 시스템 메시지: "시스템 메시지"를 설정하여 AI에 원하는 동작 및 제한 사항을 지시하는 방법을 제공합니다. 안전 경계를 강화하고 원치 않는 출력을 방지하는 데 도움이 됩니다.

피해 범주 이해

Harm categories

Category Description API term
증오와 공정성 증오와 불공정한 피해는 특정 차별화된 특성에 따라 개인 또는 정체성 그룹을 대상으로 차별적 언어로 공격하거나 사용하는 모든 콘텐츠를 나타냅니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • 인종, 민족, 국적
  • 성 정체성 그룹 및 표현
  • Sexual orientation
  • Religion
  • 개인 외모 및 신체 크기
  • Disability status
  • 괴롭힘 및 왕따
Hate
Sexual 성적은 해부학 적 장기와 성기, 낭만적 인 관계 및 성적 행위와 관련된 언어를 묘사하며, 폭행이나 자신의 의지에 대한 강제 성적 폭력 행위로 묘사 된 것을 포함하여 에로틱하거나 애정어로 묘사 된 행위를 묘사합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • Vulgar content
  • Prostitution
  • 노출 및 포르노
  • Abuse
  • 아동 착취, 아동 학대, 아동 그루밍
Sexual
Violence 폭력은 누군가 또는 무언가를 다치게 하거나, 다치게 하거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어를 설명합니다. 는 무기, 총 및 관련 엔터티를 설명합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • Weapons
  • 괴롭힘과 협박
  • 테러리스트와 폭력적인 극단주의
  • Stalking
Violence
Self-Harm 자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • Eating Disorders
  • 괴롭힘과 협박
SelfHarm

Severity levels

Level Description
Safe 콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련이 있을 수 있습니다. 그러나 이 용어는 일반적으로 업무 일지리즘, 과학, 의학 및 이와 유사한 전문적 컨텍스트에서 사용되므로 대부분의 독자에게 적절합니다.
Low 편견, 비판적 또는 독선적인 견해를 표현하는 콘텐츠에는 공격적인 언어 사용, 고정관념, 허구 세계를 탐색하는 사용 사례(예: 게임, 문학) 및 낮은 강도의 묘사가 포함됩니다.
Medium 특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다.
High 노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다.

Limitations

지원되는 지역, 속도 제한 및 모든 기능에 대한 입력 요구 사항은 콘텐츠 안전 개요를 참조하세요. 지원되는 언어는 언어 지원 페이지를 참조하세요.

Next step

방법 가이드에 따라 Azure AI Foundry 포털에서 Azure AI Content Safety 사용을 시작합니다.