Azure AI 콘텐츠 보안은 애플리케이션과 서비스에서 사용자가 생성한 유해한 콘텐츠와 AI가 생성한 콘텐츠를 검색하는 AI 서비스입니다. Azure AI Content Safety에는 유해한 콘텐츠의 출력을 감지하고 방지하는 데 도움이 되는 API가 포함되어 있습니다. 대화형 콘텐츠 안전 체험하기 페이지는 Azure AI Foundry 포털에서 유해한 콘텐츠를 다양한 형식으로 감지하기 위한 샘플 코드를 보고, 탐색하고, 사용할 수 있는 기능을 제공합니다.
Features
다음 시나리오에 Azure AI Content Safety를 사용합니다.
Text content
- 텍스트 콘텐츠 조정: 텍스트 콘텐츠를 검사하고 조정합니다. 적절한 응답을 보장하기 위해 다양한 수준의 심각도에 따라 텍스트를 식별하고 분류합니다.
- 근거 검색: AI의 응답이 신뢰할 수 있는 사용자 제공 원본을 기반으로 하는지 여부를 결정합니다. 이 기능은 답변이 의도한 자료에 "접지"되도록 합니다. 근거 감지는 응답의 안정성 및 사실 정확도를 향상시키는 데 도움이 됩니다.
- 텍스트에 대한 보호된 자료 검색: 알려진 노래 가사, 기사 또는 기타 콘텐츠와 같은 보호된 텍스트 자료를 식별합니다. 이 기능은 AI가 권한 없이 이 콘텐츠를 출력하지 않도록 합니다.
- 코드에 대한 보호된 자료 검색: 퍼블릭 리포지토리의 알려진 코드와 일치하는 모델 출력의 코드 세그먼트를 검색합니다. 이 기능은 소스 코드의 미인정 또는 무단 복제를 방지하는 데 도움이 됩니다.
- 프롬프트 보호: "탈옥" 및 "간접 공격"을 해결하기 위한 통합 API를 제공합니다.
- 탈옥 공격: 사용자가 AI를 조작하여 안전 프로토콜 또는 윤리적 지침을 우회하려고 시도합니다. 예를 들어 AI를 속여 부적절한 응답을 제공하거나 방지하도록 프로그래밍된 작업을 수행하도록 설계된 프롬프트가 있습니다.
- 간접 공격: 도메인 간 프롬프트 삽입 공격이라고도 합니다. 간접 공격에는 AI가 처리할 수 있는 문서 내에 악의적인 프롬프트가 포함됩니다. 예를 들어 문서에 숨겨진 명령이 포함된 경우 AI가 실수로 지침에 따라 의도하지 않거나 안전하지 않은 출력을 생성할 수 있습니다.
Image content
- 보통 이미지 콘텐츠: 텍스트 조정과 유사하게 이 기능은 이미지 콘텐츠를 필터링하고 평가하여 부적절하거나 유해한 시각적 개체를 검색합니다.
- 멀티모달 콘텐츠 조정: 텍스트와 이미지의 조합을 처리하도록 설계되었습니다. 여러 유형의 콘텐츠에서 전체 컨텍스트 및 잠재적 위험을 평가합니다.
Custom filtering
- 사용자 지정 범주: 사용자가 콘텐츠를 조정하고 필터링하기 위한 특정 범주를 정의할 수 있습니다. 고유한 요구 사항에 맞게 안전 프로토콜을 조정합니다.
- 안전 시스템 메시지: "시스템 메시지"를 설정하여 AI에 원하는 동작 및 제한 사항을 지시하는 방법을 제공합니다. 안전 경계를 강화하고 원치 않는 출력을 방지하는 데 도움이 됩니다.
피해 범주 이해
Harm categories
Category | Description | API term |
---|---|---|
증오와 공정성 | 증오와 불공정한 피해는 특정 차별화된 특성에 따라 개인 또는 정체성 그룹을 대상으로 차별적 언어로 공격하거나 사용하는 모든 콘텐츠를 나타냅니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Hate |
Sexual | 성적은 해부학 적 장기와 성기, 낭만적 인 관계 및 성적 행위와 관련된 언어를 묘사하며, 폭행이나 자신의 의지에 대한 강제 성적 폭력 행위로 묘사 된 것을 포함하여 에로틱하거나 애정어로 묘사 된 행위를 묘사합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Sexual |
Violence | 폭력은 누군가 또는 무언가를 다치게 하거나, 다치게 하거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어를 설명합니다. 는 무기, 총 및 관련 엔터티를 설명합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Violence |
Self-Harm | 자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
SelfHarm |
Severity levels
Level | Description |
---|---|
Safe | 콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련이 있을 수 있습니다. 그러나 이 용어는 일반적으로 업무 일지리즘, 과학, 의학 및 이와 유사한 전문적 컨텍스트에서 사용되므로 대부분의 독자에게 적절합니다. |
Low | 편견, 비판적 또는 독선적인 견해를 표현하는 콘텐츠에는 공격적인 언어 사용, 고정관념, 허구 세계를 탐색하는 사용 사례(예: 게임, 문학) 및 낮은 강도의 묘사가 포함됩니다. |
Medium | 특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다. |
High | 노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다. |
Limitations
지원되는 지역, 속도 제한 및 모든 기능에 대한 입력 요구 사항은 콘텐츠 안전 개요를 참조하세요. 지원되는 언어는 언어 지원 페이지를 참조하세요.
Next step
방법 가이드에 따라 Azure AI Foundry 포털에서 Azure AI Content Safety 사용을 시작합니다.