중요합니다
영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.
투명성 고지란?
중요합니다
이 문서에서는 Azure AI Language에 대한 지침 및 모범 사례를 잘 알고 있다고 가정합니다. 자세한 내용은 Azure AI 언어에 대한 투명도 참고를 참조하세요.
AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft의 투명성 고지는 Microsoft의 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능과 동작에 영향을 줄 수 있는 선택 사항 그리고 기술, 사람, 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 투명성 고지는 자체 시스템을 개발 또는 배포할 때 사용하거나 시스템을 사용하거나 시스템의 영향을 받을 사람들과 공유할 수 있습니다.
Microsoft의 투명성 노트는 Ai 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft의 책임 있는 AI 원칙을 참조하세요.
명명된 엔터티 인식 및 PII(개인 식별 정보) 소개
Azure AI Language는 텍스트의 정보를 식별하고 분류하기 위해 명명된 엔터티 인식을 지원합니다. 여기에는 제품 및 이벤트 및 PII(개인 식별 정보) 엔터티와 같은 일반 엔터티가 포함됩니다. 이름, 조직, 주소, 전화 번호, 재무 계정 번호 또는 코드, 정부 및 국가 또는 지역별 식별 번호와 같은 다양한 개인 엔터티를 인식할 수 있습니다. 이러한 개인 정보의 하위 집합은 보호된 건강 정보(PHI)입니다. 요청에서 ___domain=phi를 지정하는 경우 반환된 PHI 엔터티만 가져옵니다. PII 및 PHI 엔터티 범주의 전체 목록은 다음 표에서 찾을 수 있습니다. 또한 PII 인식은 응답에서 원하는 특정 엔터티 범주를 지정하고 응답에서 PII 엔터티를 수정하는 기능을 지원합니다. PII 엔터티는 응답의 redactedText 속성에서 별표로 대체될 것입니다.
예제 NER 요청 및 예제 응답을 읽고 서비스에 텍스트를 보내는 방법 및 다시 예상할 사항을 확인합니다.
사용 사례 예
고객은 다음과 같은 두 가지 주요 이유로 명명된 엔터티의 다양한 범주를 인식할 수 있습니다.
- 검색 기능 향상 - 고객은 문서에서 검색된 엔터티를 기반으로 지식 그래프를 작성하여 문서 검색을 향상시킬 수 있습니다.
- 비즈니스 프로세스 개선 또는 자동화 - 예를 들어 보험 청구를 검토할 때 이름 및 위치와 같은 인식된 엔터티를 강조 표시하여 검토를 용이하게 할 수 있습니다. 또는 이메일에서 고객의 이름과 회사가 포함된 지원 티켓이 자동으로 생성될 수 있습니다.
고객은 다음과 같은 여러 가지 이유로 특별히 다양한 범주의 PII 엔터티를 인식하려고 할 수 있습니다.
- 민감도 레이블 적용 - 예를 들어 PII 서비스의 결과를 기반으로 PII 엔터티가 감지되지 않는 문서에 공개 민감도 레이블이 적용될 수 있습니다. 미국 주소와 전화 번호가 인식되는 문서의 경우 기밀 레이블이 적용될 수 있습니다. 은행 라우팅 번호가 인식되는 문서에는 기밀 레이블이 사용될 수 있습니다.
- 개인 정보를 보호하기 위해 문서에서 일부 범주의 개인 정보 수정 - 예를 들어 고객 연락처 레코드에 첫 번째 줄 지원 담당자가 액세스할 수 있는 경우 회사는 고객의 개인 정보를 유지하기 위해 고객 기록에서 불필요한 고객의 개인 정보를 수정할 수 있습니다.
- 무의식적 편견을 줄이기 위해 개인 정보 수정 - 예를 들어 회사의 이력서 검토 과정에서 무의식 성별 또는 기타 편견을 줄이기 위해 이름, 주소 및 전화 번호를 차단할 수 있습니다.
- 불공평을 줄이기 위해 기계 학습에 원본 데이터의 개인 정보 대체 – 예를 들어 기계 학습 모델을 학습시킬 때 성별을 나타낼 수 있는 이름을 제거하려는 경우, 서비스를 사용하여 식별하고 모델 학습을 위한 일반 자리 표시자로 바꿀 수 있습니다.
사용 사례 선택 시 고려 사항
사용하지 마세요.
- PII 전용 - 자동 수정 또는 정보 분류 시나리오에 사용하지 마세요. 개인 정보를 수정하지 못하면 ID 도용의 위험에 노출될 수 있는 시나리오와 신체적 또는 심리적 피해에는 신중한 사용자 감독이 포함되어야 합니다.
- NER 및 PII - 동의를 얻지 못한 목적으로 개인 정보를 사용하는 시나리오에는 사용하지 마세요. 예를 들어 회사는 과거 구직자로부터 이력서를 받았습니다. 신청자는 이력서를 제출할 때 홍보 행사에 연락하는 데 동의하지 않았습니다. 이 시나리오에 따라 NER 및 PII 서비스를 사용하여 과거 지원자를 무역 박람회에 초대하기 위한 연락처 정보를 식별해서는 안 됩니다.
- NER 및 PII - 고객은 개인 정보의 대상이 되는 사용자의 동의 없이 공개적으로 이용 가능한 콘텐츠에서 개인 정보를 수집하기 위해 이 서비스를 사용할 수 없습니다.
- NER 및 PII - 텍스트의 개인 정보를 사람들을 오도하려는 의도로 바꾸는 시나리오에는 사용하지 마세요.
법률 및 규제 고려 사항: 조직은 모든 업계 또는 시나리오에서 사용하기에 적합하지 않을 수 있는 AI 서비스 및 솔루션을 사용할 때 잠재적인 특정 법률 및 규제 의무를 평가해야 합니다. 또한 AI 서비스나 솔루션은 해당 서비스 약관 및 관련 행동 강령에서 금지하는 방식으로 설계되지 않았으며, 그러한 방식으로 사용될 수 없습니다.
특성 및 제한 사항
시나리오, 입력 데이터 및 추출하려는 엔터티에 따라 다양한 수준의 성능을 경험할 수 있습니다. 다음 섹션은 Azure AI Language NER 및 PII 서비스 사용에 적용되는 성능에 대한 주요 개념을 이해하는 데 도움이 되도록 설계되었습니다.
NER의 성능 이해 및 측정
가양성 오류와 거짓 부정 오류가 모두 발생할 수 있으므로 두 유형의 오류 모두 전체 시스템에 어떤 영향을 줄 수 있는지 이해하는 것이 중요합니다. NER(명명된 엔터티 인식)을 사용하면, 엔터티가 텍스트에 없지만 시스템에서 인식되어 반환될 때 거짓 양성이 발생합니다. 거짓 부정은 엔터티가 텍스트에 있지만 시스템에서 인식되고 반환되지 않는 경우입니다.
PII 성능 이해
예를 들어 수정 시나리오에서 거짓 부정은 개인 정보 유출로 이어질 수 있습니다. 수정 시나리오의 경우 이러한 유형의 오류를 설명하기 위해 사용자 검토 프로세스를 고려합니다. 민감도 레이블 시나리오의 경우 가양성과 거짓 부정 모두 문서의 오분류로 이어질 수 있습니다. 잘못된 긍정 판정이 발생할 경우, 기밀로 표시된 문서에 대해 대상이 불필요하게 제한될 수 있습니다. 거짓 부정이 발생하고 공용 레이블이 적용된 경우 PII가 유출될 수 있습니다.
시스템에서 시스템을 조정하는 데 사용하는 신뢰도 점수의 임계값을 조정할 수 있습니다. PII의 모든 잠재적 인스턴스를 식별하는 것이 더 중요한 경우 더 낮은 임계값을 사용할 수 있습니다. 즉, 더 많은 가양성(PII가 아닌 데이터가 PII 엔터티로 인식되는 것)이 발생할 수 있지만, 가음성(PII 엔터티가 PII로 인식되지 않는 것)은 더 적습니다. 시스템에서 실제 PII 데이터만 인식하는 것이 더 중요한 경우 더 높은 임계값을 사용할 수 있습니다. 임계값은 PII 엔터티의 개별 범주에서 일관된 동작이 없을 수 있습니다. 따라서 프로덕션 환경에서 처리할 실제 데이터로 시스템을 테스트하는 것이 중요합니다.
성능 향상을 위한 시스템 제한 사항 및 모범 사례
시스템에서 인식할 수 있는 NER 및 PII 의 모든 엔터티 범주를 이해해야 합니다. 시나리오에 따라 데이터에는 개인 정보로 간주될 수 있지만 서비스가 현재 지원하는 범주에 포함되지 않는 다른 정보가 포함될 수 있습니다.
컨텍스트는 사람들이 엔터티를 인식할 때 자주 그러하듯이, 시스템에서 모든 엔터티 범주를 올바르게 인식하는 데 중요합니다. 예를 들어 컨텍스트가 없으면 10자리 숫자는 숫자일 뿐입니다. 그러나 "2345678901 내 사무실 전화 번호로 저에게 연락할 수 있습니다"와 같은 컨텍스트를 감안할 때 시스템과 인간은 모두 10자리 숫자를 전화 번호로 인식할 수 있습니다. 최상의 성능을 얻기 위해 시스템에 텍스트를 보낼 때 항상 컨텍스트를 포함합니다.
특히 사람 이름에는 언어 컨텍스트가 필요합니다. 더 나은 사용자 이름 검색을 위해 가능한 한 많은 컨텍스트를 보냅니다.
대화형 데이터의 경우 필요한 컨텍스트가 실제 엔터티에 포함될 가능성을 높이기 위해 대화에서 한 번 이상 전송하는 것이 좋습니다.
다음 대화에서 한 번에 한 행을 보내면 여권 번호와 관련된 컨텍스트가 없으며 EU Passport 번호 PII 범주가 인식되지 않습니다.안녕하세요, 오늘 어떻게 도울 수 있나요?
여권을 갱신하고 싶습니다.
물론, 현재 여권 번호는 무엇입니까?
이것은 123456789입니다, 감사합니다.그러나 전체 대화를 보내면 컨텍스트가 포함되어 있기 때문에 인식됩니다.
동일한 엔터티에 대해 여러 엔터티 범주를 인식할 수 있는 경우가 있습니다. 이전 예제를 사용하면 다음을 수행합니다.
안녕하세요, 오늘 어떻게 도울 수 있나요?
여권을 갱신하고 싶습니다.
물론, 현재 여권 번호는 무엇입니까?
이것은 123456789입니다, 감사합니다.여러 국가가 여권 번호에 대해 동일한 형식을 가지므로 여러 가지 특정 엔터티 범주를 인식할 수 있습니다. 경우에 따라 가장 높은 신뢰도 점수를 사용하면 올바른 엔터티 클래스를 선택하기에 충분하지 않을 수 있습니다. 시나리오가 인식되는 특정 엔터티 범주에 따라 달라지는 경우 사용자 검토 또는 추가 유효성 검사 코드를 통해 시스템의 다른 위치에서 결과를 명확히 해야 할 수 있습니다. 실제 데이터에 대한 철저한 테스트는 시나리오에 대해 인식할 수 있는 여러 엔터티 범주를 볼 가능성이 있는지 식별하는 데 도움이 될 수 있습니다.
모든 엔터티 범주가 NER 및 PII의 모든 언어에서 지원되는 것은 아닙니다. 감지하려는 언어의 엔터티 유형 문서를 꼭 확인하세요.
많은 국제 개인 식별 정보(PII) 엔터티가 지원됩니다. 기본적으로 반환되는 엔터티 범주는 API 호출과 함께 전송된 언어 코드와 일치하는 항목입니다. 지정된 것 이외의 로캘의 엔터티를 예상하는 경우, 매개변수
piiCategories를 사용하여 엔터티를 지정할 필요가 있습니다. 응답이 API 참조에 포함할 내용을 지정하는 방법에 대해 자세히 알아봅니다. 명명된 엔터티 형식 설명서의 각 로캘에 대해 지원되는 범주에 대해 자세히 알아봅니다.PII 편집 시나리오에서 선택적 매개 변수
piiCategories를 포함하는 API 버전을 사용하는 경우 텍스트에 있을 수 있는 모든 PII 범주를 고려하는 것이 중요합니다. 특정 로캘에 대한 특정 엔터티 범주 또는 기본 엔터티 범주만 수정하는 경우 텍스트에 예기치 않게 나타나는 다른 PII 엔터티 범주가 유출됩니다. 예를 들어 EN-US 로캘을 보내고 선택적 PII 범주를 지정하지 않은 경우 독일어 운전 면허증 번호가 텍스트에 있으면 유출됩니다. 이를 방지하려면 매개 변수에 독일어 운전 면허증 번호 범주를piiCategories지정해야 합니다. 또한 지정된 로캘에 대한 매개 변수를 사용하여piiCategories하나 이상의 범주를 지정한 경우 수정할 유일한 범주라는 점에 유의하세요. 예를 들어 EN-US 로캘을 보내고 수정을 위해 미국 사회 보장 번호(SSN)를 PII 범주로 지정한 경우 입력 텍스트에 표시되면 미국 운전 면허증 번호 또는 미국 여권 번호와 같은 다른 EN-US 범주가 유출됩니다.PII 서비스는 호출의 언어 코드와 일치하는 PII 범주를 반환하므로 입력 텍스트가 어떤 언어 또는 로캘인지 확실하지 않은 경우 입력 텍스트가 있는 언어를 확인하는 것이 좋습니다. 언어 검색 기능을 사용하여 이 작업을 수행할 수 있습니다.
PII 서비스는 텍스트를 입력으로만 사용합니다. 다른 형식의 문서에서 정보를 수정하는 경우 식별된 엔터티가 실수로 유출되지 않도록 수정 코드를 신중하게 테스트해야 합니다.