다음을 통해 공유


건강 텍스트 분석에 대한 투명도 참고 사항

중요합니다

영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.

투명성 고지란?

중요합니다

의료분야 Text Analytics는 ‘있는 그대로’ 및 ‘모든 오류 포함’으로 제공되는 미리 보기 기능입니다. 의료 분야 Text Analytics는 질병 또는 기타 상태의 진단, 치료, 완화, 처치 또는 예방에 사용하기 위한 의료 기기, 임상 지원, 진단 도구 또는 기타 기술로 사용하도록 의도되거나 제공되지 않습니다. 또한 Microsoft는 이러한 목적으로 이 기능을 사용할 수 있는 라이선스나 권한을 부여하지 않습니다. 이 기능은 전문적인 의학적 조언이나 의료 의견, 진단, 치료 또는 의료 전문가의 임상적 판단을 대체하기 위해 구현되거나, 배포되도록 설계되거나, 의도된 것이 아니므로 그렇게 사용해서는 안 됩니다. 의료 분야 Text Analytics 사용의 책임은 전적으로 고객에게 있습니다. 고객은 해당 UMLS 메타 동의어 사전 사용권 계약 부록 또는 향후 동등한 링크에 대해 설정된 조건에 따라 사용하려는 모든 원본 어휘에 대해 별도로 라이선스를 부여해야 합니다. 고객은 지리적 또는 기타 적용 가능한 제한 사항을 포함하여 해당 사용 조건을 준수할 책임이 있습니다.

이제 의료 분야 Text Analytics를 통해 SDOH(건강의 사회적 결정자) 및 민족성 멘션을 텍스트로 추출할 수 있습니다. 이 기능은 모든 잠재적 SDOH를 다루지 않을 수 있으며 SDOH 또는 민족성에 따라 유추를 유도하지 않습니다(예: 약물 사용 정보가 노출되지만 약물 남용은 유추되지 않음). 개인 또는 자원 할당에 영향을 미치는 의료용 Text Analytics 출력을 활용하는 모든 결정(청구, 인적 자원 또는 치료 관리와 관련된 의사 결정을 포함하지만 이에 국한되지 않음)은 감독을 통해 이루어져야 하며 모델의 결과에만 근거하지 않아야 합니다. SDOH 및 민족성 추출 기능의 목적은 공급자가 의료 결과를 개선하는 데 도움을 주기 위한 것이며, 공급자가 의료 결과를 개선하는 데 도움이 되는 명시된 목적을 넘어서는 SDOH 데이터의 사용자나 소비자 또는 환자 모집단을 낙인찍거나 부정적으로 추론하는 데 사용해서는 안 됩니다.

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft의 투명성 고지는 Microsoft의 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능과 동작에 영향을 줄 수 있는 선택 사항 그리고 기술, 사람, 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 투명성 고지는 자체 시스템을 개발 또는 배포할 때 사용하거나 시스템을 사용하거나 시스템의 영향을 받을 사람들과 공유할 수 있습니다.

Microsoft의 투명성 노트는 Ai 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft의 책임 있는 AI 원칙을 참조하세요.

헬스케어를 위한 텍스트 분석의 기본 사항

소개

Azure AI Language의 상태용 Text Analytics 기능은 자연어 처리 기술을 사용하여 비정형 텍스트로 진단, 증상, 약물 및 치료와 같은 중요한 건강 정보를 찾아 레이블을 지정합니다. 이 서비스는 퇴원 요약, 임상 노트, 임상 시험 프로토콜, 의료 간행물 등을 포함하여 다양한 유형의 비정형 의료 문서에 사용할 수 있습니다. 의료 데이터를 위한 Text Analytics는 NER(명명된 개체 인식)을 수행하고, 식별된 개체 간의 관계를 추출하며, 부정 및 조건부와 같은 어설션을 표시하고, 탐지된 개체를 표준 용어집에 연결합니다.

건강 텍스트 분석은 일반 공급 제품의 일부로 영어로 구조화되지 않은 텍스트를 받을 수 있습니다. 추가 언어는 현재 미리 보기 제품에서 지원됩니다. 자세한 내용은 언어 지원을 참조하세요.

API 및 해당 기능에 대한 개요를 읽을 수 있습니다. 또한 지원되는 엔터티 및 관계도 참조하세요.

또한, 새로운 미리 보기 기능을 통해 건강을 위한 사용자 지정 Text Analytics가 제공됩니다. 의료용 사용자 지정 텍스트 분석을 사용하면 고객이 자신의 데이터를 사용하여 의료에 맞춘 사용자 지정 NER 모델을 학습시키고, 도메인 특정 범주를 추출하여 기존 의료용 텍스트 분석 엔터티 맵을 확장할 수 있습니다. 고객은 새로 정의된 사용자 정의 엔터티뿐만 아니라 약물 이름 등 건강 관련 엔터티에 대한 기존 텍스트 분석과 관련하여 어휘 또는 특정 단어를 정의할 수도 있습니다. 따라서 의료를 위한 사용자 지정 텍스트 분석은 새 ML 엔터티를 추가하고 기존 엔터티에 사용자 지정 어휘를 더하여 기존 엔터티 맵을 확장하는 기능과 함께, 의료 텍스트 분석에서 제공하는 동일한 기능을 제공합니다.

주요 용어

건강 관련 Text Analytics는 현재 생물 의학 텍스트에 대해 명명된 엔터티 인식(NER), 관계 추출, 어설션 검색 및 엔터티 링크를 수행합니다. 추가적인 사용자 지정 엔터티 학습 및 목록 구성 요소를 사용하여 엔터티 추출이 가능하며, 이제 건강을 위한 사용자 지정 텍스트 분석을 통해 사용할 수 있습니다.

기간 정의
명명된 엔터티 인식 진단, 약물 이름, 증상 또는 기호 또는 나이와 같은 하나 이상의 의미 체계 유형과 연결할 수 있는 구조화되지 않은 텍스트에 언급된 단어와 구를 검색합니다.
관계 추출 텍스트에 언급된 개념 간의 의미 있는 연결을 식별합니다. 예를 들어 조건 이름을 시간과 연결하여 "조건의 시간" 관계를 찾습니다.
어설션 검색 텍스트에서 언급된 부정이나 조건절 등의 엔터티 한정자를 노출합니다. 의료 콘텐츠의 의미는 이러한 한정자의 영향을 크게 받을 수 있습니다.
엔터티 연결 텍스트에 언급된 명명된 엔터티를 UMLS(통합 의료 언어 시스템)와 같이 미리 정의된 개념 데이터베이스에 있는 개념과 연결하여 고유 엔터티를 명확하게 구분합니다.
엔터티 학습 구성 요소 레이블이 지정된 데이터를 사용하여 사용자 지정 모델을 학습하여 치료, 시설 또는 의료 기기와 같은 새로운 사용자 지정 엔터티의 정의를 허용합니다.
엔터티 목록 구성 요소 사용자가 선택한 엔터티에 해당하는 동의어 또는 어휘 목록을 정의하여 어휘 인식기를 통해 새로운 사용자 지정 엔터티 또는 기존의 건강 엔터티를 위한 Text Analytics 엔터티를 추출할 수 있습니다. 예를 들어 "Medication A"는 약물 이름 엔터티 아래에 새 목록 값으로 정의될 수 있습니다.

역량

시스템 동작

건강 관련 텍스트 분석을 위해 Text Analytics를 사용하려면 분석 대상인 비구조적 원시 텍스트를 입력하고, API의 출력은 귀하의 애플리케이션에서 처리됩니다. 엔터티 인식, 관계 추출, 엔터티 연결 및 어설션 검색의 네 가지 주요 함수가 단일 API 호출에서 수행됩니다. 분석은 미리 학습된 모델의 추가 사용자 지정 없이 as-is수행됩니다. 호스트된 API를 통해 또는 온-프레미스 환경의 컨테이너에 배포하여 건강용 텍스트 분석을 사용할 수 있습니다. 자세한 내용은 Text Analytics를 호출하여 상태를 확인하는 방법을 참조하세요.

건강 상태용 Text Analytics를 사용자 지정하려면, 커스텀 Text Analytics for health의 작성 경험을 사용하여 기존의 미리 빌드된 엔터티 맵을 확장할 새로운 엔터티를 만드세요. 새 사용자 지정 엔터티와 약물 이름 같은 기존 미리 빌드된 엔터티 범주에 대해 정확한 일치를 사용하여 인식할 새 어휘를 정의할 수도 있습니다. 프로젝트의 엔터티 맵을 정의한 후 사용자 지정 모델을 학습하고 배포하여 예측을 수행할 수 있습니다. 배포된 사용자 지정 모델은 기본적으로 미리 빌드된 엔터티 범주에 대한 상태를 위해 Text Analytics에 이미 포함된 모든 기능을 지원합니다. 또한, 사용자 지정 모델은 새 엔터티 범주에 대한 사용자 지정 NER과 미리 빌드된 엔터티에 대해 정의된 모든 사전을 제공합니다. 사용자 지정 모델에 대한 예측은 의료 엔터티에 대한 Text Analytics에서 명명된 엔터티 인식, 관계 추출, 엔터티 연결 및 주장 탐지를 수행하며, 또한 사용자 지정 명명된 엔터티 인식을 수행하여 신규 및 기존 엔터티 범주에 대한 정의된 어휘와 함께 고객 정의 엔터티 범주를 추출합니다. 사용자 지정 모델을 학습시키는 데 사용되는 모든 데이터는 프라이빗 Blob Storage에 저장됩니다. 또한 사용자 지정 모델을 호출하려면 APIM 구독 키가 필요합니다. 즉, 비밀 키를 공유한 사용자만 사용자 지정 모델을 사용할 수 있습니다.

의도한 사용 사례

건강을 위한 Text Analytics는 이러한 유형의 시스템이 지원하는 다양한 산업의 여러 시나리오에서 사용할 수 있습니다. 건강 텍스트 분석을 사용하기 위한 몇 가지 일반적인 고객 동기는 다음과 같습니다.

  • 적절한 코딩을 위해 의료 문서 처리를 지원하고 자동화하여 치료 및 청구의 정확성을 향상시킵니다.
  • 의료 데이터를 분석하는 효율성을 높여 가치 기반 의료 모델(예: 메디케어)의 성공을 촉진합니다.
  • 의료 제공자에게 오버헤드를 추가하지 않고 환자 치료 및 기록의 추세를 추적하기 위한 주요 데이터의 집계를 개선합니다.
  • 일상적인 임상 실습 및 관리 및 건강 서비스의 전반적인 전달 및 평가를 지원하기 위해 전자 건강 정보의 교환, 통합, 공유 및 검색을 위한 프레임워크인 HL7 표준을 채택하는 데 진전을 이루십시오.

상태에 대한 사용자 지정 Text Analytics에도 동일한 사용 사례와 고려 사항이 적용되지만, 상태에 대한 사용자 지정 Text Analytics는 고객이 데이터를 가지고 있고 자체 엔터티 범주를 만들거나 신규 및 기존 엔터티 범주에 대한 어휘를 정의하여 미리 빌드된 기존 엔터티 맵을 확장하려는 시나리오에 더 적합합니다.

사용 사례 예

다음 사용 사례는 건강 및 커스텀 건강 분석 기능을 위한 텍스트 분석 애플리케이션의 인기 있는 예입니다.

  • 인사이트 및 통계 추출. 임상 노트 및 다양한 임상 문서에서 증상, 약물 및 진단과 같은 의료 엔터티를 식별합니다. 이 정보를 사용하여 환자 모집단에 대한 인사이트 및 통계를 생성하고, 임상 문서를 검색하고, 문서와 출판물을 연구할 수 있습니다.
  • 기록 데이터에서 예측 분석 및 예측 모델 만들기 기록 데이터를 사용하여 만든 예측 모델을 기반으로 계획, 의사 결정 지원, 위험 분석 등에 대한 솔루션을 개발할 수 있습니다.
  • 보조 주석 및 큐레이션. 임상 데이터 주석 및 큐레이션에 대한 솔루션을 지원합니다. 예를 들어 임상 코딩, 수동으로 만든 데이터의 디지털화 및 레지스트리 보고 자동화를 지원합니다.
  • 상태 관련 정보를 표시하거나 분석하기 위한 솔루션을 지원합니다. 상태 관련 정보를 표시하거나 분석하는 솔루션을 지원합니다. 예를 들어 보고 목적으로 품질 보증 프로세스를 지원하거나 사용자가 검토할 수 있는 오류에 플래그를 지정합니다.

사용 사례 선택 시 고려 사항

Text Analytics for Health는 구조화되지 않은 의료 텍스트에서 지식을 관리하고 추출할 때 유용한 도구입니다. 그러나 상태 관련 데이터의 중요한 특성을 고려할 때 사용 사례를 신중하게 고려하는 것이 중요합니다. 모든 경우에 인간은 시스템이 반환하는 정보에 따라 결정을 내려야 하며, 모든 경우에 원본 데이터를 검토하고 오류를 수정할 수 있는 방법이 있어야 합니다. 사용 사례를 선택할 때 몇 가지 추가 고려 사항은 다음과 같습니다.

  • 이 서비스를 의료 장치로 사용하거나, 임상 지원을 제공하거나, 사람의 개입 없이 질병 또는 기타 조건의 진단, 치료, 완화, 치료 또는 예방에 사용할 진단 도구로 사용하는 시나리오를 방지합니다. 자격을 갖춘 의료 전문가는 항상 실사를 수행하고 환자 치료 결정에 영향을 미칠 수있는 원본 데이터를 확인해야합니다.
  • 사람의 개입 없이 의료 서비스 또는 건강 보험을 자동으로 부여하거나 거부하는 시나리오를 방지합니다. 적용 범위 수준에 영향을 주는 결정은 매우 영향을 미치기 때문에 이러한 시나리오에서 원본 데이터를 항상 확인해야 합니다.
  • 환자 동의 또는 관련 법률에서 허용하지 않는 목적으로 개인 건강 정보를 사용하는 시나리오를 방지합니다. 건강 정보에는 개인 정보 보호 및 동의와 관련된 특별한 보호가 있습니다. 사용하는 모든 데이터가 시스템에서 데이터를 사용하는 방식에 대한 환자 동의가 있거나 건강 정보 사용과 관련하여 해당 법률을 준수하는지 확인합니다.
  • 감지된 엔터티를 사용하여 사람의 개입 없이 환자 레코드를 자동으로 업데이트하는 것이 좋습니다. 잘못된 데이터를 다른 시스템에 전파하지 않도록 오류를 보고, 추적 및 수정하는 방법이 항상 있는지 확인합니다. 환자 기록에 대한 모든 업데이트가 자격을 갖춘 전문가에 의해 검토 및 승인되었는지 확인합니다.
  • 사람의 개입 없이 검색된 엔터티를 환자 청구에 사용하는 것을 신중하게 고려합니다. 공급자와 환자가 항상 잘못된 청구를 생성하는 데이터를 보고, 추적 및 수정할 수 있는지 확인합니다.
  • 검출된 건강의 사회적 결정 요인과 민족적 요인을 활용하는 시나리오를 신중하게 고려하세요. 항상 잘못된 물질 사용 유추를 방지하거나 사회적 및 인구 통계적 요인에 따라 잘못된 형태의 치료를 제공하기 위해 오류를 보고, 추적 및 수정할 수 있는 방법이 있는지 확인합니다.
  • 상태 모델을 위한 사용자 지정 Text Analytics를 미세 조정할 때 자동화된 피드백 루프를 사용하는 시나리오를 신중하게 고려합니다. 사용자 지정 모델 학습은 입력 학습 데이터에 매우 중요한 반복 프로세스이므로 모델 품질 회귀를 방지하기 위해 프로덕션 환경에 배포하기 전에 항상 모델을 테스트하고 평가해야 합니다.
  • 법률 및 규제 고려 사항: 조직은 모든 업계 또는 시나리오에서 사용하기에 적합하지 않을 수 있는 AI 서비스 및 솔루션을 사용할 때 잠재적인 특정 법률 및 규제 의무를 평가해야 합니다. 또한 AI 서비스나 솔루션은 해당 서비스 약관 및 관련 행동 강령에서 금지하는 방식으로 설계되지 않았으며, 그러한 방식으로 사용될 수 없습니다.

건강과 민족성의 사회적 결정 요인

건강을 위한 Text Analytics를 사용하면 SDOH(Social Determinants of Health) 및 인종 멘션을 텍스트로 추출할 수 있습니다. 사회 및 인구 통계 학적 엔터티를 사용하면 기본 유전학, 건강 행동 및 사회 및 환경 요인과 같은 건강 결과를 유도 할 수있는 직접 의료 외에 다양한 요인에 대한 언급을 잠금 해제하는 데 도움이 될 수 있습니다. 건강 SDOH 엔터티 추출 기능에 대한 Text Analytics를 활용하여 사회적, 경제적 단점에 뿌리를 둔 건강 불균형을 줄이고, 치료를 개선하고, 건강 불평등 문제를 평가하고, 과소 대표된 그룹을 임상 시험 및 연구에 통합할 수 있습니다. 자세한 내용은 건강의 사회적 결정자를 참조하세요. FDA는 임상 시험에서 인종 및 민족 다양성을 높이기 위한 중요한 단계를 수행합니다. | FDA 및 카운티 건강 순위: 결정 요인과 건강 결과 사이의 관계.

이 기능은 SDOH 또는 민족성을 기반으로 유추를 파생하지 않습니다(예: 물질 사용 정보는 입력 텍스트에서 표시되지만 약물 남용은 추출된 엔터티에 따라 유추되지 않음). 건강을 위한 Text Analytics의 출력에 의존하고 개인 또는 리소스 할당에 영향을 미치는 모든 결정(청구, 인적 자원 또는 관리 관리와 관련된 결정을 포함하지만 이에 국한되지 않음)은 사람의 감독으로 이루어져야 하며 모델의 결과에만 근거하지 않아야 합니다. SDOH 및 민족 추출 기능의 목적은 공급자가 건강 결과를 개선하는 데 도움이 되는 것입니다. 그 것들은 의료 제공자가 건강 결과를 향상하는 것을 돕는다는 명시된 목적 외에, SDOH 데이터의 사용자나 소비자 또는 환자 집단에 대해 낙인을 찍거나 부정적인 추측을 하는 데 사용되어서는 안됩니다. 추출된 다른 엔터티와 마찬가지로, 건강 대응을 위한 Text Analytics는 생활 상태, 고용, 약물 사용 및 민족 엔터티에 대한 신뢰도 점수를 반환합니다. 엔터티의 의도된 사용 컨텍스트에서 신뢰도 점수를 신중하게 고려합니다.

건강을 위한 사용자 지정 텍스트 분석

상태용 Text Analytics를 사용하면 개발자가 비정형 의료 데이터에서 인사이트를 처리하고 추출할 수 있습니다. 상태 기능은 광범위한 데이터 형식 및 엔터티 범주를 처리하고 추출할 수 있지만 고객이 데이터에 특정한 새 엔터티 형식을 추가하거나 기존 엔터티 범주에서 추가 의료 어휘를 정의하려는 경우가 여전히 있습니다.

따라서 상태용 사용자 지정 Text Analytics의 목적은 고객에게 데이터와 관련된 완전히 새로운 엔터티 범주로 엔터티 맵을 확장할 수 있는 기능과 기존 엔터티 범주에 사용자 지정 어휘를 추가하는 기능을 제공하여 상태를 위해 Text Analytics를 기반으로 사용자 지정하는 방법을 제공하는 것입니다.

헬스케어용 사용자 지정 텍스트 분석을 사용하면 고객은 레이블이 지정된 데이터와 사용자 지정 사전/어휘를 사용하여 사용자 지정 의료 엔터티 추출 ML 모델을 학습시킬 수 있습니다. 이렇게 하면 고객은 데이터와 관련된 새 의료 엔터티를 정의할 수 있습니다. 서비스는 또한 헬스케어를 위한 Text Analytics를 내부적으로 호출하여 이미 제공된 모든 기능과 엔터티 맵을 제공합니다. 추가된 수준의 사용자 지정으로 고객은 미리 빌드된 응답을 데이터로 보완하기 위해 기존 Text Analytics for Health 엔터티에 자신의 어휘를 추가할 수 있습니다.

고객은 사용자 지정 모델을 학습시킬 수 있는 충분한 레이블이 지정된 데이터와 어휘를 제공할 책임이 있습니다. 따라서 모델의 성능은 정의할 새 엔터티 범주를 기준으로 고객이 사용하는 레이블이 지정된 학습 데이터의 품질 및 종합성에 따라 달라질 수 있습니다. 사용자 지정 모델 학습은 입력 학습 데이터에 매우 중요한 반복 프로세스이므로 모델 품질 회귀를 방지하기 위해 프로덕션 환경에 배포하기 전에 항상 모델을 테스트하고 평가하는 것이 좋습니다.

제한점

  • 적용 범위: SDOH 추출 기능이 모든 잠재적 SDOH를 다루지 않을 수 있습니다. 인식은 인종 및 여기에 나열된 엔터티 유형으로 제한되며, Text Analytics에서 건강을 위해 인식되는 엔터티 범주 - Azure AI 서비스 | Microsoft Learn.
  • 언어: 현재 SDOH 및 민족 추출 기능은 영어 텍스트에만 사용할 수 있습니다. 건강 텍스트 분석은 일반 공급 제품의 일부로 영어로 구조화되지 않은 텍스트를 받을 수 있습니다. 추가 언어는 현재 미리 보기 제품에서 지원됩니다.
  • 맞춤법: 잘못된 맞춤법이 출력에 영향을 줄 수 있습니다. 특히 엔터티 연결은 특정하고 올바른 맞춤법만을 기반으로 용어 및 동의어를 찾습니다. 예를 들어, 약물 이름이 철자가 틀린 경우 시스템은 텍스트가 약물 이름임을 인식하기에 충분한 정보를 가질 수 있지만 올바르게 철자가 지정된 약물 이름과 마찬가지로 링크를 식별하지 못할 수 있습니다.
  • 성능: 잠재적인 오류 유형은 아래 시스템 성능 섹션에 설명되어 있습니다.
  • 의료용 사용자 지정 텍스트 분석(미리 보기): 의료용 텍스트 분석에서 지원하는 모든 언어를 지원합니다. 사용자 지정 모델을 학습하려면 새로 정의된 각 사용자 지정 엔터티 범주에 대해 최소 10개의 레이블을 학습 서비스에 제공해야 합니다. 사용자 지정 모델을 학습하려면 고객이 프로젝트의 데이터 세트에 최소 10개의 문서를 추가해야 합니다. 고객 정의 어휘를 추출하는 데 사용되는 Lexicon 인식기는 지정된 언어의 정확한 대/소문자 일치를 사용합니다. 즉, 고객은 특정 단어의 모든 변형을 추가하고 프로젝트에 대한 모든 입력 언어에 포함해야 합니다. 사용자 지정 건강 Text Analytics를 사용하는 경우, 건강 엔터티에 대한 Text Analytics에서 엔터티 연결, 관계 추출 및 어설션 검색은 지원되지만, 새로 정의된 사용자 지정 엔터티 범주에는 반환되지 않습니다.

시스템 성능

건강 텍스트 분석 및 일반적인 사용자 지정 건강 텍스트 분석에는 상태 기능이 지원하는 각 기능에 대해 가양성 오류와 가음성 오류가 모두 발생할 수 있습니다. 잠재적 오류 유형의 몇 가지 예는 다음 섹션에서 설명합니다.

명명된 개체 인식 (NER)

가양성

NER에서는 시스템이 엔터티를 어떤 범주에 속하는 것으로 잘못 식별하는 경우 가양성이 발생합니다. 다음 예제에서 COVID-19는 EXAMINATION_NAME 레이블이 잘못 붙었습니다. 사실, COVID-19는 검사의 이름이 아니라 진단입니다. 따라서 EXAMINATION_NAME에 대한 가양성 결과입니다.

두 번째 예에서 보드카는 MEDICATION_NAME에 대해 가양성 반응을 보입니다. 대신에 SUBSTANCE_USE로 분류해야 합니다.

명명된 엔터티 인식 가양성의 스크린샷.

물질 사용 오분류의 스크린샷.

가음성

NER의 거짓 부정은 엔터티가 범주에 속하는 것으로 식별되어야 하지만 그렇지 않은 경우에 발생합니다. 다음 예제에서는 엔터티 ER이 CARE_ENVIRONMENT 식별되어야 하지만 그렇지 않았습니다. 엔터티가 제대로 인식되지 않으면 연결된 코드도 인식되지 않습니다.

명명된 엔터티 인식 가음성의 스크린샷.

다음 두 예제에서는 인종에 대한 두 번째 언급과 이전 고용에 대한 정보가 제대로 인식되지 않습니다.

민족성 오분류의 스크린샷.

고용 오분류의 스크린샷.

관계 추출

가양성

관계 추출에서 위양성(false positive)이란, 식별되지 말았어야 할 관계가 식별된 경우를 말합니다. 다음 예제에서 AST 검사 값은 이미 할당된 측정값이 있는 ALT 검사에 잘못 기인했습니다.

관계 추출 가음성의 스크린샷.

가음성

관계 추출에서 거짓 부정은 관계를 인식해야 하지만 그렇지 않은 경우에 발생합니다. 앞의 예제에서 측정값 45는 AST 검사에 할당되지 않았으므로 해당 값이 있어야 합니다.

엔터티 연결

가양성

엔터티 연결은 공통 어휘의 개념과 인식된 엔터티 간의 정확한 일치를 검색하여 수행됩니다. 엔터티 링크 설정에 대한 가양성은 엔터티가 캡처되지 않았어야 할 때 캡처되고(가양성 NER) 일치하는 개념이 어휘에 존재하는 것처럼 보이는 드문 경우에 발생합니다. 모호한 용어가 공통 어휘집에서 여러 개의 서로 다른 일치 개념을 갖는 경우에도 엔터티 링크 설정에 대한 가양성 반응이 발생할 수 있습니다.

가음성

엔터티 연결이 원래 텍스트와 정확히 일치해야 하므로, 엔터티를 인식하는 데 충분한 신호가 있더라도 해당 엔터티의 맞춤법이 텍스트에서 정확하지 않으면 거짓 부정을 얻을 수 있습니다. 예를 들어, 다음 텍스트에서 therapies가 잘못 철자된 경우 적절한 링크된 엔터티 UMLS: C0087111을 가져올 수 없습니다.

엔터티 링크 설정 가음성의 스크린샷.

어설션 검색

가양성

어설션 탐지에서 텍스트에 없어야 하는 어설션을 시스템이 식별할 때 거짓 양성이 발생합니다. 다음 예에서 엔터티인 호흡기 질환은 COVID-19에 대한 진단으로 잘못 표기되었습니다.

부정 검색 가양성의 스크린샷.

가음성

어설션 감지에서 거짓 부정은 어설션이 포착되지 않을 때 발생합니다. 다음 예제에서는 언급된 약물에 대한 반응이 없었기 때문에 증상 "응답"을 부정해야 합니다.

부정 검색 가음성의 스크린샷.

시스템 성능 개선을 위한 모범 사례

  • 사용자 지정 건강 텍스트 분석의 사용자 지정 어휘는 정확한 단어 일치를 사용합니다. 따라서 맞춤법이 올바르지 않으면 엔터티 추출에 영향을 미칠 수 있습니다.
  • 학습된 엔터티 구성 요소를 사용하여 사용자 지정 건강 텍스트 분석의 ML 기반 엔터티 추출 품질을 개선하기 위해 각 사용자 지정 엔터티에 대한 레이블을 균등하게 배포하고 입력 데이터를 나타내는 예의 각 엔터티에 대해 최소 15개의 레이블을 포함하는 것이 좋습니다.

건강을 위한 텍스트 분석 평가

평가 방법

건강을 위한 Text Analytics는 퇴원 요약, 임상 노트, 임상 시험 프로토콜, 의료 간행물 등을 포함하여 다양한 유형의 비정형 의료 문서에 대해 학습되고 평가됩니다. 생활 상태, 고용 및 약물 사용 엔터티를 표면화 하는 SDOH 모델은 두 가지 독립적 인 소스에서 제공되는 수동으로 주석이 추가 된 데이터 세트에서 학습 및 평가됩니다 : 약 750 임의로 샘플링 된 독점 임상 노트와 약 1,500 임상 노트는 미국 의료 센터에서 제공하는 코퍼스에서 무작위로 샘플링되고 주로 성인 환자에 초점을 맞춥니다. 원래 모음에는 10년 이상 수집된 데이터와 수천 건의 환자 입원 기록이 포함되어 있습니다. 그것은 남성과 여성 환자의 거의 동등한 표현을 제공합니다. 학습 데이터 대표성(예: 지리적, 인구 통계적 또는 민족적 표현)에 대한 추가 분석이 수행되지 않았습니다. 내부 테스트는 모델이 다양한 모집단 및 지리적 위치로 일반화할 수 있는 가능성을 보여 주지만 학습 및 평가 데이터가 의도한 사용 컨텍스트에서 어떻게 대표되는지 신중하게 고려해야 합니다. 잠재적 공정성 피해와 관련하여 시스템을 평가하기 위해 평가 데이터 세트는 성별, 연령, 인종, 고용 및 생활 상태와 같은 사회적 및 인구 통계적 요인에 따라 문서의 하위 그룹으로 분할되었습니다. 그룹 간의 상대적 성능 차이와 마찬가지로 각 그룹에 대한 대상 최소 성능 수준이 평가되었습니다.

헬스케어를 위한 사용자 지정 텍스트 분석 평가

사용자 지정 의료 텍스트 분석은 미리 빌드된 의료 텍스트 분석 모델뿐만 아니라 고객이 제공한 데이터로 세밀하게 조정되는 사용자 지정 의료 기본 모델을 활용합니다. 사용되는 의료 기본 모델은 보건 엔터티 맵을 위해 Text Analytics가 구축된 것과 동일한 기본 모델입니다.

헬스 특화 사용자 지정 Text Analytics는 제작 환경의 일부로 내부 평가를 제공합니다. 이를 통해 고객이 테스트 데이터 세트를 만들고 정의된 사용자 지정 엔터티 범주에 대한 F1, 정밀도 및 회수 점수를 검토할 수 있습니다. 헬스용 미리 빌드된 엔터티에 대한 텍스트 분석은 내부 평가에 포함되지 않습니다. 또한 이 환경에는 성능이 좋지 않은 엔터티에 대한 추가 레이블을 권장하는 등 테스트에서 결과 점수를 개선하는 방법을 고객에게 제공하는 모델 지침이 포함되어 있습니다.

사용자의 사용을 위한 건강 텍스트 분석 평가 및 통합

Microsoft는 Azure AI Language를 사용하는 솔루션을 책임감 있게 개발하고 배포하는 데 도움을 주고자 합니다. 이러한 고려 사항은 책임 있는 AI를 개발하려는 Microsoft의 노력과 일치합니다. Azure AI Language 기능을 통해 제공되는 제품 및 솔루션을 사용하고 구현하는 방법을 결정할 때 다음 요소를 고려합니다.

일반 지침

건강을 위한 텍스트 분석을 배포할 준비가 되면, 다음 활동들이 성공을 돕습니다.

  • 수행할 수 있는 작업 이해: 상태에 대한 Text Analytics의 기능을 완전히 평가하여 기능과 제한 사항을 이해합니다. 시나리오 및 컨텍스트에서 수행되는 방식을 이해합니다.
  • 실제, 다양한 데이터로 테스트: 여러분의 시나리오에서 Text Analytics for health가 어떻게 작동하는지를 이해하기 위해 사용자, 지역, 배포 환경의 다양성을 반영하는 실제 조건과 데이터를 사용하여 철저히 테스트하십시오. 작은 데이터 세트, 가상 데이터 및 엔드 투 엔드 시나리오를 반영하지 않는 테스트는 프로덕션 성능을 충분히 나타낼 가능성이 낮습니다.
  • 개인 정보 보호에 대한 개인의 권리를 존중합니다. 합법적이고 정당한 목적으로 개인으로부터 데이터와 정보를 수집하거나 사용합니다. 사용하기로 동의했거나 합법적으로 사용할 수 있는 데이터 및 정보만 사용합니다.
  • 법적 검토: 솔루션에 대한 적절한 법적 검토를 받으며, 특히 민감하거나 위험 수준이 높은 애플리케이션에서 솔루션을 사용하는 경우를 참조하세요. 작업해야 할 수 있는 제한 사항과 사용하기 전에 완화해야 하는 위험을 이해합니다. 이러한 위험을 완화하고 발생할 수 있는 문제를 해결하는 것은 사용자의 책임입니다.
  • 시스템 검토: 소프트웨어 또는 고객 또는 조직 프로세스를 위해 AI 기반 제품 또는 기능을 기존 시스템에 통합하고 책임감 있게 사용하려는 경우 시스템의 각 부분이 어떤 영향을 받는지 이해해야 합니다. AI 솔루션이 Microsoft 책임 AI 원칙과 어떻게 일치하는지 고려합니다.
  • 사용자 참여형: 사용자를 참여시키고 사용자의 감독을 탐구하려는 일관된 패턴 영역으로 포함합니다. 즉, AI 기반 제품 또는 기능을 지속적으로 감독하고 모델의 출력을 기반으로 하는 의사 결정을 내리는 데 있어 인간의 역할을 보장합니다. 피해를 방지하고 AI 모델이 수행하는 방식을 관리하려면 인간이 솔루션에 실시간으로 개입할 수 있도록 합니다.
  • 보안: 솔루션이 보호되고 콘텐츠 무결성이 보존되고 무단 액세스가 방지되도록 적절한 컨트롤이 있는지 확인합니다.
  • 고객 피드백 루프: 사용자와 개인이 서비스 배포 후 문제를 보고하는 데 사용할 수 있는 피드백 채널을 제공합니다. AI 기반 제품 또는 기능을 배포한 후에는 지속적인 모니터링 및 개선이 필요합니다. 계획을 세우고 개선을 위한 피드백과 제안을 구현할 준비가 되어 있습니다.

참고하십시오