次の方法で共有


言語検出の透明性に関するメモ

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透明度に関するメモとは

Von Bedeutung

この記事では、Azure AI 言語のガイドラインとベスト プラクティスについて理解していることを前提としています。 詳細については、「 Azure AI 言語の透明性に関するメモ」を参照してください。

AI システムには、テクノロジだけでなく、それを使う人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透明性に関するメモは、当社の AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢、テクノロジ、ユーザー、環境を含むシステム全体について考えることの重要性を理解するのに役立つものです。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft の責任ある AI 原則を参照してください。

言語検出の概要

Azure AI Language の 言語検出 機能は、入力テキストが記述された言語を検出し、さまざまな言語、バリエーション、方言、一部の地域/文化言語で要求に送信されたすべてのドキュメントに対して 1 つの言語コードを報告します。 言語コードは信頼度スコアとペアになっています。

サポートされている言語の一覧を確認して、必要な言語がサポートされていることを確認してください。

利用事例の例

言語検出は、さまざまな業界で複数のシナリオで使用されます。 いくつかの例を次に示します。

  • 他の Azure AI 言語機能のテキストの前処理。 その他の Azure AI 言語機能では、ソース言語を識別するために、要求で言語コードを送信する必要があります。 テキストのソース言語がわからない場合は、言語検出をプリプロセッサとして使用して言語コードを取得できます。

  • ビジネス ワークフローの言語を検出します。 たとえば、ある会社が顧客からさまざまな言語のメールを受け取った場合、言語検出を使用して、言語別のメールをネイティブ スピーカーにルーティングし、それらの顧客と最適なコミュニケーションを取ることができます。

ユース ケースを選択するときの考慮事項

使用しない

  • リスクの高いシナリオでは、人間の介入なしに自動アクションに使用しないでください。 他の人の経済状況、健康、または安全に影響を受けた場合は、常にソース データを確認する必要があります。

法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス利用規約と関連する行動規範で禁止されている方法のために設計されておらず、そのような方法で使うこともできません。

特性と制限

シナリオと入力データに応じて、さまざまなレベルのパフォーマンスが発生する可能性があります。 次の情報は、Azure AI 言語の言語検出の使用に適用されるパフォーマンスに関する主要な概念を理解するのに役立ちます。

パフォーマンスを向上するためのシステムの制限事項とベスト プラクティス

  • 混合言語コンテンツを含む入力の場合は、1 つの言語のみが返されます。 一般に、コンテンツ内で表現が最も大きい言語が返されますが、信頼度スコアは低くなります。
  • このサービスは、ラテン語スクリプトを使用しないすべての言語のローマ字バージョンをまだサポートしていません。 たとえば、Pinyin は中国語ではサポートされておらず、Franco-Arabic はアラビア語ではサポートされていません。
  • 一部の単語は複数の言語に存在します。 たとえば、"あり得ない" は、英語とフランス語の両方に共通です。 あいまいな単語を含む短いサンプルでは、適切な言語が得られない可能性があります。
  • テキストの送信元の国または地域について何らかのアイデアがあり、言語が混在している場合は、 countryHintパラメーター を使用して 2 文字の国/地域コードを渡すことができます。
  • 一般に、長い入力は正しく認識される可能性が高くなります。 完全な語句または文は、単一の単語や文の断片よりも正しく認識される可能性が高くなります。
  • すべての言語が認識されるわけではありません。 サポートされている言語とスクリプトの一覧を必ず確認してください。
  • Kazakh などの特定の言語を記述するために使用される複数のスクリプトを区別するために、言語検出機能は、限られたスクリプトセットの ISO 15924 標準 に従ってスクリプト名とスクリプト コードを返します。
  • このサービスでは、テキストがネイティブ スクリプト内にある場合にのみ、テキストの言語検出がサポートされます。 たとえば、Pinyin は中国語ではサポートされておらず、Franco-Arabic はアラビア語ではサポートされていません。
  • トレーニング データに不明なギャップがあるため、Web データで表現されない特定の方言や言語の種類が適切に認識されない場合があります。

こちらも参照ください