Important
- Foundry Tools のパブリック プレビュー リリースの Azure 言語では、アクティブな開発段階にある機能に早期にアクセスできます。
- 機能、アプローチ、プロセスは、ユーザーからのフィードバックに基づいて、一般公開 (GA) の前に変更される可能性があります。
Language は、テキスト ベースのデータに自然言語処理 (NLP) 機能を適用するクラウドベースのサービスです。 ネイティブ ドキュメント サポート機能を使うと、HTTP POST 要求本文を使ってデータを送信し、HTTP GET 要求クエリ文字列を使って状態結果を取得することで、API 要求を非同期に送信できます。 処理されたドキュメントは、Azure Blob Storage ターゲット コンテナーにあります。
ネイティブ ドキュメントとは、Microsoft Word (docx) やポータブル ドキュメント ファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。 ネイティブ ドキュメントのサポートにより、言語リソース機能を使用する前にテキストの前処理が不要になります。 現在、ネイティブ ドキュメントのサポートは、次の機能で利用できます。
個人を特定できる情報 (PII)。 PII 検出機能を使用すると、非構造化テキストに含まれる機密情報を特定、分類、編集することができます。
PiiEntityRecognitionAPI では、ネイティブ ドキュメント処理がサポートされています。ドキュメント要約。 ドキュメント要約は、自然言語処理を使って、ドキュメントの抽出要約 (特徴的な文の抽出) または抽象要約 (コンテキストによる単語の抽出) を生成します。
AbstractiveSummarizationとExtractiveSummarizationどちらの API でも、ネイティブ ドキュメント処理がサポートされています。
サポートされるドキュメントの形式
アプリケーションでは、ネイティブ ファイル形式を使って、ネイティブ ドキュメントを作成または保存したり、開いたりします。 現在、PII とドキュメント要約機能では、次のネイティブ ドキュメント形式がサポートされています。
| ファイルの種類 | ファイル拡張子 | Description |
|---|---|---|
| テキスト | .txt |
書式設定のないテキスト ドキュメント。 |
| Adobe PDF | .pdf |
移植可能なドキュメント ファイル形式のドキュメント。 |
| マイクロソフトワード | .docx |
Microsoft Word 文書ファイル。 |
入力ガイドライン
サポートされているファイル形式
| タイプ | サポートと制限事項 |
|---|---|
| 完全にスキャンされた PDF はサポートされていません。 | |
| 画像内のテキスト | テキストが埋め込まれたデジタル画像はサポートされていません。 |
| デジタル テーブル | スキャンされたドキュメント内のテーブルはサポートされていません。 |
"ドキュメント サイズ"
| 特性 | 入力制限 |
|---|---|
| 要求あたりのドキュメントの総数 | ≤ 20 |
| 要求あたりの合計コンテンツ サイズ | ≤ 10 MB |
要求ヘッダーとパラメーター
| パラメータ | Description |
|---|---|
-X POST <endpoint> |
API にアクセスするための Language リソース エンドポイントを指定します。 |
--header Content-Type: application/json |
JSON データを送信するためのコンテンツ タイプ。 |
--header "Ocp-Apim-Subscription-Key:<key> |
API にアクセスするための Azure 言語リソース キーを指定します。 |
-data |
要求で渡すデータを含む JSON ファイル。 |