文書デジタル化用API： processDocumentメソッド（ver. 2）

Open documentation menuClose documentation menu

このメソッドは指定されたパラメータでタスクの処理を開始します。

アプリケーション処理ロケーションに応じて以下のリクエストURLを編集してください：

[POST] https://<PROCESSING_LOCATION_ID>.ocrsdk.com/v2/processDocument

このメソッドは、同じ設定を使って複数の画像を処理し、複数ページの文書として認識結果を取得します。 submitImage メソッドを使って、複数の画像を1つのタスクにアップロードすることができます。

また、結果のファイル形式を3つまで指定することができます。その場合、完了したタスクのサーバーレスポンスに複数のURLが含まれます。

このメソッドを使って開始できるのは、Submitted, CompletedまたはNotEnoughCreditsステータスのタスクだけです。

パラメータ

パラメータ	必須	既定値	説明
taskId	はい	いいえ	タスクの識別子を指定します。指定した識別子のタスクが存在しない、または削除されている場合は、エラーを返します。
language	いいえ	""	文書の追加認識言語を指定します。このパラメータにはカンマ区切りで複数の言語を指定できます。例： "ChinesePRC,Korean"。詳細は利用可能な認識言語一覧をご覧ください。
profile	いいえ	"documentConversion"	定義済みの処理設定でprofile を指定します。以下のいずれかに設定できます： documentConversion documentArchiving textExtraction barcodeRecognition
textType	いいえ	"normal"	文書内のテキストのタイプを指定します。このパラメータにはいくつかのtext types をカンマ区切りで指定することができます。例："normal,matrix"。以下の値を使用することができます： normal typewriter matrix index ocrA ocrB e13b cmc7 gothic
imageSource	いいえ	"auto"	画像ソースを指定します。スキャンした画像またはデジタルカメラの写真のいずれかを指定します。選択したソースに応じて画像の特別な事前処理オペレーションを実行することができます。例えば、歪んだテキスト、写真の焦点のずれや明るさをシステムが自動的に修正します。このパラメータの値は以下のいずれかを指定できます： auto 画像のソースを自動的に検知。 photo scanner
correctOrientation	いいえ	"true"	画像の向きを自動的に検知して修正するかを指定します。以下のいずれかの値を指定できます： true ページの向きが自動的に検知され、通常と違う場合は画像を回転します。 false ページ向きの検知と修正は実行されません。
correctSkew	いいえ	"true"	画像の歪みを自動的に検知して修正するかを指定します。 I値はtrueまたはfalseを指定します。
exportFormat	いいえ	"rtf"	エクスポート形式を指定します。このパラメータには、カンマ区切りで最高3つまでエクスポート形式を含めることができます（例： "pdfa,txt,xml"）。利用できる形式は次の通りです： txt 認識テキストは、1行ずつ左から右へのテキストで出力されます。例：元のテキストが列に入っている場合、各列の最初の行が保存され、その次に2行目が保存されます。この形式で保存されるのはテキストのみであることにご注意ください。出力ファイルに画像は残りません。 txtUnstructured 出力ファイルには、元のブロックの順番どおりにテキストが保存されます。 Tこの形式はtxtUnstructured:paragraphAsOneLineパラメータで調整することができます。 docx xlsx pptx pdfSearchable 画像全体がピクチャーとして保存され、その下に認識テキストが入ります。 pdfTextAndImages 認識テキストはテキストとして保存され、ピクチャーはピクチャーとして保存されます。 pdfa ファイルはPDF/A-1b形式で保存されます。画像全体がピクチャーとして保存され、認識テキストはその下に入ります。 xml xmlForCorrectedImage xmlと同じですが、すべての座標が修正された画像に紐づけられた出力XMLファイルに書き込まれ、元ファイルには書き込まれません。 alto 複数のエクスポート形式を設定しても、タスク処理コストに影響を与えることはありません。
xml:writeFormatting	いいえ	"false"	XML形式の出力ファイルに段落と文字スタイルを書き込むかを指定します。このパラメータは、exportFormatパラメータにxmlもしくは xmlForCorrectedImageの値が含まれている場合のみ使用できます。パラメータには以下のいずれかの値が入ります： true false
xml:writeRecognitionVariants	いいえ	"false"	XML形式の出力ファイルに文字認識のバリアントを書き込むかを指定します。このパラメータは、exportFormat パラメータにxmlの値が含まれている場合のみ使用できます。パラメータには以下のいずれかの値が入ります： true false
xml: writeWordRecognitionVariants	いいえ	"false"	XML形式のファイルに単語認識のバリアントコレクションを書き込むかを指定します。このパラメータは、exportFormat パラメータにxmlもしくは xmlForCorrectedImage の値が含まれている場合のみ使用できます。パラメータには以下のいずれかの値が入ります： true false
pdf:writeTags	いいえ	"auto"	結果をタグ付き PDFで書き出すかを指定します。このパラメータは、exportFormat パラメータにPDF出力の値の1つが含まれている場合のみ使用することができます。以下のいずれかの値を指定できます： auto 自動選択： PDF/A-1a標準に準拠しなければならない場合のみ、出力PDFファイルにタグを書き込みます。それ以外の場合は書き込みません。 write dontWrite
description	いいえ	""	処理タスクの説明を含みます。最高255文字まで。
txtUnstructured: paragraphAsOneLine	いいえ	"false"	認識テキストの各段落を1行で出力する場合に指定します。パラメータには以下のいずれかの値が入ります： true 段落の全テキストが1行に出力され、改行は取り除かれます。 false 段落中の改行は、オリジナル文書のとおりに保持されます。

ステータスコードとレスポンス形式

一般的なステータスコードとメソッドのレスポンス形式は、HTTPステータスコードとレスポンス形式で確認できます。

processDocument メソッド

パラメータ

ステータスコードとレスポンス形式