このメソッドは指定されたパラメータでタスクの処理を開始します。

アプリケーション処理ロケーションに応じて以下のリクエストURLを編集してください:

[POST] https://<PROCESSING_LOCATION_ID>.ocrsdk.com/v2/processDocument

このメソッドは、同じ設定を使って複数の画像を処理し、複数ページの文書として認識結果を取得します。 submitImage メソッドを使って、複数の画像を1つのタスクにアップロードすることができます。

また、結果のファイル形式を3つまで指定することができます。その場合、完了したタスクのサーバーレスポンスに複数のURLが含まれます。

このメソッドを使って開始できるのは、Submitted, CompletedまたはNotEnoughCreditsステータスのタスクだけです。

 

パラメータ

 
パラメータ 必須 既定値 説明
taskId はい いいえ タスクの識別子を指定します。 指定した識別子のタスクが存在しない、または削除されている場合は、エラーを返します。
language いいえ "" 文書の追加認識言語を指定します。 このパラメータにはカンマ区切りで複数の言語を指定できます。例: "ChinesePRC,Korean"。 詳細は利用可能な認識言語一覧をご覧ください。
profile いいえ "document­Conversion" 定義済みの処理設定でprofile を指定します。 以下のいずれかに設定できます:
  • documentConversion
  • documentArchiving
  • textExtraction
  • barcodeRecognition
textType いいえ "normal" 文書内のテキストのタイプを指定します。 このパラメータにはいくつかのtext types をカンマ区切りで指定することができます。例:"normal,matrix"。 以下の値を使用することができます:
  • normal
  • typewriter
  • matrix
  • index
  • ocrA
  • ocrB
  • e13b
  • cmc7
  • gothic
imageSource いいえ "auto"

画像ソースを指定します。 スキャンした画像またはデジタルカメラの写真のいずれかを指定します。 選択したソースに応じて画像の特別な事前処理オペレーションを実行することができます。 例えば、歪んだテキスト、写真の焦点のずれや明るさをシステムが自動的に修正します。

このパラメータの値は以下のいずれかを指定できます:

  • auto
    画像のソースを自動的に検知。
  • photo
  • scanner
correctOrientation いいえ "true" 画像の向きを自動的に検知して修正するかを指定します。 以下のいずれかの値を指定できます:
  • true
    ページの向きが自動的に検知され、通常と違う場合は画像を回転します。
  • false
    ページ向きの検知と修正は実行されません。
correctSkew いいえ "true" 画像の歪みを自動的に検知して修正するかを指定します。 I値はtrueまたはfalseを指定します。
exportFormat いいえ "rtf" エクスポート形式を指定します。 このパラメータには、カンマ区切りで最高3つまでエクスポート形式を含めることができます(例: "pdfa,txt,xml")。利用できる形式は次の通りです:
  • txt
    認識テキストは、1行ずつ左から右へのテキストで出力されます。 例: 元のテキストが列に入っている場合、各列の最初の行が保存され、その次に2行目が保存されます。
    この形式で保存されるのはテキストのみであることにご注意ください。出力ファイルに画像は残りません。
  • txtUnstructured
    出力ファイルには、元のブロックの順番どおりにテキストが保存されます。 Tこの形式はtxtUnstructured:paragraphAsOneLineパラメータで調整することができます。
  • docx
  • xlsx
  • pptx
  • pdfSearchable
    画像全体がピクチャーとして保存され、その下に認識テキストが入ります。
  • pdfTextAndImages
    認識テキストはテキストとして保存され、ピクチャーはピクチャーとして保存されます。
  • pdfa
    ファイルはPDF/A-1b形式で保存されます。画像全体がピクチャーとして保存され、認識テキストはその下に入ります。
  • xml
  • xmlForCorrectedImage
    xmlと同じですが、すべての座標が修正された画像に紐づけられた出力XMLファイルに書き込まれ、元ファイルには書き込まれません。
  • alto

複数のエクスポート形式を設定しても、タスク処理コストに影響を与えることはありません。

xml:writeFormatting いいえ "false" XML形式の出力ファイルに段落と文字スタイルを書き込むかを指定します。 このパラメータは、exportFormatパラメータにxmlもしくは xmlForCorrectedImageの値が含まれている場合のみ使用できます。 パラメータには以下のいずれかの値が入ります:
  • true
  • false
xml:writeRecognitionVariants いいえ "false" XML形式の出力ファイルに文字認識のバリアントを書き込むかを指定します。 このパラメータは、exportFormat パラメータにxmlの値が含まれている場合のみ使用できます。パラメータには以下のいずれかの値が入ります:
  • true
  • false
xml: writeWordRecognitionVariants いいえ "false" XML形式のファイルに単語認識のバリアントコレクションを書き込むかを指定します。 このパラメータは、exportFormat パラメータにxmlもしくは xmlForCorrectedImage の値が含まれている場合のみ使用できます。 パラメータには以下のいずれかの値が入ります:
  • true
  • false
pdf:writeTags いいえ "auto"

結果をタグ付き PDFで書き出すかを指定します。 このパラメータは、exportFormat パラメータにPDF出力の値の1つが含まれている場合のみ使用することができます。 以下のいずれかの値を指定できます:

  • auto
    自動選択: PDF/A-1a標準に準拠しなければならない場合のみ、出力PDFファイルにタグを書き込みます。それ以外の場合は書き込みません。
  • write
  • dontWrite
description いいえ "" 処理タスクの説明を含みます。 最高255文字まで。
txtUnstructured: paragraphAsOneLine いいえ "false" 認識テキストの各段落を1行で出力する場合に指定します。 パラメータには以下のいずれかの値が入ります:
  • true
    段落の全テキストが1行に出力され、改行は取り除かれます。
  • false
    段落中の改行は、オリジナル文書のとおりに保持されます。

ステータスコードとレスポンス形式

一般的なステータスコードとメソッドのレスポンス形式は、HTTPステータスコードとレスポンス形式で確認できます。