名前 |
説明 |
document |
ルートタグ。 認識テキストを表します。 page要素とdocumentData要素のシーケンスが含まれます。 このタグには、以下の属性があります:
- version — XMLのバージョン
- producer — XMLファイルのプロデューサー
- languages — (オプション)文書のすべての言語
|
page |
認識されたページ。 blockタグのシーケンスになっています。 このタグには、以下の属性があります:
- width — ピクセルでの画像の幅
- height — ピクセルでの画像の高さ
- resolution — ppi(pixels per inch)での画像解像度
- originalCoords — (オプション)値がtrueの場合、すべての座標は開く前のオリジナル画像に基づくものになりますexportFormatをxmlに設定した場合はこちらになります)。値がfalseの場合は、座標は開かれた後の画像(傾き修正済み)に基づいたものになりますexportFormat をxmlForCorrectedImageに設定した場合はこちらになります)。
- rotation — (オプション)オリジナルのページ画像の回転方向。 以下のうちいずれかの値を設定できます: Normal, RotatedClockwise, RotatedUpsidedown, RotatedCounterclockwise(既定値はNormal)
|
block (BlockType) |
認識されたブロック。 各タグにはregion要素が含まれ、画像におけるブロックの領域を指定します。
タグにはblockType属性があり、ブロックのタイプを示します: Text, Table, Picture, Barcode, Separator, SeparatorsBox. この属性の値は、タグに含まれる要素を定義します:
- text — blockType属性がTextのときのみ可。
- row — blockType属性がTableのときのみ可。
- separatorsBox — blockType属性がSeparatorsBoxのときのみ可。
- separator — blockType属性がSeparatorのときのみ可。
|
region |
Block領域、長方形の集まり。 1つまたは複数のrect要素を含む。 |
rect |
ブロック領域の長方形。
このタグには、以下の属性があります:
- l — 長方形の左辺座標
- t — 長方形の上辺座標
- r — 長方形の右辺座標
- b — 長方形の下辺座標
|
text (TextType) |
認識テキストブロックのテキスト、または表セル内のテキスト。 par要素を含む。
このタグには、以下の属性があります:
- orientation — (オプション)テキストの向き。 以下のうちいずれかの値を設定できます: Normal, RotatedClockwise, RotatedUpsidedown, RotatedCounterclockwise(既定値はNormal)
- mirrored — (オプション)テキストの左右反転(既定値はfalse)
- inverted — (オプション)テキストと背景の色反転(既定値はfalse)
|
par (ParagraphType) |
認識テキストの段落。 line要素を含む。
このタグには、以下の属性があります:
- dropCapCharsCount — (オプション)段落内のドロップキャップの数(既定値は0)
- dropCap-l — (オプション)ドロップキャップ長方形の左辺座標
- dropCap-t — (オプション)ドロップキャップ長方形の上辺座標
- dropCap-r — (オプション)ドロップキャップ長方形の右辺座標
- dropCap-b — ((オプション)ドロップキャップ長方形の下辺座標
- align — (オプション)段落の配置。 次のいずれかの値になります: Left, Center, Right, Justified(既定値はLeft)
- leftIndent — (オプション)段落の左インデント(既定値は0)
- rightIndent — (オプション)段落の右インデント(既定値は 0)
- startIndent — (オプション)段落の1行目のインデント(既定値は0)
- lineSpacing — (オプション)行の間隔(既定値は0)
|
line (LineType) |
段落の行。 formatting要素を含む。
このタグには、以下の属性があります:
- baseline — ベースラインからページの上端までの長さ
- l — 囲んでいる長方形の左辺座標
- t — 囲んでいる長方形の上辺座標
- r — 囲んでいる長方形の右辺座標
- b — 囲んでいる長方形の下辺座標
|
formatting (FormattingType) |
統一された書式設定の文字グループ。 charParams要素のグループです。
認識に使われた言語名を表すlang属性を持ちます。
|
charParams (CharParamsType) |
1文字の属性。 タグにはcharRecVariants要素を含むことができる(処理メソッドのxml:writeRecognitionVariantsパラメータがtrueに設定されている場合)。
このタグには、以下の属性があります:
- l — 文字を囲む長方形の左辺座標
- t — 文字を囲む長方形の上辺座標
- r — 文字を囲む長方形の右辺座標
- b — 文字を囲む長方形の下辺座標
- suspicious — (オプション)このプロパティがtrueの場合、文字の認識が不確かであることを表します
- isTab — オプション)このプロパティがtrueの場合、文字がタブであることを表します
|
charRecVariants |
文字認識のバリアント(処理メソッドのxml:writeRecognitionVariantsパラメータがtrueに設定されている場合のみ可)。 charRecVariant要素を含む。 属性なし。
|
charRecVariant (CharRecognitionVariant) |
文字認識のバリアント(処理メソッドのxml:writeRecognitionVariants パラメータがtrueに設定されている場合のみ可)。
このタグには、以下の属性があります:
- charConfidence — この認識バリアントが正しいかどうかの推定
- serifProbability — この文字がセリフフォントで書かれたものかの推定
|
row (TableRowType) |
表の行(blockType属性がTableの場合に可)。 cell要素を含む。 属性なし。 |
cell |
表のセル(blockType属性がTableの場合に可)。 textタグのシーケンス
このタグには、以下の属性があります:
- colSpan — (オプション)列のスパン
- rowSpan — (オプション)行のスパン
- align — (オプション)このプロパティはタブストップの配置を表し、次のいずれかの値になります: Top, Center, Bottom (既定値はTop)
- picture — (オプション)セルにピクチャーしか含まれていないことを表します(既定値はfalse)
- leftBorder — (オプション)表セルの左辺スタイル。 次のいずれかの値になります: Absent, Unknown, White, Black (既定値はBlack)
- topBorder — (オプション)表セルの上辺スタイル。 次のいずれかの値になります: Absent, Unknown, White, Black (既定値はBlack)
- rightBorder — (オプション)表セルの右辺スタイル。 次のいずれかの値になります: Absent, Unknown, White, Black (既定値はBlack)
- bottomBorder — (オプション)表セルの下辺スタイル。次のいずれかの値になります: Absent, Unknown, White, Black (既定値はBlack)
- width — セルの幅
- height — セルの高さ
|
separatorsBox |
セパレータのグループ(blockType属性がSeparatorsBoxの場合に可)。separatorタグのシーケンス。 属性なし。 |
separator (SeparatorBlockType) |
シングルセパレータ(blockType属性がSeparator)の場合に可)またはセパレータグループ内のセパレータ。 startおよびend 要素を含む。 以下の属性があります:
- thickness — セパレータの幅をピクセルで正確に指定。
- type — セパレータのタイプを指定。次のいずれかの値を指定できます: Unknown, Black, Dotted
|
start (Point type) |
セパレータの始点。 以下の属性があります:
- x — セパレータ始点の横方向の座標を指定。
- y — セパレータ始点の縦方向の座標を指定。
|
end (Point type) |
セパレータの終点。 以下の属性があります:
- x — セパレータ終点の横方向の座標を指定。
- y — セパレータ終点の縦方向の座標を指定。
|
documentData |
全般的な書式設定プロパティと文書構造。 paragraphStylesおよびsections要素を含む。 |
paragraphStyles |
段落の書式設定スタイル。 paragraphStyle要素のシーケンスを含む。 |
paragraphStyle (ParagraphStyleType)
|
1つの段落の書式設定スタイル。 fontStyle要素を含む。 以下の属性があります:
- id — 段落の識別子。
- name — 段落スタイルの名前。
- mainFontStyleId — 段落の主要フォントスタイル。
- role — 段落のロール。 C次のいずれかの値を設定できます: text, tableText, heading, tableHeading, pictureCaption, tableCaption, contents(目次), footnote, endnote, rt (欄外見出し), garb (ゴミ), other, barcode, headingNumber
- roleLevel — (オプション)(既定値は -1、つまりこのロールでレベルが使えないことを表す)
- align — 段落の配置。 次のいずれかの値を設定できます: Left, Center, Right, Justified, CjkJustified, ThaiJustified
- before — (オプション)このスタイルでの段落前スペース(既定値は0)
- after — (オプション)このスタイルでの段落の後のスペース(既定値は0)
- startIndent — (オプション)段落1行目のインデント
- leftIndent — (オプション)段落全体の左インデント
- rightIndent — (オプション)段落全体の右インデント
- lineSpacing — (オプション)行の間隔
- lineSpacingRatio — (オプション)行の間隔(文字の高さに応じた比率で)
- fixedLineSpacing — (オプション)trueの場合、段落の行間隔は固定されます
|
fontStyle (FontStyleType) |
フォントのスタイル。 以下の属性があります:
- id — フォントスタイルの識別子
- baseFont — (オプション)
- italic — (オプション)trueの場合、フォントは斜体
- bold — (オプション)trueの場合、フォントは太字
- underline — (オプション)trueの場合、フォントは下線付き
- strikeout — (オプション)trueの場合、フォントは取り消し線付き
- smallcaps — (オプション)trueの場合、フォントはスモールキャピタル
- scaling — (オプション)フォントのスケール(既定値は1000)
- spacing — (オプション)文字の間隔(既定値は0)
- color — (オプション)フォントの色(既定値は0)
- backgroundColor — (オプション)背景色(既定値は0)
- ff — フォント名
- fs — フォントサイズ
|
sections |
section要素のシーケンスを含む。 |
section (SectionType) |
文書のセクション。 stream要素を含む。 |
stream (TextStreamType) |
段落とブロックのシーケンス。 mainTextとelemId 要素を含む。 以下の属性があります:
- role — (オプション)ストリームのロール。次のいずれかの値になります: garb, text, footnote, incut (既定値はtext)
- vertCjk — (オプション)trueの場合、ストリームは縦書きCJKテキストを含む。
- beginPage — ストリームが始まったページの番号
- endPage — (オプション)ストリームが終わったページの番号
|
mainText |
ストリームのテキスト。 以下の属性があります:
- rtl — (オプション)trueの場合、テキストは欄外見出し。
- columnCount — 列の数
|
elemId |
要素の識別子。 以下の属性があります:
|