Fedora42 から 43 にアップデートした際,「pdftohtml」を含む Poppler が同時に 24.x から 25.x へ更新されました。
通常であれば特に問題は生じませんが,登記情報の PDF を html に変換したところ,書式が大きく変わってしまいました。
アップデート前
┏━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ <br/> ┃専有部分の家屋番号│710-1 ~ 710-44 ┃ <br/> ┠─────────┴─────────────┬──┬───────────┬─────┬───────────┨ <br/> ┃ 表 題 部 (一棟の建物の表示) │調製│平成8年7月11日 │所在図番号│ ┃ <br/>
アップデート後
┏━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓<br/> ┃専有部分の家屋番号│710-1 ~ 710-44 ┃<br/> ┠─────────┴─────────────┬──┬───────────┬─────┬───────────┨<br/> ┃ 表 題 部 (一棟の建物の表示) │調製│平成8年7月11日 │所在図番号│ ┃<br/>
レイアウトが変わっただけでなく,アンダーバーを含む文字が取り込めなくなるなど,変換精度に影響が出ています。
これにより,申請書・委任状・各種物件データや役員データの管理で使用していた自作の変換ソフトが,文字数やタグ構造の変更にまったく対応できなくなりました。
仕様変更は避けられず,作業全体の見直しを迫られています。
そこで,変換手段を「pdftohtml」から「pdftotext」に切り替えることにしました。
ただ,「pdftotext」では登記情報特有の全角スペースがうまく変換されず,従来の「文字数で位置を特定する方法」が使えなくなりました。結果として,線やレイアウトを手がかりに判定する方式へ移行せざるを得ません。
一日でも早く状況に対応し,システムを復旧させたいところです。
