想定外のPoppler更新で大混乱：登記情報変換の再構築記 | 相続・遺言なら山下司法書士事務所（長野市）

弊所ではこれまで，登記情報等の PDF を変換する手段として，Fedora に含まれる Poppler の「pdftohtml」を利用していました。
しかし，変換時の不具合が発生したため，「pdftotext」へ切り替えることにしました。

この変更により，PDF→html に変換したうえで bash で文字操作を行っていた従来の仕組みを，PDF→テキスト（平文）へ変換してから処理する方式に改めました。

html とテキストでは性質が大きく異なります。
タグがなく，レイアウトの概念もないため，テキストの並び順や内容，さらには PDF の線の位置などから判断して精査する必要があります。

実際に確認してみると，土地や一般建物については情報の位置がほぼ一定で，それほど手間はかかりません。
一方，区分建物と会社登記はレイアウトや内容が多様であり，土地・一般建物に比べて複数のパターンに対応しなければならず，処理が複雑になりました。

さらに，テキスト精査は html を扱う場合よりも文字位置が安定せず，どうしても内容を逐一確認しながら処理する形となります。
そのため，bash の cut などの単純な文字操作では対応しきれず，変数展開を多用することになり，結果として処理速度も低下しました。

こうした調整を重ね，ようやく新しい登記情報変換システムが形になりました。
今後は，変換後のデータに誤りがないか確認しつつ，業務で安定して使えるよう整えていこうと思います。