弊所ではこれまで,登記情報等の PDF を変換する手段として,Fedora に含まれる Poppler の「pdftohtml」を利用していました。
しかし,変換時の不具合が発生したため,「pdftotext」へ切り替えることにしました。
この変更により,PDF→html に変換したうえで bash で文字操作を行っていた従来の仕組みを,PDF→テキスト(平文)へ変換してから処理する方式に改めました。
html とテキストでは性質が大きく異なります。
タグがなく,レイアウトの概念もないため,テキストの並び順や内容,さらには PDF の線の位置などから判断して精査する必要があります。
実際に確認してみると,土地や一般建物については情報の位置がほぼ一定で,それほど手間はかかりません。
一方,区分建物と会社登記はレイアウトや内容が多様であり,土地・一般建物に比べて複数のパターンに対応しなければならず,処理が複雑になりました。
さらに,テキスト精査は html を扱う場合よりも文字位置が安定せず,どうしても内容を逐一確認しながら処理する形となります。
そのため,bash の cut などの単純な文字操作では対応しきれず,変数展開を多用することになり,結果として処理速度も低下しました。
こうした調整を重ね,ようやく新しい登記情報変換システムが形になりました。
今後は,変換後のデータに誤りがないか確認しつつ,業務で安定して使えるよう整えていこうと思います。
