PDFの文字を文字として認識させて検索できるようにする方法(OCR)

PDFを業務で一般的に使用される方が多いと思います。
ただ、PDFが文字として認識されていない場合は、文字の検索ができなかったり、WordでPDFを開くことができなかったりするので、そのPDFを文字として認識させるための方法を記事にします。

PDFの文字を文字として認識させる方法

PDFの文字を文字として認識させるにはOCRという技術を使います。

OCRとはWikipediaの説明を引用すると、「光学文字認識(こうがくもじにんしき、英: Optical character recognition)は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真(風景内の看板の文字など)、画像内の字幕(テレビ放送画像内など)が使われる[1]。一般にOCRと略記される。」という技術です。

これにより、PDFの文字が文字コードとして認識されて、特定の文字を検索したり、WordでPDFを開いたりすることができるわけです。

なのでそのOCR技術を提供しているサービスを利用します。

有料でもいいなら一番OCR技術が高いと思うのは、Adobe製品ですが、無料でOCR技術を利用するなら前回紹介したこちらのi love pdfがいいかと思います。

まずは、こちらからi love pdfを開きます。

開けたら右下にある「OCR PDF」を開きます。

開けたらファイルをアップロードして、出来上がったPDFファイルをダウンロードします。

それで文字が検索できたり、Wordで開けるか確認してみてください。

  • 関連記事
  • おすすめ記事
  • 特集記事

コメント

この記事へのコメントはありません。

PAGE TOP