ページ毎に同じ文字列が出力されるPDFの場合は、「Replace Tool」というアプリを利用した置換処理で、ページ数を把握できます。
PDFをテキストに変換した後、置換処理します。テキストへの変換は「Adobe Readerですべてコピーし貼り付け」を参照してください。
注意点は、テキストの文字コードです。「Replace Tool」で実行する文字コードとテキスト保存されたファイルの文字コードは同じにする必要があります。
ここでは、「UTF-8のBOMあり」を利用し、動作確認しています。Notepad++にて「UTF-8のBOMあり」でテキストを保存する方法は、任意の文字コードで保存を参照してください。
以下は、「ひとつずつ」で紹介している問題集を利用した例です。この問題集のPDFには、再配布を抑制するため、購入者のメールアドレスを含む以下のような文字列が埋められています。ページ毎の末尾に挿入されているため、この文字列を利用して、ページ数に置換処理します。
「This document is licensed to user@domain.com」
- 「Replace Tool」は、Vectorからダウンロードできます。
- ダウンロードしたZIPファイルを任意の場所に展開します。
- 展開したファイル内のReplaceTool.exeを実行すると、「一発置換ツール」が起動します。なお、ReplaceTool自体のインストール処理は不要です。
ただし、.NET Frameworkは必要です。ReplaceTool.exe実行時に、求められた場合は画面の読みあげに指示に従い、ダウンロード・インストールします。
インストールが完了すると「閉じる」と読み上げます。.NET Frameworkインストール後、再度、ReplaceTool.exeを実行します。 - 「検索文字列:エディット」と読み上げる場所で、置換対象の文字列として、「This document is licensed to user@domain.com」などを入力します。
- TABを一回押下し、「エディットブランク」と読み上げる場所では、置換後の文字列を入力します。今回の例では「ページ」と入力します。
- TABを一回押下し、「連番をつける」には、スペースキーでチェックをいれます。
- TABで移動し、「文字コードのコンボボックス」と読み上げる場所で、上下キーを利用し、「UTF-8」を選択します。このUTF-8はBOMありです。BOMなしの選択はできないようです。
- ALTキーでメニューの「ファイル」から「ファイルを追加」を選択します。「Open Files」(ファイルを開く)で変換するテキストファイルを選択します。
- メニューの「ファイル」から「置換開始」を選択します。置換処理が実行されます。
- TABで移動し、「エディット 複数行 読み取り専用」と読み上げる場所で置換処理数とエラー数を確認できます。今回の例では、「置換640、エラー0」と読み上げます。
- メニューの「ファイル」から「終了」でアプリケーションを閉じます。