機械学習系の教科書としてはそこそこの知名度のある「The Elements of Statistical Learning」(通称ESLまたはHastie)は,全ページのPDFが公式で配布されている.

Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition.

これは輪講に使えそうだということで色々と準備をしているのだが,このpdfには一つ気になるところがあって,それはページの余白が大きいということだ.右上にトンボの一部と「Printer: Opaque this」という文字が書かれているように,おそらく印刷所に出す前のpdfをそのまま配布しているらしい.pdfが配布されているだけ有難いというものではあるものの,このままでは少し読みづらい.ということで,余白を良い感じに自動で削れるツールを探して,文字だけの部分を抜き出してみた.

brissで余白をトリミングする

今回は「briss」というJavaアプリケーションを使ってみる.

[Mac] 自炊に!PDFのページを重ねて一発で余白を切り取る「briss」 « Appdrill

使い方は上のリンクを参考にしていただくとして,pdfを読み込んだ画面が以下のようになる.

これは1ページ目だけを除いた残りのページを全て重ねあわせたたもので,右ページ中央に表示されているグチャッとした部分がpdfのテキスト部分となる.水色の透過の部分がトリミング後に残る箇所を表しており,読み込んだ際に自動で設定される.左上と右下の四角をドラッグすると範囲を手動で選択できるが,下手にやると右ページと左ページでpdfサイズがズレることがあるので,今回のESLのpdfの場合は自動で設定されたものをそのまま使った方がいいだろう.

トリミングを実行して出力されたpdfを開くと,このような感じになる.

今回の場合は本当に文字ぎりぎりという感じだが,iPadで眺めたり印刷する際にはちょうどくらいだ.これでストレス無くESLを読む事ができる.