四次元ことばブログ

辞書と言葉に関するあれこれを、思いつくままに書き記しておくことにしました。

紙辞書を自炊する

このごろはいろいろな辞書に電子版が用意されており、わざわざ紙辞書を携帯する必要性は減ってきました。

 

とはいえ、市販の数十種類の国語辞書に目を向けると、電子版のあるもののほうがまだまだ少数派。普段使いの辞書に電子版が無く、やむを得ず鞄に紙の辞書を入れっぱなしにしている人も多いことでしょう。しかし、重たいし、紙はしわになるし、鞄の容積を圧迫するし、あまりいいことはありません。

 

かくいう私も、推し辞書である『現代国語例解辞典』に電子版がなく、たいへん困っていました。電子版、出してくれないかなあ……。

 

Necessity is the mother of invention.

 

f:id:fngsw:20160916225336j:image

 

そうだ、自分で電子化しよう。

 

使用機材

ScanSnap S1500 
FUJITSU ScanSnap S1500 FI-S1500

FUJITSU ScanSnap S1500 FI-S1500

 

 

現在は販売を終了。新しいモデルもあるので、新たに導入する方は下のものを。

富士通 FUJITSU ScanSnap iX500 (A4/両面/Wi-Fi対応) FI-IX500A

富士通 FUJITSU ScanSnap iX500 (A4/両面/Wi-Fi対応) FI-IX500A

 

 

 

カール事務器 裁断機 ディスクカッター A4サイズ DC-210N
カール事務器 裁断機 ディスクカッター A4サイズ DC-210N

カール事務器 裁断機 ディスクカッター A4サイズ DC-210N

 

 

コンパクトな裁断機としては言うことなしです。もう5年使っていますが、まだまだ現役です。

 

カッターナイフ

必須です。

 

はさみ

カッターで不便な場合に、補助的に使います。

 

表紙を切り離す

辞書というのは、たいがい立派な外箱があって、本体には丁寧にビニールカバーまでついているものです。電子化の際にはこんなものは不要なので捨てます。慣れていないと躊躇するでしょうが、一歩踏み出す勇気を見せましょう。私の場合、常用している辞書だったため、すでに外箱とビニールカバーは処分していました。

 

続いて、本体から表紙を切り離しましょう。

 

f:id:fngsw:20160916224914j:image

見返しを開き、のどにナイフを入れていきます。

 

f:id:fngsw:20160916225012j:image

背は本文の用紙とのりでくっついていますが、手でぺりぺりと剥がせました。本文の用紙は数ページずつ束になっていることがわかります。それぞれの背には書名が入っているんですね。セクシーです。

 

f:id:fngsw:20160916225037j:image

表紙と本文を切り離せました。

 

f:id:fngsw:20160916225058j:image

ついでに、表紙、背、裏表紙もばらばらにしておきましょう。世には、ばらさずスキャンする派閥、背と裏表紙は一体にしておく派閥など色々あると聞きますが、これは好みです。

 

本文を折丁ごとに分解

辞書の製本に用いられている綴じ方を「糸綴じ」「かがり」などといいます。複数の紙の束を糸で綴じているからこの名があるわけですが、このそれぞれの束を「折丁(おりちょう)」といいます。

 

f:id:fngsw:20160916225150j:image

折丁の間を丁寧に引き離すと、糸が出てきます。卑猥です。のりで補強されていることもあり、無理に引っ張ると紙が破れますので、慎重に。

 

裁断機には、当然ながら一度に裁断できる限界があります。この裁断の一単位として、折丁が目安になります。折丁3~4つ分くらいがちょうどよい具合でした*1。ナイフとはさみで丁寧に分解していきましょう。

 

f:id:fngsw:20160916225428j:image

手で軽く引き剥がしておいてから、糸とのりの強い部分を切っていくのが、能率的です。

 

f:id:fngsw:20160916225455j:image

分解できました。

 

裁断

いよいよ、のどの部分を裁断していきます。あまりギリギリでカットすると、ページどうしがうまく離れないことがあり、スキャナーの詰まりの原因になります。5ミリくらいを目安に裁断しましょう。

 

f:id:fngsw:20160916225604j:image

また、カラー口絵の前のページ(「遊び紙」というやつです)が、製本の都合で深めにのりづけされています。裁断だけでは離れていないことが多いので、剥がすのを忘れないようにしましょう。裏表紙側も同じです。

 

f:id:fngsw:20160916225533j:image

引っ張って剥がせばOKです。

 

f:id:fngsw:20160916225638j:image

これでスキャンの準備が整いました。

 

スキャン

あとはお好みの設定でスキャンしていくだけです。『現代国語例解辞典』は2色刷の辞書なので、カラーでスキャンします。解像度は300dpiで全く問題ないでしょう。ページがずれかねませんので、白紙ページを自動で削除する設定は忘れずオフにしておきましょう。

 

f:id:fngsw:20160916225723j:image

紙が薄いので、きっと詰まるだろうと恐れ、一度にセットする枚数はかなり抑えましたが、特に問題ありませんでした。まあ、慎重にやるに越したことはないと思われます。

 

なお、ScanSnapでは一度に1000ページまでしか連続でスキャンできません。超えた分は一旦別のファイルとして保存し、pdf編集ソフトで合体させましょう。

 

これで辞書の自炊はひとまず完了です。スマホに入れるなりiPadに入れるなりして、世界中へお気に入りの辞書を持ち運びましょう。

 

ちなみに私はiPadのpdfビューワー・i文庫HDで閲覧しています。

 

インデックスをつける

紙辞書をただpdf化しただけではあまりに使い勝手が悪いので、頭出しがしやすいようインデックスをつけましょう。とりあえず、「あ」「い」「う」「え」「お」「か」「き」……ときて、「わ」までしおりを設定するのがオーソドックスなやり方です。

 

f:id:fngsw:20160916230328j:image

これだけで格段に引きやすくなります。また、特に収録語の多いか行、さ行をもう少し細分化したインデックスをつけると、なお便利になります。

 

そしてOCRへ……

自炊電子辞書の理想形は、検索語を入力するとただちに該当するページを開いてくれる仕組みと、全文検索機能を実装したものでありましょうが、そこまでする手間は割に合いません。

 

じゃあせめて、OCR全文検索くらいなら可能にできないだろうかと、Adobe Acrobatのテキスト認識に突っ込んでみました。

 

しかし、上手くいきません。なぜって、辞書には特別な約物(記号)が多いので、まともな認識ができないのです。

 

完璧な電子化への道のりはまだ厳しそうです。

*1:裁断枚数の多い裁断機を用いる手もありますが、辞書は紙がかなり柔らかいため、綺麗に裁断するには相当の慣れが必要と思われます