サイボウズ株式会社

「SD総集編」のこだわり──1万9000ページをスキャンしてOCR、定価2000円台、技術の変遷を追体験

この記事のAI要約
Target この記事の主なターゲット
  • 技術系雑誌の読者
  • 歴史的な技術の変遷に興味を持つ人々
  • 出版業界関係者
  • 書籍や雑誌のデジタル化に関心を持つ人
  • オールドメディアと新興メディアの統合に関心がある技術者
Point この記事を読んで得られる知識

この記事を読むことで得られる知識は、技術評論社が「Software Design」という技術系月刊誌の総集編を作成する際、1万9000ページに及ぶ雑誌記事をスキャンし、OCR(光学式文字認識)を用いてデジタルデータ化するプロセスについての詳細がわかるという点にあります。この作業は、1990年から2012年までの2分冊に分けて行われ、これには大量の紙媒体をデジタル化する上での技術的および経済的な課題と、それを克服するための工夫が含まれます。特に、DTP(デスクトップパブリッシング)が導入される前の古い号のデータ化では、元データが存在しないため、スキャンしてOCRで文字情報を生成するという選択がなされました。こうした一連のプロセスは、制作に関わった編集者の視点から見ると、決して容易ではなく、多くの努力と創意工夫が必要だったことが理解できる内容になっています。また、技術の変遷を追体験するという側面からみても、古い技術や方法論に触れることは有意義であり、それが現代のイノベーションとどのように結びついているかを考えさせられます。これによって、技術者としての幅を広げる手助けになるという言及も重要です。

Text AI要約の元文章

tech

「SD総集編」のこだわり──1万9000ページをスキャンしてOCR、定価2000円台、技術の変遷を追体験

この春、技術評論社は、月刊誌「Software Design」の記事をPDFとして収録した総集編を「1990年~2000年」「2001年~2012年」の2分冊で発売しました。雑誌の「総集編」というと、既にあるコンテンツを再利用するだけの「お手軽ビジネス」と思われがちですが、実際に制作する側の視点で考えると、そんなに簡単な話ではない場合も多いのです。しかも、1990年からと言えば、雑誌制作にDTPが導入される以前の状況でもあるので、なおさら大きな困難が横たわっていることは容易に想像できます。

ということで、担当編集者の吉岡 高弘さん(技術評論社、Software Design編集部)に、制作の舞台裏についてお話を伺ってきました。

企画のきっかけ

「2010年に最初の総集編(2000年~2009年の記事を収録)が出版されています。その流れで、私が入社した2011年4月には、『また総集編をやろう』という話がすでにありました。具体的な時期や収録内容などは決まっていませんでしたが、『いずれやるから考えておいて』と当時の編集長に言われていました。その後、企画会議を通って実際に動き始めたのは、2012年の10月ぐらいからです」。

2010年2月に発売された「Software Design総集編【2000~2009】」。

「2010年に一度、総集編という形をやっていたこともあって、テーマ別に再編集して差別化する、という話が出たりもしました。しかし、やはり総集編は『全部入り』だから買ってもらえるという面があるので、最終的には全期間を収録するという今の形に落ち着きました。また、2010年に出したものに新しい号の3年分を追加して『2000年~2012年』とするだけでも、それなりに売れるかもしれないという意見もありましたが、どうせなら、ということで創刊号からの全部の号を収録することにしました」。

創刊号からの全号を収録するという企画は、吉岡さんが言い出したものだとか。

「創刊号からの全バックナンバーを収録するというのは、個人的には、やると面白いんじゃないかとずっと考えていました。編集部には創刊号からの雑誌がすべて揃っているのですが、総集編でも作らない限り、これらが日の目を見ることはもうないんじゃないかと思って。編集会議の席で、ダメ元で話したら、意外に面白いんじゃないかという話になり、データ量の関係もあって2分冊でやろうということになりました」。

「Software Design総集編」を担当した、同編集部の吉岡 高弘さん。

吉岡さんが技術評論社に入社したのは、2年ほど前。それまでは大手メーカーのグループ企業でSEとして職を得ていましたが、一念発起して元々興味を持っていた編集者に転職し、配属されたのがSoftware Design編集部でした。今回手がけた2冊の「総集編」が、書籍としては、吉岡さんが担当して世に出た最初の「作品」だそうです。

編集という仕事を知っていれば知っているほど、昔の誌面をデータ化することの大変さがリアルに想像できるので、おいそれと「創刊号から収録」とは言えなかったでしょう。入社して間もない吉岡さんが担当だったからこそ「創刊号から」というチャレンジが可能だったと言えるかもしれません。

データ化の割り切り

「DTPのデータがあるものは、そこからPDFを作りました。でも、2000年より前だと、DTPデータを探すのも大変だし、さらにその前は、そもそもDTPではない時代だったので、これらについては、データは最初から諦めて、スキャナでスキャンすることにしました」。

「もちろん、本来はきちんと元データからPDF化すれば、見た目もきれいだし、検索もできるので、当然、読者には便利だろうなというのは分かっていました。でも、古い号でもそれを押し通そうとすると手間がかかってコストが上がるので、この値段(2079円~2499円)では出せなくなってしまいます。Software Designの総集編は『買いやすい値段』という点も読者の皆さんにご評価いただいているので、いくらこだわって作ったからと言って値段が高くなってしまうのは意味がないだろうなと」。

2013年版「Software Design総集編」。【1990年~2000年】が2499円、【2001年~2012年】が2079円。

「なので、その辺はある程度割り切って、過去の記事が読めればいいということで、検索用のテキストはOCRで生成することにしました。OCRでは精度の問題があるので、完璧な文字データにはならないけど、検索用と割り切ればそれでもいいんじゃないかと。記事内容をコピーするといった用途には不向きかもしれませんが、検索して目的の記事にたどり着き、それを読む分には十分でしょう」。

スキャンとOCRは外注

「実際にOCR処理を編集部で試してみたら、1C(1色刷り)のページは何とかなるものの、4C(4色刷り)のページは明らかに読み取り精度が落ちてしまいました。その点、経験豊富な業者にお願いすれば、4Cのページも精度良く仕上げてもらえるので、思い切ってお願いすることにしました」。

ちまたで電子書籍の気運が盛り上がり、実際に図書館や官公庁などでも紙の書籍をデータ化する動きが広まったことで、紙の本をスキャンする業者が、それこそピンからキリまで多数出現しました。創刊号からの全号をデータ化し、しかもリーズナブルな価格で総集編を提供できることになったのは、こうした時代背景によるところも大きかったと言えるでしょう。

「ページのスキャンは、裁断しないで、という条件でお願いしました。古い号は編集部にも1冊しかなかったので。業者さんは1ページずつ手作業でスキャンされていたみたいです。昔の号は、ページレイアウトが結構自由で、ノド(綴じられている部分)のギリギリまで要素が配置されていたりして、スキャンによってタイトルや図版の一部が切れてしまったところもあります。そこは、昔の編集者を恨むことにして(笑)、仕方がないと割り切りました」。

今、バックナンバーを読む意義

業者側でもチェックされていたとはいえ、編集部でもチェックは欠かせません。吉岡さんは、アシスタントと2人で、およそ1万9000ページにもなる全ページをチェックしたそうです。こうした作業を通じて、吉岡さんは気づいたことがあると言います。

「昔から本誌で書いていただいている著者の方と、こんな話をすることがあります。いまのベテランと呼ばれる技術者の方々は、コンピュータ技術が発展するのに合わせて学び、スキルを身につけてきました。しかし、今の若い人たちは、そういう過程がなく、いきなり便利なものがすべて用意されている環境から入ることになります。そうすると、技術の背景にある深いところ、技術の土台のようなものに触れる機会がなく、それによって技術者としての幅というか、深さが違ってきてしまうのではないかな、と」。

「雑誌のバックナンバーは、情報としては古くて、ただの読み物にしかならない記事も多いと思いますが、それでも中には、OSの仕組みとか、UNIXのコマンド1つ1つを解説した記事とか、今なら連載記事としてはやれないようなトピックもたくさんあります。自分でキャッチコピーとしても書きましたが『技術の変遷を追体験』するというのも良いのではないでしょうか。そういう目的でも、この総集編を使ってもらえたらと思います。」。

ちなみに、今回の2冊の総集編に関係していた著者の総数は約1700人にもなるそうです。記事一覧を作成し、そこから著者一覧を作成するというだけでも、かなり骨の折れる仕事です。最近はあまり見かけませんが、昔は、1人が同じ号に何本も記事を書いたりすることがあり、そうすると、記事ごとにペンネームを変えることも珍しくありませんでした。そういう人も追跡しなければならないと考えると、いかに大変な作業か分かるかと思います。

なお、連絡がついた筆者のうち、亡くなられている方が2名ほどいらっしゃったそうです。22年という歳月の重さを感ぜずにはいられません。 (了)


この記事(「Software Design総集編」の写真を除く)を、以下のライセンスのいずれかで提供します:「GPLv2またはそれ以降」「GFDL」「CC-BY-SA

これ以外のライセンスをご希望の場合は、お問い合わせください。


変更履歴:
2013年7月9日:「Book」カテゴリをタグに変更しました。

タグ一覧

  • Book

SNSシェア

  • シェア
  • Tweet

Pick Up人気の記事