[実証実験]EPUBからPDFへ、電子書籍が印刷書籍に変わるしくみ
2015年12月17日 / 実証実験レポート
12月16日に「impress QuickBooksの電子書籍をNextPublishingのPOD書籍で販売開始」というプレスリリースを配信しました。impress QuickBooksのEPUBファイルをNextPublishingのしくみを使ってPDFに変換し、そのままNextPublishingのPOD流通網で販売を開始したというものです。今回は、その背景を紹介します。
組版データをもたない、デジタルファーストのimpress QuickBooks
impress QuickBooksはスマートフォンなどの電子端末で気軽に読める「電子生まれの」電子書籍レーベルです。印刷書籍の単なる電子化ではなく、企画段階から電子書籍に特化した制作手法を採用しているのが特徴です。2012年2月の開始以来、約400点の電子書籍タイトルを発行しています。
今回の取り組みは、電子書籍生まれのコンテンツを印刷書籍として再流通してみようというものでした。
具体的には、EPUBファイルの内部構造を解析し、印刷書籍のフォーマットにあうよう構造化するプログラムを開発することで、impress QuickBooksの5タイトルのPOD書籍化を行いました。
構造を持たないEPUBをどう変換するかが課題
今回のPDF変換で課題となったのが、構造化されていないEPUBをどう変換するかという点です。
ここでいう構造化とは、見出しといった属性が正しく定義されているものを指しています。h1といったタグやclass名で表現されていればOKです。NextPublishingでは、このタグとclass名の組み合わせにより、デザインを設定しています。また、hタグの段落は目次生成にも利用しています。
impress QuickBooksの初期コンテンツは、XMDFやドットブックといった従来型の電子書籍ファイルで納品していました。実はこれらを元に変換したEPUBは、hタグ相当の構造が定義されていなかったのです。目次ページからリンクされてジャンプしますし、本文よりも大きなサイズになっているなど、見た目上は見出しですが、HTMLのタグレベルではそのような情報が存在していないのです。NextPublishingで変換するには、非常にやっかいなファイルでした。
今回開発したのが、こうした構造を持たないEPUBを構造化するプログラムです。仕組みはシンプルです。見出しとして表現されている箇所のパターンをまず洗い出し、そのパターンに当てはまる箇所を見出しとして再定義するようにしました。変換用のマッピングテーブルを作成するなど、一部手作業は残っていますが、これによりさまざまな形式のEPUBの変換ができるようになりました。
impress QuickBooksのPOD化のために開発した仕組みは、まだ外部公開可能な状態ではありませんが、なるべく早くNextPublishingの1メニューに組み込む予定です。