遠出をするときはもっぱらPodcastを聞く。バスに乗るときはスマホで電子書籍も読んだりするのだが、車内で読むのは結構疲れるので結局Podcastに切り替えてしまう。
目で読むより耳で聞くほうが楽だ。ということで、電子書籍も耳で聞いたほうがいいだろうということで、仙台の移動に備えて手元のEPUBをオーディオブックに変換してみることにした。
ちょうど読もうと思って買っていたオライリーの『LLMのプロンプトエンジニアリング』を読み上げてもらうことにした。オライリーはプレーンテキストイズパワーを実践していてDRM Freeで販売しているので扱いやすい。今後LLM readableな形で書籍が入手できるのとそうでないところで埋められない知的格差が生まれそうだけど、日本はきっとしっかり立ち遅れるだろう。
自前でvibe codingしても良いと思ったが、こういうのは絶対誰かが作っているものだ。探してみると案の定epub_to_audiobookというのがあった。これを使うとWebUIが立ち上がってgpt-4o-mini-ttsを使っていい感じに章ごとに音声に変換してくれる。

gptのttsは現状では英語ほど自然ではないが、全然聞けるレベルという感じだ。うまく文節の区切りとかを検出しづらくて不自然な箇所はあるが、大体の流れを把握することができた。単なる音声の読み上げだけでなく、これを読んだ人のPodcastを生成するのも面白そうだ(NotebookLMにも搭載された)。
バスに乗って聞いていると結構無限に聞いていられる。1回目は音声で雑に聞いて興味深い話をざっくりサーチしておいて、細部をテキストで読むという方法がしっくり来た。違うモーダルを使って情報を摂取しているので脳への負荷分散になっている気もする。あとはNotebookLMに入れて対話的に思考を深堀りしていくということもできる。
メディアの役割が編集から「原液を作る」という役割に変わるという話はいい言語化だなと思う。ちょうど本の中にもLLMを特定のタスクにフィットさせようとすると他の性能が落ちてしまうという「アラインメント税」という話が出てきたが、人間も伝えやすいように変換する作業をさせるのではなくて、最初から全力で原液を作らせておいて、あとは受け取り側で適当に調整するほうが情報の流れは効率的になりそうだ。
なお、オーディオブックの管理や視聴は別で考えないといけない。これはaudiobookshelfというOSSがあるのでそれをセルフホストしてみようと思う。皆さんも快適な読書ライフを。
Discussion