オリジナルコラム

出版がわかる!企画から書店販促のすべて

[第83回]-著作権フリーの98万冊データセット、公開始まる

2025.06.26

 昨年(2024年)11月、当コラムでGoogleの書籍デジタル化事業が著作権裁判で行き詰まっていることをお知らせしました。

[第53回]-これはデジタル版積ん読か。どうなる?2500万冊の書籍データ
2016年にGoogleの勝訴で終わったのですが、結局はGoogleは一般公開もデジタル販売も行わないまま・・・、今では貴重な古書や絶版となった書籍、合計2500万冊もの書籍データは、誰に読まれることなく、今もデジタルの闇の中で眠り続けているのです。
(2024年11月20日 当コラム)

 最近、その状態から動きがあったようです。ハーバード大学ロースクール図書館が所蔵する98万3000冊の書籍から、テキストをデータ化したデータセット「Institutional Books」が公開されました。

著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用
(GIGAZINE 2025年06月13日)
https://gigazine.net/news/20250613-institutional-books-google-harvard/

 公開されたデータセット「Institutional Books」の大元は、「データセットの作成にはGoogleブックスの成果が活用」されたと書いてあります。

 「Googleブックス」とは、Googleがデータ収集した約2500万冊の全文検索サービスでしたが、先のコラムに書いた通り、作家、出版社、版権所有者の強い反対により頓挫したサービスです。

 2500万冊は無理でしたが、ハーバード大学ロースクール図書館の98万冊は著作権フリーと言うことで、誰もが検索で活用できるのですから、一歩前進したといえるでしょう。

 書籍の出版年は「1800年から1900年頃に記された書籍が多かった」とのこと。19世紀~20世紀にかけての知識が広く公開されるのは大きな成果です。

---------------

 日本では古文書の扱いはどうなっているでしょうか。江戸時代以降は日本各地で文書記録の習慣が根付いたため、寺社や個人の土蔵には数多くの古文書がいまだ手つかずで眠っていると言われています。

 筆者が生まれ育った佐賀県の東端にある「基肄養父(きやぶ)・田代地区」は江戸の始めに対馬藩田代代官所が置かれたため、代官所日誌や公文書が大量に残されました。
 この地域は、対馬藩であったり幕府直轄領に変わったりと変遷があり、また国境で宿場が栄え、さまざまな目的の流人が跋扈していためずらしい地域でした。

鳥栖市誌の資料編、研究編を紹介します
(鳥栖市公式サイト 2020年12月4日更新)
https://www.city.tosu.lg.jp/soshiki/26/1820.html


 江戸幕末には(登録した仏教ではない)新興宗教が流行して、代官所が調べたところ2千人以上が入信しており、代官所内にも信者が見つかりついに処罰を諦めて穏便に済ませたようです。

幕末期における異端的宗教活動の摘発
-対馬藩田代領「新後生」の場合-

(著者:大橋 幸泰 2015年3月)
https://core.ac.uk/download/pdf/286928594.pdf


 江戸時代の人々が、教科書通りに幕府や役人に唯々諾々と隷属していた訳ではないことにとても興味を覚えました。こうしたことがわかるのも古文書を読み解く研究者がいるからこそです。

 日本の古文書研究はまだ始まりに過ぎません。古文書の中身は過去の出来事ですが、その中にこそ私たち祖先の息づかいが聞こえてくるとは思いませんか。(水田享介)

一覧へ戻る ▶