人文情報学月報第152号【前編】

Digital Humanities Monthly No. 152-1
ISSN 2189-1621 / 2011年08月27日創刊
2024年3月31日発行 発行数1103部

目次

【前編】

  • 《巻頭言》「近世史料の年代差と歴史 GIS 研究
    夏目宗幸九州大学大学院人文科学研究院
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第68回
    AI が拓くパピルス文献学の新たな地平:ウェスウィウス・チャレンジ
    宮川創人間文化研究機構国立国語研究所研究系

【中編】

  • 《連載》「仏教学のためのデジタルツール」第16回
    デジタル版『教行信証』
    井上慶淳浄土真宗本願寺派総合研究所
  • 《特別寄稿》「歴史研究における「解釈行為」をモデル化する試み(2)
    小川潤ROIS-DS 人文学オープンデータ共同利用センター

【後編】

  • 《特別寄稿》「Dhammachai Tipiṭaka Project
    青野道彦一般財団法人人文情報学研究所
  • 人文情報学イベント関連カレンダー
  • イベントレポート「西洋中世学会若手セミナー:西洋中世学研究者のためのデジタル・ヒューマニティーズ入門
    纓田宗紀アーヘン工科大学
  • 編集後記

《巻頭言》「近世史料の年代差と歴史 GIS 研究

夏目宗幸九州大学大学院人文科学研究院助教

私は近世江戸近郊地域における新田開発と鷹場などに関する研究において、空間的な考察を加えるための手法の一つとして GIS を用いてきた。一般に GIS を人文学に応用した研究においては、大量のデータから必要な情報を抽出し、意義のある成果を見出すことにある場合が多いのではないだろうか。しかし、自身が対象とする日本近世史の研究においては、そのあたりの事情が、近世における年代差によって大きく異なっていたと感じている。

その違いが生まれる要因を考えてみると、現存している史料の量と性質が変化する時期に重なるようである。八代将軍徳川吉宗の御代である享保期(1716~1736)以降、幕府は作成した公文書の保存を徹底するようになったことは比較的よく知られている。そしてその効果は、幕府が直接作成する文書に限定されず、いわゆる地方文書と言われる民間で作成されたり、写されて保存される文書数の増加にも影響を与えた。そのことは、現存する史料の数が、この頃を境に飛躍的に増加することからも見て取れる。そして、こうした時代になってくると、村の庄屋が作る文書類も各地で定式化してゆき、現代で言えばテンプレート的なもの基づいた文書の作成がなされていく。このように大量に生み出された文書は、作られた文書の目的や、記述される項目も共通することから、GIS データ化する際のスキームの調整もまた容易なのである。

近世後期には、幕府・各藩において、地誌編纂事業が活発化する。これらの多くは、当時の幕藩権力がその統治下にある領地の権力基盤を強化する目的で作成されていた。こうした地誌の編纂者は、領内の情報を偏りなく集めるために、各地の地域情報を分かりやすい項目に振り分け、統一的基準に基づき網羅的に記述させた。こうして整備された地誌もやはり、データの構造化がある程度進んでいて GIS を用いた研究への親和性は非常に高いといえる。つまり、こうした史料が数多く登場する近世中期以降を研究対象とした場合、GIS のデータ整備にも非常に有利な状況を生み出しているのである。そうした意味で近世末の全国の所領と石高が記された『旧高旧領取調帳』などは、GIS への親和性が最も高い史料の一つであろう。

こうした実感を基に歴史 GIS 分野でのデータ整備と研究を考えてみると、考古学的資料に依拠した歴史 GIS の研究は別として、史料に依拠する研究は、近世前期以前を対象とするものと、近世中期以降を対象とするもので、ずいぶん用いうる手法が大きく異なる。

近世前期以前においても、中世では、戦国大名長宗我部氏による土佐国全土の検地結果をカバーした『長宗我部地検帳』や、同じく戦国大名である後北条氏が南関東における家臣団の役を記した『小田原衆所領役帳』、近世前期では、正保国絵図の整備に際して同時に整備された石高帳である『正保郷帳』や、会津藩の藩撰地誌である『会津風土記』など、統一的基準に基づき、網羅的に整備された史料は存在する。しかし、こうした事例は極めて例外的なものである。これらは、ある特定の年代と地域に関して、膨大な情報を提供してくれる一方、他地域との比較に用いようとした場合には、特定の年代と地域の情報にのみ解像度が高くなってしまい、研究には様々な困難が伴う。自身の今後の研究の方向性を考えた場合、こうした網羅性をもつ稀有な史料は可能な限り扱っていきたいが、これらには限界が来ることも想定できる。

こうした場合、網羅的な情報を持つ史料を用いた研究を進める一方で、歴史GISにおける新しい方法論の探求を続けることも同時に重要だ。具体的には、限られた史料から過去の景観を復原するにはどうしたら良いのか、合理的な方法はあるのか、等の問いが立つ。現在、GIS の技術は、以前にもまして目まぐるしく発展を遂げており、新たな技術革新が次々と起こっている。こうした最新動向を追い、応用できるものは積極的に導入するべきである。それと共に、歴史 GIS 分野(特に近世前期以前を扱う)では、データが殆どない所から生み出す作業も必要となる。そのためには、いわゆる「枯れた技術」と言われるような、誰もが知る技術なども、本来の目的と異なる使い方をしたり、工夫して他と組み合わせて使うことによっても、歴史 GIS という分野における新たな知見を加える糸口になりうると考えられる。

執筆者プロフィール

夏目宗幸(なつめ・むねゆき)。九州大学大学院人文科学研究院助教。京都大学大学院人間・環境学研究科博士後期課程修了。立命館大学文学部特任助教を経て、現職。2024年4月より徳島大学大学院社会産業理工学研究部に着任予定。専門は、歴史地理学・地理情報科学。近年の関心は、近世江戸周辺における新田開発と鷹場支配。
Copyright(C) NATSUME, Muneyuki 2024– All Rights Reserved.

《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第68回

AI が拓くパピルス文献学の新たな地平:ウェスウィウス・チャレンジ

宮川創人間文化研究機構国立国語研究所研究系

ウェスウィウス・チャレンジ(Vesuvius Challenge)[1]は、単なる技術的挑戦を超えた、デジタル・ヒューマニティーズ(DH)の新たな可能性を示す壮大な実験である。それは、人工知能(AI)という最先端のテクノロジーを駆使して、約2,000年前の歴史的遺産に挑むプロジェクトである。火山の猛威によって失われかけた古代の知を、デジタル技術で復活させる。そこには、過去と現在、人文学と情報学の融合が生み出すダイナミズムがある。

ヘルクラネウム出土の炭化パピルス巻物は、長らく人文学の「空白地帯」だった。1,800巻以上が発見されながら、その大半が読まれずに眠っていた。炭化しているため、開くと崩れる心配がある(図1)。また、表面を見ることができたとしても、インクが識別できないことが多かった。伝統的なアプローチでは、内容を明らかにすることが極めて困難であった。ところが、ウェスウィウス・チャレンジは、そうした限界を突破する革新的な方法論を編み出した。それが、X 線による輪切り透視の技術である CT(Computed Tomography:コンピュータ断層撮影)と AI(Artificial Intelligence:人工知能)を活用した非破壊的デジタル解読である。

図1:炭化したヘルクラネウム・パピルス文書のうちの1巻[2]

ヘルクラネウムのパピルスは、79年のウェスウィウス(現代イタリア語でヴェスヴィオ)火山の大噴火により火山灰や高温の火砕流に覆われ、一瞬で炭化したものである。ウェスウィウス火山は、ナポリ近郊の活火山で、その火砕流は、近隣の街である古代都市ポンペイを飲み込んだことで有名である。ヘルクラネウム(現代のエルコラーノ)もそうして火砕流によって飲み込まれた古代都市の一つである。今回のパピルス文献はこのヘルクラネウム遺跡の通称「パピルス荘」という建物から見つかったものだ。通常、パピルスは湿気や虫食いなどで劣化しやすい素材であるが、炭化したことで逆に保存状態が良くなり、2000年近く経った現在でも多くの巻物が発見されているのである。しかし、炭化により物理的に脆くなってしまったため、巻物を開くことが難しく、長らく内容を解読することができなかった。

現在までパピルス文献の多くはエジプトで発見されてきた。このカヤツリグサ科パピルス草を加工して生産されるパピルスは、古代エジプトで紀元前26世紀頃にはすでに使われていたことが確認されている。エジプトの他にも、古代ギリシアや古代ローマなど地中海沿岸の様々な地域でもパピルスが使われていたことがわかっている。しかし、エジプト以外の地域では、そのほとんどが、湿気によって失われてしまった。そんな中、ヘルクラネウムのパピルスは、炭化したことで保存状態が良く、エジプト外で出土した、2000年近く前の文書を現代に伝えてくれる希少な例でもある。

CT スキャンと AI を活用した非破壊的デジタル解読により、これまで読むことができなかったヘルクラネウムのパピルスの内容が明らかになれば、古代ローマの文化や思想に関する新たな発見が期待でき、またパピルスの解読技術が進歩することで、他の古代の文書の解読にも応用できる可能性がある。このように、ヘルクラネウムのパピルスは、その炭化の経緯や保存状態の良さ、内容の希少性から、非常に価値の高い歴史的資料であると言えるのである。

プロジェクトを率いるケンタッキー大学の計算機科学者ブレント・シールズ(Brent Seals)教授は、20年来の構想を実現すべく、最新鋭のイメージング技術と AI アルゴリズムを組み合わせた。まず最初に、CT スキャンで巻物の構造を精密に捉え、独自の3D レンダリングソフトでバーチャルに「アンロール」した[3]。

しかし、CT スキャンで炭化したパピルスの巻物をコンピュータ上で平面に開く状態にできたものの、それだけではインクが非常に不明瞭で文字を判読することができなかった。そこで、シールズ教授らは、Kaggle で行われているようなコンペティションに着想を得て、ウェスウィウス・チャレンジを開催した。ヘルクラネウム・パピルスのうちの公開された、それぞれ140文字からなる4つの巻物のデジタルデータを解読するため、世界中の様々なチームが、AI モデルの開発競争を行った。2023年と2024年に分けて、様々な賞と総額 $1,000,000以上に上る賞金が用意されている。スポンサーにはイーロン・マスク氏のマスク財団など、非常に多くの個人や団体が名を連ねている[4]。2024年2月5日、2023年の受賞者が発表された。2023年最優秀賞(Grand Prize)は、ルーク・ファリター(Luke Farritor; アメリカ合衆国)、ユセフ・ナデル(Youssef Nader; エジプト出身ドイツ在住)、ユリアン・シリガー(Julian Schilliger; スイス)の3人が選ばれ、彼らに $700,000が贈られた[5]。

彼らは、ディープラーニングとコンピュータビジョンの技法を駆使し、パピルス巻物のテキストの85%以上を解読した。さらに、チャレンジの対象にないテキストも解読し、合計2000文字以上を解読した[6]。彼らは、機械学習モデルを適用し、様々な既知のパピルス文献の実例を学習させて、パピルスとインクの微細な差異から炭化したパピルスに書かれたテキストを浮かび上がらせた。

この解読されたテキストには、古代ローマのエピクロス派哲学者フィロデモス(Philodemus)の思想が書かれていることがわかった(図2)。その言語は古代ギリシア語である。このように、AI はそのテキストを単に復元するだけでなく、現代的な人文知に照らし合わせて、新たな知見を生み出すきっかけともなり得る。常に進化している AI が、人間の知識を拡大する。そんな共進化のビジョンが、ウェスウィウス・チャレンジから見えてくる。

図2:AI によって再現されたヘルクラネウム・パピルスの一部(PHerc.Paris. 4 (Institut de France))[7]

もちろん、AI の活用には慎重な議論も必要である。AI が導き出す「真実」を無批判に受け入れるべきではない。誤った情報を生成するハルシネーションの問題はもちろん、教師データの偏りや著作者の権利、アルゴリズムの不透明性などの問題にも目を向けなければならない。だが、ウェスウィウス・チャレンジは、そうした課題にも真摯に向き合う姿勢を見せている。シールズ教授らは、AI モデルの精度を厳しく検証し、読みの根拠を明示することを重視する。閉じたブラックボックスではなく、開かれた議論の場を作ろうとしている。不確実性を認めつつ、協働的に知識を練り上げていく。それは、DH 的な探究の本質でもある。

DH は今、大きな転換点を迎えている。AI の目覚ましい進化は、従来の方法論を根底から揺るがし、新たな可能性を切り拓いている。ウェスウィウス・チャレンジは、その最前線に立つ野心的な試みである。炭化したパピルス巻物という「極限の文献資料」に挑むことで、ウェスウィウス・チャレンジは、AI が人文学の扉を開く鍵になることを示した。

2024年、ウェスウィウス・チャレンジは新たなフェーズに入る。4巻の巻物の90%以上の解読を目指すという。それはもはや、パズルのピースを埋めるだけの作業ではない。断片から全体を復元し、テキスト全体を再構築する創造的な挑戦である。そこには、AI と人文学の真の協働が必要とされる。

ウェスウィウス・チャレンジの成功は、DH のこれからを象徴している。それは、「理系」と「文系」の垣根を越えた、新たな知のエコシステムの物語だ。AI という最先端のテクノロジーと、人文学という最古の知的営みが出会い、化学反応を起こす。シールズ教授らの偉業は、その反応の触媒となるだろう。2,000年前の古典が、2,000年後のデジタル世界で息を吹き返す。そのとき、私たちの人文知は新たな地平を切り拓いていく。伝統的な手法では不可能だった極限の人文学資料を、テクノロジーの力を借りながら、読解していく。それが、ウェスウィウス・チャレンジの先にある、AI が拓くパピルス文献学の未来である。

[1] Vesuvius Challenge, accessed March 12, 2023, https://scrollprize.org/.
[2] “Vesuvius Challenge 2023 Grand Prize awarded: we can read the first scroll!,” Vesuvius Challenge, accessed March 12, 2024, https://scrollprize.org/grandprize/.
[3] Jennifer Ouellette, “Musings of an Epicurean Philosopher— Trio wins $700K Vesuvius Challenge grand prize for deciphering ancient scroll. The 2024 Challenge has also been announced, with a $100,000 grand prize.”, Ars Technica, Februrary 6, 2024 https://arstechnica.com/science/2024/02/trio-wins-700k-vesuvius-challenge-grand-prize-for-deciphering-ancient-scroll/, accessed March 12, 2024.
[4] “Sponsors,” Vesuvius Challenge, accessed March 12, 2024, https://scrollprize.org#sponsors.
[5] “Vesuvius Challenge 2023 Grand Prize awarded: we can read the first scroll!,” Vesuvius Challenge, accessed March 12, 2024, https://scrollprize.org/grandprize/.
[6] Jo Marchant, “First passages of rolled-up Herculaneum scroll revealed: Researchers used artificial intelligence to decipher the text of 2,000-year-old charred papyrus scripts, unveiling musings on music and capers,” Nature 626, 461–462 (2024), doi: https://doi.org/10.1038/d41586-024-00346-8.
[7] “Vesuvius Challenge 2023 Grand Prize awarded: we can read the first scroll!,” Vesuvius Challenge, accessed March 12, 2024, https://scrollprize.org/grandprize/.
Copyright(C) MIYAGAWA, So 2024– All Rights Reserved.