私は岩田直也さん(名古屋大学)と小川潤さん(国立情報学研究所)と共に、ヒューマニテクスト(Humanitext Antiqua)という西洋古典に特化した AI システムを開発しています。ヒューマニテクストは、大規模言語モデルを用いて、ユーザーの質問に応じてギリシア語・ラテン語の原典を対象に RAG(Retrieval-Augmented Generation)の技術を活用し、文脈に基づいた「解釈」を生成するシステムです。RAG は一般に知られた技術であり、採用されている言語モデルもファインチューニングされていない既存のものです。また、原典データベースは現状では Perseus Digital Library で公開されているデータに基づいています。したがって、我々は技術的な先端開発を進めているわけではありません。しかし、ヒューマニテクストを特徴的なシステムにしているのは、そのシステム全体に西洋古典研究のノウハウが組み込まれている点です。具体的には、ギリシア語・ラテン語のテクストをどのようにベクトルデータベースとして整備するか、学術的な水準を保ちながら原典データをどのようにユーザーに届けるか、優れた解釈とは何か、そして私たちが学生時代にどのような情報を知りたかったかといった視点が反映されています。システムはまだ開発途中ですが、ヒューマニテクストには私たちが理想と考える西洋古典の研究手法や学習法をできる限り盛り込もうとしています。
今回、『人文情報学月報』にてヒューマニテクストの開発について紹介する機会をいただいたことを大変光栄に思っています。この場を借りて、私たちが培ってきた西洋古典学研究のノウハウをこのシステム開発に反映する意味について考えてみたいと思います。
西洋古典は人類全体にとっての知的遺産であり、現代においても様々な形で影響を及ぼしています。しかし、文化的・時代的な隔たり、語学的なハードル、伝承の複雑な過程などから、原典に適切にアクセスすることは困難です。ジョイスの『ユリシーズ』の解説者が「実は『オデュッセイア』を読んだことがなかった」と正直に述べた文章を読んだことがありますが、教養ある人々であっても特別な動機がなければ西洋古典に親しむことは稀です。
また、研究者であっても専門外の方が西洋古典に言及することは非常に困難です。例えば、かつてカール・ポパーが『開かれた社会とその敵』でプラトンを全体主義思想の淵源として批判した際、多くの古典学者がその解釈に困惑し、当時のギリシアの文化的背景やプラトンの議論のスタイルを理解していないとして斥けました。そして、その後ポパーのプラトン解釈が古典学者によって真剣に検討されることは少なかったと思います。ときに西洋古典の研究者はいわゆる「創造的な誤読」を嫌いますが、ポパーのエピソードはその一つの例と言えるのではないでしょうか。
かつて、西洋古典の研究者たちが集まる宴席で、有名な研究者に言及しながら「あの人はギリシア語が読めてない」とか「そのようなことはテクストには一切書かれていない」といった発言を聞くことがありました。人文学の分野では多かれ少なかれ、テクストを文献学的に読めない者は研究者として軽んじられる傾向があります。こうした傾向は学問的厳格さと誇りの表れとも言えますが、外部から見ると敷居が非常に高い印象を与え、結果として西洋古典を敬して遠ざける風潮を生んでいたことも否めません。私は、このような風潮は取り除かれ、誰もが自由に西洋古典について気軽に論じてよいと考えています。
ヒューマニテクストに西洋古典の研究手法や学習法を植え付けることは、私たちが長年打ち込んできた語学学習、そして自らの解釈を抑制しつつ膨大な二次文献を読み込むという禁欲的な「修行」の成果を共有することを意味します。この成果は決して私たち一人ひとりが独力で成し遂げたものではなく、師や仲間、そして文献学的な研究手法を洗練させてきた先人たちの知識と努力の表れであるとも言えます。ヒューマニテクストは言わば西洋古典の「民主化」を推進するプロジェクトと言えますが、それは単に誰もが西洋古典テクストにアクセスできる環境を提供するだけではなく、専門家がやっとのことで身に着けた「読み方」や「書き方」、文献探索の手法を広く開放し、多くの人々が気楽に活用できるようにするという「メソドロジーの民主化」でもあります。
ヒューマニテクストの開発が順調に進展し、日常的に利用されるようになったとき、どのような変化が起こるでしょうか。例えば、学生が疑問を抱けば即座に原典の文脈に基づく正確な回答を得られることでしょう。また、これまで「修行」に費やしていた時間が短縮され、より創造的で実質的な研究活動に時間を充てられるようになるかもしれません。ヒューマニテクストは、2024年6月に日本西洋古典学会のご厚意により年次大会で発表され、デモ機の展示も行いました。その際、ある方が「自分の博士論文執筆のために行った研究調査の結果がこのシステムによって一瞬で生成されてしまった」と感想を述べていました。また別の方は「このシステムが精緻に実用化されたら、ある種の西洋古典研究や教育手法が陳腐化してしまう」と述べていました。これらの発言は、ヒューマニテクストが研究者の努力の価値を減じてしまうのではないか、また研究者や大学教員の役割を変える可能性があるという懸念を表しています(目の前の開発者を激励する意図も含まれていたとは思いますが)。
しかし、こうした懸念に対して、私たちはむしろこのシステムが研究の深化や新たな探究の扉を開く契機になると考えています。実際、ヒューマニテクストを高度な調査に用いるためには、西洋古典に関する専門的な知識が依然として必要です。このシステムは穏当な解釈を迅速に提供しますが、より深い議論や分析を実践するためにはユーザーは深く思考する必要があります。その観点からすれば、ヒューマニテクストは研究の精緻化を支援するという意味で、従来の学問研究と接続し、より高度な専門化を促すと言えます。
さらに、システムのデータベースを拡充することは、より多様な視点からの研究を促進し、学問の幅を広げることにもつながります。これまで「修行」に費やされた膨大な時間を、より創造的な活動に振り向けることが可能になるのです。典拠データを自在に活用し、自らの好奇心や問題意識に基づいて、分野や時代を超えた研究テーマを設定し、新たな統合的知識を創造することが求められるでしょう。こうした新たなテーマを構想する力は、若手研究者や異分野の研究者、さらにはアカデミアの外にいる人々にこそ期待できるかもしれません。彼ら・彼女らの多様な視点や自由な発想は、従来にはなかった新しい知見や研究アプローチを生み出す可能性を秘めています。
ヒューマニテクストの開発は、当初3人で一丸となって進めてきましたが、現在は各自がそれぞれのテーマを持ちながら推進する分担体制へと移行しつつあります。私が現在取り組んでいるのは、二次文献データベースの整備です。古代のテクストには古来から数多くの注釈が施されており、それらを読み解く作業は非常に骨の折れるものです。しかし、それを避けては西洋古典研究の議論に参画することは難しいのも事実です。一方で、もしユーザーがクエリを投げかけた瞬間に、原典とその解釈の歴史を即座に取得できるとしたらどうでしょうか。語学が得意でなくても、西洋古典に関する専門的な訓練を受けていなくても、誰もが古典の解釈を楽しみ、議論に参加できるような未来が実現するかもしれません。
デジタル技術の発展は、歴史研究のあり方を変えつつある。大量の史料をデジタル化し、構造化されたデータセットを構築することで、これまでは見えなかった歴史の側面に光を当てられるようになった。そうしたデジタル・ヒストリーの取り組みは今や様々な地域の歴史学に浸透してきている。ローマ時代以前のエジプトの歴史を研究する古代エジプト史のデジタル・ヒストリーにおいて、特に注目されるのがドイツ・マインツ大学の Alexander Ilin-Tomich 氏らが開発した「Persons and Names of the Middle Kingdom(PNM;中王国時代の個人と名前)」データベース[1]である。現在は、第2中間期と新王国時代初期のデータも加わって、「Persons and Names of the Middle Kingdom and Early New Kingdom」(中王国時代と新王国時代初期の個人と名前)という名前になったが、公式ホームページによれば、略称は、元の PNM のままで良いようだ。[2]
PNM データベースは、古代エジプト中王国時代から新王国時代初期にかけての個人名や称号の網羅的なデータベースである。古代エジプト中王国時代(紀元前21–18世紀頃)は、古代エジプト文明が統一国家として2度目の全盛期を迎えた時期だ。『シヌヘの物語』などの文学の隆盛や、中央集権的な行政機構の発達など、エジプト文化の様々な分野で重要な発展が見られた。この頃に使われた中エジプト語がのちの時代も、紀元後4世紀まで古典語として使われていくことになる。PNM データベースは、まさにこの古代エジプト文明の黄金期とも言える時代の社会と文化に、デジタル技術の力で新たな光を当てようとする野心的な試みなのである。
PNM の真の価値は、単なる中王国時代の人物のデータのデジタル化ではない。それは、古代エジプト社会の複雑な人間関係と社会構造を、リンクト・オープン・データ(LOD)の原則に基づいて精緻に設計されたデータモデルで表現する知識ベースなのである。このデータベースの中核をなすのが、個人(person)、名前(personal name)、称号(title)、碑文(inscription)の4つのエンティティである。各エンティティは固有のID(identifier)を持ち、相互にリンクされている。そしてこれらのエンティティには、個人名や称号を含む碑文やパピルスやオストラコンの情報、個人間の家族関係、ジェンダー、地理的分布など、多岐にわたるメタデータが紐づけられている。さらに、これらの情報は、大まかな分類にとどまらず、各要素間の複雑な関係性を捉えられるよう精緻に構造化されている。例えば、ある碑文に登場する個人が、別の碑文ではどのような称号で言及されているか、といった具合だ。つまり、PNM では個人や名前、称号、碑文のデータが相互に関連付けられており、人物や資料を多面的に検索・分析できる構造になっている。
このように、PNM データベースの最大の特徴は、その包括性と精緻なデータモデルにある。例えば、古代エジプトでは、ある個人は複数の名前を持つことがある。古代エジプト人は、生涯で複数の名前を使い分けることがあったからだ。特に古代エジプトの王は、誕生名、即位名、二女神名、ホルス名、黄金のホルス名など非常に多くの名前を持つものもいる。またその個人は、複数の称号も保持する場合もある。古代エジプトの官僚は、昇進とともに新たな称号を獲得していくのが一般的だった。
PNM データベースでは、こうした名前や称号の変遷を的確に記述できる。個人の経歴の中で、名前や称号がどのように変化していくかを追跡可能なのである。さらに、それぞれの名前や称号が、どの碑文のどの部分で言及されているかも特定できる。碑文には、その碑文が刻まれた物の情報や、出土した場所の情報なども付与される。
こうした複雑な関連性を表現するために、PNM データベースでは RDF(Resource Description Framework)というセマンティックウェブの標準的なデータモデルが採用されている。RDF では、あらゆる情報が subject(主語)、predicate(述語)、object(目的語)の3つ組の「トリプル」で表される。この単純だが強力な構造によって、人名や称号をめぐる多様な文脈情報を柔軟に記述することが可能になったのである。
このような PNM データベースは、実際にどのように活用できるのだろうか。その可能性は、古代エジプト学の伝統的な研究スタイルに新風を吹き込むものだ。まず、Web ブラウザ経由での検索が挙げられる。研究者は、個人名、称号、碑文の内容などをキーに、関心のある情報を容易に見つけ出せる。検索結果は見やすいインターフェースで表示され、関連情報へのリンクを辿ることもできる。
次に、SPARQL 経由でのデータアクセスも重要である。SPARQL は、RDF データベースを操作するための標準的なクエリ言語である。PNM データベースの全データにアクセスするための SPARQL エンドポイントが公開されているため[5]、データベース全体を横断する複雑な検索や、他のデータセットとの連携が可能になる。デジタル・ヒストリーの研究に欠かせないツールと言えよう。
さらに、PNM はデータセットのダウンロードも自由だ。データセットは CC BY 4.0ライセンスが与えられている。これは、クリエイティブ・コモンズ表示4.0ライセンスであり[7]、適切な出典表示をすることで誰でもデータの二次利用ができる。また、本データセットには、DOI(デジタル・オブジェクト識別子)が付与されている[8]。研究者は、RDF 形式でデータ全体を自分のコンピュータに保存し、自在に分析やデータ処理を行える。PNM のデータを他の歴史データと組み合わせたり、独自の視点からデータ・マイニングを行ったりと、創造的なデータ活用の道が開かれている。こうしたオープンなデータ・アクセスの仕組みは、PNM の大きな特長だ。歴史研究において、一次史料へのアクセスは常に重要な課題だった。PNM は、その課題に正面から取り組み、研究者が自由にデータを活用できる環境を実現したのである。
PNM の可能性は、単に利便性の向上にとどまらない。それは、デジタル時代における新しい歴史叙述の方法を示唆している。従来のエジプト学では、碑文や パピルス 文書を丹念に解読し、そこから歴史的事実を再構成するのが主流だった。しかし PNM データベースを活用すれば、膨大な史料から人物関係や社会構造の変化を定量的に分析できる。例えば、特定の称号の地理的分布の変遷をたどれば、国家統治の浸透過程が見えてくるかもしれない。個人名の命名パターンの変化からは、社会的価値観の変容が読み取れるだろう。
つまりPNM データベースは、ミクロな一次史料の集積から、マクロな歴史像を描き出すことを可能にする。これは、デジタル・ヒストリーの大きな可能性の1つと言える。PNM の成果は、他の文明の研究にも、大きな示唆を与えるに違いない。また、PNM データベースの知見は、歴史情報のデジタル化と構造化に関する国際的な議論にも貢献するだろう。W3C が進める文化遺産の LOD 化の取り組みなどにも、重要な参照事例を提供するはずである。
Ray Siemens、Constance Crompton、Daniel Powell、 Alyssa Arbuckle、Maggie Shirley、デヴォンシャー手稿編集グループよる本章[1]は『Digital Scholarly Editing』の実践篇の第一章であり、デヴォンシャー手稿に対するこれまでの評価の刷新を目指すためにソーシャル編集版という形式を選択し、その編集実践過程から推測されるデジタル時代の学術研究に必要な方法と態度について論じるものとなっている。
この論考で扱われるデヴォンシャー手稿は16世紀にアンブーリン女王の宮廷に集まった複数の人々によって編纂された複数の異なる作者(名前がわかっていない作者もいる)の作品を集めたものである。その中には作品だけでなく、互いの作品に対するコメントなども含まれ、編集を通した寄稿者同士の交流の様子が窺える資料となっている。著者らによると、こうした背景にもかかわらず、手稿に多数収録されているトーマス・ワイアット卿の詩の資料としてこれまで取り扱われてきたことから、その性格が歪められてきたという。デヴォンシャー手稿のソーシャル編集版は、D. F. McKenzie や Jerome McGann による「著者の意図を単に考慮することを超えたテキスト制作の概念を拡張する」編集理論に依拠しており、この理論は「非著作者である(にもかかわらず、非常に重要な)主催者、貢献者、協力者を説明するために著者の概念を再評価することを促し」ている。よって、デヴォンシャー手稿のソーシャル編集版は、作家中心主義的な考えから抜け出し、手稿が「統一された総体として置かれている社会的、文学的、歴史的文脈に焦点を当て」ることを目指す。またそれだけでなく、「編集プロセスを、テキストが本来的に持つ社会性を反映する環境へと移行することで、デヴォンシャー手稿のソーシャル編集版は、このテキスト自体が持つ多著者的なルーツを想起させるのである」。
次に、編集チームは、ソーシャル編集版にふさわしいプラットフォームを検討する。デヴォンシャー手稿のソーシャル編集版は「ソーシャルメディア環境が新しい編集実践を可能にするかもしれないという Ray Siemens の以前の議論を具現化したものであることから」、「オープンアクセスと編集の透明性(制作と配布の両方)の原則に基づいて近世のテキストの編集版を構築するために、学術的なコンテンツを、ウェブ上にすでに存在しているソーシャルコミュニティやソーシャル編集コミュニティが維持する環境、特に知的研究活動と Web 2.0を定義するソーシャルメディアの実践の交差点である Wikibooks[2]と統合した」。複数の候補が有る中で Wikibooks を選んだ理由としては「複数著者、複数編集の試みの重要性を強調して」いること、「印刷版の制限を引きのばす」ものであること、「本のような形式をサポートするように意図的に構成されて」おり、かつ「コンテンツの各変更をアーカイブし、テキストの差戻しや改訂を追跡できる」ことなどが挙げられている。Wikibooks のソーシャル編集版にはデヴォンシャー手稿のファクシミリや転写が含まれている。Wikibooks は複数著者、複数編集の重要性を強調しているように、読者はそれらを確認して「編集チームの規則化と修正に異議を唱えることも(変更さえも)自由である」。こうした試みの総括として、著者らは「全体として考えると、デヴォンシャー手稿のソーシャル編集版は、ソーシャルメディア技術を、コンテンツ領域やプロジェクトに投資する学者たちの生産的な交流や議論のために活用することができるが、知識の構築と普及への参加を促進し維持するためには、専門のスタッフによる包括的監視が必要であることを示唆している」と考察し、「ソーシャル編集版は知識の多様化と民主化への一歩であり、Wikimedia の一連のプラットフォームはこの種の作業のための環境として確立されている」と結論づけている。
この章の最後において、著者らはデヴォンシャー手稿の編集プロジェクトを通して得られた知見をもとにこれから求められる研究方法や態度について提言している。「近年出現した Wikimedia を含むソーシャルメディア環境は、学術的活動を行うための新しいツールやプラットフォームを提供することにより、学術研究者や市民研究者の作業の方法を形成している。これらの技術革新は、学術研究者が学問を開放し、以前は不可能だった質問をすることを促す」。こうした、学術的な営みをオープンにしていく際に求められるのは、「経歴、技能レベル、分野を超えた共同と刷新」であり、これは「これまで大学という組織に浸透していた閉鎖的な出版文化や専門文化とはかなり異なっている」と指摘している。実際、デヴォンシャー手稿のソーシャル編集版の制作過程において、①学術的な共同と普及の移り変わりの激しい環境に身を置く研究者と出版社のグループ、②プロジェクトアドバイザー、Wikimedia 関係者、ブロガー、Twitter 上の伝統的・市民的学者など、近世研究に投資する個人で構成されるグループという異なるバックグラウンドを持つ人々が関わっている。著者らはこうした試みにおいて、①②のグループから「寄稿されたコンテンツを信頼するということは、①②のグループを信頼するということだけでなく、(…)編集可能な出版物の場での我々の探求を信頼することでもある」と述べ、「我々は、これまで別かれていた知識生産のラインを越えて会話を可能にする、様々なソーシャルプラットフォームや場を取り入れることの重要性を主張」し、「ソーシャル編集版のモデルが、様々な研究者のコミュニティや知識の創造と普及の様式にうまくまたがっていくことを願う」という言葉で論考を結んでいる。
以上、論考の表現を借りながら要約と紹介を行った。デヴォンシャー手稿が持つ共同編集性、複数著者性に着目しながら、従来の評価を更新していくのは学術研究として興味深い。しかし、最も注目すべきなのはデヴォンシャー手稿の性質を踏まえ、ソーシャル編集版という共同編集的な方法を試みたことである。著者らは、WWW の発明者であるティム・バーナーズ=リーが言うように「インターネットは元々労働者が共同作業をしたり、原文にアクセスしたりするために開発されたもの」であるというルーツに立ち戻ることを強調しており、論考では、こうした共同作業をどのように成立させたかについての詳細がある。著者らは、既存の学術コミュニティとは異なるグループの人々とも関わっていくことになるが、自分達の考えを押し付けるのではなく、異なる背景を持つグループの価値観に対する理解の重要性を語っており、共同編集という試みが研究者側に対して変容を要求するものであることが示されている。その変容はこれまでの研究的価値観とは相容れないものになるかもしれないが、そこから生み出される成果の方に期待を寄せるべきだろう。例えば、日本において類似の試みに、「みんなで翻刻」[2]プロジェクトがあり、既存の学術コミュニティだけでは不可能な速さで資料の解読が進められ、それを基にしたデータ分析など様々な利活用が予定されている。共同編集がどこまで可能なのかは、前提となるべき議論や調査が必要だろうが、こうした試みが持つ可能性については今更言うまでもなく明白であり、積極的な取り組みが今後必要になっていくと思われる。