前回の連載では、文学批評の立場からの DH 批判を取り上げた。今回は統計・方法論に関する DH 批判を取り上げたい。これまで取り上げた DH 批判は、個々の研究者の考えや立場を反映させたものであって、その影響は限定的といえた。今回取り上げるナン・Z・ダの論文[1]は DH の計算文学研究(以下 CLS)全体に対する統計的・方法論的な誤りを指摘する批判であり、代表的な研究を個別に取り上げ再現できないとして糾弾したため、CLS の研究領域全体に影響を与えるものであった。このためダの論文を掲載した学術誌のウェブサイト上で反論の場[2]が設けられたり、様々な形で反論や反駁論文が出版されるなど、学問上の論争を招いた DH 批判である。
ナン・Z・ダはジョンズホプキンス大学英文学科の准教授であり、19世紀アメリカ文学、現代中国文学、文学理論・社会理論、文学研究とデータ科学の交差点が専門である[3]。2019年に『クリティカル・インクワイアリ―』誌上に「計算文学研究に対する計算上の異議申し立て」と題するDH批判の論文を出版した。
ダの DH 批判は、DH の文学研究の分野のうち、遠読や計量文体論などの分析を行う研究(CLS)を対象とする。テッド・アンダーウッドやアンドリュー・パイパー、マーク・アルジー=ヒュイット[4][5][6]などの著名な DH 研究者の研究15例前後を取り上げて、論文やデータをもとに実際に再現したうえで、統計上の誤りや方法論上の誤りを指摘し、CLS の研究は「統計的に何も示さない結果のない論文か、結果を出すが間違っている論文」であると結論する[7]。ダは CLS 研究の問題を、統計的に「頑健とみえるものは(実証的な意味で)明らかであり明らかでないとみえるものは頑健でない」[8]ことであるとする。これは DH 批判でよく指摘される、アダム・ハモンドが言ういわゆる「DH はすばらしい結果を出していない」[9]という批判と、すでに知っていることを明らかにしているという批判であるが、統計を用いた研究デザイン上の不具合として展開したものである。また「用いられる統計ツールと適用される対象との間に基本的な齟齬がある」と統計の方法論上の誤りを指摘する[8]。ダによれば、「CLS の論文は単語やグラムが現れる数に基づき議論を行う」[10]還元主義的なものであり、語彙の頻度を計算の基礎とする以上、語彙の頻度では表しえない要素を扱うことができず、「CLS には文学の複雑さを捉える能力がない」[11]と計算を用いた文学テクストの分析自体への疑念を呈する。
ダは結果のない論文と結果を出すが間違っている論文を具体的に取り上げて示す。その選択基準は、測定手法が弱いために違いを捉えられない研究、統計結果を過剰に主張したり誤解した研究、語彙の頻度の類似性や差異に還元する研究が、別の潜在的な理由があるにもかかわらず結果を出しがちな事例、等々である。ここではダが統計的な誤りとして指摘した論文を一つだけ取り上げる。アンダーウッドの「ジャンルのライフサイクル」と題するジャンルが時間の経過とともに変化するかを調査した論文である[4]。アンダーウッドは探偵小説のジャンルを語彙の同質性に基づいて機械学習を用いてモデル化する。ダによれば、アンダーウッドはこの作成したモデルの正確性を検証するために、ランダムな作品群 C から、1941年以前の探偵小説群 A も1941年以後の探偵小説群 B も同じように選別できるかを試したとのことである。そしてダはモデルが研究の目的に則していないことを指摘する。ダによれば、アンダーウッドは、モデルを1941年以前と以後の両方が入った「ランダムな寄せ集め」を使って訓練するのではなく、1941年以前の「ランダムな寄せ集め」と比較するためには1941年以前の探偵小説群Aを使って訓練し、1941年以後の「ランダムな寄せ集め」と比較するためには1941年以後の探偵小説群Bを使って訓練するべきであると述べて、統計のプロセス上の誤りを指摘する。
以上のようなダの DH 批判は、CLS 研究者にとっても DH に懐疑的な研究者にとっても「分野を葬り去る」大きな波紋を呼ぶ可能性があるとみられたため、センセーショナルで注目を浴びる議論のテーマとなるという出版社の思惑から、論文の出版前からオンラインフォーラムが企画された[12]。ダ、フィッシュ、サラ・ブルイエットといったDH批判者およびアンダーウッドやパイパーら批判を受けた研究者が主な寄稿者となり、2019年4月1日から3日間の期間を設けて、ダの論文をめぐり DH 研究者側の反論やダ自身の誤りの表明などが応酬された。
このオンラインフォーラムの DH 研究者側の主な反論は次のようなものである。ダは計算か読書による文学研究かの二項対立を据えるが、計算には文学批評と手を携える能力があり、CLS 研究の実践者は統計データを批判的解釈をもって活用する[13]。ダは帰無仮説検定を唯一の適切な統計とし[13][18]、探索的データ分析や理論構築、予測モデリングの価値を認めていない[18]。探索的データ分析にも利点があり、研究者は確認バイアスを回避できる[13]。文学研究に計算を導入すると反発もあるが、分野自身を変えることになる。また分野も目的に合わせて方法を変える[13]。ダの論考には統計的探究に対する矛盾した枠組みがある。例えばより厳格な統計分析の手続きを経れば CLS 研究が統計分析に適した研究となるとダは主張するが、同時に文学を適切に読むという境界点を超えると CLS 研究は有用性を失うため、統計分析に適した研究とはなりえないと可能性を棄却するなどの矛盾である[14][15]。またダはテキストマイニングは倫理的に中立であって、その真の機能に従って使用するべきと述べるが[14][16]、テキストマイニングは倫理的に中立ではない。ダはCLS研究では機械的に生じる事由と洞察を混同すべきではないと忠告するが、方法論的、認識論的考察が欠如しているがゆえにダもまた同じ混同を行っている[14]。ダが CLS の対象としている研究は主に男性が行うデータ・モデリングと分析の研究であり、データの構築・管理の研究を考慮していない[14][15]。ダの論文は技術的・事実的な誤りに満ちている[12][17]。ダには基本的な統計概念に対し理解の欠如があるようである[17]。ダの論文は再現研究であるが、他の研究分野で確立された再現研究の手順や実践を踏襲していない。例えば批判する論文の選び方が恣意的であり、適切なサンプリング手法に則っていない。再現を行う際に論文ごとに基準を変えている[18]。また差異を強調するために問題のある選択や明らかな誤りを犯している[12][18]。CLS 研究者は探索的分析で結果が変動しても解釈的探究に活用できる方法を議論しているが、ダは結果が安定しないという理由でトピックモデリングなどの手法を認めていない[12]。
先に挙げたアンダーウッドの「ジャンルのライフサイクル」に対する統計的方法の誤りの指摘についても、アンダーウッドはダの批判はダ自身の理解不足から生じていると反論する。アンダーウッドが行った検定は、ダがこうするべきであると忠告したまさにそのやり方であり、出版日付で一致させた作品群を比較している。また「ランダムな寄せ集め」は存在せず、無作為対照群を用いており、ダは別の目的で使用された複数ジャンルを混ぜた「ジャンルの寄せ集め」と混同していると反論している[12]。
オンラインフォーラム以降もダの論文に対する反駁は続いたが、次第に CLS 研究とは何かという根源的な問いと CLS 研究を巡る同時代的な問題へと焦点は移っていったといえる。フォティス・ヤニディスは、ダの DH 批判の中心にあるものが、CLS 研究が文学の複雑性を解釈できるかという複雑性への疑念にあるとする[19]。テクストの語彙の数を数えるだけで、文学テクストを解釈できるかという問いである。ヤニディスは統計で何が明らかになり何が明らかにならないかを整理し、仮説検定以外の分析手法の利点を示し、ダの論文自体のサンプリング手法の誤りを指摘する。ジョン・マリガンは文学研究における計算と解釈の問題を取り扱う[20]。計算と解釈の問題は、CLS 研究の主要なテーマの一つである。マリガンは数値文化と文学の出会いという認識論と美学に取り組み、ダの DH 批判を数値文化と文学の出会いの行き詰まりの現象とみる。キャサリン・ボードもまた計算と解釈、計算と文学現象の問題に取り組む[21]。ダのDH批判は統計の道具的使用と複雑性の問題にあると位置づける。文学の複雑さを語彙の頻度に置き換えてしまう還元主義をダは許容できないのである。DH を批判する代わりに、ダは読書を擁護する。だがボードによれば、この読書の形はそもそも歴史的・文化的に構築されたものである。また文学研究と読書の同一視に対してもボードは疑問を呈する。ボードは CLS 研究自体の歴史性にも目を向ける。遠読やポスト批評的言説に通底する考えは、意味と計算の分離である。意味は人間の主観と結び付けられ、計算は文学現象と異なる劣るものとして位置づけられている。モレッティの時代、計算は文学現象を可視化する透明なメカニズムとされた。だがこの計算と文学現象、すなわち計算と解釈あるいは表現と現実の間にあるギャップを避けられないものと認めると、CLS の議論は停滞する。計算と解釈を別個のペアとして扱うのではなく、分散した文学的パフォーマンスにおけるエージェントと力として扱うことがよいだろうとボードは述べる。計算と解釈は、どちらが主でもなく、場面場面に応じてどちらも主体となりうる余地を残して、実践していくとよいという意味であろう。
語彙の頻度を軸とする計算が人間性や情緒から成る文学の読みを解釈できるかという問いは、文学研究から出発し、DH のテクスト分析研究に分け入った研究者ならだれもが考える問題だろう。具体例を挙げれば、ダンテの『神曲』の冒頭の一節を思い出すとよい。時代や場所を越え多くの人の心に響き、文学的伝統として様々なテクストで引用される一節である。このようなテクストの意味は、文章の言語的機械的な理解を越えたところにあることは容易に想像がつくだろう。このようなテクストの意味は、計算で解釈できるだろうか。あるいは、計算が意味に関与するには、どのような出会いやアプローチが可能だろうか。それはどこでいつ生じ、どのように読書としての読みを変えるだろうか。ダの統計・方法論上の DH 批判は、ダの意図にかかわらず CLS の諸問題を顕在化させた。同時に文学研究と DH 研究のそれぞれの研究全体における立ち位置にも考察が及んだ。加えて社会全体における情報技術の浸透や世代の移り変わりも目に付くようになったといえる。ダの論文の出版からこの原稿執筆時点ですでに6年半が経過している。その間 DH はどのように移り変わっただろうか。
連載では以上のように DH 批判を取り上げてきた。次回からは DH の現在の問題に目を向けていきたい。
Text Encoding Initiative(TEI)の年次カンファレンス(TEI 2025)が、2025年9月16日から19日にかけてポーランドのヤギェウォ大学で開催された[1]。この会議は、TEI に関する研究と実践の最新動向を共有し、コミュニティの交流を深める重要な機会であり、今回も世界中から多くの研究者が集った。プログラムは初日のワークショップに続き、3日間にわたる45件の口頭発表、12件のポスター発表、2件の基調講演で構成された。参加者はヨーロッパおよび北米圏が中心であったが、日本からも筆者を含め4名が参加した。
今年掲げられたテーマは「New Territories」であり、TEI の地理的・概念的な広がりと方法論の多様化に光が当てられた。開催地の背景を反映し、例年以上に中東欧地域での TEI 利用に関する発表が目立った点が印象的である。技術的な側面では、2つの大きな潮流が感じられた。第一に、ミニマル・エディションやプロジェクト終了後のデータ保存といった「持続可能性」に関する議論である。第二に、AIやLLMとの統合であり、エンコーディングのサポート、曖昧さの解消、研究支援といった領域で、その可能性と課題が活発に議論された。これらの動向は、TEI が研究インフラとして成熟しつつ、さらなる技術的拡張を続けていることを示している。発表トピックも、フレームワークやインターフェース、言語学、音楽、文学から、TEI 自体の概念的・技術的基盤に至るまで、その多様性を反映していた。
筆者もポスター発表者として現地参加した。本稿では、数多くの発表の中から、筆者の関心領域にも近い DraCor (Drama Corpora) のコンテンツ拡大に関する取り組みを2点紹介する。
まず1件目は、Frank Fischer、Julia Havrylash、Daniil Skorinkin、Mark Schwindt による「Introducing UDraCor: The Ukrainian Drama Corpus in TEI」である。DraCor[2]は、世界中の戯曲を TEI 準拠の形式で収集・提供するプラットフォームで、現在19言語、4,449件の作品を公開している。2022年に TEI への貢献を顕彰するラッツ賞[3]を受賞しており、ご存知の読者も多いだろう。DraCor では、TEI でマークアップされたト書きを含むテキスト全文に加え、そこから抽出されたグラフデータ(GEXF、GraphML)、発話やト書きのみのテキスト、キャラクターリストなどが公開されている。さらに、Voyant Tools[4]や Gephi Lite[5]といった外部ツール、CLARIN が提供する Language Resource Switchboard[6]を介した多様な自然言語処理ツールとの連携も充実しており、API 経由でデータに直接アクセスすることも可能である。
今回発表されたウクライナ戯曲コーパス(UDraCor)には、1813年から1928年までの47作品が含まれる。この取り組みは、2022年のロシアによるウクライナ侵攻を受け、危機に瀕する文化遺産を保護する目的で開始されたという背景を持つ。侵攻を契機とした文化財のデジタルアーカイブ化は、Saving Ukrainian Cultural Heritage Online (SUCHO)[7]などが知られているが、本発表は、TEI もまた戦争によって脅かされる文化遺産とアイデンティティの保護に重要な役割を果たしうることを示している。これは、TEI が単なる技術的フレームワークにとどまらず、文化的・社会的な文脈に深く根ざした実践でもある証左と言える。本会議のテーマ「New Territories」は、こうした中東欧への地理的な広がりに加え、純粋な学術的動機とは異なる、文化的・社会的な要請に応答する新たな領域への TEI コミュニティの関与をも含意しているように思われた。
DraCor 関連では、Gimena del Rio Riande、Ulrike Henny-Krahmer によるポスター発表「Encoding Argentinian Eighteenth and Nineteenth-Century Drama with TEI」も興味深かった。これはアルゼンチン戯曲コーパス(ArDraCor)を構築するプロジェクトである。
ArDraCor は、18世紀から1920年にかけてアルゼンチンで制作された戯曲をTEIでエンコードするプロジェクトで、DraCor においてラテンアメリカのテキストを含む初のコーパスとして構築が進められている。DraCor 公式サイトには未掲載だが、プロジェクトの GitHub リポジトリが開設されており[8]、進捗が共有されている。リポジトリ上の作品はまだ少数だが、すでに290件ほどの作品が候補として挙げられており、今後の拡充が期待される。
筆者の専門である音楽関連では、MusicSIG(Special Interest Group)[9]の活動が再開されたことも特筆すべきニュースである。Music SIG は2008年にロンドンで最初のミーティングが開かれたものの、その後活動が停滞していた。しかし、2023年にドイツで開催された Joint MEC and TEI Conference を機に再開の機運が高まり、今回、音楽資料に関わるTEIユーザーが再び集う場が設けられた。
参加者は筆者、Raff Viglianti、Torsten Roeder、Nadine Quenouille の計4名と小規模ながら、TEI Slack に専用チャンネルが開設されるなど、今後の活動基盤が整えられた。これまで Music Encoding Conference (MEC) を中心に活動してきた筆者にとって、TEI の文脈で音楽資料のエンコーディングに関する議論が活発化することは非常に喜ばしい[10]。
全体として非常に充実した学会であった。200ページを超える Book of AbstractsがZenodo で公開されている[11]。ここで取り上げられなかった発表も多く含まれるため、ぜひ確認されたい。また、発表者が個別にアップロードした資料も Zenodo のコミュニティ「TEI Annual Conference and Members' Meeting 2025」[12]で公開が進められているため、そちらも合わせて参照されることをお勧めする。
今月は、11月21~23日に復旦大学日本研究センターで開催された国際シンポジウム「AI 時代のデジタル・ヒューマニティーズと日中学術交流」にて講演をしてきました。日中交流ということで、日本からの参加者が多かったのですが、中国からの発表者も人文系のいくつかの分野に加えて情報系の研究者による発表もあり、DH が中国でも広まりつつあることを感じさせられました。生成 AI の活用が、やはり大きなテーマになってきているようで、これはどこでも同様の状況でした。興味深いものとしては、これまであまり耳にすることがなかった中国における生成 AI 開発の現状についての講演もありました。中国の特徴であると感じたのは、独自の生成 AI の開発に自治体単位で奨励を行なっているとのことで、それに加えて、電気料金が安価な内陸部で計算処理を行なって、データは沿岸部で作成されたものを利用する、という大きな構図で進められている、ということでした。
中国でも近年は DH が着々と発展しつつあるようで、8月には内モンゴル自治区のフフホトでアジア・パシフィック DH 教育連携委員会が開催され、北京大・清華大学をはじめ、有力大学を中心に22の中国国内大学からの参加とともに、日本、オーストラリア、シンガポール等からの招待者もあり、研究のみならず教育においても着々と DH が推進されつつあるようです。近々、DH 教育コンテンツを集めたポータルサイトが公開されるようですので、楽しみにしていましょう。
本メールマガジンでもすでに北京大学の王軍先生に第162号にて巻頭言をいただいたところですが、情報系のみならず人文系の各分野からの参画が徐々に広がりつつあるようで、AI の活用も盛んのようです。韓国でも DH2026が開催される予定で、東アジアの DH が着々と発展しつつあるようです。本メールマガジンでも、今後はそういった情報の提供にも力を入れていきたいと思っています。