人文情報学月報第141号【後編】

Digital Humanities Monthly No. 141-2
ISSN 2189-1621 / 2011年08月27日創刊
2023年4月30日発行 発行数1057部

目次

【前編】

  • 《巻頭言》「国会図書館デジタルコレクションがつなぐエジプトと日本、そしてリン鉱石
    熊倉和歌子慶應義塾大学経済学部
  • 《連載》「Digital Japanese Studies 寸見」第97回
    なぜ標準化は退屈で重要なのか: ふりがな要素の TEI P5 導入議論の経験から
    岡田一祐慶應義塾大学文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第58回
    対話型 AI を用いた言語データの構造化のためのプロンプトエンジニアリング
    宮川創人間文化研究機構国立国語研究所研究系

【後編】

  • 《連載》「デジタル・ヒストリーの小部屋」第15回
    デジタル・ヒストリーにおける研究過程論(1):科学哲学史の議論をきっかけに
    小風尚樹千葉大学人文社会科学系教育研究機構
  • 《連載》「仏教学のためのデジタルツール」第6回
    ADARSHAH
    和田賢宗東京大学大学院人文社会系研究科
  • 人文情報学イベント関連カレンダー
  • 編集後記

《連載》「デジタル・ヒストリーの小部屋」第15回

デジタル・ヒストリーにおける研究過程論(1):科学哲学史の議論をきっかけに

小風尚樹千葉大学人文社会科学系教育研究機構助教

はじめに

学問の手続きを概念化した John Unsworth の Scholarly Primitives の議論は[1]、分野横断的に研究の方法論を議論するデジタル・ヒューマニティーズという分野の性質(Methodological Commons)と親和的で、様々な研究者が Unsworth の議論を援用・発展させてデジタル・ヒューマニティーズの手続きを体系的に捉えようとしてきた[2]。デジタル・ヒストリーの分野においても、このような研究過程論の試みはいくつか見られ、今回はそのうち科学哲学史における議論を紹介したい。

筆者は科学哲学史についてはまったくの門外漢だが、今回扱う論文が掲載された Isis 誌の110巻3号のデジタル・ヒストリー特集は[3]、以前、有賀暢迪氏(一橋大学)や橋本雄太氏(国立歴史民俗博物館)が旗振り役となって開催された読書会で扱われたものである。当時は、Tokyo Digital History の研究仲間と参加させていただいた。本稿では、この特集全体を簡単に紹介しつつ、特に研究過程論を扱った論考に焦点を絞っていく。

特集の概要

同特集全体の序文によれば[4]、この特集が扱うのは次のような論点である。すなわち、デジタル技術が史料や歴史家の営みをどのように進歩させたか、コンピュータを用いた手法により可能となった新しい研究上の問いや歴史叙述、科学哲学史コミュニティにおけるより良いデータ管理のあり方、そしてテキスト解析やネットワーク分析を中心とした方法論的アプローチについてである。序文を含めて全6編の特集で読み応えがあるものとなっており、すべて無料で閲覧可能である。

研究データのライフサイクル論

さて、上記のうち、科学哲学史コミュニティにおけるより良いデータ管理のあり方を述べた論文に焦点を絞ろう[5]。この論文は、すべての科学史プロジェクトはデータの扱いが必須であるという前提に立って、科学史におけるデジタルおよびコンピュータ実践の手順を考察したものである。研究データのライフサイクルと題して、その入手から公開までの道案内をすることをねらいとしている。このライフサイクルのうち、特にデータの構築が困難な営みであるため、分野横断的に共有できるようなガイドブックを作るべきだと主張している。

図1 研究データのライフサイクル[6]

ここで概念化されているのが研究データのライフサイクル(図1)である。順を追って内容を確認していくと、

  1. データ群の探索的調査
  2. データセットの入手
  3. データセットの統合・整形・補強|下準備
  4. データコーパスの分析
  5. データセットの拡張・修正 → 2へ戻る
  6. 研究成果の公開

これらの段階のうち、特に入手と下準備からなるデータの構築段階についての解説書が存在しないことを問題視するのがこの論文の主眼である。というのも、伝統的な歴史学では、手法や史料の説明をするのは一般的であるのに、デジタル手法やデジタル史料の説明をするのはまだ一般的ではないからである。分析に用いたツールやアルゴリズムに言及することはあっても、研究文献の中で手順を丁寧に説明するような慣習もできていない。結果として、誰でも参照できるようなデジタル手法の手順書が存在しておらず、分野全体でデータ駆動型研究を進めるための素地が作られていないとしているのである。

データの構築段階における困難の例として記述されているのは、たとえば以下の通りである。

このうち、特に3つ目の項目は、オープンサイエンスの利点にもつながる論点である。関心を同じくするほかの研究者のデータ構築のハードルを下げるには、標準的なデータ記述形式に沿ってデータを公開することが有効である。

まとめにかえて

この研究データのライフサイクルのような研究の手続き論については、冒頭で述べた Unsworth の整理をはじめ、図2や図3のようないくつか類似の議論が見られる。

図2 Meroño-Peñuela らによる歴史情報のライフサイクル[7]
図3 2018年の Tokyo Digital History シンポジウムで提示したデジタル・ヒストリーの手続き類型[8]

しかしこのような手続き論への傾倒は、「デジタル・ヒストリーは手法を丁寧に論じるあまり、肝心の議論の中身がない」という批判[9]の、まさに裏返しであるようにも思える。つまり、手法の説明の分量を増やすと、歴史学的議論の紙幅を圧迫してしまうという問題のことを指しているのだが、これについては本連載でも扱った、デジタル解釈学の概念を具現化した Journal of Digital History 誌の多層的な論文レイヤーがひとつの解決策を提示しているだろう。もちろん、Current Research in Digital History 誌のように、デジタル手法の説明を要求しながらも、論文の採択を決めるのはあくまで「歴史学の議論を前に進めたかどうか」という基準を重視する学術誌もある。

冒頭からここまで述べてきたように、研究手続きだけでなく解釈そのものの充実を求める姿勢は、デジタル・ヒストリーがデジタル・ヒューマニティーズと歴史学それぞれの分野的特性を兼ね備えた学問的営みであることに起因するものだろう。手法か解釈かという二項対立の図式は、すでに解消されつつあると言えよう。

[1] John Unsworth, “Scholarly Primitives: what methods do humanities researchers have in common, and how might our tools reflect this?,” Symposium on Humanities Computing: Formal Methods, Experimental Practice, 2000, https://johnunsworth.name/Kings.5-00/primitives.html. 次も参照のこと。「Scholarly primitives:最近デジタル人文学で話題になっている話」digitalnagasaki のブログ、2020年12月10日、https://digitalnagasaki.hatenablog.com/entry/2020/12/10/052241
[2] たとえば、Sheila Anderson, Tobias Blanke, & Stuart Dunn, “Methodological Commons: Arts and Humanities e-Science Fundamentals,” Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 368 (1925), 2010, pp. 3779–3796, doi: 10.1098/rsta.2010.0156 など。
[3] “Focus: Computational History and Philosophy of Science,” Isis: A Journal of the History of Science Society, Vol. 110, No. 3, 2019, https://www.journals.uchicago.edu/toc/isis/2019/110/3.
[4] Abraham Gibson, Manfred D. Laubichler, and Jane Maienschein, “Introduction,” Ibid., pp. 497–501, https://www.journals.uchicago.edu/doi/10.1086/705542.
[5] Julia Damerow and Dirk Wintergrün, “The Hitchhiker’s Guide to Data in the History of Science,” Ibid., pp. 513–521, https://www.journals.uchicago.edu/doi/10.1086/705497.
[6] Ibid., p. 515.
[7] Albert Meroño-Peñuela et al., “Semantic Technologies for Historical Research : A Survey,” Semantic Web, 6 (6), 2015, pp. 539–564, DOI: 10.3233/SW-140158.
[8] 小風尚樹・中村覚・纓田宗紀ほか「デジタル・ヒストリー入門:2018 Spring Tokyo Digital History Symposium 開催報告」東京大学学術機関リポジトリ、2018年、http://hdl.handle.net/2261/00074493、7頁。
[9] Lincoln Mullen, “A Braided Narrative for Digital History,” in Debates in the Digital Humanities 2019, eds. Matthew K. Gold and Lauren F. Klein (Minneapolis: University of Minnesota Press, 2019), pp. 606–617.
Copyright(C) KOKAZE, Naoki 2023– All Rights Reserved.

《連載》「仏教学のためのデジタルツール」第6回

仏教学は世界的に広く研究されており各地に研究拠点がありそれぞれに様々なデジタル研究プロジェクトを展開しています。本連載では、そのようななかでも、実際に研究や教育に役立てられるツールに焦点をあて、それをどのように役立てているか、若手を含む様々な立場の研究者に現場から報告していただきます。仏教学には縁が薄い読者の皆様におかれましても、デジタルツールの多様性やその有用性の在り方といった観点からご高覧いただけますと幸いです。

ADARSHAH

和田賢宗東京大学大学院人文社会系研究科博士課程

今回は、台湾の正法寶藏(Dharma Treasure Corp.)が開発したチベット語仏教文献の全文検索エンジン「ADARSHAH」(https://adarshah.org)について紹介する。

ADARSHAHに収録される文献には、チベット大蔵経に含まれるカンギュル(仏説部[1])とテンギュル(論疏部[2])に加え、蔵外文献[3]としてチベット仏教における主要な学派であるニンマ派、サキャ派、カギュ派、ジョナン派、ゲルク派のスンブム(著作集)やリンチェン・テルズー(埋蔵経集成)、ユンドゥン・ボン[4]の作品集が含まれる。カンギュルおよびテンギュルは東北目録[5]に掲載されているすべての文献が参照できるが、蔵外文献は2023年4月の現時点では限定的にしか公開されていない。例えば、ゲルク派の文献に関していえば、宗祖のジェ・ツォンカパと歴代ダライ・ラマのスンブムのみが参照可能となっている。また、チベット大蔵経は当初は写本として伝えられたが、17~18世紀頃になると各地で盛んに木版として開版され、流布するようになった。そのようにして流布した版本のなかで、ADARSHAH に収録されているカンギュルはジャン版、デルゲ版、ラサ版、乾隆版(漢訳)のものであり、テンギュルはデルゲ版である。

ADARSHAH の特徴は、収録文献の中から特定の文字列を検索でき、同時にヒットした文字列を含む文献の書誌情報やその版本のデジタル画像も参照できるという点にある。この機能は、文献講読にあたって引用元のロケーションや書誌情報が判明しない場合であったり、特定の文字列の使用頻度を分析する際に有用である。

例えば、デルゲ版カンギュルから「བྱང་ཆུབ་སེམས་ཀྱི་བསོད་ནམས་」(菩提心の福徳)という文字列を検索する場合を想定してみる。まず、トップページから「カンギュル」(བཀའ་འགྱུར།)のページに進み、「デルゲ版」(སྡེ་དགེ་བཀའ་འགྱུར།)を選択する。その後、ページ右の検索欄において、検索範囲を「収録文献全体」(ཡོངས་རྫོགས།)、「版本内検索」(འཕྲལ་གྱི་སྡེ་ཚན།)、「テキスト内検索」(འཕྲལ་གྱི་གཞུང་།)の中から「版本内検索」を指定したうえで「བྱང་ཆུབ་སེམས་ཀྱི་བསོད་ནམས་」という文字列で検索をかける。すると【図1】のように「宝積部」(དཀོན་བརྩེགས།)に2件、「経部」(མདོ་སྡེ།)に2件のヒットが表示される。

【図1】「བྱང་ཆུབ་སེམས་ཀྱི་བསོད་ནམས་」という文字列の検索結果

さらに、検索結果欄をクリックして次ページに進むと、【図2】のように検索した文字列が黄色にマーキングされた状態で表示される。また、設定欄よりページ数(ཤོག་གྲངས།)や画像(མ་དཔེ།)を表示設定にすれば、当該文字列のロケーションや版本の電子画像も併せて確認することができる。

【図2】検索した文字列が黄色で表示される

当該文献の書誌情報についても同ページ右上のボタンから確認することができる。書誌情報に関しては【図3】のように、東北目録のナンバーや、該当部、該当ページ数、正式名称、漢訳情報、翻訳者名などさまざまな情報が得られる。なお、今回紹介するにあたって【図1】【図2】はチベット語表示にし、【図3】は英語表示にしているが、当 Web ページはその他に中国語(繁体字、簡体字)表示にも対応している。

【図3】文献の書誌情報

チベット語文献の中から特定の文字列を検索するにあたって、長らく研究者の間では ACIP(Asian Classics Input Project[6])が提供するテキストファイルが使われてきた。しかし、当ファイルに収められているデータは元の版本通りに改ページ・改行されていることもあり、ページおよび行をまたぐ文字列の検索には工夫が必要であった。また、理由は不明であるが、ACIP のファイルは版本のページをまたぐ箇所で毎度文字の欠落があるため、文字列の検索には不向きな面があった。一方、ADARSHAH ではページおよび行をまたぐ文字列の検索が可能であり、ACIP のような文字の欠落もみられない。さらに、ADARSHAH 収録の文献は全てテキストファイルでダウンロードすることができる。

以上、特定の文字列を検索する際の利用方法についてみてきたが、ADARSHAH では文献情報が非常によく整理されているため他にもさまざまな利用方法が考えられる。今後、特にカンギュルに関してはジャン版を基にしてデルゲ版やチョネ版、ナルタン版などの異なる版のテキストおよび画像を比較参照できるよう機能が整備される予定とのことである[7]。また、テンギュルや蔵外文献についても収録文献の拡大が期待される。

[1] 主に仏陀の説いた教えや僧侶の生活規則を含む聖典群。
[2] 主に仏説に対する解釈・注釈を含む論説群。
[3] チベット大蔵経には含まれない仏教文献群。
[4] 古代チベットより続くシェンラプ・ミウォを祖師とする宗教。
[5] 東北帝国大学法文学部編『西蔵大蔵経総目録』東北帝国大学法文学部、1934。
[6] 主にインド・チベット仏教文献を電子テキストとして保存するプロジェクト。
[7] https://adarshah.org/about/ 2023年4月6日参照。
Copyright(C) WADA, Kenshu 2023– All Rights Reserved.

人文情報学イベント関連カレンダー

【2023年5月】

【2023年7月】

Digital Humanities Events カレンダー共同編集人

佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦国文学研究資料館

◆編集後記

今、ウィーンの空港で帰りの飛行機の待ち時間にこれを書いています。今回の出張はウィーン大学で仏教学における先進的な研究手法を議論する国際シンポジウムで、世界中の色々な研究機関からの参加がありました。筆者は、今回の岡田氏の連載で扱われている TEI ガイドラインの、仏教学における今後の展開について話をして、これはこれでなかなか盛り上がりました。しかし、シンポジウムの大きな焦点になったのは、今回の宮川氏の連載で採りあげられている生成系 AI をめぐり、仏教学がどのように対応していくか、という課題でした。ウィーン大学ということもあり、仏教における課題というよりは仏教学における課題が議論されていました。今後、AI の精度がより高まっていった際の翻訳と理解の違い、そこにおける学問の役割、といった話題が筆者の印象に残りました。

このシンポジウムは1月にハンブルク大学で開催されたデジタル仏教学シンポジウムの続きといった趣で、いつものメンバーに加えてウィーンの方々が多く登壇し、ウィーンでのデジタル仏教学への取組みが様々に紹介されていました。ここでの色々な話題については、次号以降、イベントレポートの方でより詳細に紹介されると思いますので楽しみにしていてください。(永崎研宣)