人文情報学月報第136号【後編】

Digital Humanities Monthly No. 136-2
ISSN 2189-1621 / 2011年08月27日創刊
2022年11月30日発行 発行数1025部

目次

【前編】

  • 《巻頭言》「新しい「目」としてのテキストマイニング
    中原真祐子上智大学基盤教育センター
  • 《連載》「Digital Japanese Studies 寸見」第92回
    比較実演芸術データベース「Global Jukebox」が正式リリース
    岡田一祐北海学園大学人文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第53回
    世界最大の古代エジプト語コーパス Thesaurus Linguae Aegyptiae の大刷新:TLA v2.0
    宮川創人間文化研究機構国立国語研究所研究系

【後編】

  • 《連載》「デジタル・ヒストリーの小部屋」第11回
    透明性・正確性・情報の密度:デジタル・ヒストリーと可視化(2)
    小風尚樹千葉大学人文社会科学系教育研究機構
  • 《連載》「仏教学のためのデジタルツール」第1回
    オスロ大学の Bibliotheca Polyglotta / Thesaurus Literaturae Buddhicae
    左藤仁宏東京大学大学院人文社会系研究科
  • 人文情報学イベント関連カレンダー
  • イベントレポート「TEI 2022参加報告
    加藤幹治ROIS-DS 人文学オープンデータ共同利用センター(CODH)
  • 編集後記

《連載》「デジタル・ヒストリーの小部屋」第11回

透明性・正確性・情報の密度:デジタル・ヒストリーと可視化(2)

小風尚樹千葉大学人文社会科学系教育研究機構助教

はじめに

今回は、前回に引き続きデジタル・ヒストリーと可視化について考察したい。題材とするのは、本連載第9回で紹介した Jason Heppler による文献紹介[1]から、John Theibault による2013年のエッセイ「可視化と歴史学の議論」[2]である。同エッセイは、図表や地図が歴史学の思考法にどのように影響を与えてきたのかについて、19世紀における社会科学の誕生から今のデジタル時代までを対象に概観したものとなっている。考察のキーワードになるのは、「透明性」・「正確性」・「情報の密度」である。以下、Theibault によるエッセイの内容について、適宜関連情報を補足しつつ紹介し、コメントを付していくこととする。ただし、やや長いエッセイで、内容も充実したものであるので、前編と後編に分けたい。

Theibault はまず、議論の射程を示すために、David Staley による可視化の定義を引用している。

David Staley は、可視化を「体系的な調査を促進するために、二次元または三次元の空間的形態で意味のある情報を構成する」ことであるとし、これを「叙述に対する補足や装飾」としての画像と明確に区別することを主張した。Staley の定義によると、デジタル時代の可視化には、ふたつの異なる用途がある。ひとつは、研究プロセスにおいて大規模なデータセットのパターンを迅速に特定する用途であり、これにより新しい研究の方向性が開かれ、定性的な主張が検証されること、そしてふたつ目に、紙の上に二次元で表現できるものをこえて、議論の提示を強化する用途である。(pp. 173–174)

上記のうち、とくにふたつ目の可視化の定義に主眼を置き、伝えたいことを示すためにコンピュータの視覚的能力をどのように展開するかを考察するのがこのエッセイの目的であるとしている。

冒頭から話が脱線することをお許しいただきたいが、Staley による可視化の定義はどちらも重要である。ひとつ目の定義は、データサイエンスにおける探索的データ分析の発想に近く、徹底的かつ厳密にというよりは素早くデータの全体的特徴を捉えようとする態度であり[3]、これは言わば「自分のための可視化」である。ふたつ目は、Theibault が主眼に置くような「他人のための可視化」と考えてよいだろう。

閑話休題、Theibault が考える可視化の重要な側面のひとつは、透明性、すなわちその情報が読者に理解されやすいかどうかということである。ここで非常に重要なのは、平たく言えばその可視化の形式に読者が慣れているかどうかである。ひとくちに可視化と言っても様々な可視化が存在する。たとえば活字の学術書を手に取ってみれば、欄外に記された小さな数字や本文より少し小さめのフォントで書かれている情報が註であること、ウェブページを開いてみれば、フォントの体裁や装飾の違いによって情報の機能や意味合いが変わることがすぐわかるだろう。これらはすべて情報を伝達する可視化の形式にわれわれが慣れ親しんでいることに他ならない。しかし、Theibault は、多くの歴史家が情報量の多いグラフィックを読み解くことにまだ慣れていないため、複雑な可視化形式によって情報を伝達しようとする歴史家との間のギャップが拡大するばかりであることを問題視している。このギャップこそが、同エッセイで最も重要視されている論点である。

19世紀は、可視化の選択肢が増えた時代であった。地図、年表、王朝の系譜といった図表が登場し、これらの可視化形式が伝達する情報量の多さに、当時の読者は読み解くのに困難を覚えたというが、現代に生きるわれわれはこのような困難を感じないだろう。長い年月を経て、これらの形式が人口に膾炙したということになる。同じく19世紀に社会科学が台頭し、大規模なデータを扱うことができるようになると、円グラフや折れ線グラフ、ヒストグラムといった単純な図表を簡単に読み解ける者が増え、統計解析の高度化に伴ってグラフィックも複雑になっていった。1869年に作成された図1を目にしたことがある人もいるのではないだろうか。土木技師 Charles Joseph Minard によるナポレオン軍のモスクワ遠征の窮状を描いたグラフィックである。図左から右にかけて東征したナポレオン軍は、徐々に数を減らしながらモスクワに到達、復路は冬の気温低下の過酷さによりさらに数を減らした様子が、フローチャートの幅がどんどん細くなっていくことと、図下の気温低下の折れ線グラフがリンクされていることによって明快に表現されている。コンピュータ登場以前の作品ではあるが、読者に理解されやすい透明性と正確さを兼ね備えた優れたグラフィックとして名高いものである。

図1 Minard によるナポレオン軍のモスクワ遠征の情報可視化(1869年)

このような統計グラフィック発展のかたわら、歴史家は、新しい種類の可視化を生み出す者というよりは社会科学の統計に基づく可視化の消費者であった。たしかに1960~70年代フランス歴史学界におけるクリオメトリクス(数量経済史)とアナール学派全体史の隆盛によって[4]、より多くの歴史家が定量的手法に精通することを余儀なくされた。しかしながら、大量のデータを分析した図表を、紙面に印字せざるを得なかった当時の読書環境において、数ページにわたる図表とそれに対応する本文は何ページも離れた場所に印刷されており、読書効率を著しく低下させた。Theibault は、このことにより、本文を読まずに図表を読む読者がいたほどであったことを指摘し、これによって本来テキストによってなされなければならない重要な説明が省略され、複雑なグラフィックを提示すれば事足りるとした歴史家が一定数いたとする。社会科学の方法論・理論を援用して1970年代に全盛期を迎えた社会史が、その後相対的に衰退していったことについて、Theibault は、このテキストによる議論と可視化の成果との間の不健全な関係性を要因として考えている。

(前編ここまで、次回に続く)

[1] Jason Heppler, “Digital History Comprehensive Exams Reading List,” Humanities Commons, 2015, http://dx.doi.org/10.17613/M6DN3ZV7Q.
[2] John Theibault, “Visualizations and Historical Arguments, ” in Jack Dougherty and Kristen Nawrotzki, eds., Writing History in the Digital Age, University of Michigan Press, 2012, pp. 173–185, https://www.jstor.org/stable/j.ctv65sx57.19.
[3] たとえば、次の URL を参照。Uryu Shinya, Practical Data Science with R and Python, https://uribo.github.io/practical-ds/01/eda.html.
[4] この点については、長野壮一による一連の史学史整理を参考にされたい。最新のものとしては、長野壮一「『批判的転回』から『数量の復権』へ:Claire Lemercier and Claire Zalc, Quantitative Methods in the Humanities (2019) に寄せて」『西洋史学』第272号、2021年12月、71–74頁。
Copyright(C) KOKAZE, Naoki 2022– All Rights Reserved.

《連載》「仏教学のためのデジタルツール」第1回

仏教学は世界的に広く研究されており各地に研究拠点がありそれぞれに様々なデジタル研究プロジェクトを展開しています。本連載では、そのようななかでも、実際に研究や教育に役立てられるツールに焦点をあて、それをどのように役立てているか、若手を含む様々な立場の研究者に現場から報告していただきます。仏教学には縁が薄い読者の皆様におかれましても、デジタルツールの多様性やその有用性の在り方といった観点からご高覧いただけますと幸いです。

オスロ大学の Bibliotheca Polyglotta / Thesaurus Literaturae Buddhicae

左藤仁宏東京大学大学院人文社会系研究科特任研究員

ノルウェーのオスロ大学が Bibliotheca Polyglotta(BP)という多言語文献のコーパスを提供している(https://www2.hf.uio.no/polyglotta/index.php)。この中にはサンスクリット・漢文・チベット語などの仏典テキスト、アショーカ王碑文の翻刻文が含まれているが、それだけでなく、古典ギリシャ語テキストのアラビア語訳であるとか古ノルド文学といったテキストのライブラリも含まれているらしい。しかし、それら全てを活用する素養など私にあるはずもなく、もっぱら自身の専門である仏典やそれに関連するものだけを参照させてもらっている。

BP に含まれているテキストなどは基本的に自由に参照、利用することができる。テキストの著作権は、このシステムの中心的な制作者であるオスロ大学名誉教授 Jens Braavig 博士とノルウェー文献学研究所(Norwegian Institute of Palaeography and Historical Philology)に属しているが、そのフェアユースについては一般的なオープンアクセスの条件のもと行うことができる。また、このシステムで用いられているアプリケーションについては、GNU GPL v.3というオープンソースライセンスに基づいて公開されており、改変を加えて再利用することも許されている。

このBPは、現在14のテキストデータベースを含んでおり、その中でも私が特に利用するのは、Thesaurus Literaturae Buddhicae(TLB)という対訳形式の仏典データベースである(https://www2.hf.uio.no/polyglotta/index.php?page=library&bid=2)。TLB では、サンスクリット仏典などの電子テキストの横に、その対訳として漢訳・チベット訳・英訳などを表示しながら、それらを閲覧することができる。まだ収録、整理されているデータは必ずしも豊富ではないものの、利便性は高い。

例えば、いま私は『仏所行讃』(梵題:Buddhacarita)という、仏陀の生涯を伝える韻文文献をその漢訳から現代語訳しているのだが、この文献にはサンスクリット原文・漢訳・チベット訳が存在しており、それらを同時に参照しなければならないことがままある。しかしこれら三者を並べるといっても、サンスクリット原文、漢訳・チベット訳のいずれの箇所がそれぞれ対応しているのか、ということを判別するだけで、それなりの専門性とちょっとした時間が必要になる。その作業は率直に言って、手間である。しかし、TLB はこの『仏所行讃』については途中までではあるものの(サンスクリット原文が校訂出版されている14章の途中まで)、これらの原文・訳文を一覧性の高い形式で、並べて表示してくれている。本稿を執筆している2022年11月現在では、『仏所行讃』は、サンスクリット原文・漢訳・チベット訳・英訳二つが、対訳形式で並べられている。漢訳『仏所行讃』から現代語訳を作成している最中に、それらを横目で確認することができ、大変助かっている。

さらに言えば、対訳を表示するメリットは、その実務的な利便性だけではないように思う。対訳を並べて表示することで、視覚的にサンスクリット原文と漢訳・チベット訳の異同が見えやすい。漢訳『仏所行讃』はサンスクリット原文とその内容が異なっている箇所が多く、例えばサンスクリット原文に書かれていることが漢訳にはないということがよくある。そのような箇所では、サンスクリット原文の表示されるすぐ右横で、漢訳の欄が空白になっており、両者の違いが一目瞭然となる。これはテキスト同士の構造を比較するという意味でも、利用者にとって有益な情報提供方法だろう。

上述のように、私は自身の翻訳と研究的関心から TLB を利用することが多いが、当然このような対訳形式は語学学習にも役立つ。すでに述べたように、ある程度の語学力がなければ、どのサンスクリット文がどの漢訳・チベット訳文と対応しているかという判別も、容易ではない。それを TLB のように分かりやすく並べておいてくれれば、初学者でも、サンスクリットのこの表現が漢訳ではこう、チベット訳ではこうなっている、と確認しやすい。私も、自身が講師をしているサンスクリット初等文法の授業で、TLB に掲載されている『法華経』の対訳から、サンスクリットと漢訳の比較を例文として紹介したことがある。このような対訳形式をインターネット上で公開してくれれば、学習者、教育者にとっても便利に使うことができる。

また TLB では、必ずしも対訳に限らないテキストデータも提供してくれている。例えば、龍樹の『中論』などはその途中の章までではあるものの、『中論』本文とそれに対する複数の註釈書の記述を横に並べて表示してくれている。これも、註釈文献を読むことに慣れていない者にとっては、ありがたい形式だ。さらに、これは出版物の一部分ではあるが、スコイエン・コレクションの写本画像と翻刻テキストとを並べて表示したものも、TLB には収録されている。それらの情報は、研究者が自身の専門分野の研究に積極的に活用しうるものではないかもしれないが、学習者からすれば勉強に役立つものだろう。

というわけで、対訳、あるいは対訳的な形式でテキストを提供してくれる TLB は利便性が高く、特に学習者に勧められるツールであると言える。しかし、必ずしもユーザのお目当ての文献が、ここに収録されているわけではない。TLB に収録されているテキストデータは、サンスクリットは GRETIL(Göttingen Register of Electronic Texts in Indian Languages)、漢訳は CBETA(Chinese Buddhist Electronic Text Association)や SAT(SAT大正新脩大藏經テキストデータベース)、チベット訳は ACIP(Asian Classics Input Project) など、他のデータベースをリソースとしている(とトップページに記載されている)。しかし、GRETIL の方には収録されているが TLB にはサンスクリットがない、あるいはそもそも TLB に登録されてもいない……などという文献も多い。例えば Lalitavistara という大乗仏教文献は、GRETIL にサンスクリットが収録され、チベット訳も存在しているのだが、TLB には Lalitavistara の収録自体がない。また『仏所行讃』についても、14章の後半以降、サンスクリットが未出版(あるいは未発見)の箇所についてはチベット訳だけが並べられており、漢訳などの対訳は提供されていない。『仏所行讃』の漢訳テキストは14章の後半以降も、CBETA や SAT には収録されているのだが、TLB には掲載されていないのである。このように、TLB には整備されている文献と未整備の文献とが混在しているというのが現状だ。

サンスクリット・漢訳・チベット訳、あるいは英訳といった複数のテキストを読み比べて対訳表を作ることは、大変な労力を必要とするし、ここに収録されるテキストの入力日を見る限り、頻繁に更新されているわけではなさそうなので、完全な整備はまだしばらく先になるのかもしれない。あるいは、〔私のような〕院生、研究者が積極的に協力をして整備を進めるべきなのだろう。学生、研究者に対してテキスト入力などの協力を呼びかけるメッセージが、トップページには記載されている。それによると、TLB プロジェクトに参加希望の方や、TLB の詳細な情報を知りたい方は、担当者の方にコンタクトを取ればいいようである。さて、そこまでのコミットメントをするかどうかはさておき、もし仏教学に関心がおありでまだ使ったことがない方がおられれば、このツールに一度ぐらいは触れてみることをお勧めする。

Copyright(C) SATO, Yoshihiro 2022– All Rights Reserved.

人文情報学イベント関連カレンダー

【2022年12月】

Digital Humanities Events カレンダー共同編集人

佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦国文学研究資料館

イベントレポート「TEI 2022参加報告

加藤幹治ROIS-DS 人文学オープンデータ共同利用センター(CODH)特任研究員

2022年9月12日から16日にかけて、イギリス・ニューカッスル大学において TEI conference 2022が開催されました。筆者はポスター発表の発表者として参加しました。すでに小川氏による報告が前号に掲載されていますので、ここでは、筆者らのポスター発表及びそれをめぐる議論と、それに加えて、言語学に携わっている筆者の視点から、Emmanuel Ngue Um 氏による講演に焦点をあてて報告します。

【筆者らのポスター発表】

Okinawan Lexicography in TEI: Challenges for Multiple Writing Systems (So Miyagawa, Kanji Kato, Miho Zlazli, Seira Machida, Salvatore Carlino)[1]

1963年に出版され2001年に改訂された『沖縄語辞典』をデジタル化するプロジェクトについての発表です。

沖縄語は日本語と姉妹関係にある言語(Pellard 2005)ですが、話者数が年々減少しており、また話者数を維持するだけの継承が行われておらず、消滅の危機にある言語の一つです(cf. UNESCO 2008)。沖縄語は『おもろさうし』以来、ひらがな、カタカナ、漢字仮名交じり、ラテンアルファベット、国際音声記号(IPA)などの様々な書記法で記されてきましたが、そのいずれもが正式に規定された「正書法」ではないので、沖縄語を学んだり書いたりしたい人にとってはこれといった書記法の決まりがないというのが現状です。

我々のチームはまず『沖縄語辞典』を TEI XML フォーマットへ変換しました。『沖縄語辞典』は主に IPA を用いて記述されていましたが、前述のような多様な書記法をサポートするため、<orth>タグと xml:lang 属性を用いて一つのエントリーに複数の書記法を含めました。

次に、TEI XML から『沖縄語辞典』の静的な Web ページを作成しました。この Web ページは Gatsby フレームワークによって生成され、検索機能をサポートします(CEITEIcean と Gatsby については、本学会において Raffaele Viglianti 氏によるワークショップとデモンストレーションがありました)。XML データと Web ページは来年に公開される予定です。

このプロジェクトの新規性は、①TEI フォーマットによって記述される初めての琉球語の言語データベースであること、②Web 上で公開される沖縄語の辞典のうち、複数の書記法をサポートしたこと、によって評価されます。特に、②については、これから沖縄語を学ぶ学習者にとって、Web 上で閲覧可能であり、学習者の指向に応じた表記法を提供できるという利点があります。

筆者は第二著者として会場で対面のポスター発表を行い、以下のような議論がありました。

これらの議論の中で、開発者である我々が無意識のうちに暗黙の前提としていたことについて質問や指摘を受けたため、利用者の目線に立った改善を行おうと思いました。

【Emmanuel Ngue Um 氏による講演】

Tone as “Noiseless Data”: Insight from Niger-Congo Tone Languages (Emmanuel Ngue Um)

最終日の最後のセッションでは、Closing Keynote として、Emmanuel Ngue Um 氏による講演が行われました。残念なことに Ngue Um 氏はイギリスへ渡航することができなかったので、発表はカメルーンからオンラインで行われました。

この発表で重要な点は以下のようにまとめられます(時間の都合で触れられなかったが、発表要旨に述べられていた部分を含む):

以上のように、TEI による記述についての提案が二つ行われました。

この講演に対して以下のような質問が出ました(が、いずれもネットワーク接続の問題でうまく質疑応答ができず…):

筆者としては、基底に存在する声調、コピーされた声調、非弁別的な音声現象をマークアップの上で分離するというアイデアには強く賛成します。これらのレイヤーを分離することで、分析やソートがより容易に行えるからです。一方で、コピーされたことを copyOf 属性によって記述すると、やや煩雑になりがちであると同時に、基底の声調から規則で予測できるものをわざわざ記述するという冗長性を生じさせることにもなり、その手法についてはやや改善の余地があるのではないかと考えます。

以上のように、超文節的要素や規則によって生成される要素の記述方法についての提案が行われた講演でした。Ngue Um 氏は、この研究を通じてアフリカ言語学における問題を共有するという意識が強まったとのことでした。「マイナーな」言語の事例研究を通じて類型的に多様な言語を包括するガイドラインの改訂が行われること、そして筆者がそれに貢献できることを期待します。

[1] https://zenodo.org/record/7097326.
Copyright(C) KATO, Kanji 2022– All Rights Reserved.

◆編集後記

今回から新たな連載「仏教学のためのデジタルツール」が始まりました。他の連載と異なり、 いわゆるリレー連載ということで、複数の執筆者による交代での連載になります。おかげさまで 紙面がますます充実してきました。今後ともご期待ください。 (永崎研宣)