人文情報学月報第133号【後編】

Digital Humanities Monthly No. 133-2
ISSN 2189-1621 / 2011年08月27日創刊
2022年08月31日発行 発行数952部

目次

【前編】

  • 《巻頭言》「国文学研究資料館の調査カード:未来にむけた集成と利用
    幾浦裕之人間文化研究機構国文学研究資料館古典籍共同研究事業センター
  • 《連載》「Digital Japanese Studies 寸見」第89回
    米国現代語学文学協会(MLA)、言語文学分野における社会参加型人文学の評価方法についてのガイドラインを公表
    岡田一祐北海学園大学人文学部
  • 《連載》「欧州・中東デジタル・ヒューマニティーズ動向」第50回
    TEI Lex-0および CLLD / CLDF による辞書・語彙資源のデジタル化
    宮川創人間文化研究機構国立国語研究所研究系

【後編】

  • 《連載》「デジタル・ヒストリーの小部屋」第8回
    イギリス女性参政権運動のコーパス分析と Gale Digital Scholar Lab:デジタル・ヒストリーと新聞史料(3)
    小風尚樹千葉大学人文社会科学系教育研究機構
  • 人文情報学イベント関連カレンダー
  • イベントレポート「機械は“史料的限界”を越えられるか:The Digital Humanities Conference 2022イベントレポート
    太田(塚田)絵里奈東京外国語大学アジア・アフリカ言語文化研究所
  • 編集後記

《連載》「デジタル・ヒストリーの小部屋」第8回

イギリス女性参政権運動のコーパス分析と Gale Digital Scholar Lab:デジタル・ヒストリーと新聞史料(3)

小風尚樹千葉大学人文社会科学系教育研究機構助教

はじめに

今回は、連載第7回に引き続き、デジタル・ヒストリーにおける新聞史料について考察していきたい。題材は、アメリカのセンゲージラーニング社の図書館部門 Gale が手がける Gale Digital Scholar Lab(以下、DSLab)である。その概要や詳細については、Gale の森澤正樹による講演記録などから窺い知ることができるので[1]、本稿ではこれらについてごく簡単に紹介しつつ、関連情報を適宜補足した上で、DSLab に今後期待することについて述べる。

Gale Primary Sources と Gupta によるイギリス女性参政権運動のコーパス分析

英字新聞史料のデータベースとして真っ先に思い浮かぶものとして、Gale Primary Sources に含まれるイギリスのタイムズ紙のものがあるのではないだろうか。この The Times Digital Archive は、創刊の1785年から2010年代までの全記事全ページを収録したデータベースで、前回の連載で扱った全文検索はもちろん、発行年月日や曜日、見出し、著者、記事番号といったデータを基にした絞り込み検索が可能になっている。200年もの長きにわたって継続的に刊行され続けてきた日刊紙のデータベースというだけあって、総記事数は1000万超、総部数は100万超という情報の宝庫であり、数多くの歴史研究者が日夜検索に明け暮れていることであろう。Gale Primary Sources は、その基礎データとして XML 形式の OCR テキストが用意されており、一部の研究者はこの大量の OCR テキストに対してテキストマイニングの手法を適用したいと考えたようである。森澤の講演記録でも紹介されているように、ノッティンガム大学の Kat Gupta は、20世紀初頭の女性参政権運動がタイムズ紙でどのように報道されたのかについて、単語の共起情報や出現頻度をもとにした研究を行った[2]。

Gupta の研究について少し詳しく紹介することは、デジタル・ヒストリーにおける新聞史料の活用事例を学ぶ意味で有意義であると考えられる。Gupta の研究は、1908年から1914年までのタイムズ紙における女性参政権運動の報道を扱っており、これは先行研究が主に参政権運動に従事した女性たち自身による言説を分析していたのとは対照的で、メディア表象が世論をどのようにコントロールしようとしたのかを明らかにしようとするものである。

歴史的前提を簡単に確認しておこう。まず、女性参政権を求めた運動家の呼称として、suffragist suffragette がある。suffragist は、1860年代から女性参政権を求めて議会に請願を提出するなど、穏健で合憲な方法で行動を起こしていた運動家を指す呼称であり、この流れを受けて19世紀末に17の女性参政権運動の団体が統合して NUWSS(the National Union of Women’s Suffrage Societies)が結成された後も、平和的で合法的な手段を採用することを旨としていた。しかし一部の活動家は、このような平和的な手段では女性参政権は実現しないと失望し、暴力的な手段に訴えることを是とした WSPU(the Women’s Social and Political Union)を結成するようになり、彼女らは suffragist とは区別して suffragette と呼称された[3]。

このような歴史的経緯があるにも関わらず、Gupta の研究が明らかにしたのは、タイムズ紙の報道では、 suffragette と呼称するのが適切な場面であっても、意図的に suffragist の呼称を好んで用いることで、穏健で合法的な女性参政権運動すらも、直接的で暴力的な行動を伴う危険な性質を持つものであるというレッテルを貼ろうとしたことである。森澤正樹の講演記録で紹介されている図1からもわかるように、outrage や disorder、disturbance といった、破壊行動を思わせる単語が、 suffragette ではなく suffragist と共起しているデータを見て取ることができる。このような印象操作に加え、suffragist たちによる穏健な女性参政権運動が報道から抹消されたことにより、女性は選挙権を持つにふさわしくない、その価値がないという当時の支配的な論調が変わることはなかったと Gupta は結論づけている[4]。なお、イギリスでは1928年に21歳以上の女性に参政権が与えられることとなった。

図1 タイムズ紙における女性参政権運動の印象操作のデータ

DSLab のねらい

よく言われることだが、Gupta が用いたコーパス分析などのコンピュータ解析を歴史研究に応用できる研究者は、現状ではあくまで一握りにすぎない。Gale は、このような研究状況を変えるべく、DSLab を2018年にリリースした。DSLab は、Gale Primary Sources のコンテンツを対象に、Python や R といった自然言語処理でよく用いられるプログラミング言語の知識を必要とせずとも、テキストマイニングを実行することを支援するためのプラットフォームである。デジタル・ヒューマニティーズのプロジェクトを始めようにも、どのようにして・どこから手をつけたら良いのかわからない、分析に充分なデータセットを用意したり分析に最適化するためにデータをクリーニングしたりする時間がないといった悩みを解決することを目的に、デジタル・ヒューマニティーズのプロジェクトを実施するための土台を提供するものである[5]。

ただし、DSLab は無償で公開されているプラットフォームではなく、そもそも Gale Primary Sources のコンテンツの中で所属組織等がアクセスのためのライセンスを有しているコンテンツのみを対象にしたもので、このライセンス料とは別に DSLab の年間利用料が発生する。

おわりに|DSLab に期待すること

図2は、森澤講演記録で紹介されている、DSLab で利用可能な分析ツールで、多くはオープンソースのプログラミングライブラリを用いて開発されている。これらの分析を実施する手順については、同講演記録に詳しく記載されているので、参考にされたい。

図2 DSLab で利用可能な分析ツール一覧

さて、このようなさまざまな分析をプログラミングの知識を必要とせずとも実施できる環境が整っていること自体は、デジタル・ヒューマニティーズ研究の敷居を下げる意味で好ましいことだろう。ただし問題は、現状では、このようなテキストマイニングの分析結果がどのようなコードから導き出されたものなのかを確認できるようになっていないことである。分析過程がブラックボックスになってしまっていては、初学者をデジタル・ヒューマニティーズの世界に足を一歩踏み入れさせることができたとしても、そのもう一歩先にある、コンピュータ解析の仕組みを理解し、自分自身の研究目的に合わせてコードを細かくカスタマイズし、そしてそれらを他者に説明できるようになる段階にまでユーザを押し上げることができないのではないだろうか。なお、この点については、すでに筆者は Gale にフィードバック済みであり、今後の改善を期待したいところである。

さらに、当然のことながら、このようなテキストマイニング分析の結果を歴史的解釈に活かすには、背景知識が必要不可欠である。Gupta による女性参政権運動の例で言えば、暴力的な行動を思わせる単語が suffragist とよく共起しているデータを見ても、suffragette との運動方針の違いについて知らなければ、その報道が suffragist suffragette を十把一絡げに扱う意図的な印象操作であることを見抜けない。テキストを適切なコンテキストの中で解釈できるようにならねばならない。自戒の念を込めて。

[1] 森澤正樹「デジタル人文学と〈3つの障害〉と Gale Digital Scholar Lab」Gale シンポジウム2020、2020年1月25日、https://www.gale.com/binaries/content/assets/gale-ja/campaigns/expiring-campaigns/04dhjp2020_-ds-lab_morisawa.pdf
[2] Kat Gupta, Representation of the British Suffrage Movement, Bloomsbury, 2015.
[3] British Library Learning, “What is the difference between the suffragists and the suffragettes?”, 6 Feb. 2018, https://www.bl.uk/votes-for-women/articles/suffragists-and-suffragettes.
[4] Sylvia Jaworska, “Book review: Kat Gupta, Representation of the British Suffrage Movement,” Discourse & Society, Vol. 28, Issue 4, 2017, https://doi.org/10.1177/0957926517703452e.
[5] Sarah Ketchley and Jess Ludwig, “Processes and Practicalities in Developing and Sustaining a Text Mining Platform: Gale Digital Scholar Lab,” Digital Humanities 2022 Conference Abstracts, Tokyo, 2022, pp. 500–501, https://dh2022.dhii.asia/dh2022bookofabsts.pdf.
Copyright(C) KOKAZE, Naoki 2022– All Rights Reserved.

人文情報学イベント関連カレンダー

【2022年9月】

Digital Humanities Events カレンダー共同編集人

佐藤 翔同志社大学免許資格課程センター
永崎研宣一般財団法人人文情報学研究所
亀田尭宙国立歴史民俗博物館研究部情報資料研究系
堤 智昭筑波大学人文社会系
菊池信彦国文学研究資料館

イベントレポート「機械は“史料的限界”を越えられるか:The Digital Humanities Conference 2022イベントレポート

太田(塚田)絵里奈東京外国語大学アジア・アフリカ言語文化研究所

2022年7月25~29日にかけて、人文情報学における世界最大の学術大会である The Digital Humanities Conference 2022: Responding to Asian Diversity(以下 DH2022)が開催された。初のアジア圏での開催となる本大会は、東京がその主催地となったが、新型コロナウイルスの感染拡大状況を踏まえ、フルオンラインにて、JST/UTC 双方の時間設定により、300件を超える発表及び25件のワークショップが行なわれた。著者は、前近代(14~16世紀)アラブ地域における都市エリートのプロソポグラフィーが専門である。以下は部分的に参加した一人の歴史研究者としての雑感であり、すでに本大会や関連する諸学会を通じて議論が尽くされた内容や不正確な点があれば、ご海容いただければ幸甚である。

著者自身は、東京外国語大学アジア・アフリカ言語文化研究所共同利用・共同研究課題「中東・イスラームの歴史と歴史空間の可視化分析」及び科研費・学術変革領域研究(A)「イスラーム的コネクティビティにみる信頼構築」(イスラーム信頼学)の研究班「デジタル・ヒューマニティーズ的手法によるコネクティビティ分析」において、それぞれ共同研究員と研究協力者の立場にある。両プロジェクトを通じ、前近代のアラビア語叙述史料のなかで、年代記と並ぶ重要性を持つ名士伝記集を、当時の人名データベースとして活用すべく、デジタル化や構造化を進めている。そのため、両プロジェクトの方向性として最も近いワークショップ Biographical Data in a Digital World 2022 (WT-05)での議論を中心にレポートしたい。

本ワークショップでは、中国周代から第二次大戦期ヨーロッパまで、多岐にわたる時代・地域について、碑文、登録簿、伝記、書簡などを史料として用い、主にデータの構造化やネットワーク可視化による分析、LOD 化による史料活用の可能性が提示された。全体としての論点は、「特定史料に基づくデータがその時代全体を代弁するといえるか」という点に集約されるように思う。すなわち、データの質が史料の残存状況や利用可能状況に大きく左右される点、史料の恣意性や曖昧性、言語に起因する諸問題をいかに処理するかという歴史学共通の課題が、人文情報学との融合によってより顕在化・先鋭化したといえるかもしれない。

これら史料の特性やデータ化の困難な事象に起因する諸問題は、著者自身の所属する研究プロジェクトでも重ねて議論されてきた点である。人文情報学的手法を用いた定量分析や可視化は、地道な史料の精読と比較して、大変魅力的かつ一見して説得力のあるものである。他方、「解釈の学問」といわれる歴史学において、機械可読なフォーマットに落とされた史実がどれほど実態を反映しているか(「(往々にして断片的/部分的な)事実=実態」といえるか)をめぐっては、実証研究の立場から懐疑的な見方が寄せられてきた。例えば人的ネットワークの可視化において、関係の有無のみを示すテキストデータを作成しても、関係の強弱や取り結ばれた時期等が無視されれば、関係性の質的分析に至らないどころか、実態を反映しない数字や図はミスリーディングですらある。

本ワークショップにおいて典拠となった史料は、すでに完成されたデータセットか、婚姻関係を示す墓碑や在籍登録簿などの、事実関係をめぐる議論の余地をおおむね持たない性質のものであった。だが歴史研究や地域研究においては、多くの場合、既存のデータセットに基づき分析を開始できるわけではなく、史料批判を経たデータ収集のプロセスに、独自の解析結果や解釈を加えていかなければならない。著者の専門であるアラブ史についていえば、アラビア語が形態論的に難解な言語であることに加え、「彼」と「それ」を表す際に同じ代名詞が用いられる、同姓同名の人物が極めて多いなどの、人物の比定というプロソポグラフィーとしての問題がのしかかる。データ自体のオーサーシップや競合する説が提示された場合の処理を明確にすることは、とりわけ史料的制約の多い時代の人物研究において、重要な点である。実証史学との隔たりが仮にあるとすれば、データの作成自体が大きな研究成果であるという点を保証しつつ、その根拠がブラックボックス化しないよう、検証性を担保することで、埋めていくことが可能ではないだろうか。

今後、人文情報学の技法はコンピューター・サイエンスと連動して飛躍的進化を遂げていくであろう。その見通しは本イベントを通じて十二分に示されたが、他方、様々なドメイン・エキスパートから成る文理協働型プロジェクトに携わらない多くの人文系研究者にとっては、容易に参入できる状況にないのではないかとも感じた。仮に個人で行なおうとする場合、コンヴェンショナルな史料解釈のスキルに加え、テキストの自動解析、構造化などに対する専門的知識を身に付けなければならず、専門分野と人文情報学の双方において非常に高い習熟度が要求される。人文情報学は多くの研究者が参画することで本領を発揮する。これからは労力・費用においてローコストで参入できるような、幅広い研究者の参画を促す工夫が一層求められると思われた。

人文情報学的観点からみれば、前近代の叙述史料の持つ恣意性や曖昧性は、データ処理上の「問題」ともなろうが、それこそが歴史研究の醍醐味でもある。古の時代の生き様や価値観を伝える、血の通ったストーリーとしての歴史資料の面白さを、機械が読み解くことのできる時代は来るのだろうか。実証研究と人文情報学の融合は、幾重にも解釈を重ねることではじめて成立する。本大会を通じ、この極めて高度な知的営為に、分野を越えた研究者が参画し、研鑚を積む姿を目の当たりにして感銘を覚えた。時差の関係もあり、著者は部分的な参加にとどまったが、地球規模での最新の学術成果を凝縮した DH2022が、メソドロジーの見本市にとどまらない、大変充実した大会であったことは疑いない。先立って開催された「DH 2022記念レクチャーシリーズ」から始まり、JST/UTC 双方の時間設定で、メインセッションが五日間にわたり同時進行的に開催された本大会は、運営上の負担も大きいものであったことは容易に推察されるが、滞りなく大盛況のうちに幕を閉じた。本大会に携わったすべての方々に、この場を借りて厚く御礼を申し上げたい。

Copyright(C) OTA-TSUKADA, Erina 2022– All Rights Reserved.

◆編集後記

世界中から700人の参加者を集めたDH2022が終わり、一ヶ月が経ちました。 人文学の新たな地平を切り開く努力は、大型の組織や事業によって駆動されるだけでなく、 個々の研究者が追い求める知的好奇心と 研究者相互の敬意の念なくしては成り立たないものであることを改めて実感した会議でした。 今回も一つイベントレポートをいただきまして、ありがたいことです。 オンラインだったとはいえ、初めてのアジアでの開催ということで、 今後、様々な形で日本やアジア、そして世界のDHにその意義が浸透し、 我々の未来を形成していってくれることでしょう。 その先を楽しみにしつつ、皆で楽しく取り組んでいきたいところです。 (永崎研宣)