近年、デジタル・ヒューマニティーズ(以下 DH)は世界の人文学研究において重要なキーワードの一つとなっている。もっとも、DH の本質は単なる技術の導入ではなく、人文学がどのような問いを立て直すのかという問題に関わっているように思われる。テキスト・データの大規模分析やデジタル・アーカイブの整備などを通じて、人文学研究の方法や研究環境は確実に変化しつつある。研究対象そのものが変わるわけではないが、研究者がそれを見る視野は以前よりも広がっていると言えるだろう。
私自身は日本で長く留学し、もともとは情報学を専門としていた。情報学の立場から人文学を眺めていると、両者の間にある境界が思っているほど固定されたものではないことに気づかされる。こうした背景もあり、日本における DH 研究の動向には以前から関心を持っていた。デジタル技術をめぐる人文学の変化は各国で異なる形をとっているが、日本の経験は中国にとって興味深い比較対象になる。言語や文字体系、古典文献の豊富さといった点で両国の研究環境には共通点も多く、日本における DH の展開は多くの示唆を与えている。本稿では、中国における日本研究 DH の関心の広がりとその特徴について、いくつかの経験を交えながら紹介してみたい。
私が日本の DH 研究を中国語圏に紹介しようと考えた最初のきっかけの一つは、名古屋大学の日比嘉高教授による「日本近現代文学研究者はコンピュータを使って何をしたいのか。したくないのか。」という文章であった(もともと『人文情報学月報』第121号に掲載されたものであり、そのことには不思議な縁を感じている)。私はこれを中国語に翻訳し、中国の学術誌『数字人文研究』に掲載したが、その後、多くの中国人研究者から「刺激を受けた」という反応をもらった。日本文学研究における DH の可能性と限界を率直に論じたこの文章は、中国の研究者にとっても、日本の DH を具体的に考える入口の一つになったように思う。その後、日本の DH の全体像をつかむために、永崎研宣教授や日比嘉高教授を含む日本の研究者へのインタビューを行い、日本の DH の研究環境や発展の特徴を整理した。日本の経験を手がかりに、中国における DH のあり方を考えるための試みでもあった。
日本の DH の具体的な研究実践として私が注目したのが、国立歴史民俗博物館の橋本雄太先生の研究グループが進めている「みんなで翻刻」である。これを中国語に翻訳して紹介したことで、この代表的な市民参加型デジタル・アーカイブの試みは、近年中国で急速に広がっている古典籍研究に新たな方法的示唆を与えることになった。また、日比先生による俳句研究の最新論文(「人と機械の境を跨ぐ―芭蕉受容のデジタル·ヒューマニティーズ的研究のメモ」)も中国に紹介した。DH 手法を用いて松尾芭蕉の受容を数量的に分析するこの研究は、俳句研究における DH 手法の具体的な応用例として注目された。
こうした日本の DH 研究への関心の広がりは、近年中国国内で進んでいる DH 研究環境の整備とも関係している。ここ数年、中国では、多くの大学や研究機関で DH 研究センターが設立され、私が所属する中山大学でも、2024年末に「数字人文連合研究院」が設立され、学際的な研究活動が活発化している。また、中国数字人文年会(CDH)も年々規模を拡大しており、中国における DH 研究が定着しつつあることを示している。
関連研究を見ていくと、いくつかの特徴が浮かび上がってくる。まず目立つのは、日本の DH の発展状況を紹介する概説的な研究である。日本のデジタル・アーカイブ政策や研究基盤、DH 教育などを取り上げ、日本の経験から示唆を得ようとする論考が多く見られる。第二に、実践的な研究はコーパス言語学や自然言語処理の分野に偏っており、日本文学や文化研究における試みはそれほど多くない。
もっとも、近年では状況に少しずつ変化も見え始めている。2025年年末に刊行された北京外国語大学の学術誌『日本学研究』第39輯では、「デジタル人文学と日本研究」をテーマとする特集が組まれ、日本文学、歴史、メディア研究など複数分野の研究が掲載された。その多くが若手研究者による試みであることは、中国の日本研究における一つの新しい変化であり、DH への関心が次の世代へと広がりつつあることを示している。
こうした研究の動きが見え始める中で、両国の学術交流も少しずつ活発になってきている。2023年には、私の呼びかけで「デジタル・ヒューマニティーズ×日本古典」を題するオンラインシンポジウムを開催した。当日は100名以上が参加し、日本の DH の最新動向をめぐって日中の研究者が議論を交わした。発表では、日本古典文学研究におけるデジタル・アーカイブの構築やテキスト分析の方法など、具体的な研究実践が紹介され、中国の参加者からも強い関心が寄せられた。
また、2025年11月に復旦大学日本研究センター主催の国際シンポジウム「人工知能時代のデジタル・ヒューマニティーズと中日学術交流」に参加する機会もあった。文学、歴史、言語など多様な分野の研究者が集まり、DH をめぐる研究の現状や方法について活発な議論が行われ、DH をめぐる研究関心が分野や地域を越えて共有されつつあり、研究ネットワークが徐々に形を取りつつあることを実感した。
中国における日本研究の DH は、まだ模索の段階にある。日本の DH の歩みを振り返ってみると、そこには研究方法だけでなく、デジタル・アーカイブの整備や研究基盤の構築、さらに人材育成といった長い蓄積があったことに気づかされる。そうした経験は、中国の研究者にとっても、自らの DH 研究をどのように育てていくべきかを考えるうえで重要な参照点となるだろう。
私自身も今年から、外国語専攻の学生を対象とした DH の授業を開講する予定である。おそらく中国国内ではまだ数少ない試みであり、試行錯誤も多いと思われるが、こうした教育の場から新しい研究の可能性が生まれてくることを期待している。今後は研究の面だけでなく、教育の面でも中日間の交流がさらに進むことも望まれる。デジタル技術が人文学研究に新しい可能性をもたらすとすれば、その可能性を広げていくためにも、研究実践と教育の双方での協力がますます重要になる。
近年では人工知能の発展によって、人文学研究は今まさに新しい局面に入りつつある。AI は膨大なテキストやデータを扱う新しい可能性を拓く一方で、人文学が何を問い、どのような知を生み出していくのかを改めて考えさせる契機にもなっている。こうした時代のなかで、日中の研究者が経験を共有しながら新しい研究の形を模索していくことこそ、AI の恩恵を受ける研究者である私たちに課された責任の一つとでも言えよう。
2009年、Unicode 5.2.0で Alan Gardiner の記号リストに基づく1,071文字の古代エジプト・ヒエログリフが符号化された[1]。Unicode Consortium が維持する標準に入ったことで、フォントや OS が変わっても同じ符号位置列として保存・交換できる基盤が成立した。しかし、当時の Unicode は本文の核心である二次元配置を線形テキストから復元できず、1984年に策定が開始され1988年に刊行された ASCII 記法 Manuel de Codage(MdC)[2]などを用いて JSesh 等の専用エディタ[3]などで出力し、Word などの文書ソフトに画像貼り込みをするといった回避策に依存し続けた。
ヒエログリフは、記号の同定(どの文字か)と組版(どう配置するか)が分離しにくい文字体系である。複数の記号は「クァドラト(quadrat)」と呼ばれる仮想的な方形枠の中に、大小の記号が美的かつ空間を無駄なく埋め尽くすように上下左右に組み合わされて配置される。図1はヒエログリフをクァドラトに敷き詰めるように配置した標準的なレイアウト、図2はヒエログリフを横に1直線状に置いた非標準的なレイアウトである。基本的なヒエログリフ自体は Unicode 5.2.0で揃っていたが、図2のような横並びでしか表示できず、図1のようにクァドラト内に「敷き詰める」仕組みが長く欠けていたのである[4]。


転機は2019年の Unicode 12.0である。ヒエログリフ列中に挿入する不可視の「エジプト・ヒエログリフ書式制御記号(Egyptian Hieroglyph Format Controls)」(U+13430–U+13438)が導入された[5]。縦結合子・横結合子・挿入位置制御子・オーバーレイ制御子・セグメント区切子の9文字は、MdC のコロン(縦結合)やアスタリスク(横結合)といった学界のデファクト・スタンダードを、Unicode の可搬性ある制御文字として吸収したものである。この方向性は、2016年の提案段階で Bob Richmond と Andrew Glass らにより、クァドラト形成を複雑文字のシェーピング処理として扱い、OpenType 機構で実現する方針として明確に言語化されていた[6]。

2022年の Unicode 15.0では、「損傷」表示など校訂本文寄りの指定を含む29文字が追加され、38文字体系に拡充された[8]。カルトゥーシュ(王名枠)やセレクなどの囲み構造、欠損部分の表示、さらには損傷箇所の網掛けなど、碑文研究(エピグラフィー)に不可欠な機能が正式に規格化されたのである。この拡張は、既存の学界慣習に乗っ取った文字のレイアウトを Unicode 制御文字→シェーピングで実現するという経路を確立した点で重要である[9]。
2024年の Unicode 16.0では Egyptian Hieroglyphs Extended-A(U+13460–U+1355F)として約3,995文字が追加され、古典期の標準セットから、プトレマイオス朝文献など後期資料で多用される文字群へ射程が広がった[10]。この拡張は、Unicode標準附属書 A Unicode Standard Annex (UAX) #57として規定される Unikemet(Unicode Egyptian Hieroglyph Database; UAX #57)が「同定情報・分類・実装補助」を与える形で並走している[11]。また、ヒエログリフの回転表現は別符号位置にせず、標準化変異シーケンス(Variation Selector)で指示するモデルが採用されている(図4)[12]。

制御文字はレイアウトの「指示」に過ぎず、実行はフォントとレンダラに委ねられる。規格(Unicode)・実装(シェーピングエンジン)・資材(フォント)の三点セットが揃って初めて本文組版が成立する(図5)。この実務ギャップを埋めたのが、Andrew Glass が開発し、オープンソースで公開したEgyptian OpenTypeである[14]。

Egyptian OpenType は、線形ヒエログリフ・フォントを解析し、制御文字に従うクァドラト配置規則を OpenType テーブルとして自動生成する Python 3ベースのツールである[16]。設計文書(eot.md)によれば、その戦略は以下の多段構成をとる。(i)制御文字と周辺記号を解析しブロック構造を定義、(ii)階層的な入れ子領域(外枠→内枠)を割り当て、(iii)領域に収まる字形サイズを選び、(iv)アンカーとマーク連鎖で最終配置を構築する。さらに、正しいレンダリングが Universal Shaping Engine(USE)のヒエログリフ・クラスタモデルに依存することも明記されており[17]、規格・実装・資材の三点セットが具体的な工程に落ちている。
なお、制御文字は一般カテゴリ・フォーマットであり不可視であるため、入力・校正・検証の道具立てを別途整えないと誤入力が見落とされやすい点は、今後の課題として認識すべきである。Egyptian OpenType 自身も、フォント生成だけでなくテストやキーボード用データの生成機能に言及しており、規格だけでは足りない「周辺装置」の重要性がここに現れている。
ヒエラティック(神官文字)とデモティック(民衆文字)は系統的にはヒエログリフから派生するが、筆記体としての連綿、語中変形、略記、字種境界の曖昧さなど、符号化モデルそのものが難しい。ヒエラティックに特有な文字は Unicode ではヒエログリフと統合されており、独立した符号を持たない[18]。これは、エジプト学の学術出版において、ヒエラティック文書を対応するヒエログリフに転写して表記する慣行を反映した設計である。ただし、Unicode 16.0の Extended-A には、Gardiner 分類カテゴリ Z("Strokes, signs derived from Hieratic, geometrical")に属するサインなど、ヒエラティック由来の記号が拡張レパートリの一部として含まれている。
デモティックは2026年現在も未収録である[19]。字形変異が大きく文字とグリフの区別が曖昧であるという書記論的性質が Unicode の設計原則と衝突し[20]、字種集合・字形変種の統制・正規化・入力モデルの提示が今後の中心課題となる。当面は「ヒエログリフ拡張の中に、筆記体で必要な記号を選択的に含める」路線で実用需要に応える一方、デモティックを書記体系として実用可能レベルまで符号化するには、なお多くの作業が必要である。
Egyptian OpenType と書式制御記号の組み合わせは、ヒエログリフを Unicode 文字列のまま本文に流し込むための最後の工程を現実化した。可搬性が確保されれば、校訂・注釈・検索・差分管理・長期保存が一般テキストと同じ道具立てで可能になるという見通しが立つ。不可視制御文字を含む入力・互換・検索の課題は残るものの、規格(Unicode 12/15/16)と実装支援(Egyptian OpenType)が揃ったことで、「Unicode で組めるヒエログリフ」という前提はすでに成立しており、エジプト学におけるデジタル・ヒューマニティーズの実務は確実に次の段階へ進んだと言える。
前回の閑話休題では、アメリカの大学の AI の現状および技術の伝播とリテラシーの変容についてみた。今回は、補遺として、AI 技術の現状と DH の教育が関与できる貢献について考えたい。なお今回の内容は、2026年に行われた中央大学須藤修教授の最終講義を一部参考にさせていただいた[1]。
教育分野から外に目を向けると、AI 技術は現在すでに社会の様々な分野で使用されている。企業や政府、学術分野をはじめ、社会の至る所で応用されており、日常に浸透しているといって良い。社会のインフラとなりつつある AI は、人間の能力を代替し拡張する平和的な利用もあれば、軍事的利用など人間に危害を加える意図をもった使用もある。チャット型の生成 AI サービスの一つクロードを提供する企業アンスロピックは、クロード憲法を規定して人工知能の行動規範を明示し、軍事利用を禁じている。しかしながら、例えばアメリカ国防総省はクロードを広く使用していることはよく知られている事柄であろう[2]。
アンスロピックのクロード憲法は、人間の道徳と AI の行動を共同させ、人間およびAIに対し AI の認識・行動規範を示す先駆的な事例である。クロード憲法は、AI の開発および運用において、有用であること、ガイドラインを遵守すること、倫理的であること、安全であることを求めている。このうち倫理性のカテゴリ内で不正な社会的・軍事的・経済的支配権の掌握を試みる行為をより重要度の高い制約として禁じている。これは DH の分野で言いかえれば、人間中心の AI 活用、倫理規範の遵守、デジタル主権への対応を求めていると考えられるだろう。
人口に膾炙した AI サービスの他に、別種の AI も開発が進められつつある。汎用人工知能(以下 AGI)と呼ばれる、人間の知性に似た一般的な知性をもつ AI の開発であり、現在ではテクスト以外に映像、音声、画像、センサーを通したデータなどを統合するマルチモーダルな AI をもって AGI として実用化されている[3]。須藤は、AGI に必要な知識として、科学知と臨床知の二つを挙げている[1]。科学知とは研究活動を通して蓄積された知であり、臨床知とは現場でのみ生じうる人間の生の実感に関わる知のことである[4]。マルチモーダルな AGI には、センサーなどを通して得られる現場の情報を臨床知として学習させることができるということであろう。臨床知は医学分野から生じた概念であり、自然科学の分野で生じる人間性の探究への一つの筋道と考えられる。この点を、DH の分野から AGI への関わりとして考えた場合、人文学の立場から人間性に基づく知を提供する方策を考えることができると言える。
以上で、AI 技術の現状を概観し、社会で広く使われている特定分野の AI については、人間中心の AI 活用、倫理規範の遵守、デジタル主権への対応を考えること、また AGI については、人文学の立場から人間性に基づく知の提供を考察できることを示した。以下 DH 教育の立場から確認していきたい。
AI 自体が人間に危害を加えるようになるかもしれないというリスクと、軍事的目的などに活用されるかもしれないというリスクは、科学技術の発展に伴う倫理的・法的・社会的な課題(Ethical, Legal and Social Issues、以下 ELSI)の問題としてまとめられる。ELSI とは、特に AI を含むイノベーション技術の創造に際し、人間社会との繋がりを重視する視点から技術の発展を支える学問である[5]。例えば OECD は2019年に AI 原則を発表し、公平性と個人情報の保護を含む人権と民主的価値の尊重(人間中心の原則)、透明性と説明可能性、頑健性と安全性、説明責任といった価値に基づく AI の開発・政策策定の原則を掲げている[6]。これは急速に発展し人間社会に影響を及ぼす AI 技術に対し、人間の道徳と調和した発展を求めた、人間中心のイノベーションを求める原則であり、開発者を含む多くの人々に伝えるべき内容であろう。同様に AI が、兵器の開発や軍事作戦の計画立案など、倫理に反する行為に用いられることがないよう教育することも重要である。こうした ELSI に関する教育は、法律、倫理、社会課題といった内容の特性上、特に人文学や DH の立場から教育がなされるのが適切と考えられる。人間性を考えるのは人文学の研究者・教員が担ってきた役割であり、人文学の立場からしか見えない視点もあるためである。
例えば、筆者は、大学院のオムニバス形式の ELSI の授業で講義一回分を担当している。DH の立場から何ができるかと考えて、AI の学習データに含まれるバイアスを扱った論文と、ジョージ・オーウェルの『一九八四年』の一部を指定教材として事前に読ませて、授業ではバイアスの問題や監視社会における声の問題を学生に議論させている[7]。毎回様々な意見が出て活発な討論となる。学生は情報あるいは法律を専門とし社会人や日本語を母語としない学生が多いが、異なる立場に置かれた人々の状況を彼らの立場から考えるという時間を取るのは、学生にとってこれまでなかった経験であり有意義なようである。
デジタル主権の問題も、ELSI の一つとして考えられる。デジタル主権とは、デジタル技術に関しデータの使用や蓄積を管理する団体がもつ権力の問題である[8]。個人も政府も、デジタル技術のプラットフォームを一部の大企業に依存する傾向が高まっている。そのような中で、誰がデータを管理し、入力・出力に関するルールを規定し、サイバー空間に対する主権をもつのかは重要な検討事項となっている。例えばヒュー・ロバーツはデジタル技術を制御する正当性を問題とし、規範的アプローチによって主権の範囲を重層的に定め、ビッグテックには準主権者としての権利のみを認めることを提唱している[8]。ここで重要なのは、果たしてデジタル技術のプラットフォームや AI を一部の企業のみに任せ、主権を与えて良いだろうかという問題である。主権や権力に関する議論は、法律や文学の研究者が得意とするところであるから、教育を通じて社会における AI の権利構造を認識していく必要があるだろう。
最後に AGI に関して DH 教育が貢献できることを述べたい。2020年にはすでに、自然言語の分野から、同時代の AI はテクストのみを扱っており、人間の知としては狭い範囲の知しか扱っておらず、将来五感全てを巻き込む人間的な経験に基づく学習が必要となることが提唱されていた[9]。現在すでにマルチモーダルな AI が、OpenAI やアンスロピック等によって開発されている(図1)[10]。マルチモーダルな AI は、画像、音声、映像、また場合によってはセンサーにより収集したデータの学習が可能となるであろうから、学習の情報量が多く、文脈を踏まえたより人間の知に近い学習が可能になると期待される。

こうしたマルチモーダルな AI あるいは AGI に必要なのは、データの量ではなく、データの学習の仕方であろう。人文学の立場から見たとき、現在の AI の出力は人間的な出力とは言えず、不思議な違和感を残す出力となっている。おそらく、人間の知に近くなる学習を目指すためには、AI あるいは AGI は根本的に構造を考え直す必要があるのだろう。人間らしい知とは何か、人が生きているという感覚とは何かという根源的な問いを AI とともに考えていく必要があるのかもしれない。それには、人文学の DH の分野から、人間性とは何かについて教育を続けていく必要があるだろう。
何が必要な価値であり教育に値するかは、時代や地域によって変化するが、AI や AGI の発展に伴い、人間性への問いや人文学的な問いも同時に変化し、再考を促される。新しい時代のイノベーションに積極的に関わるには、DH の教育は一つの方策であろう。
今回までで、閑話休題として、DH の教育について考察した。次回は、英文学と DH のテーマに戻り、DH における文学の問いや論点を考察していきたい。
年度末の月となり、あちこちでイベントが開催され、お話をさせていただく機会が色々とありました。立川⇒バンクーバー⇒三田×2⇒恵比寿⇒仙台、といった案配で、同じ話は一つもなく、それぞれ違う話題になってしまいました。なかでもやはり盛り上がるのはAI関連の話題で、これについては皆さんが一家言を持ちやすい環境が整ってきたこともあり、色々な意見をいただいて議論が活発になります。開発者でなくてもユーザとして議論できるため、その観点からの議論も大いに発展してきていて、大変興味深い状況になってきています。とはいえ、一方で、前提となる情報や知識には大きな幅があり、議論をかみ合わせるのが難しそうな場面も散見されました。今後、AIについて議論する際に抑えておきたい事項を容易に共有できるようにしておくと、より建設的な議論が発展していくのかもしれないと思ったところでした。