科学研究費助成事業(科研費): 国際共同研究加速基金 (国際共同研究強化B)2021-2026
京都大学

イベント

International Workshop

Exploring the Potential of Utilizing Data from Sanskrit Literature
サンスクリット文献のデータ利用の可能性

2024年3月19日(火)、20日(水・祝)

京都大学文学研究科 第2講義室(京都大学吉田キャンパス、本部構内)

オンライン併用

プログラムチラシはこちら: PDF 4MB

資料のデジタル化や横断検索など、情報学的研究手法は文献学にとって身近なものになった。その一方で、サンスクリット文献学においては、その言語や資料の特殊性に対応したデジタルデータの作成やデータ分析について、未だ課題が多い。本ワークショップでは、サンスクリット文献学にとって有効なデータの在り方、データ利用の方法について、人文情報学と文献学双方の視点から議論を行い、新たな視点、新たな領域を拓く今後の研究の可能性を見出したい。

参加登録はこちら:https://forms.gle/NcDrsim8psM5xgfd9
現地参加かオンラインかを選択してください。(ご登録後e-mailにてZoomミーティングのリンクを送付いたします。)

参加費は無料です。

19日(第一日目)終了後、文学研究科第1講義室(ワークショップ会場の隣の部屋)で懇親会を開催いたします。(ご参加の方から懇親会費をもらい受けます。学生2,000円、教員は参加人数によって計算いたします。)
懇親会にもぜひご参加ください。

参加登録はワークショップ終了まで受け付けいたしますが、懇親会に参加ご希望の方は、準備の都合上3月5日までにお申し込みをお願いいたします。

プログラム

3月19日(火) 10:30-18:30

10:30-10:40
Opening Remarks 天野恭子(京都大学)

Development and Utilization of OCR for Indian Scripts
インド文字OCRの開発と活用

10:40-11:20
The Paleographic Database Indoskript – Design and Future Applications
Oliver Hellwig (University of Zurich)
11:20-11:45
break
11:45-12:45
Development of Devanagari OCR: From Typeset to Handwritten Letters
デーヴァナーガリ―OCRの開発:活字から手書き文字へ
加藤隆宏(東京大学)
友成有紀(東京大学)
12:45-13:15
Discussion
13:15-15:00
lunch break

Creating and Utilizing Data of Sanskrit Texts and Non-Textual Data
サンスクリット語データの作成と活用、テキストデータ以外のデータの活用

15:00-16:00
Efficiency in Text Reading through OCR and Text-mining
OCRとテキストマイニングを活用した文献読解の効率化
岩崎陽一(名古屋大学)
16:00-17:00
Creating Vedic Texts and the Challenge of Indentifying the Same Words
ヴェーダ文献テキストの作成とその困難 ―「同じ語」とはなにか―
塚越柚季(東京大学)
17:00-17:15
break
17:15-18:00
Visual Analytics of Intertextual Relationship Using a Mantra Index
マントラインデックスを利用した文献間の影響関係の視覚的分析
夏川浩明(大阪成蹊大学)
天野恭子(京都大学)
18:00-18:30
Discussion:コメント 永崎研宣(人文情報学研究所)
18:45-21:00
懇親会(文学研究科 第1講義室)

3月20日 (水・祝) 9:30-16:30

Analysis of Internal Structure and Chronology Using Vedic Corpus, and its Visualization
サンスクリットコーパスを用いた文献構造分析と年代分析、およびその可視化

9:30-10:30
Dating the Vedic Corpus Oliver Hellwig (University of Zurich)
10:30-10:45
break

Analysis of Similarity in Yajurvedic Texts
ヤジュルヴェーダ文献間類似度の分析

10:45-11:00
Background of Similarity Analysis in Yajurvedic Texts
ヤジュルヴェーダの文献間類似度分析の背景
天野恭子(京都大学)
11:00-11:45
A Corpus Linguistic Analysis of Intertextuality in Vedic Literature using TRACER and Stylo
ヴェーダ文献におけるTRACERとStyloを用いた間テクスト性のコーパス言語学的分析
宮川創(国立国語研究所)
11:45-12:30
Reassessment of Similarity Measures for Sanskrit: Word2Vec and Transformers
サンスクリット文献に有効な類似度推定の方法論再評価: Word2VecとTransformers
京極祐希(Leipzig University)
12:30-12:40
Evaluation of Analysis Results
分析結果の評価
天野恭子(京都大学)
12:40-13:10
Discussion
13:10-15:00
lunch break
15:00-16:00
VL2: Visualization of Linguistic Layers in Vedic Literature
ヴェーダ文献における言語層の可視化
夏川浩明(大阪成蹊大学)
天野恭子(京都大学)
16:00-16:20
Discussion
16:20-16:30
Closing Remarks

主催:科研費基盤研究B「デーヴァナーガリー文字OCRの実用化と文献データベースの利活用にむけた応用研究」研究代表者:加藤隆宏 (2023-2026FY)
科研費国際共同研究強化B「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」研究代表者:天野恭子 (2021-2026FY)

共催:研究所共同研究拠点利用公募研究班「インドにおける『循環的存在論』の形成」代表:手嶋英貴
科研費挑戦的研究(萌芽)「インド古典文献研究の基礎作業支援環境の構築─ウダヤナ文献研究における実践を通して」研究代表者:岩崎陽一 (2022-2023FY)

 

第2回(最終)ワークショップ

古代インドとデータサイエンス
Ancient India meets Data-Science

2022年2月11日(金, 建国記念日) 16:00-19:00 JST (= 8:00-11:00 CET)

オンラインにて開催

SPIRITSプロジェクト「データ駆動型科学が解き明かす古代インド文献の時空間的特徴」
SPIRITS project “Chronological and Geographical Features of Ancient Indian Literature Explored by Data-Driven Science”

国際共同研究「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」のキックオフを兼ねて。
It’s also a Kick-off for Joint International Research “A Study of Language Layers in Vedic Literature for the Development of a Program for Age-Estimation”

チラシダウンロード (PDF 580KB)

16:00-16:30 JST (= 8:00-8:30 CET)
The Result of the Two-Year SPIRITS Project and Our Vision for the Next Research.
「2年間のSPIRITSプロジェクトの成果と今後の研究への展望」
天野恭子(京都大学 白眉センター / 人文科学研究所)
16:30-17:00 JST (= 8:30-9:00 CET)
Visualization meets Ancient India: Mapping the Structure of Vedic Texts
「可視化と古代インド研究:ヴェーダ文献の構造のマッピング」
夏川浩明(京都大学 学術情報メディアセンター)
17:00-17:30 JST (= 9:00-9:30 CET)
“One Step Further: Assessing Semantic Similarity in Sanskrit Using Word Embeddings with a Weighting Factor”
「検証の次なる段階へ:重み付けを伴う単語分散表現によるサンスクリット文献の類似度推定」
京極祐希(Leipzig University, Indology)
17:30-17:45 JST (= 9:30-9:45 CET)
Break
17:45-18:15 JST (= 9:45-10:15 CET)
“Computational Stylometric Analysis on Intertextuality in Historical Written Languages: A Case Study of Coptic”
「文献言語における間テクスト性の計算言語学的・計量文献学的分析:コプト語における事例研究」
宮川創(京都大学 文学研究科 / 文学研究科附属文化遺産学・人文知連携センター)
18:15-18:45 JST (= 10:15-10:45 CET)
Dependency parsing of Vedic Sanskrit – Algorithms and linguistic conclusions
Oliver Hellwig, Sebastian Nehrdich, Sven Selllmer (Dusseldorf University, Institute for Language and Information)
18:45-19:00 JST (= 10:45-11:00 CET)
Discussion and Concluding remark: Oliver Hellwig
Oliver Hellwig (University of Zurich, Department of Comparative Language Science)

下のGoogleフォームより参加登録をお願いいたします。登録いただいた皆様に、e-mailにてZoomミーティングIDおよびパスワードをお知らせいたします。
*** 受付終了 ***

定員なし、参加費無料
ワークショップ終了までご登録いただけます。

主催:京都大学研究支援SPIRITS:「知の越境」融合チーム研究プログラム2020-2021「データ駆動型科学が解き明かす古代インド文献の時空間的特徴」(天野恭子、夏川浩明、Oliver Hellwig、京極祐希)、国際共同研究加速基金(国際共同研究強化(B))2021-2026「ヴェーダ文献における言語層の考察とそれを利用した文献年代推定プログラムの開発」(研究代表者:天野恭子、課題番号:21KK0004)

共催:京都大学学術情報メディアセンター、天野恭子白眉プロジェクト「古代インド祭式文献の言語および社会的・文化的成立背景の研究」、科研費挑戦的研究(萌芽)2020-2022「古代インド文献成立過程解明に向けた文体計量分析のためのデータベース構築」(研究代表者:天野恭子、20K20697)

 

第1回ワークショップ

古代文献の言語分析から読み解く社会背景のダイナミズム
Dynamism of Social Context Deciphered by a Linguistic Analysis of Ancient Literature

2021年2月12日(金) 14:00 – 19:10

京都大学研究支援 SPRITS:「知の越境」融合チーム研究プログラム
2020-2021年度採択プロジェクト

「データ駆動型科学が解き明かす古代インド文献の時空間的特徴」
Chronological and Geographical Features of Ancient Indian Literature Explored by Data-Driven Science

チラシダウンロード (PDF 1.6MB)

第1部

14:00 – 14:30 オープニング:
Problems in the Formation of the Vedas, Ancient Indian Religious Texts
「古代インド宗教文献ヴェーダの成立を巡る諸問題」
天野恭子(京都大学 白眉センター・人文科学研究所)
14:30 – 15:10
The Possibility of Information Visualization and Data Analysis for Ancient Indian Literature
「古代インド文献を対象とした情報可視化やデータ分析の可能性」
夏川浩明(京都大学 学術情報メディアセンター)
15:10 – 15:50
Relationship Among Vedic Schools Deciphered by the Visualization of Mantra Collocation
「マントラ共起関係の可視化から読み解くヴェーダ学派間の関係性」
天野恭子(京都大学 白眉センター・人文科学研究所)
15:50 – 16:30
Citation Prediction Using Academic Paper Data and Application for Surveys
「学術論文データを用いた引用数予測とサーベイへの活用」
濵地瞬(京都大学 工学研究科)

第2部

16:50 – 17:30
Measuring the Semantic Similarity between the Chapters of Taittiríya Samhita Using a Vector Space Model
「ベクトル空間モデルによる『タイッティリーヤ・サンヒター』の章間類似度比較」
京極祐樹(Leipzig University, Indology)
17:30 – 18:10
Dating Vedic Texts with Computational Models: Algorithmic Considerations and Data Selection
Oliver Hellwig (University of Zurich, Department of Comparative Language Science)
18:10 – 18:50
morogram: Background, History, and Purpose of a Tool for East Asian Text Analysis
「morogram: 東アジア文献分析ツールの開発の経緯と目的」
師茂樹(花園大学 文学部)
18:50 – 19:10
ディスカッション(司会:夏川浩明)

およそ文献を正しく読む上で、文献成立の背景となる社会への理解は根底となる要件である。しかし古代社会の場合は多くの場合において実態が謎に包まれ、そこでどのような過程によって文献が成立したかも明らかでない。古代インドの宗教文献ヴェーダはそのような例の一つである。本ワークショップでは、ヴェーダ文献の言語を分析することで、古代インド社会の動き、地理的な移動や勢力圏の変化をどのように読み解くことができるのか、この分野への情報科学の応用の方法を検討しながら議論したい。

Googleフォームより参加登録をお願いいたします。登録いただいた皆様に、e-mailにてZoomミーティングIDおよびパスワードをお知らせいたします。
*** 受付終了 ***

ワークショップ終了まで、いつでもご登録いただけます。
定員なし、参加費無料

主催:SPIRITSプロジェクト「データ駆動型科学が解き明かす古代インド文献の時空間的特徴」(天野恭子、夏川浩明、Oliver Hellwig、京極祐樹)

共催:京都大学学術情報メディアセンター、天野恭子白眉プロジェクト「古代インド祭式文献の言語および社会的・文化的成立背景の研究」、科研費挑戦的研究(萌芽)「古代インド文献成立過程解明に向けた文体計量分析のためのデータベース構築」(研究代表者:天野恭子、20K20697)

Oliver Hellwig

Title: Dating Vedic texts with computational models: Algorithmic considerations and data selection

Text: In spite of over 150 years of scholarly research, the chronology of the Vedic corpus is still far from being well understood as external historical evidence is largely missing and post-Rigvedic Sanskrit shows only minor developments on the levels of phonetics and morph-syntax.

This presentation discusses mathematical models that can be used for dating (Vedic) texts based on the linguistic evidence they provide. It also addresses the important questions of how to select expressive linguistic features, i.e. those whose distribution is coupled with the time of composition; and how to interpret the parameters of the resulting models in a linguistic context. The discussions are exemplified by a corpus of classical and medieval Latin texts which show comparable linguistic developments, but can, in contrast, be dated exactly, thereby facilitating model evaluation.