Kohei Kajikawa（梶川康平）

アメリカの大学院への出願について

2025-05-23T00:00:00+00:00

2025秋入学のサイクルで、アメリカの大学院の博士課程に出願しました。その記録です。

自己紹介

2025年秋からアメリカのジョージタウン大学言語学科の博士課程の学生になります。外国暮らしの経験はないです。学部・修士は東大教養学部の言語学のコースでした。

出願に際し、わからないことだらけだったので、出願体験についてここに残しておきます。

なお、出願したのは、

Georgetown Linguistics
Johns Hopkins Cognitive Science
Maryland Linguistics
MIT Brain & Cognitive Science
UC Irvine Language Science
UCLA Linguistics
UC San Diego Linguistics
Yale Linguistics

の8つです。

アメリカの大学院は、「書類審査→面接」で合否が決まるのですが、このうち、UCI と UCLA は書類落ち、他は面接に進むも落とされ、ジョージタウンだけが合格をくれました。

なぜ出願したか

修士に入ってから、何となく、同じ場所に進学するのに抵抗を感じてきたので。
- 大学は楽しかったが、このままずっと同じところにいるとお山の大将になる気がしていました。ふわっとした理由です。
あとは、7月に、はじめてオランダでの認知科学の国際会議に参加し、ここで、外国のPhDの学生や著名な研究者にたくさん会ったのですが、その人たちと話すのが楽しくて、自分もこういったコミュニティに入りたいなぁと強く思うようになりました。
- 「論文の向こう側」にしかいないと思っていた人たちが現実に存在することに気づき、日本以外の可能性、というのを意識するようになりました。

Minimum score

英語で教育を行っている大学を卒業していない場合、出願時に TOEFL や GRE の score が求められ、application form に入力する必要がありました。大抵の大学院は、TOEFL で120点中100点です。さらに、TOEFL は 4技能30点ずつですが、各技能ごとに minimum score がある場合もありました。具体的な数字は、大学院の出願要件のページにはない、もしくは正確ではない場合もあり、application form のなかに書いてありました。

TOEFL の要求は、そもそも研究を英語で行うことができるのか、ということと、入学後に teaching assistant (TA) として雇用するための要件を満たしているのか、ということの確認のためのようです。

ただ、私の出願時の TOEFL の点は、 Listening 18, Reading 24, Writing 21, Speaking 17 の 81点でした。 minimum score を超えていたのは UCI だけでした。

また、GRE は受けませんでした。 Johns Hopkins では要求されていましたが、受けても点が取れるわけがなかったので、0点と記入して出願してみました。

minimum score を下回っていても、出願の際に機械的に弾かれることはないので、出願することはできます。なお、どの大学の form にも太字で minimum score の要求が書いてあるので、常識を備えているのであれば、要件は満たしておくべきでしょう。私の最終的な合否に TOEFL の点がどれくらい影響しているのかはわかりませんが、まあ流石に関係はある気はしました。少なくとも面接等を経て、もっと英語が堪能じゃないと楽しくないなぁとずっと思っていました。だが、これ以上の点数が取れなかったので仕方ないです。

出願日記

5月ごろ
- 何となく可能性を潰したくないと思い、フルブライト奨学金の予備調査に応募。
- 正式に応募する手前に、応募資格等を確認されるもので、3-5月中に必要だった。これを逃したら正式出願ができない。
- 所属大学や、大学院で研究したいことに関する英作文を書いて提出する。
6/18
- はじめて TOEFL を受けてみた。61/120点。その後問題集を買って訓練をして複数回受験、81点。
  - 結局この点数のまま出願に至る。
  - 受験料は1回3-4万くらい、高い。
  - 後から知ったが、各大学の application form には、「事前に連絡くれれば、TOEFLの受験料の肩代わりを検討します」という文言があった。
7/1
- フルブライト奨学金の正式応募期限。
  - 要件としては、この日までにTOEFL80以上をとっている必要があるのと、一人か二人の先生による推薦状を書いてもらう、というものだった気がする。
  - CoNLLという国際会議の期限と重なっていて、CoNLLに出せそうなネタが急に固まったのでフルブライト奨学金はあきらめた。
  - もちろん、直前に色々やろうとしていたのが問題なのであって、時間はいくらでもあったのだからもっと早くにやるべきだった。
    - 「海外大学院にいこう！」という気持ちがそこまで強くなかったので、大して頑張れなかった。
    - JASSOは95以上が必要、とかだったのでもっと無理だった。
    - だが、奨学金は頑張るべきところではあった。不合格とされたところのうち数校は、（方便なのかもしれないが）「留学生」かつ奨学金を持っていないことを理由に採用できなかった、と言われた。
      - こういった理由が書かれているメールをもらうと、後悔が止まらなくなるので、精神衛生上極めてよろしくない。避ける方法は「英語を勉強しておくこと」だった。
7/24-27
- オランダ、ロッテルダムでのCogSci（認知科学の国際会議）に参加。
  - 自分にとって初の西洋、初の海外国際会議。
  - ここで、MITのPhD学生の方に会い、その方が他の学生の方々を紹介してくださって色んな人と交流できた。アメリカのPhDの学生にたくさんあったが、その人たちと話すのが楽しくて、自分もこういったコミュニティに入りたいなぁと思った。
  - 研究ジャンキーだらけだった。
夏-秋
- 英語の勉強しないとなぁ、出願準備しないとなぁの期間。
- 出願先を割と真剣に考え始める。
- このころ、同時に各種奨学金の募集もたくさんあったが、採用されている人をみたらレベルが高く、やる気がしなかったので一切を諦めた。きっぱり諦めると考えないで済むので、気が楽になる。
- 各大学院のホームページを見て、先生や学生リスト、出願要件等を眺める。
  - このとき、すでに application form は open だったが、特に登録しなかった。
  - 後になって振り返ると、これは良くなかった。というのも、出願に関する多くの情報（TOEFLの最低要件はいくらなのか、GREは必要か、Statement of Purpose に書くことへの指定、diversityやhardshipに関するエッセイなどSoP以外の要求などなど）がapplication form 内にしか載っていないことが多く、直前に慌てて準備するのは非常に大変だったしものによっては不可能だったので、絶対に避けるべき案件。最終的に submit しなくても、メアドの登録だけはして中身を見ても良いのかも。
11/5
- 出願のために、statement of purpose を書きはじめる。
  - ライバルたちは多くの人に見てもらいながら修正を重ねるものなので、どう考えてももっと早くから準備をしておくべきものだった。が、やろうやろうと思ってついぞ始められたのがこの日だったから仕方ない。
    - ほとんど手探りで書いているので、どういう書き方が良かったのかわからない。
      - 「わからない」で書いているのは最悪ではあると思う。
      - どういった研究をしてきたのか、どういった研究がしたいのか、そのためにあなた方のところで勉強・研究したい、ということを書いた。問題文には大抵「場合によっては研究以外も自身のアピールになると考えるならば書いていい」とあったが、文章力で負けそうなので研究メインで戦ってみることにした。
        
        研究押しにするのが最善手だと思ったが、研究の上位互換が同時に出願していたらすぐさま負ける戦い方ではある。他の人はどうしていたのだろう。まあ仕方ないのか。
    - ジョージタウン大学のNathan Schneider氏の記事を参考にした。
      - 結局、この人のところに行くことになった。
  - 周囲の方々に見ていただいた。感謝。
    - ChatGPTの4oにも見ていただいた。かっこいい言葉に変えていただけるが、良し悪しの判断がつかないので、うまく使いこなせなかった。プロンプトの知識がなかった。
  - 書いたものは、連絡をいただければ共有はできます。参考になるかはわかりませんが。
11月中
- マイアミでの学会に参加。UCSDの先生に会った。
  - TOEFL の点が足りていないことを伝えると、「学科ではなく大学自体が決めたルールだったりするので、どうにもできない場合もあるかもしれないが、少なくとも学科レベルで点数を気にしている人はあまりいないからとりあえず出願したら良い」と言われた。「10校受けたら1校は受かるでしょう」とも、「とりあえずUSCDに出願したら検討することはできる」「もしダメでも visiting scholar の機会を用意できる」と言ってくださった。
  - 10校受けよう、と思った。
- 推薦書を書いてもらうよう、お世話になっている先生方にお願いをした。常識があるのならもっとはやくお願いするもの、ということは理解はしていた。
- 学部・修士の成績表を印刷してきたり、GPAを計算してみたり。履歴書を作ったりもした。
  - 東大教養学部は GPA がないので、東大友の会が公開している計算表を参考に、勝手に GPA を計算して提出した。
- application form に実際に登録してみて、必要書類を集めたりしていた。
12/1
- 複数校が12/1（の23:59）締切だった。
- MITのapplication formが、現地時間で12/1になった瞬間（＝日本で、12/1の14時）に突然閉じた。
  - ギリギリまでessayを調整しようとしていたため、applicationを完了していなく、パニックに陥る。
  - admission committieと志望先の先生にメールをし、何とか受理してもらえないか連絡する。取り合ってもらえた。
- TOEFLやGREのrequirementsの詳細や、そのほか用意すべき資料等については、application formを開いて初めてちゃんとわかるものが多いので、早めに開いて入力できるものについては入力しておくべき。
  - 最後のsubmitボタンを押してお金を払わない限りは期間内なら何度でも訂正可能。
  - 推薦状の依頼も、application form内から行うものだった。メールアドレスを打ち込み、form経由で各先生に執筆依頼を送る、というもの。
    - 早めにやるべきだった。
  - statement of purposeについても、application formに「ちゃんとした問題文」がそれぞれ書いてあるので、早めに開いてみておくべき。
    - これを怠っていたので、直前に初めて問題文を見て内容を慌てて書き換える必要が生まれてしまったりした。愚か。
  - 大学院によっては、さらに一般的な記述問題がたくさんあった。「diversity にはどう貢献しますか？」とかそういうもの。良い子ならば書くだろう内容を ChatGPT に教えてもらって書いた。
  - TOEFLのような test score は、点数の証明をテストの機関から大学院に送ってもらう必要があるのだが、その手続きに数日を要するので早くやっておかないといけなかった。
    - test score を送るのにも毎度数万とられる。足元を見過ぎ。
    - 各大学院の出願にも毎度数万をとられる。カードの上限にも気をつけていないといけない。
12/4, 8, 13
- 残りの大学についても出願。
- すべてTOEFL 81で出した。
12/13
- Georgetown の先生からメールが来た。書類審査が通ったとの連絡。早くて嬉しかった。
- zoom でラフに conversation をしましょう、とメールをいただいたので、言葉通りとって本当にラフに会話しにいったら、普通に面接だった。
  - zoomのタイトルがinterviewだったし、開始早々interviewといわれた。
  - ちゃんと準備するべきだったと猛省。
  - computational linguisticsに関わる3人の先生がいらっしゃった。
  - 日本との時差を考慮してくださっていた。こちらが23時、現地が朝9時だった。ありがたい。
- どういう研究がしたいか、具体的なプランはあるのか、なぜgeorgetownを志望したのか、過去の研究はどうやって考えたのか、過去の研究で他に検討した方法等はあるのか、ということを聞かれた。
  - 後半については、過去の研究が指導教員ではなく自分の発想であるかを確かめられたのだと思う。
  - ここは、もっとも丁寧に過去の研究を聞かれ、最も今後の研究計画について聞かれなかった。
- 何か聞きたいことはある？といわれたので、TOEFLの点低いけど大丈夫？というのと、なぜ私は書類を通ったの？と聞いてみた。
  - TOEFLの点はあるに越したことはないけど、TAは初年度に与えないようにはできるので、それまでに英語に慣れてくれればいい、といわれた。
  - 点数が低いことは承知の上で面接に呼んでくださっていると思われるので、わざわざこちらからTOEFLの話をする必要ないなぁと反省し、この後の面接では聞くのをやめた。
  - なぜ私？に対しては、研究テーマが近いから、興味が合致しているから、publication数（3人のなかで最も分野が遠い先生から）といわれた。
12/21
- Johns Hopkins から 2/6-7 に大学での対面面接に呼ばれた。
1/3
- Yaleからinterviewの連絡が来た。
- 1/8に実施。夜中の3時。やってみて全然頭が働かなかったので、避けられるのなら夜中は避けるべきだと思った。
- ちゃんとinterviewだったし、またまた準備不足。
  - 書類を通ったのは数%です。Congratulations! と言われた。ならば合格にしてくれ、と思った。
  - 研究してきて楽しいと思う瞬間はどういうときか、なぜYaleか、Yaleでは2つの分野のプロジェクトを進めるのだが何をしたいか、というものだった。
  - 終わってからPhD interviewで検索すると、こういった一般的な質問は面接であるあるの質問のようで、対策可能だったのに、ダラダラ要領を得ないことを言ってしまった。
- SoPで言及した4人の先生のうち3人の先生によるinterviewだった。
1/7
- MITからinterviewの連絡が来た。応募のうち上位3%だったので呼びました、とのことだった。
- 3/14,15にオンラインイベントをやるよ、その時一緒に面接もするよ、との連絡だった。
1/15
- UCSDからinterviewの連絡が来た。
1/23
- UCSDの先生と面接をした。1対1だった。
- どういう研究をしたいのか、ということを聞かれた。
1/29
- Marylandからinterviewの連絡が来た。
2/1
- UCSDから、waitlist（補欠）に入りました、との連絡が来た。
  - UCSDの先生とは、テーマがドンピシャというわけではなかったのだが、「他の状況次第」ということで waitlist に入れてくださった。
  - また、TOEFL の点から、言語学の授業のTAはできないが、日本語の授業のTAにならねじ込めるかも、といってくださった。
- 早いところだとこのあたりには合格通知が来るので、だんだん雲行きが怪しくなっていた。
  - 合格の場合、先生から直接メール。
  - 不合格の場合、大学公式から直接お祈りメール。時差の関係上、これが深夜に来がちなので最悪。
2/4
- Marylandの先生と面接をした。1対1だった。
- どういう研究をしたいのか、ということを聞かれた。先生が今後数年間でやりたい研究の話を聞かせてもらい、それに対してどう思うのか聞かれた。面白かったので前向きな反応ができたし、とても手応えがあった。
- 将来は industory に進みたいのか、academia に進みたいのか、ということについても聞かれた。
2/6-7
- Johns Hopkins 面接。ワシントンDC経由でボルチモアに行った。
  - 電車に乗って行った。冬だったので非常に寒かった。
  - 治安は悪かった。
- あわせて15人の人がよばれていて、現地に11人の学生＋4人zoomで参加していた。
- およそ8人ほど採用する、とのこと。
  - 新人の先生がいて、1人以上は絶対にとる、ということだったので、いつもより1-2人多いっぽい。
  - ↑こういったことは大学選びにおいて大事みたいで（多くの先生は基本0-1人採用に対し、新任の先生は確実に1人、多くの場合は2人以上採用するので）、現地で会ったうち4-5人ほどはその新任の先生目当てだった（もちろん、人気分野だし、超著名な先生だというのもあるが）。
  - 結局何人採用したのかは知らない。
- 15人の選考基準は、メインの指導教官になる、という先生がいて、さらに少なくとも一人以上別の先生から興味を示された人、だった。
- 2月末までに結論を出す、とのこと。
- 現地に来ていた学生は、うち9人はアメリカの大学所属だった。
  - Cognitive Science学科なので、同じく言語学系の人とは出願先が複数被ったが、まったく被ってない人も何人かいた。
  - Psychology, Computer Science, Neuroscienceなどなど。
- 3人が学部生、8人が修士所属だった（が、日本とシステムが違うので関係なさそう、というか話を聞いてもよくわからなかった）。
- 3-5人の先生と、順番に30分ずつくらいでinterviewをした。自分は4人の先生だった。どういう基準で選ばれているのかよくわからない。
  - 自分が面接されている、ということを忘れてしまっていた。非常に後悔している。
  - もっと自分には能力があるとアピールするべきだった。素直に、「今は次の5年でどういう研究をしたら良いかわからず迷っている」とばかり言ってしまった。意味不明。
  - ニューラルネットでのモデリング研究をしている先生の研究に、「面白いとは思うが自分は興味がない」と言ってしまった。英語力が足りず、オブラートに表現する、みたいなことができずに、思った通りのことしか言えなかった。
- 雰囲気は良かった、し、楽しかった。
  - 先生の雰囲気がとにかく良かった。学生の方々も楽しそうだった。
  - 同世代の、これから博士に進学したい、という人たちに会えてよかった。「周りを蹴落とそう」みたいな野生スタイルではなく、純粋に交流をしようという人たちばかりだったのは意外だった。
  - Cognitive Science 学科なので、視覚・脳・ニューラルネットワークみたいなキーワードの研究をやっている人が多く、多くの人とはなんか興味が違うな、とは思ってしまった。もし入学したら、自分もLLM（大規模言語モデル）の内部分析とかをするのだろうか、それはやりたいことなのか、とか考えていた。
    - もちろん、数人、人間の文処理の人はいた。特にこの人たちに会えたのはよかった。
- 各大学は、秋にオンラインで個別説明会的なものを催してくれているらしくて、そこに参加した、という人は多くいた。
  - おもにPhD学生が先生紹介やessayの添削てきなことをしてくれるらしい。
  - 夏あたりからformが開いている、とか。
- 西海岸の大学院は、物価高から外国人学生を採らないつもりだ、という話を聞いた。
  - 火事がさらに追い打ちをかけたらしい。
  - UC IrvineとUCLAから連絡が来ない、という話をしたらそう言われた。
- せっかくアメリカに行ったので、ついでに Maryland と Georgetown に立ち寄って散歩して帰った。
  - どちらも、空港までの電車で途中下車すれば行ける距離にあった。
2/13
- UCLA から、正式に不合格通知を受ける。
2/15
- Yale から、正式に不合格通知を受ける。
2/19
- UCI から、正式に不合格通知を受ける。
3/13
- Johns Hopkins から、正式に不合格通知を受ける。
3/15,16
- MIT の面接。
- 2日かけて、1対1の面接を5人の先生と行った。
  - SoPに名前を書いた先生3人と、まったく知らない、分野が異なる先生2人だった。
    - 一応、残り2人については論文をいくつか読んでみた。読んでいたので相手の話が理解しやすかったし間がもった。
  - 今年は、1,000人ほど出願して、30人が面接に残った、とのことだった。そして、そこから15人ほどを取る、と言っていた。もう半分の15人に入ってしまった。
- 3月からサマータイムで、時差が1時間変わっていた。これを知らなかったので、最初のイベントには遅刻したし、面接も朝の5時からになってしまったので寝ずに出ることにした。
  - 基本的には、どの先生も、どういった研究をしてきたのか、どういった研究をしたいのか、ということだった。
  - 1人の先生から、「Stanfordは受けていないのか。あなたのやりたいことはStanfordの先生のところに行ったら良い。来年受けたらいいよ」と言われた。直接「うちではありません」と言われたも等しいので悲しかった。そんな簡単に出して受かるんなら楽なもんですなあと思いました。多分この先生からの票をもらえなかった。
- 研究については、心理実験や計算モデリングだったらどっちを主軸にしてやっていきたいのか、とか、LLM（大規模言語モデル）の研究をやったことはあるか、と聞かれた。
  - 心理言語学をするとしても、LLMを使った研究をやる学生が欲しいようだった。
3/17
- Maryland から、正式に不合格通知を受ける。
3/21
- Georgetown の先生から連絡が来た。お金を工面できさえしたら採用できるので、あと少しだけ待っててほしい、とのことだった。
3/22
- MIT から、正式に不合格通知を受ける。
3/30
- Georgetown から、正式に合格通知を受ける。
4/11
- UCSD から、正式に不合格通知を受ける。
  - UCSD の先生に Georgetown に行きます、と伝えて、waitlist からおろしてもらった。それまで一応 waitlist に入れ続けてくださっていた。感謝。

出願してよかったこと

面接に進めた場合、著名な先生方と直接お話できる機会を得られます。
- 不合格になっても、何人かの先生はメールをくださった。
- 認識してもらえるかもしれないイベント。

確率・情報理論を使った言語研究

2025-03-03T00:00:00+00:00

確率モデル・情報理論を使った心理言語学・計算心理言語学研究について。

確率や情報理論といった数学の道具は、言語使用や言語の構造それ自体を支配している何らかの規則や原理原則を記述するのに非常に有用であるように思えます。

それは、確率や情報理論といったものは現象に対して理論中立的 (theory-neutral) な記述が可能で、とにかく使い勝手が良い道具だからなのかもしれないし、そもそも人間の言語処理をはじめとした認知活動が何らかの確率的なものだからなのかもしれないし、認知活動自体が、ベイジアンモデラーたちが主張するような「合理的 (rational)」なものだと考えたら合理的でありそう、という直感や経験的事実があるからなのかもしれないし…。

いずれにせよ、確率や情報理論は、言語処理・言語使用の研究（つまり、Performance の側面の研究）、そしてさらには言語の構造や知識自体の研究（つまり、Competence の側面）をするのに非常に強力な道具です。

近年は、コーパスをはじめとした言語資源の整備、計算機の性能向上や（確率）プログラミング言語・各種計算ライブラリの充実、BERT や GPT から現在の大規模言語モデルに至るまでの汎用的な言語処理技術たちの登場によりかなりの精度で言語のさまざまな側面が確率や情報量を使って定量化できるようになってきたこと、といったさまざまな要因たちが揃ってきて、そしてさらには、確率や情報理論といった道具自体の理論研究や言語研究へ応用するといった方法論が確立されてきたので、これからできることが大量にあるよ、という状況です。

実際、心理言語学とか、計算言語学、計算心理言語学、認知科学とか言われる分野の研究をみていると（これらの分野がそれぞれどういった範囲を指しているのか正直よくわからないが）、確率や情報理論であふれています。今や CogSci は端から端まで情報理論かベイジアンモデリングでしょう。そういった状況が良いか置いておいて、眺めているうちに、とりあえず勉強しなきゃなぁと思わされたし、この波に乗っておきたい、と思えました。ので、その紹介記事です。

このあたりのレビュー論文、本として、個人的参照すべきものたち：

確率を取り入れた言語研究は結構有用じゃないでしょうか、という話： Chater and Manning (2006)
言語を含めた認知科学における確率モデル的（合理的）アプローチについて： Tenenbaum et al. (2006), Griffiths et al. (2010), Perfors et al. (2011), Griffiths et al. (2024), Griffiths (2024)

文処理系

Surprisal

ある単語 \(w\) の生起確率 \( P(w) \) の負の対数 \( -\log P(w) \) のことを単語 \( w \) のサプライザルと呼びます。サプライザル理論 (Hale, 2001; Levy, 2008b) では、ある単語の予測のしにくさ（サプライザル）はその単語の処理の難しさに比例する、とします： \begin{equation} \text{difficulty}(w)\propto -\log P(w) \end{equation}

対数の底はしばしば \( 2 \) で bit単位ですが、底が一致している限りはサプライザル同士の相対関係は変わらないので、サプライザル理論において、底の値をサプライザルの定義に組み込む必要はないです。
- \( \log_2 x = \frac{\log_e x}{\log_e 2} = \frac{\log_e x}{0.30103…} \) と、底の変更は可能。高校で習う基本的なことですが、しばしば忘れてしまいます。

サプライザルの値 \( -\log P(\cdot) \) は、生起確率 \( P(\cdot) \) の値が小さければ小さいほどほど大きくなる、という関係になっています。

そして、実際に、読み時間 (e.g., Demberg and Keller, 2008; Smith and Levy, 2013; Wilcox et al., 2023; Shain et al., 2024) や、ERP（事象関連電位）(e.g., Frank et al., 2015; Brennan and Hale, 2019)、 fMRIによるBOLD信号 (e.g., Lopopolo et al., 2017; Shain et al., 2020) について、サプライザルによってうまく人間の言語処理の活動が予測できることが示されています。

サプライザルがとらえているものは何なのか？

では、単語 \( w \) の生起確率 \( P(w) \) は何で求めることができるのでしょうか。逐次的な文処理過程について考える場合、単語 \( w \) 以前の文脈 \( w_1,\dots,w_{n-1} \) が与えられたときの単語 \( w \) の生起確率 \( P(w\mid w_1,\dots,w_{n-1}) \) が求められれば良い、すなわち、（統計的）言語モデルがあれば良い、ということになります。

Hale (2001) では、言語モデルとして、確率的文脈自由文法（Probabilistic Context-Free Grammars, PCFGs）によるものを採用しました。 PCFGは、文脈自由文法における各文法規則に生起確率を割り当てたものです。詳しくは、自然言語処理系においてとりあえず最初に参照すべき文献である Jurafsky and Martin (2025, Appendix C) を参照ください。

\( P(w_n\mid w_1,\dots,w_{n-1}) \) は、条件付き確率の定義により、 \begin{equation} P(w_n\mid w_1,\dots,w_{n-1}) = \frac{P(w_1 \cdots w_{n-1}\, w_n)}{P(w_1 \cdots w_{n-1})} \end{equation} と分解することができます。

PCFGs は、文脈自由性により、ある文字列に対する可能なすべての木構造は互いに排反なので、以下が成り立ちます： \begin{equation} P(w_1 \cdots w_n) = \sum_{T\in\mathcal{T}(w_1 \cdots w_n)} P(T, w_1 \cdots w_n) \end{equation}

また、PCFGs は木構造と文字列の生成モデルであり、木構造 \( T \) に対して文字列 \( w_1\cdots w_n \) が一意に定まるので、 \begin{equation} P(w_1 \cdots w_n\mid T) = 1 \end{equation} が成り立ちます。

よって、ある文字列 \( w_1\cdots w_n \) の確率は、その文字列に対するすべての可能な木構造の確率の和に等しくなります： \begin{align} P(w_1 \cdots w_n) &= \sum_{T\in\mathcal{T}(w_1 \cdots w_n)} P(T, w_1 \cdots w_n) \newline &= \sum_{T\in\mathcal{T}(w_1 \cdots w_n)} P(T)\cdot P(w_1 \cdots w_n\mid T) \newline &= \sum_{T\in\mathcal{T}(w_1 \cdots w_n)} P(T) \end{align}

つまり、サプライザル \( -\log P(w_n\mid w_1,\dots,w_{n-1}) \) は、 \begin{align} -\log P(w_n\mid w_1,\dots,w_{n-1}) &= -\log\frac{P(w_1 \cdots w_{n-1}\, w_n)}{P(w_1 \cdots w_{n-1})} \newline &= -\log\sum P(n\text{単語までの木構造}) \newline &\quad - \log\sum P(n-1\text{単語までの木構造}) \end{align} と、\( n \) 単語時点での構造に関する情報量と \( n-1 \) 時点での構造に関する情報量の差、言い換えると、その単語により構造に関してどれだけ情報が得られたのか、を表す値として説明されます（解説として、Hale (2016) も参照ください）。

Hale (2001) で PCFGs が採用されたのは、\( n \)-gram 言語モデルでは（\( n \) がとりわけ大きいわけではなければ）単語間の依存関係を正しく取り扱えないからであり（たとえば、the man who likes dogs dislikes … の the man と dislikes の関係は、\( 5 \)-gram 以上でないと捉えられません。）、さらにはそもそも著者自身の興味が文法構造の処理にあったからだと思われるのですが、それにより、シンボリックで離散的な文法理論を、連続的で柔軟な情報理論を通して、処理負荷の予測につなげられています。

* そのため、Hale (2006) では、PCFG ではなく、linguistically-motivated な Minimalist Grammars を用いてモデリングを行っています。構造への確率が付与できさえすれば良いので、そういった拡張が容易にできます。

これに対し、Levy (2008b) では、特定の構造・意味の形を前提としない形でのサプライザルの解釈を提示しました。

アイディアは非常にシンプルで、\( n \) 時点での単語 \( w_n \) のサプライザルを、\( n-1 \) 時点までの意味 \( T\in\mathcal{T} \) の確率分布から \( n \) 時点での意味の確率分布へのKL距離（Kullback–Leibler divergence）、すなわち、単語 \( w_n \) の入力により、意味に関する確率分布がどれだけ変化するのかを示す値である、と示しました。これは、先ほどの Hale (2001) でのサプライザルの導出過程と同じで、\( P(w_1,\cdots,w_n\mid T) = 1 \) 、という仮定を置いた場合に示すことができます： \begin{align} &D_{\textit{KL}}(p(T\mid w_1\cdots w_{n})\parallel p(T\mid w_1\cdots w_{n-1})) \newline &= \sum_{T\in\mathcal{T}} p(T, w_1\cdots w_n)\log\frac{p(T\mid w_1\cdots w_n)}{p(T\mid w_1\cdots w_{n-1})} \newline &= \sum_{T\in\mathcal{T}} p(T, w_1\cdots w_n)\log\frac{\frac{p(w_n\mid T, w_1\cdots w_{n-1})p(T\mid w_1\cdots w_{n-1})}{p(w_n\mid w_1\cdots w_{n-1})}}{p(T\mid w_1\cdots w_{n-1})} \newline &= \sum_{T\in\mathcal{T}} p(T, w_1\cdots w_n)\log\frac{\frac{p(T\mid w_1\cdots w_{n-1})}{p(w_n\mid w_1\cdots w_{n-1})}}{p(T\mid w_1\cdots w_{n-1})} \newline &= \sum_{T\in\mathcal{T}} p(T, w_1\cdots w_n)\log\frac{1}{p(w_n\mid w_1\cdots w_{n-1})} \newline &= \log\frac{1}{p(w_n\mid w_1\cdots w_{n-1})} \newline &= -\log p(w_n\mid w_1\cdots w_{n-1}) \end{align}

言語モデルによりある単語の文脈上のサプライザルを計算することで、その文脈の背後にある意味・構造に関する分布を考慮に入れられているよ、ということが示されているのは非常に面白いところです（詳しくは、causal bottleneck として Levy (2008b) の 2.3 節で説明されているので参照ください）。

しかしながら、ではなぜ現在の大規模言語モデルによるサプライザルが人間の読み時間・神経活動を（かなり説明はできているが）説明しきれていないのでしょうか。おそらくそれは、人間の作業記憶は大きくない、という制約や、確率分布等の計算をすること自体のコストが考慮されていないからでしょう。 Hale (2001) では \( T \) で周辺化された文字列に関する周辺分布を、Levy (2008b) では、\( T \) に関する確率分布を用いてサプライザルを説明していますが、人間が、こういった分布を全部ちゃんと記憶して扱えるのかは謎です。おそらく絶対に分布を端から端までは記憶していないでしょう。次に調べるべきところは、分布を想定するという理想化により現実とどのくらい差異が生じうるのか、ということでしょう。また、（これは些細であるのかどうかの判断もついていないのですが）\( P(w_{1,\cdots,n}\mid T)=1 \) という仮定は問題ないのでしょうか。真理条件的には同じ意味だが、語順・構造が違う文は作れるし、語彙も「同じ意味っぽい」形が異なる組み合わせはたくさんあるが、とは思います。

言語モデルの性能 (perplexity) との関係

言語モデルの次単語予測性能を表す（単語ごとの）perplexityは、その値が低いほど「テストデータにおける次単語予測が正確である」ことを表すのですが、Fossum and Levy (2012) をはじめ、neuralモデルの時代になっても Goodkind and Bicknell (2018) など、「言語モデルのperplexityが低いほど、そのモデルによって算出したサプライザルの、読み時間の予測精度が高い」ということが主張されていました。

* 言語モデル \( q \) のperplexityとは、 \begin{equation} b^{-\frac{1}{|\text{test data}|}\sum_{\text{test data}}\log_b q(x)} \end{equation} で、要は \( b \) のテストデータにおける平均サプライザル（クロスエントロピー）乗です。\( b \) は底 (base) で、一貫していればなんでもいいです。

しかし、次第に、Oh and Schuler (2023) や Shain et al. (2024) では、「言語モデルの規模が大きくなり、perplexityがさらに低くなっていくと、むしろ読み時間予測精度が下がる」という傾向が報告されています。なお、この「言語モデルの精度 (perplexityの低さ) と人間の読み時間の予測精度が必ずしも相関しないのでは」ということを最初に指摘したのは Kuribayashi et al. (2021) です。 Kuribayashi et al. (2021) では、日本語の読み時間データセットである BCCWJ-EyeTrack (浅原ら, 2019) にて、言語モデルの精度と読み時間予測の相関が成立しなかったことを報告しています。

確かに、人間以上に「正確に」次単語予測ができるモデルがあったら、そのモデルは人間の反応時間をunderestimateしてしまう気はします。 Oh et al. (2024) では、最近の大規模低perplexity言語モデルは、頻度の低い単語に対しての予測精度が高く、そこで人間の読み時間との乖離が生じている、と説明しています。

一方で、Wilcox et al. (2023) では、13 の言語を対象とし、そのうち 11 の言語で言語モデルの精度と読み時間予測の相関が成り立った、ということを報告しました。 Wilcox et al. (2023) は各言語ごとにそれぞれ複数の規模の言語モデルを from scratch で学習しており、Oh and Schuler (2023) や Shain et al. (2024) の結果は、サイズの大きな言語モデルにはその学習データに読み時間コーパスの文が含まれてしまっているからだろう、としています（Shain et al. (2024) は、2022年には arXiv に上がっていたので、Wilcox et al. (2023) では Shainらの結果も考慮されています）。が、Wilcoxらの「データのleakを考慮すれば、言語モデルの精度とその読み時間の予測の相関関係は成り立つ」という主張への反例として Kuribayashi et al. (2021) があるので、説得力があるか、といったら微妙な気はします。

（Haggingface にある GPT-2 の small/medium あたりが日本語でも英語でも読み時間への予測に最も寄与します。）

サプライザルと処理負荷の関係は線形か、非線形か

サプライザル理論では、単語のサプライザルは、その単語の処理負荷に比例する、としています。しかしながら、本当に比例関係が成り立つのかよくわかりません。これは、人間にとっての単語の予測のしやすさ (predictabitliy) が何の影響を受けているのか、どういった認知過程を反映しているのか、という問題につながります。最初に、「ある単語の予測のしにくさ（サプライザル）はその単語の処理の難しさに比例する」と書いたのですが、そもそも「単語の予測のしにくさ＝サプライザル」と何のことわりもなくしたのはおかしな話です。というのも、「単語の予測のしにくさ」とは、その単語の頻度に関係するかもしれないし、情報量かもしれないし、それ以外でもいいはずだからです。

わかりやすくいうと、仮にある単語 \( w \) の生起確率が \( P(w) \) だとすると、\( w \) の処理負荷は \( -P(w) \) に比例するかもしれないし、\( -\log P(w) \) や \( -\log P(w)^k\ (k>1) \) に比例するかもしれません。言い換えると、\( w \) の処理負荷は \( -\log P(w) \) に比例するかもしれないし、sublinear や superlinear といった非線形な関係かもしれません。

が、Smith and Levy (2013) や Wilcox et al. (2023)、Shain et al. (2024) によって、自己ペース読文や視線計測による読み時間に関しては、比例関係である示されています。

Lossy-context surprisal

前項でのサプライザルの定義では、それまでの文脈をフルに使って求められた当該単語の生起確率が用いられていました。一方で、心理言語学の文処理研究では、昔から、人間は作業記憶に極めて制限があり、記憶にまつわる処理の負荷があることが知られていました。この予測に関する処理負荷と記憶に関する処理負荷は、要は文処理に関する2大処理負荷で、ずっと別々に研究が進んでいたのですが、Futrell et al. (2020) では、サプライザルの定義を少しだけ変更した lossy-context surprisal (LCS) を提案し、この2つを統合しました（これはほんとうにすごいと思っています）。アイディアはものすごいシンプルで、文脈 \( c = w_{1,\cdots, n-1} \) をフルに使用せず、文脈 \( c \) をもとにした記憶表象 \( m \) を用いて、単語 \( w \) の生起確率を求める、というものです： \begin{align} \text{LCS}(w\mid c) &:= \mathbb{E}_{m\sim p(m\mid c)} [-\log p(w\mid m)] \newline &= -\sum_m p(m\mid c)\log p(w\mid m) \end{align}

この定式化は非常に一般的なものであり、例えば記憶表象 \( m \) がどのような形なのか、どのようにして生成されるのか、といったことは特に指定されていません。ということは、この形を明らかにする、という研究は求められるはずで、例えば単純に文字列としての \( c \) と \( m \) の関係なのかもしれないし、意味（構造）として \( m \) を扱った方が実際の人間がやっていることに近いのかもしれません。

計算理論レベルで考えたとき、lossy memory \( m \) はどのように計算可能か、ということについて、Hahn et al. (2022) では retention probabilities という概念を使って実装する、ということを提案しています。

また、記憶に関する処理については、これまで、Gibson (1998) や Lewis and Vasishth (2005)、Isono (2024) など、何らかの文法理論を用いてモデル化がなされてきており、人間は作業記憶上で文法構造を取り扱っていると考えると良さそうかも、という状況です。なので、これらを組み合わせることはできるし、そして人間の文処理のモデル化として有効でしょう、ということは期待できます。「こうしたモデル化をしないと説明できないこと」みたいなものはまだはっきりわかりませんが、挑戦的なものとして、Yoshida et al. (2025) では、文法構造を明示的に取り扱う言語モデルを使って記憶処理について考えています。この研究自体の目的は必ずしも lossy memory について考察することではないですが、今後 \( m \) の形を考えるのに有用でしょう。

Noisy-channel model

人間の文処理研究において、多くの場合、人間は見聞きした文を正確に知覚できていることが前提とされていたりしますが、もちろん常にそんなことはなく、実際には聞き手は、話し手の発話を一部聞き逃したり、誤って聞き取っている場合もあります。しかしながら、だからといって聞き逃して終わり、というわけではなく、聞き手は何やかんやうまく話し手の意図を推定できたりしています。このような人間の処理過程を、Levy (2008a) や Gibson et al. (2013) は、noisy-channel model（雑音のある通信路モデル）を用いてモデル化しました。

ここでは簡単に Gibson et al. (2013) による表記を用いて紹介します。 \begin{equation} s_i \overbrace{\longrightarrow}^{\text{noisy channel}} s_p \end{equation} 話し手が意図した発話 \( s_i \) が、聞き手が実際に知覚した発話 \( s_p \) をもとに推定される確率 \( P(s_i\mid s_p) \) は、 \begin{equation} P(s_i\mid s_p)=\frac{P(s_p\mid s_i)P(s_i)}{\sum_{s_j\in\mathcal{S}}P(s_p\mid s_j)P(s_j)}\propto P(s_p\mid s_i)P(s_i) \end{equation} で求められます。

ようは、\( P(s_p\mid s_i) \) という noise が入る確率と、そもそもありえる発話 \( s_i \) の確率 \( P(s_i) \) のバランスをとって、 \( s_i \) を合理的に推定する、ということです。 Gibson et al. (2013) の例を使うと、The mother gave the candle the daughter. という文は、the candle に the daughter を与えたという意味的に不自然な文（つまり、\( P(s_p) \) は低い）が、名詞同士の間に to を入れ忘れた可能性は高そう（\( s_i \) が The mother gave the candle to the daughter. と考えたとき、\( P(s_p\mid s_i) \) の確率は高そう）なので、おそらく多くの人は、文字通りではない意味 The mother gave the candle to the daughter. で解釈しそう。一方で、The girl was kicked by the ball. は、意味的に不自然で \( P(s_p) \) の確率は低そうなのだが、他の意味的に妥当な文を探してきても、\( P(s_p\mid s_i) \) が \( P(s_p) \) を超えることはあまりなさそう（これは事前確率と尤度をどう計算するか次第ではあるが）なので、文字通りの解釈が取られやすい、と考えられます。

Ferreira and Ferreira (2024) では、noisy-channel model が good-enough model に似ている、と説明していますが、むしろ noisy-channel model はちゃんと予測がたつ理論、という意味ではより強力なものだとは思います。

個人的には、Competence \( c \) とPerformance \( p \) の間の関係も、まさにnoisy channelで考えることができる、と思っていています。 \begin{equation} c \overbrace{\longrightarrow}^{P(c\mid p)} p \end{equation}

例えば、\( P(c) \) はオッカムの剃刀的な、シンプルな理論ほど高い確率を付与する、というふうにして表現できますし、\( P(p\mid c) \) は、competence \( c \) によって performance \( p \) をどれだけ説明できるのか、ということで、まさに理論言語学者や心理言語学者が、容認性判断や読み時間、神経活動データなどをもとに判断していることでしょう。概念的には、 \begin{equation} P(p) = \sum_c P(p\mid c)P(c) \end{equation} の \( P(p) \) と実際の観測との誤差が最小になるような \( P(p\mid c) \) を探す、ということをしているはずです。

そして、\( P(p\mid c) \) や \( P(c) \) を定めることができれば、\( P(c\mid p) \) が推測できます： \begin{equation} P(c\mid p)=\frac{P(p\mid c)P(c)}{\sum_{c\in\mathcal{C}}P(p\mid c)P(c)}\propto \underbrace{P(p\mid c)}_{\text{現象への説明}}\overbrace{P(c)}^{\text{文法のシンプルさ}} \end{equation}

つまり、\( P(c\mid p) \) は、competence自体の単純さとそれによる説明力の高さのトレードオフにより求められます。そして、最も適切な理論 \( \hat{c} \) は、事後確率が最大となるもの、とすることができます： \begin{equation} \hat{c}=\arg\max_{\hat{c}\in C} P(p\mid c)P(c) \end{equation}

尤度と事前確率をそれぞれ「記述的妥当性」と「説明的妥当性」として読むと、これはまさに Chomsky (1965) による competence-performance の区別における議論でしょう。記述的妥当性と説明的妥当性のトレードオフは、 Berwick (2015) が最小記述長 (minimum description length) を用いて同様の議論をしています。

ただ、このnoisy-channel model は非常に一般的なことを述べているに過ぎないので、Chomsky による competence-performance をより広く解釈できます。 50-60年代は容認性判断くらいしか \( P(p\mid c) \) の議論をする場所がなかったので、Chomsky の議論は文法現象の「記述」がメインでしたが、心理言語学研究の進展により、\( P(p\mid c) \) に対して、読み時間や脳活動データを使った検証が可能です。

また、Kirby et al. (2015) での文法の文化進化モデルも、尤度を「意図の伝達成功確率」と、事前確率を「文法の学習可能性」として扱っているもの、と見ることができると思います。

とはいっても、Chomsky の50-60年代の直感は、いまになって読み返してみても、（Shannon の研究を必要以上に叩いているようにみえるところ以外は）非常に有用なものが多いように思えます。ちゃんと整理すると、\( P(c),\ P(p\mid c),\ P(c\mid p) \) それぞれについて考えようとする、ということがまっとうな Chomskian だと思っているのですが、どうでしょうか。そういう意味で、個人的には、formal な文法理論を用いた文処理の研究 (\( P(p\mid c) \)) と、\( P(c\mid p) \) に直接取り組む効率的なコミュニケーション研究（後述）をやっています。学習可能性 (\( P(c) \)) に関する研究もしてみたいとは思っています。

* もしくは、\( c \) と \( p \) の間に noise が入りえない、プロの言語学者ならば noise なしで自身の \( c \) にアクセスできる、と考えるのも、それが実現可能かはおいておいて、筋は通っているとは思います。そういう考え方に基づくと、\( P(p\mid c) \) なんてものは考える必要はなくなります（では、心理言語学研究は何をやっていることになるのでしょうか）。

効率的なコミュニケーション (Efficient Communication)

確率や情報理論により、言語使用や人間のコミュニケーションにおける cost/benefit を心理的に妥当な指標で評価できるようになってきました。また、計算機上では、「現実には存在しないがありえたかもしれない仮想的な言語」を作り出すことができるので、言語に見られる構造・規則が言語使用において明らかに合理的なものであるのか、といったことを検証することが可能です。

効率的なコミュニケーション仮説 (Efficient Communication Hypothesis) では、言語構造が効率的なコミュニケーションを実現するように形作られてきた、と考え、言語に存在する普遍性 (universalities) や強い統計的傾向 (strong statistical tendencies) がなぜ今あるような形になっているのか、なぜ異なる形ではあり得なかっただろうか、ということを言語使用上の最適性という観点から説明しようとしています。

おすすめレビュー論文、本：

Jaeger and Tily (2011)
- 心理言語学研究からはじめて typology にまで話を広げましょう、というレビュー論文。
Kemp et al. (2018)
- 特に lexicon (semantic categorization) に関する研究を牽引してきた著者たちによる Annual Review of Linguistics のレビュー論文。
Gibson et al. (2019)
- 心理言語学の立場から、単語の長さや色の語彙、語順について処理の効率性の観点で説明してきた著者らによるレビュー論文。
Futrell and Hahn (2022)
- 情報理論それ自体の説明やその応用についても解説しているレビュー論文。
Levshina (2022)
- 個別具体的な言語現象にそれぞれ注目して言語の効率性について論じた本。類型論の言語学者によるものなので、心理言語学や情報理論に関することより、言語現象に関する議論が充実している。

* なお、ここでの「コミュニケーション」とは、文化・社会的要因等を考慮したり、ジェスチャーなどの非言語的情報を考慮する、といったようなレベルにまではまだ達しておらず、より単純に、単語や句、文の文字列や命題レベルや述語論理レベルでの意味の伝達を指します。言語学や心理学、認知科学で扱われてきた、文レベルを超えたコミュニケーションについては、まだまだこれからです。

* 「言語が効率的なコミュニケーションを実現するように形作られてきた」といった主張をするとき、決して目的論的な進化論的主張に commit しているわけではありません。そもそも、効率的コミュニケーション研究は概して進化それ自体について何ら主張をしていない場合が多いです。というのも、言語の仕組みを人間の認知資源の制約下での使用から説明するのは合理的なのか、ということを語りたいのであり、どのような過程で言語がそのような仕組みを手にしたか、という話については open なままにしています。open にしかできていない、の方が正しいのかもしれませんが。

単純性と情報伝達性のトレードオフ

コミュニケーションが効率的であるとは、人間の認知能力の制約のもと、「意図・情報の伝達が最大化されている一方、産出や理解といった使用のコストが最小化されている状況」のことを指す、という表現を私は使います。つまり、できる限り informative でありかつできる限り simple である状況が効率的であります。

この情報伝達性 (informativeness) と単純性 (simplicity) にはトレードオフ関係があり、つまり、どちらか一方だけを高めるともう一方は低くなってしまう、という関係であり、自然言語は、このトレードオフのもとで（ほとんど）最適解である側面が数々観察されています。

「最適解」とは、お気持ちレベルの説明すると、「片方の軸における値をより良い方に持っていくと、どうしてももう片方の軸における値が悪い方に行ってしまう点」のことを指します。そういった点は1つに定まるわけではなく、下の図のように曲線を描くはずです。この最適解のことをパレート解と、そしてパレート解を結んでできる曲線のことをパレートフロンティアといいます。

* 『自然言語処理』の学会記事でも書いたのですが、simplicity と informativeness という用語は専門用語として固まってきてしまっているようなのですが、その意味するところが伝わりにくい表現であります。私自身は informative という単語の語感がそもそもわからないので何とも言い難いですが、そもそも「コミュニケーションの効率性」をどういった概念・シナリオで考えるのか、そしてそれをどういった表現で言い表すのか、といったことの整理は、今後時間をかけてなされていくものなのでしょうかね。統計学や機械学習などでも使われているような、より一般的な2項対立の表現だと、complexity/accuracy とかでしょうか。それか、cost/benefit とか、cost/reward とかでしょうか。そして、もっと人間の言語処理を問題とした表現を使うとすると、Piantadosi et al. (2012) での ease/clarity はいいですよね、とは思います。

2つの相反する圧力のもとでの最適化、として言語を説明する研究は、Zipf (1949) や Hawkins (1994)、Haspelmath (2008) など、言語学者の間でも主張されてきたものですが、効率的なコミュニケーション研究は、それを理論中立的な情報理論のことばを使って書き下すことにより、定量的な研究を実現するだけでなく、その適用先・規模を拡大させることができた、という点が大きな進展です。特に語彙 (wordformやsemantic categorization) や、最近では文レベルについても研究が進んできています：

語彙に関して：

親族名称: Kemp and Regier (2012)
色: Regier et al. (2007), Regier et al. (2015), Gibson et al. (2017), Zaslavsky et al. (2018)
数: Xu et al. (2020), Denic and Szymanik (2024)
文法標識 (number, tense, evidentiality): Mollica et al. (2021)
量化子: Steinert-Threlkeld (2021)
人称代名詞: Zaslavsky et al. (2021)
不定代名詞: Denic et al. (2022)
Boolean connectives: Uegaki (2022)
Spatial demonstratives: Chen et al. (2023)
単語の長さ: Piantadosi et al. (2011), Mahowald et al. (2018), Xu et al. (2024)
Zipf則: Ferrer i Cancho and Sole (2003), Ferrer i Cancho (2005)
Zipf’s meaning-frequency law: Piantadosi et al. (2012), Trott and Bergen (2022)
…

文法に関して：

合成性（構成性）: Kirby et al. (2015), Futrell and Hahn (2024)
Greenbergの語順普遍: Hahn et al. (2020)
等位接続における構造依存性: Kajikawa et al. (2024)

効率的なコミュニケーション研究について、実際に情報理論の道具を使ってどう仮説を検証するか、代表的な研究を紹介しながら説明します。

Ferrer i Cancho and Sole (2003)

Ferrer i Cancho and Sole (2003) では、世界中の言語に見られるZipf則 (Zipf’s law) (Zipf, 1936; 1949) が、効率的なコミュニケーションの実現の結果として生まれるものなのかを検証するため、コミュニケーションを効率的にしたときにZipf則が立ち現れるのかシミュレーション実験をしました。この研究は、効率的なコミュニケーション研究の先駆けであるので紹介します。

まず、前提として、Zipf則とは、単語頻度に関する経験則で、全体で \( k \) 番目に多く使用される単語の頻度 \( f(k) \) は、\( f(k)=C\cdot k^{-\alpha} \) と冪乗則に従う、というものです。要は、よく使われる単語はめちゃくちゃ使われるし、珍しい単語は本当に珍しい、というものです。 \( C \) は比例定数で、\( \alpha \) は Zipf (1949) では \( 1 \) です。両辺に対数を適用すると、\( \log f(k) = -\alpha\log k + \log C \) と線形な関係になります。

実際の頻度と頻度ランクの関係を見たら、式の意味はすぐにわかります。ちょうど手元にUD_Japanese-BCCWJのv2.10、国語研長単位 (LUW) 分割があったので、これの単語頻度と頻度ランクを数えてみました。全部で57,109文、995,632単語（長単位）で、\( x \) 軸を頻度ランク、\( y \) 軸を実際の頻度としてプロットしたのが左図、そして両軸に \( \log_{10} \) を適用してプロットしたものが右図です。

右図については、最小二乗法での回帰直線も引いてみました。 \( \alpha = 1 \) とはなっていないようですが、ある程度はZipf則に従っているようにみえます。

* 直線から逸脱している部分があることや、傾きの係数が \( 0.94 \) であることを「Zipf則に従っている」とみるか、は結構重要な問題な気はします。詳しくは Piantadosi (2014) をお読みください。

では、（一旦単語分布はZipf則に従っているとして）なぜ単語分布はZipf則に従うのでしょうか。 Zipf (1949) は、言語は、省エネでありたいという話し手の要求と、意図・情報の復元が容易でありたいという聞き手の要求のトレードオフのもとで形作られているのだという仮説を提案しました。具体例として、言語を「単語」と「意味」の対応関係と考えてみましょう。すべての意味をたった一つの単語で表現する言語があったら、話し手は覚えるべき単語が一つだけになるため、話者の負担は最小限になります。しかし、このような言語では、単語がどの意味を指すのか曖昧になり、聞き手が話者の意図を理解するのに困難が生じます。一方で、すべての単語が明確に異なる意味を表現するシステムでは、聞き手の理解（意図推定）は容易になりますが、話し手の負担は増加します。 Zipf は、言語はこうした話し手と聞き手の相反する要求のバランスによって形作られているのだと主張しました。

では、それは本当か？と計算機上で実験してみたのが、Ferrer i Cancho氏と Sole氏の研究です。

モデル

彼らは、上述した Zipf の説明を検証するため、信号（単語）と意味の対応関係について、話し手と聞き手双方のコストがトレードオフのもとで最小となるような関係になるまで進化アルゴリズムを使って推定する、ということを行いました。

\( n \) 個のシグナル \( \mathcal{S} = {s_1,…,s_i,…,s_n} \) と \( m \) 個の意味（objects of reference）\( \mathcal{R} = {r_1,…,r_i,…,r_m} \) を考えたとき、それらの間の関係をバイナリ行列 \( \mathbf{A} = {a_{ij}}\ (1\leq i\leq n,\ 1\leq j\leq m) \) で表します。

バイナリ行列は、すべて \( 0 \) か \( 1 \) で構成されている行列で、ここでは、ある \( i \) 番目のシグナル \( s_i \) が \( j \) 番目の意味 \( r_j \) を表している場合、行列内の要素 \( a_{ij} \) は \( 1 \) と、そうでないならば \( 0 \) と表現します。

いま、synonym（同義語）があるなら、シグナルと意味の確率分布の関係は以下になります： \begin{equation} P(s_i) = \sum_j P(s_i,r_j) \end{equation}

なお、\( P(r_i) = 1/m \) と仮定。

ベイズの定理より、 \begin{equation} P(s_i,r_j) = P(r_j)P(s_i\mid r_j) \end{equation} であり、\( P(s_i\mid r_j) \) は、 \begin{equation} P(s_i\mid r_j) = a_{ij}\frac{1}{\omega_j}. \end{equation} で定義します。 \( \omega_i = \sum_j a_{ij} \) は意味 \( r_j \) における同義語の数です。

代入すると、 \begin{equation} P(s_i,r_j) = a_{ij}\frac{P(r_j)}{\omega_j} \end{equation}

話し手と聞き手のコストは、それぞれ平均情報量（エントロピー）で定義します： \begin{align} H(S) &= -\sum_i^n P(s_i)\log P(s_i) \newline H(R\mid S) &= -\sum_i^n\sum_j^m P(s_i,r_j)\log P(r_j\mid s_i) \end{align}

そして最後に、話し手と聞き手のコストのトレードオフは、それぞれの加重和で表現します： \begin{equation} \Omega(\lambda)=\lambda H(S) + (1-\lambda)H(R\mid S) \end{equation} ここで、\( 0\leq\lambda\leq 1 \) で、話し手と聞き手のコストのどちらを重視するかを表します。

この \( \lambda \) の値を変えながら、各 \( \lambda \) において、\( \Omega(\lambda) \) を最小化するようなバイナリ行列 \( \mathbf{A} \) を進化アルゴリズムで求める、ということをします。

再現コードと結果

非常に単純なモデルなので、再現実装してみました（いくつか簡略化しています）。

最適化の結果として、\( \lambda = 0.41 \) あたりで、Zipf則に近い分布が得られることがわかりました。

もちろん、目的関数が心理的に妥当ではないという批判はあります (Piantadosi; 2014)。具体的には、通信コードとしての複雑さ（＝エントロピー）が、人間の発話にとっての複雑さと一致しているのかは誰も示していない、ということと、すべての意味が等確率で現れるという前提は明らかに現実に則していない、ということです。後者については、Ferrer i Cancho (2005) で提案されているように、意味の分布が一定ではない、と想定した上で、条件付きエントロピー \( H(R\mid S) \) を負の相互情報量 \( -I(S; R) \) に置き換えると少しは良くなるかもしれません。

負の相互情報量は、 \begin{equation} -I(S; R) = H(R\mid S) - H(R) \end{equation} であり、これまでの式は \( H(R) \) が定数であることを想定したものだった、と考えられます。

Zaslavsky et al. (2018)

コミュニケーションにおける最適解を求めるのに、Ferrer i Cancho and Sole (2003) のように進化アルゴリズムのような探索的な方法をとる、ということ以外に、Zaslavsky et al. (2018) は、情報ボトルネック (information bottleneck) を用いて理論的な限界を求める、という方法論を提案しました。

形や意味の確率分布さえちゃんと定められれば、使える方法なので、極めて強力です（特に語彙レベルだと、形と意味の集合を合理的に想定することができるので非常に有用です。文レベルだと、集合や分布を決める、というのにおいてまだ良い方法論が見つけられていない気がします）。

hoge

Rational Speech Act (RSA)

Rational Speech Act (RSA) モデル (Frank and Goodman, 2012) は、その名の通り、「話し手の合理的な発話」をモデル化したモデルです。話し手が合理的であるとは、「話し手は、必ずしも全部を言ってくれるわけではないが（parsimoniousであるが）、何らかの意図を伝えようとできる限りinformativeな発話をする」ということです。

こうした状況はGrice以来想定されてきたわけですが、RSAではその話し手の合理性を確率変数に対するutility関数の形で表現し、聞き手の語用論的推論 (pragmatic reasoning) はベイズ推定 (Beyesian inference) で定式化しました。

話者の合理性を表すutility関数は、さまざまな亜種はあるものの、多くの場合、聞き手にとってinformativeである一方、自分にとってコストが低い発話、という、informativenessとaccessibility (cost) のトレードオフを表現したものが使われます。

具体的には、意味 \( m\in\mathcal{M} \) と発話 \( u\in\mathcal{U} \) について、utility関数 \( U(m,u) \) は、 \begin{equation} U(m,u) = \log P_L(m\mid u) - C(u), \end{equation} ここで、\( \log P_L(m\mid u) \) は聞き手にとってのinformativeさを、\( C(u)\geq 0 \) は発話それ自体のコストを表します。

そして、実際の話し手の発話の確率は、このutility関数の値をもとに確率的に決まると考えると、ソフトマックス関数を通して求めることができます： \begin{equation} P_{S_t}(u\mid m) = \frac{e^{\alpha U_{t-1}(u,m)}}{\sum e^{\alpha U_{t-1}(u,m)}} \propto e^{\alpha U_{t-1}(u,m)}, \end{equation} ここで、\( \alpha \) は話し手がutilityにどれだけ重みを置いているかを表します。

こうして話し手の合理的な発話がモデル化できると、聞き手の語用論的推論は、ベイズ推論によって表現することができます： \begin{equation} P_{L_t}(m\mid u) \propto P_{S_t}(u\mid m)P(m) \end{equation}

なお、添え字の \( t \) や \( t-1 \) は、合理的な話し手が再帰的な思考の内部で想定した、話し手および聞き手モデルの埋め込みのレベルを指します。要は、合理的な話し手は、「合理的な話し手ならこう言うだろう、ということを合理的な聞き手は推定するんだろうな、だからこういおうかな…」という推論を再帰的に繰り返し続けることができ、毎度ひとつ前の埋め込みでの聞き手を想定したうえで発話選択をする、ということを繰り返している、ということです。

ただし、もちろん、この再帰的な話し手と聞き手の関係は無限に考えることができるが、それだと推論がいつまでたっても終わらないので、通常は、1回埋め込んだところに、 ‘‘literal listener’’ \( P_{Lit} \) を想定します。

literal listner は、語用論的推論は行わず、文字通り、意味の真偽を判断します： \begin{equation} P_{Lit}(m\mid u) \propto \delta_{[[u]]}(m) P(m), \end{equation} ここで、\( \delta_{[[u]]}(\cdot) \) は、真偽値の \( 0, 1 \) を返す関数です。これにより、RSA frameworkにlexical semanticsやcompositional semanticsを組み込むこともできる、という主張です。

もう一度流れを整理すると（埋め込みが1回の場合）、 \( t \) における合理的な話し手の発話は、 \begin{equation} U(m,u) = \log P_{L_{t-1}}(m\mid u) - C(u) \end{equation} というutility関数をもとに、 \begin{equation} P_{S_t}(u\mid m) \propto e^{\alpha U_{t-1}(u,m)} \end{equation} でモデル化することができます。ここで、utility関数内の \( P_{L_{t-1}} \) をliteral listnerと考えると、 \begin{equation} P_{Lit}(m\mid u) \propto \delta_{[[u]]}(m) P(m) \end{equation} で \( P_{L_{t-1}} \) をモデル化できます。

そうして、\( t \) における聞き手の語用論的推論は、 \begin{equation} P_{L_t}(m\mid u) \propto P_{S_t}(u\mid m)P(m) \end{equation} で求めることができます。

RSA 関連でとりあえず参照すべきもの：

Frank and Goodman (2012)
- RSAが提案された最初の論文
Goodman and Frank (2016)
- RSAの提案者によるレビュー論文
折田 (2016)
- 著者自身によるRSAを用いた指示表現選択 (Orita et al., 2015) の研究の解説
Scontras et al. (2021)
- 著者らによる ESSLLI 2016 の授業資料をもとにした解説記事も：Scontras et al. (2016?)
Degen (2023)
- 2023年版の、Annual Review of Linguistics でのレビュー論文

Uniform Information Density (UID)

話し手と聞き手の会話を noisy channel 上のコミュニケーションだとすると、話者の最も効率的な発話は、常に channel capacity (通信路容量) のあたりで一様に情報伝達ができるようなものです。

* channel capacity \( c \) とは、送信者の信号を \( X \)、受信者の信号を \( Y \) としたとき、\( X \) と \( Y \) の相互情報量の上限を指します： \begin{equation} C = \max_{P(X)}I(X;Y) \end{equation} ここで、\( I(X;Y) = H(Y) - H(Y\mid X) \) です。

直感的な説明をすると、たとえば伝えたい情報全体のうちのほとんどを、発話を構成する unit のうちの1つに詰め込んだ場合、当然ながら発話全体の情報を正しく伝えるのに失敗する可能性が高くなるので、そのようなコミュニケーションは頑健 (robust) ではありません。また、逆に、伝えたい情報を大量で低情報量の unit に分配すると、その発話は非常に冗長 (redundant) になってしまいます。そのため、最も効率的なのは、伝えたい情報できる限り channel capacity に近いあたりの情報量の unit に分割して送信することです。ここで、あえて unit としているのは、UID が対象としているのは必ずしも単語のような区分である必要はなく、形態素やモーラ、さらには音素でもいいですし、文全体でもいいはずだからです。

UID の提案については、Genzel and Charniak (2002) や Levy and Jaeger (2007)、Jaeger (2010) を参照ください。

UID は、直感は非常にわかるが、問題は、この uniformity をどう定義しましょう、というところにあります。 Levy and Jaeger (2007) では、以下の2つ提案しています。

1つはまさに channel capacity ギリギリ、というものです。ただ、人間のコミュニケーションの channel capacity がどのくらいなのかは、いまだに解決していない問題です。

もう1つは、たとえば unit を単語 \( w \) だと考えたとき、発話 \( u = w_1,\cdots w_n \) について、

\[\sum_{i=1}^n \left( -\log P(w_i\mid w_1,\cdots w_{i-1}) \right)^k,\ k>1\]

の値が、同一の意味・情報を伝えうる発話たちの中で最も小さいもの、というものです。これは、UID は文理解の困難を最も小さくするもの、という前提と、同じ情報量を文全体に配分するとき、分配に偏りがありすぎるものは効率的ではないだろう、という直感から、\( k=1 \) ではなく、\( k>1 \) となっています。

ただ、情報量と理解の困難さの関係が superliner \( k>1 \) となる、根拠はなく、むしろ linear \( k=1 \) である、ことは、Smith and Levy (2013) や Wilcox et al. (2023)、Shain et al. (2024) で示されていますので、こちらの operationalization は成功ではないです。

一方、UID の直感をうまく予測として使っている研究はあって、たとえば Piantadosi et al. (2011) では、もし UID が正しければ、単語の長さ (duration) は、その単語の情報量に比例する、と予測しました。有名な Zipf の Law of Abbreviation (Zipf’s frequency-length relationship) では、「単語の頻度が高ければ高いほど、その長さは短くなる」ということが主張されていますが、Piantadosiらは、そうではなく、文脈からの予測のしやすさが影響をするのだ、ということです。結果として、11言語において、各単語の \( n \)-gram 言語モデル (\( n = 2,3,4 \)) による情報量や unigram頻度と、その長さの相関を見てみたところ、\( n \)-gram 情報量が強く相関する、ということわかりました。

hoge

Dependency Length Minimization (DLM)

hoge

Memory–prediction trade-off

hoge

言語獲得

確率モデル、というかベイズの定理を利用した言語学・認知科学研究で忘れてはならないのが、言語獲得モデルです（ベイジアンモデリングの解説については、Griffiths et al. (2010) や Griffiths (2024) へ）。

\begin{equation} P(h_i\mid d)=\frac{P(d\mid h_i)P(h_i)}{\sum_{h_j\in\mathcal{H}}P(d\mid h_j)P(h_j)}\propto P(d\mid h_i)P(h_i) \end{equation}

世の中にはベイズの定理に関する解説で満ち満ちているので適当に書きますが、簡単に説明すると、上式は、データ \( d \) を受けたとき、仮説 \( h_i\in\mathcal{H} \) をどれだけ支持するか、という確率 \( P(h_i\mid d) \) は、その仮説 \( h_i \) の事前確率 \( P(h_i) \) と、その仮説 \( h_i \) をもっていたときにデータ \( d \) に出会う尤度（尤もらしさ）\( P(d\mid h_i) \) の積でわかりますよ、ということです。ここで、仮説が複雑であるほどその事前確率が小さい、とすると、事前確率は仮説の複雑さ、尤度はデータへのfitを表すことになり、まさにこの2つのトレードオフを表している、ということです。

ベイズの定理の嬉しさは、概念上は、生得主義 vs. 経験主義といった二項対立を超えて、言語はどのくらい学習可能か、どのくらいの生得知識 (inductive bias) が必要か、ということを定量的に評価することができる、というところでしょう。これについて、Chater and Manning (2006) で説明があるので、引用して紹介します。

以下、Chater and Manning (2006) の p.342より：

Oversimplifying somewhat, suppose that a learner wonders whether to include constraint \( C \) in her grammar. \( C \) happens, perhaps coincidentally, to fit all the data so far encountered. If the learner does not assume \( C \), the probability that each sentence will happen to fit \( C \) by chance is \( p \). Thus, each sentence obeying \( C \) is \( 1/p \) times more probable, if the constraint is true than if it is not (if we simply rescale the probability of all sentences obeying the constraint). Thus, after \( n \) sentences, the probability of the corpus, is \( 1/p^n \) greater, if the constraint is included. Yet, a more complex grammar will typically have a lower prior probability. If the ratio of priors for grammars with/without the constraint is greater than \( 1/p^n \), then, by Bayes’ theorem, the constraint is unlearnable in \( n \) items.

ようは、ある制約 \( C \) が生得知識としてあるべきなのか、それとも学習可能なのかは、制約 \( C \) がある文法（仮に \( G_C \)）と制約 \( C \) がない文法（仮に \( G_{\neg C} \)）の事前確率の比 \( \frac{P(G_C)}{P(G_{\neg C})} \) と尤度比 \( \frac{P(d\mid G_C)}{P(d\mid G_{\neg C})} \) を比べることで、事後分布の比 \( \frac{P(G_C\mid d)}{P(G_{\neg C}\mid d)} \) を比べるのと同じこととなり、制約 \( C \) が学習可能なのかを判定することができる、ということです。

仮に、\( G_{\neg C} \) を想定している人が、偶然にも \( G_{C} \) に整合的な文 \( s_C \) に出会う確率を \( p \) とすると、\( P(s_C\mid G_{\neg C}) = p \) です。 \( P(s_C\mid G_{C}) = 1 \) であるとすると、ある人が \( G_{C} \) に整合的な文に \( n \) 回出会ったとき、それぞれの文法を想定したときの尤度比は、\( \frac{P(s_C\mid G_{C})^n}{P(s_C\mid G_{\neg C})^n} = \frac{1}{p^n} \) です。このとき、それぞれの文法の事前確率 \( P(G_C) \) と \( P(G_{\neg C}) \) の比が \( \frac{1}{p^n} \) 分離れているのかどうかで、制約 \( c \) が学習可能なのかどうか決まります。基本的には、制約が一つ多い文法の方が複雑で事前確率がより小さくなっているはずだが、その小さい事前確率をもってもなお尤度により挽回可能なのか、ということです。

多くの場合、言語獲得のベイジアンモデリングをしている人たちは、例えば文法は positive evidence から経験的に学べる、ということを示したからといって、必ずしも経験主義的な主張で終わるわけではなく、どのような事前知識が必要であったか、ということもあで議論することができています。

言語進化

繰り返し学習モデル (Iterated Learning Model)

hoge

弱文脈依存文法にまつわる理論言語学のはなし

2024-03-22T00:00:00+00:00

自然言語の文法とその生成力に関する話。チョムスキー階層 (Chomsky Hierarchy) や弱文脈依存文法 (Mildly Context-Sensitive Grammars; MCSGs) について、など。

自然言語の形態論・統語論を考えるとき、それらがどの程度「複雑」なのかを考えることは、言語理論を考えるのにも、文産出・理解について考えるのにも、言語獲得について考えるのにも、そして言語進化について考えるのにも極めて重要でしょう。

そして、自然言語の文法の「複雑さ」（以降、適当に「文法」といってしまいます）について、形式言語の世界では「生成力」という概念での整理がなされており、言語学研究としてきちんと扱えると大変嬉しいものだと思います。

というのも、生成力の議論は、何も「自然言語として可能な文字列」について議論したかったから盛んだったわけではなく、人間の瞬時の言語処理をも説明するために不可欠であると、Gazdar et al. (1985) など、指摘されてきていたはずで、必ずしも「数学者や計算機科学の人たちだけが扱えばいいもの」ではないからです。

もちろん、形式文法における parsing complexity と人間の言語処理における parsing complexity が必ずしも一致していないため、両者がすぐさま接続するわけではないとは思いますが。

<工事中>

そもそも、生成力とは？
- 文脈自由文法
  - 反復補題
  - 他の文法形式との等価性
自然言語は文脈自由文法で扱えるのか？
自然言語は弱文脈依存言語なのか？
弱文脈依存文法の心理的妥当性
- 弱文脈依存文法による文処理モデリング
- 交差依存の処理
なぜ自然言語はMCSGレベルなのか、という問題は解けうるのか？

そもそも、生成力とは？

「生成力（generative capacity）」とは、文法の「複雑さ」の概念です。ここでの複雑さは、その文法が作る（生成する）ことのできる文字列もしくは木構造をもとに測ることができます。例えば、2つの文法 \( G_1 \) と \( G_2 \) があり、 \( G_1 \) で作ることのできる文字列はすべて \( G_2 \) で作ることができるのならば、 \( G_1 \) より \( G_2 \) の方が複雑だと思えるでしょう。みたいな感じです。ここで、文字列に関する生成力を「弱生成力 (weak generative capacity)」と、木構造に関する生成力を「強生成力 (strong generative capacity)」と呼びます (Chomsky, 1965; 福井・辻子, 2017; 日本語訳)。

弱生成力は、ある文法が作ることのできる文字列（単語の配列）の集合に関する概念です。弱生成力が等しいかつ語彙が等しい文法同士では、作ることのできる文字列の集合は完全に一致します。生成できる文字列の観点での複雑さのクラス分けとして、チョムスキー階層 (Chomsky hierarcy)（下図。図はJager and Rogers (2012, p.1959)より。）という概念が広く用いられています（Chomsky (1956); Chomsky and Schutzenberger (1963)）。

自然言語の弱生成力に関して、詳しくは Jager and Rogers (2012) や Hunter (2020) のレビューを参照ください。また、計算機科学での言語理論については、関・鯵坂 (2011) が丁寧な解説をしてくださっています。

強生成力は、ある文法が作ることのできる木構造の集合に関する概念であり、Chomsky自身は弱生成力ではなく強生成力を研究の対象とするべし、としました (Chomsky, 1965)。単に単語をどう配列するのか、ということではなく、その背後にある（音や意味と関わる）階層的な構造の研究が大事なはずでしょう、ということです。ただ、強生成力それ自体に明確な定義があるわけではなく、そのために理論中立的な議論が難しくなっている、というのが現状です。というか、「構造」を理論中立的にうまく定義できていないので、強生成力の議論は形式的にはあまり行われていません。一方で、「強生成力」ということばを使ってはいませんが、一応主流生成文法の人たちは現在に至るまで、強生成力に関する研究を志向しているように見えます。形式的ではないために反証可能性がない議論が多々潜んでいますが。

もちろん、強生成力についての議論はまったくないわけではなく、最近では、CCGs (Combinatory Categorial Grammars) と TAGs (Tree Adjoining Gdrammars) が弱生成力だけではなく、強生成力においても等価である、と主張されています (Schiffer and Maletti, 2021)。ここで、では CCGs と TAGs に優劣がないのか、となるとそうではなく、仮にこの2つがまったく同一の文字列・構造を生成するとしても、その過程 (derivation step) は異なるので、そこでどちらの方ががより妥当か、という話になります。

文脈自由文法 (Context-Free Grammars)

弱文脈依存文法の話に行く前に、比較的単純ながら使い勝手の良い文脈自由文法を見てみましょう。

文脈自由文法とは、\( (\Gamma, \Sigma, S, R) \) の4つ組で定義されます。

\( \Gamma \): 非終端記号の集合
\( \Sigma \): 終端記号の集合で、\( \Gamma\cap \Sigma=\varnothing \)
\( \mathit{S}\in \Gamma \): 開始記号
\( R \): 規則（生成規則）の集合。各規則は、\( \alpha\rightarrow\beta \) の形をとる。
- ここで、\( \alpha\in\Gamma \) はちょうど1つの非終端記号、\( \beta \) は \( (\Gamma\cup\Sigma)^* \) の任意の列（空列を含む）であり、\( \rightarrow \) は左側の要素から右側の要素への書き換えを意味します。

急に記号だらけでイメージがつきにくい、という方は、四則演算を思い出してみましょう。簡単に、\( 0, 1, \dots, 9 \) の整数による足し算は、以下のようにして書くことができます。

\( \Gamma = E \)
\( \Sigma = \lbrace +, 0, 1, \dots, 9\rbrace \)
\( E \)
\( R \): \begin{align} E &\rightarrow E + E \newline E &\rightarrow 0 \mid 1 \mid 2 \mid 3 \mid 4 \mid 5 \mid 6 \mid 7 \mid 8 \mid 9 \end{align}

この文法により、1 + 1 も 2 + 3 + 4 も 8 + 9 も書くことができます。+ 8 9 は非文法的な表現ですね。我々は知らず知らずのうちに文脈自由文法を使っているのです。

「文脈自由」とは、書き換えが非終端記号1つのみに依存し、他の要素から影響を受ける（書き換えに文脈が存在する）というわけではない、という意味です。例えば、ある文脈自由文法で以下のような導出がされたとすると、\( B \) の書き換えが、\( A \) や \( C \) の状況によって決まる、なんてことはない、ということです。

    A
   / \
  B   C
 / \ / \
d  e f  g

もう1つの文脈自由言語の特徴として、これは「文脈自由」であることから当然なのですが、ネストした句・構造のみを作ることができます。どの句も、（親を除く）他の非終端記号の子供たちをその中に混ぜることはありません。そのため、文脈自由文法によって導出された文脈自由言語の構造は、かっこ () を使って書くことができます。 (3 - (1 + 2)) のようにです。

反復補題

ある言語が文脈自由ではないことは、文脈自由文法の反復補題 (Pumping Lemma) を使うことで示すことができます。「反復」とは、部分文字列の繰り返しのことを指し、反復補題は、あるクラスに属する形式言語ならば、その部分文字列の一部を繰り返しても引き続きそのクラスに属する、といったことを満たす条件を表します。とくに、文脈自由文法の反復補題は、自然言語の文法が文脈自由文法で書けるのか？という問題に直接関わる、というか、自然言語の文法が文脈自由文法では不十分であることを示すのに使うので、言語学者にとっても無関係ではないものです：

任意の文脈自由言語 \( L \) について、十分に長い文字列 \( w \in L \) は、\( u,v,x,y,z \in \Sigma^* \) （\( \Sigma^* \) は終端記号列の集合を指す）を使って \( w=uvxyz \) と分解でき、このとき、\( |vy|\geq 1 \) と、ある整数 \( p \) について \( |vxy|\leq p \) であり、次を満たす：

任意の \( i\geq 0 \) に対して、\( uv^ixy^iz\in L \)

例として、\( L = \lbrace a^nb^nc^n\mid n\geq 0\rbrace \) が文脈自由言語ではないことを、この反復補題を用いて示してみましょう。

まず、言語 \( L = \lbrace a^n b^n c^n \mid n \geq 0\rbrace \) が文脈自由であると仮定してみましょう。文脈自由言語の反復補題によれば、ある正の整数 \( m \) について、文字列 \( w = a^m b^m c^m \) が、

\[w = uvxyz\]

に分割できるうえ、\( |vy| \geq 1 \) と \( |vxy| \leq m \)、さらに、任意の \( i \geq 0 \) に対して \( uv^i x y^i z \in L \) を満たします。

すると、\( |vxy| \leq m \) より、区間 \( vxy \) としてありえるのはありえるのは、以下の5通りです：

すべて \( a \)
\( a \) と \( b \) にまたがる
すべて \( b \)
\( b \) と \( c \) にまたがる
すべて \( c \)

どの状況でも、\( i \geq 2 \) のとき、\( uv^i x y^i z \) で、\( a,b,c \) の記号の数が等しくなりません。

したがって、\( L \) が文脈自由言語であるという仮定は誤りであり、

\[L = \{a^n b^n c^n \mid n \geq 0\}\]

は文脈自由ではない言語であることがわかります。

他の文法形式との等価性

projective dependency tree

依存構造木において、依存関係同士が「交差」しないものを ‘‘projective’’ なtreeであるといいます。文脈自由文法で表現できる依存関係は、projectiveな依存関係にとどまることが知られています。

AB grammar

範疇文法 (Categorial Grammar) において、関数適用しかない範疇文法は、文脈自由文法とその弱生成力が等価です。

自然言語は文脈自由文法で扱えるのか？

では、自然言語は、文脈自由文法で表現することはできるのでしょうか。

三単現の s

まず、文脈自由文法にとって弱点でありそう、と考えられるのは、文脈自由性により「構造依存性 (structure dependence)」を表現できないのではないか？ということです。構造依存性とは、自然言語の文法は階層的な統語構造に対して適用される、というもので、例えば The walks の s は、主節の主語と動詞をもとに適用されるもので（そして主節の主語・動詞は統語構造からわかるもので）、「一番文頭よりの動詞」のような線形順序に由来するわけではないことは、The man [who played the guitar] walks からわかります。

で、文脈自由文法だと、文脈自由なので、こうした構造上の依存関係を取り扱うのが難しいように思えます。しかし、何とか解決策はあるもので、それは、例えば「三人称・単数・現在」のような情報を非終端記号に非終端記号に取り込んでしまえばよいのです。

つまり、 \begin{align} \mathit{S_{3,s,pres}} &\rightarrow \mathit{NP_{3,s,pres}}\ \mathit{VP_{3,s,pres}} \newline \mathit{S_{3,p,pres}} &\rightarrow \mathit{NP_{3,p,pres}}\ \mathit{VP_{3,p,pres}} \newline \mathit{NP_{3,s,pres}} &\rightarrow \text{The man} \newline \mathit{NP_{3,p,pres}} &\rightarrow \text{The men} \newline \mathit{VP_{3,s,pres}} &\rightarrow \text{walks} \newline \mathit{VP_{3,p,pres}} &\rightarrow \text{walk} \end{align} のようにして、三人称単数現在 \( _\mathit{3,s,pres} \) と三人称複数現在 \( _\mathit{3,p,pres} \) を分けてやれば良いのです。

ただ、これは美しくない解決策です。というのも、確かに文法的に正しい文を生成することはできるのですが、このような戦略を取り続けると、文法が大きくなりすぎてしまう可能性があります。文法はまず「すべての文法的な文を正しく記述でき、非文法的な文は排除できるか」という記述的妥当性に関する側面と、さらには「その文法は合理的なサイズをしているのか」という説明的妥当性に関する側面の両方を満たす必要があります。その点で、文脈自由文法は少なくとも上記の例を見ると、説明的妥当性において疑わしいように思えます。

とはいっても、説明的妥当性は、現状絶対的な評価は難しく、相対的な評価にとどまるので、記述的妥当性のみでは優劣がつかないような文法の候補が複数現れたときにはじめて検討する、というのが望ましいでしょう。そのため、もっと明確に記述的妥当性の観点のみで文脈自由文法の妥当性が判断できるような例があれば喜ばしいです。

ここで、文脈自由文法がネストした構造を作る、ということを思い出してみると、自然言語に依存構造がネストではなく交差する現象があれば、その構造は文脈自由文法では取り扱えない、ということがわかります。では、依存構造が交差する状況は自然言語に存在するのでしょうか？

Respectively読み

依存関係が交差している現象として、respectively を使った文はどうでしょうか。

英語だと、John and Mary walked and ran, respectively という文の意味は、John walkd and Mary ran と同じであり、それぞれ John と walked、Mary と ran の間に意味的な関係があります。

日本語でも同様です。 太郎と次郎がそれぞれ走り散歩した では、「それぞれ」をはさんで、主語と述語の間の意味的な関係が交差しています。

この現象は、比較的身近なものだからか、古くから「自然言語が文脈自由文法では扱えきれない証拠」として有名で、今でもしばしば言及されます。初出は Bar-Hillel and Shamir (1960) です。しかしながら、この例は文脈自由文法の非妥当性を主張するのには不十分です。これは、Pullum and Gazdar (1982, pp.481–485) により指摘されているのですが、彼らの主張は至極単純で、respectively読みは単に統語の問題ではなく意味やそれ以上の問題でしょう、というものです。

これは、たとえば、 The woman and the men walks and run respectively. は文法的でなく、walk and run としないといけない、ということや、 I met the two students. They are from Tokyo and Seoul respectively. のように、主語述語の数は一致させる必要がない上、その respectively で対応する内容は文脈から推察される、ということが根拠になります。

依存関係が交差していて、さらにそれは統語的なものである、ということを示さない限り、自然言語の文法が文脈自由では不十分、という主張の根拠にはなりません。

Extraction / Scrambling

では、英語の extraposition や日本語やドイツ語の scrambling（かき混ぜ）はどうでしょうか。

Extraposition from NP とは、たとえば The man walked who played the guitar のような文で、The man [who …] の who 以下関係節がまるまる文末に行き、間に動詞句 walked が入っている構造です。ここにさらに yesterday なんてのを文頭に追加してあげると、Yesterday the man walked who played the guitar は交差依存を作ることができます。

Scramblingは、日本語でよくある、 本を花子が買った。 のような、名詞句の語順が通常の が–を の語順と入れ替わった状態のものです。日本語は SOV 語順で、動詞の項はすべて NP1 NP2 NP3 V のように動詞に対して同じ方向の位置に並ぶので、NPの順番を並び替えても依存関係は交差しませんが、NPが節境界を超える長距離かき混ぜ (long-distance scrambling) を考えてみると、交差依存を観察することができます。

例えば、目的語コントロール（のような）動詞と組み合わせて、本を太郎が花子に買うよう頼んだ とすると、この文は交差依存をもちます。

日本語 Universal Dependencies (浅原ら, 2019) だと、「頼む」は「買う」に対して ccomp ラベルの関係をもちます。

* コントロールかもしれない、みたいな変な例文を考えずに、素直に、本を_i 太郎は [花子が t_i 買ったと] 思った みたいな例文を考える、というので良かったかもですね。

こうした交差依存は、さすがに統語的な依存関係であるといえるでしょう。ただ、こうした例では、依存関係が交差はするのですが、高々有限回であり、構文として文脈自由規則に書いておけば何とか対応はできます。単語を増やして交差数を増やしてみようと頑張っても、英語や日本語ではネストした埋め込みしかできないので、交差を無限に増やすことができません。 [花子が太郎に [次郎に [三郎に本を買うよう頼むよう] 頼むよう] 頼んだ] のようにネストしてしまい、交差は増えません。

そのため、これらの例もまた、自然言語の非文脈自由性を主張するのには十分ではありません。例えば extraposition だと、 \begin{align} \mathit{S} &\rightarrow \mathit{S}/\mathit{RC}\ \ \mathit{RC} \newline \mathit{S}/\mathit{RC} &\rightarrow \mathit{NP}/\mathit{RC}\ \ \mathit{VP} \end{align} と、Gazdar (1981) や Gazdar et al. (1985) による Generalized Context-Free Grammar のように、統語的な関係をタグの表現の中に入れてしまえば文脈自由規則のみで扱うことができます。ここで、\( \mathit{X/Y} \) は「右側に\( \mathit{Y} \) があったら \( \mathit{X} \) になるもの」を表します。

Cross-serial dependencies

ということで、依存関係が統語的に交差してかつ、その交差が連続して無限回繰り返すことのできるするような現象が自然言語にあるのか？ということが問題です。もったいぶりましたが、紆余曲折を経て、結局文脈自由文法では上手く扱えない「統語的な連続交差依存 (cross-serial dependencies)」が80年代にようやく「発見」されました。

それは、Swiss-German（スイスドイツ語）の従属節中には現れる動詞と対応する項の依存関係です。 Shieber (1985) は、これにより自然言語には文脈自由文法では作れない表現が存在することを示しました。文は Shieber (1985) より。

動詞列 \( \mathit{V}_1 \cdots \mathit{V}_n \) が文末に連続し、それぞれの目的語列 \( \mathit{NP}_1 \cdots \mathit{NP}_n \) と依存関係を結びます。 Swiss-German では、名詞句（目的語）に dative や accusative の格表示をするので、依存関係が意味的にだけではなく統語的にも交差している、ということがいえます。

同じ意味の文を日本語で表そうとすると、依存関係は交差せず、入れ子構造になります。

そして、Swiss-German の母語話者ではないので正確なところは分かりませんが、動詞部分で let let let … let help help … help paint と繰り返すと、この動詞の数だけ、対応する名詞を連続させることができます。つまり、\( a^nb^mc^nd^m \) のような部分文字列が作られます。これはまさに文脈自由文法では扱えない文字列です。

同様の構文はオランダ語でもあり、Shieber 以前にも Huybregts (1976) や Bresnan et al. (1982) によって非文脈自由性は主張されていたのですが、オランダ語では、Swiss-German とは違い、対角・与格形態的な格表示がないため、必ずしも統語的な交差依存とは考えられず、項の意味的な選択制限を除けば、可能な文字列自体は文脈自由文法で扱える、と主張されていました (Pullum and Gazdar, 1982, pp.485–490)。

なお、同時期に Culy (1985) にて、西アフリカの Bambara を用いて、形態的にも文脈自由文法で表現できない事例が存在すると説明されています。さらには、Bambara の例は音調的な振る舞いに依存しており、形態論の問題なのか？、という議論があるようで、Sanuma and Aizawa (2024) で、アイヌ語にて形態論レベルでのbeyond context-freenessが示されたようです。

また、Stabler (2004) では、英語においても連続交差依存はあると主張されています。画像は Stabler (2004; p.701) より。

cross-serial dependencies自体は確かに頻度は多くはないですが (e.g., Ferrer i Cancho et al., 2018)、存在しないわけではないので、自然言語の文法を文脈自由文法で済ますのは不十分であるといえます。

多重文脈自由文法 (Multiple Context-Free Grammars)

自然言語の統語現象を扱うのに文脈自由文法では不十分だとして、ではどうすれば良いのでしょうか。文脈自由文法を自然に拡張する方法として、多重文脈自由文法 (Multiple Context-Free Grammars; MCFGs; Seki et al., 1991) が提案されています。 MCFGs は、文脈自由文法では単一の文字列としてしか扱えなかった非終端記号を、複数の文字列を束ねたタプルとして扱います。

説明のために、新たな記法を導入します。いま、文脈自由文法で、\( \mathit{NP} \) という非終端記号が最終的に the man という文字列に派生可能であるとき、\( \mathit{NP}(\textit{the man}) \) と書くとします。ある文字列 \( x, y \) について、\( xy \) を \( x, y \) の結合だとすると、文脈自由規則は

\[\mathit{NP}(xy)\rightarrow \mathit{D}(x) \ \mathit{N}(y)\]

とかけます。

CFGs ではある非終端記号が同時に扱える文字列の数は1つですが、MCFGs ではこれを複数に拡張します：

\[A(x_1,x_2,\cdots,x_k)\rightarrow B(y_1,\cdots,y_n)\ C(z_1,\cdots,z_m)\]

The man walked who played the guitar のような extraposition は、以下のようなルールで扱えます： \begin{align} \mathit{S}(xzy)&\rightarrow \mathit{NP}(x,y) \ \mathit{VP}(z) \newline \mathit{NP}(x,y)&\rightarrow \mathit{NP}(x) \ \mathit{RC}(y) \end{align}

MCFGs は、一度に展開できる非終端記号の最大数を rank \( r \)、各非終端記号が同時に扱える文字列の数を dimension \( d \) と呼ぶとすると、長さ \( n \) 文を \( \mathcal{O}(n^{(r+1)d}) \) のオーダーで認識可能です。つまり、上記のような extraposition を簡潔に扱えるようなものだと、\( r = 2, d = 2\) となり \( \mathcal{O}(n^6) \) で、Chomsky標準系の CFGs だと \( r = 2, d = 1\) となり \( \mathcal{O}(n^3) \) です。

MCFGs のちゃんとした定義や議論の解説については、関・鯵坂 (2011) や Clark (2014) を参照ください。

自然言語は弱文脈依存言語なのか？

これまでで、自然言語の統語現象を扱うのに文脈自由文法以上の生成力のクラスの文法が必要であることがわかりましたが、では、自然言語の文法はどのクラスに位置するのでしょう。

Joshi (1985) は、自然言語の文法は文脈自由以上、文脈依存以下の弱文脈依存 (mildly context sensitive) クラスに位置する、という仮説を提示しました。

なお、自然言語の文法が弱文脈依存文法（Mildly Context-Sensitive Grammars; MCSGs）であるということは明確に示されているわけではありませんが、少なくとも以下の2つの事実から、「自然言語の文法は弱文脈依存文法である」という言説には一定の合意が得られています。そのため、しばしば弱文脈依存仮説（MCS Hypothesis）などとも呼ばれています。

1. 文脈自由文法では表現できない構文が自然言語に存在する。

これは、Swiss-German での cross-serial dependencies の議論により示されました。自然言語を扱うのに必要な文法の lower bound が文脈自由文法ではない、ということがわかっています。

2. 数多くの（独立に提案された）文法理論が、弱文脈依存文法である。

Joshi et al. (1975) による Tree Adjoining Grammar（TAG; 木接合文法）をはじめ、多くの文法理論が、特に80-90年代にかけて、計算・数理言語学の分野で提案されましたが、そのほとんどが最終的に文脈自由文法と文脈依存文法の間にいることが示されました。これは、多くの計算・数理言語学者の間である種の「合意」がとれた状況とも言えるでしょう。

これについては、Stabler (2013) にてわかりやすくレビューされていますので、少々長いですが引用して提示しておきます。

2分でわかるCCG

各単語・句には category（範疇）が割り当てられる。
- Category には atomic なものと complex なものがある。
  - Complex category は、category と 2種類の slash ( \( / \), \( \backslash \) ) で構成される。
  - \( X/Y \) は、\( Y \) を右側にとったら \( X \) になるもの。
  - \( X\backslash Y \) は、 \( Y \) を左側にとったら \( X \) になるもの。
  - slash の右側 ( \( Y \) ) が項、左側 ( \( X \) ) がその項をとった結果。
  - slash の向きが、項をとる位置を指定する。
- 形式的に書くと、category の集合を \( \mathcal{C} \) としたとき、
  - \( \mathcal{A}\subseteq\mathcal{C} \) となる atomic category の集合 \( \mathcal{A} \) がある
  - 任意の category \( X, Y\in\mathcal{C} \) について、 \( X/Y, X\backslash Y\in\mathcal{C} \)
- 例えば、atomic なものとして NP（名詞句）と S（文）を想定すると、英語の自動詞は、S\NP。他動詞は (S\NP)/NP。
  - He ran の ran は、左側に NP をとったら S になるので、S\NP。
  - He ran a hotel の ran は、右側に NP を、そしてさらに左側に NP をとったら S になるので、(S\NP)/NP。
- slash は left-associative（左側結合）なので、\( X/Y/Z \) と \( (X/Y)/Z \) は同じ。
各 category に再帰的に combinatory rule（組合せ規則）を適用し、統語構造を構成する。
- Function Application（関数適用）: \begin{array}{lll} \mathit{X/Y} \quad \mathit{Y} & \Longrightarrow_{>} & \mathit{X} \newline \mathit{Y} \quad\;\; \mathit{X\backslash Y} & \Longrightarrow_{<} & \mathit{X} \end{array}
- Function Composition（関数合成）: \begin{array}{lll} \mathit{X/Y} \quad \mathit{Y/Z} & \Longrightarrow_{>\mathbf{B}} & \mathit{X/Z} \newline \mathit{Y\backslash Z} \quad \mathit{X\backslash Y} & \Longrightarrow_{<\mathbf{B}} & \mathit{X\backslash Z} \end{array}
- Type Raising（型繰り上げ）: \begin{array}{lll} \mathit{X} & \Longrightarrow_{>\mathbf{T}} & \mathit{T/(T\backslash X)} \newline \mathit{X} & \Longrightarrow_{<\mathbf{T}} & \mathit{T\backslash (T/X)} \end{array}
- 代表的な combinatory rule は、上記の3つ。
  - \( \Longrightarrow \) の左側のものが右側のものになる、ということを表している。
  - \( \Longrightarrow \) の右下の記号が、その rule を表す。
    - \( \mathbf{B} \) や \( \mathbf{T} \) のようなアルファベットは、コンビネータ論理のコンビネータ由来。
    - Steedman (1987) 以前は別の記法ですが、Steedman (1991) 以降は現在のものになっています。
  - ここでは省略しますが、各 rule には意味計算もついています。そのため、CCGでは、「単語・句に統語 category を割り当てることができる \( \iff \) 意味表示を割り当てることができる」、が成り立ちます。
木構造は範疇文法の慣習から、証明図を使って書く。
- バーの上のものが下のものに書き換えられています。

文献案内

さらっと雰囲気を掴みたい場合

Jurafsky and Martin (to appear)
- 自然言語処理の教科書として有名なDan Jurafsky氏とJames Martin氏による Speech and Language Processing のDraftのAppendixの１つ。
- 最低限の組合せ規則と、CCGによるチャートパーザが簡潔に説明されている。
- 言語学の方でも、前半だけ読むと、CCGにどういう文法操作があるのか・どういう構造を作るのか何となく掴みやすいのではないか。
Steedman (2022)
- Mark Steedman氏による、網羅的なCCGの解説論文。本をギュッと圧縮したイメージ。
- CCG分析で特徴的な構文や関連トピックについて最低限の紙幅で説明されてる。
- 私ははじめ、これと、ここで引用されている文献を行き来して勉強した。
Clark (2021, arXiv)
- C&C parserのStephen Clark氏によるCCGのparsingに関する論文。
- 後半部分は当時最新のCCG parser作りに関する話だが、前半は、CCGの理論やCCGのparsingの概説・歴史解説として読める。

理論言語学関係

統語・意味の理論としてのCCGを理解したい場合に参照すべき文献たちです。
その他、CCGには音韻の理論としての顔もありますが、そのあたりは詳しくないので含めていません。Steedman (2000) などを参照してください。
Steedman (1996)
- CCG本の最初。
- LI Monographsで100ページ強。
- CCGで、英語を網羅的に記述できることを示すべく書かれたもの。
Steedman (2000)
- Steedman (1996) の強化版。
- 若干の理論的改訂あり。
- Google Scholarでは出版年が誤って2001となっており、ちらほら Steedman (2001) として論文中に登場してしまう。
Baldridge (2002)
- Jason Baldridge氏による博論。
- slash typingを導入し、言語理論としてのCCGを大きく進化させた。
  - slash type については、Baldridge and Kruijff (2003; EACL)も参照。
- Steedman (2000) までと違い、等位接続を文法規則ではなくconjunctのカテゴリ X\X/X で導出。
- 博論なので、解説としても有用。
戸次 (2010)
- 日本語CCG本。
- 日本語文法の論文としても面白い。
  - 特に活用体系や、量化子周りの話。
- 書評 (矢田部, 2011) も面白い。
Steedman and Baldridge (2011)
- 非常に簡潔にまとまったCCGの解説論文。
- そのため、Steedman (1996)や(2000)と並んでしばしば引用されている。
- （CCGを引用したいくらいなら、本を読むのは大変なので、こちらを読んで引用した方が良さそう。）
- Non-Transformational Syntaxという本の1チャプター。
  - この本はほかの章も良い。Sag and Wasowの章が好き。
Steedman (2023)
- ほとんどミニマリストに向けて書いてあるLIの論文。
  - ミニマリストの理論を踏まえ、「CCGならもっと簡潔に書けますよ」と主張したもの。著者の穏健な姿勢が窺える。
- ミニマリストがCCGをはじめる際には一番わかりやすいと思われる（自分がミニマリストではないのでわからないが）。
Steedman (to appear)
- Mark Steedman氏によるCCG本のドラフト。

機械の文処理関係

ここでの機械の文処理とは、文を入力とし、確率的に計算した構文木を返してくれる構文解析器等のことです。
Clark and Curran (2007; CL)
- C&C parserとして有名。
- CCGbankを使った最初のwide-coverage parser。
- いまだに現役だったりする。Supertaggerの評価用としてよく見る。
  - Supertagとは、CCG含め、lexicalized theory of grammarの語彙範疇のこと。
  - 通常のPOS tagよりも情報が豊富なので、supertagと呼ばれる。
    - 例えば、英語において、動詞原形はPenn TreebankスタイルのPOSだと VB だが、CCGのsupertagだと、S/NP や S\NP/NP などと表す。Supertagの方が、項の数やその相対位置の情報を含む。
  - 単語列（＝文）に対して、対応するsupertag列が決まれば、ほとんど文の構造は決まるので、supertagging は ‘‘almost parsing’’ であるとも言われている (Bangalore and Joshi, 1999; CL)。
Hockenmaier and Steedman (2007; CL)
- 英語CCGbank。
  - 空白なし小文字b
- Penn Treebank (Wall Street Journal) からの自動変換。　
Lewis and Steedman (2014; EMNLP)
- EasyCCG として有名。
- 深層学習 + A* search。
Uematsu et al. (2013; ACL)
- 日本語CCGBank。
  - 空白なし大文字B
- 係り受けコーパスである京都大学テキストコーパス（毎日新聞）からの自動変換。
- 日本語CCGBankの続きとしては、以下のようなものがあります。
  - Kubota et al. (2020; LREC) による ABCTreebank
    - The Keyaki Treebank からの自動変換
  - Tomita et al. (2024; EACL)
    - ABCTreebank と lightblue による日本語CCGBankの再構築
Noji and Miyao (2016; ACL)
- 日本語CCG parserの Jigg。
Martinez-Gomez et al. (2016; ACL)
- 意味解析システムの ccg2lambda。
Bekki and Kawazoe (2016; LNTCS)
- 日本語CCG parserの lightblue。
Yoshikawa et al. (2017; ACL)
- 日本語CCG parserの depccg。

人間の文処理関係

Ades and Steedman (1982; Linguist Philos)
- 一番最初のCCG論文。
- 当初より逐次的な文処理を意図して作っていることが明確で良い。
- notationは今とところどころ異なる。
Demberg (2012; TAG+)
- CCGの逐次的な構造構築に関して、統語論・心理言語学の知見から（否定的に）述べられている。
- CCGではfull incremental parseができない（英語の目的語関係節）。
  - full incremental parseを実現しようとDコンビネータを導入すると過剰生成する、という指摘。
Stanojevic et al. (2023; Cognitive Science)
- CCGによる、英語文処理（fMRIによるBOLD信号）のモデリング。
- 貢献は大きく分けて2つ。
  1. CCGが、CFG（文脈自由文法）よりもより高い精度でBOLD信号を予測できることを示した。言語理論としてより妥当なCCGが、逐次的な文処理のモデル化においても優れていることを示した。
  2. CCGの構造構築操作由来の予測子と、LLMで算出したsurprisal（文処理における強力な予測子）とは別にBOLD信号の予測に効いた。
Kajikawa et al. (2024; CogSci)
- 日本語と英語の視線計測データで、CCG内の理論的に異なる文法操作が、それぞれ心理的にも異なるものとして使われていることを示唆。
Isono (2024; Cognition)
- 文を逐次的に理解する際に起こる、短期記憶に由来する処理負荷を、CCGの木構造ベースで説明したもの。
- 貢献・面白い点は、短期記憶由来の処理負荷は、今まで簡単な文脈自由文法（記述力は妥当ではない）や依存文法（単語間関係の記述は優れているが、逐次的に構造がどう構築されるかは不明瞭）でしかなかったが、それをCCG (記述力が妥当かつ、構造構築過程も明確) に発展させたこと。
  - 個人的に、CCGの良さは、単に「competence grammarのままでprocessingのことをちゃんと語れそうな理論」、ということだけではなく、「いろいろなことができすぎない理論」だと思っています。具体的に、ここでは、構成素同士の合成にちゃんと制限があって、必ずしも何でも組合せられるわけではないが（つまり、単語が順に入ってきたとき、毎度毎度その単語をすでに作っている構成素に統合できるとは限らない）、この論文では、その組合せられないポイントを証拠に人間の文処理が説明できることが経験的に示されています。

生成力関係

Vijay-Shanker and Weir (1994; Math. Systems Theory)
- CCGの弱生成力が、Linear-Indexed Grammar (LIG), Head Grammar (HG), Tree-Adjoining Grammar (TAG) と等価であることを示した。
Kuhlmann et al. (2015; CL)
- Vijay-Shanker and Weir (1994) のときに想定されていたCCGではなく、slash-typeを導入したCCGにて、TAGと弱生成力が等価であることを示した。
Schiffer and Maletti (2021; TACL)
- CCGの強生成力が、TAGと等価だと主張。

標準形関係

CCGでは、同じ意味を複数の異なる統語構造で表現することができます（spurious ambiguity; 擬似的曖昧性）。このおかげで、逐次的な合成による構造構築が可能なのですが、構造的曖昧性がなくとも構文木が一意に定まらないということなので、parserを作る上では問題になると考えられていました。
- 実際には、学習データのbranchingが一貫していれば、標準形の制約なしでも擬似的曖昧性の問題にはぶつからないようです。Yoshikawa et al. (2017; ACL) や Yoshikawa et al. (2019; 自然言語処理) を参照ください。
- （形式的な研究においては、昔から「避けるべきもの」とされてきていますが、逐次的な文処理という観点からは、むしろ「望ましいもの」でさえある気はしています。直観です。）
標準形の定義により、（構造的曖昧性がないとき）統語構造を１つに絞ることができます。
Eisner (1996; ACL)
- 証明に関する情報
- 可能な限り関数合成（function composition）を行わないという制限により、right-branchingな標準形を定義。
- もちろん、逆の制限にすれば、left-branchingを標準形とすることもできる。
Hoyt and Baldridge (2008; ACL)
- Dコンビネータの導入と、それを含めた標準形の定義。
Hockenmaier and Bisk (2010; COLING)
- Eisner (1996; ACL) の拡張。
- generalized compositionとgrammatical type-raisingを考慮した拡張。

言語獲得モデリング

Piantadosi et al. (2008; Proc. CogSci)
- Bayesian model 1
Kwiatkowski et al. (2012, EACL)
- Bayesian model 2
Abend et al. (2017, Cognition)
- Bayesian model 3

CCG parserを触ってみよう！

CCGは、他の文法理論に比べ、高精度な構文解析器（parser）が数おおく整備されている、という点で非常に有用です。
- semantic parsingに適度に使いやすいといったことや、ツリーバンクの整備が早かった、という点が要因な気がしています（C&C parser が出た頃の2000年代の雰囲気を知らないので妄想です）。
特に、下記のparserたちは動かすのにそこまで難易度が高くないのでおすすめです。
そもそも構文解析器とはなんぞやという方へ。
- 構文解析
- 自然言語処理の基礎
- Speech and Language Processing (3rd ed. draft)
  - 17章の Context-Free Grammars and Constituency Parsing や、18章の Dependency Parsing あたり。

depccg

Pythonによる英日CCG parser。
Python@3.6以上、gcc@4.8以上が必要。
~~READMEが丁寧なので、基本そのまま従えば動かせる。~~
- 1点だけ、depccg_{en/ja} downloadコマンドはうまくいかないので、モデルの学習済みパラメータはリンク先のGoogle Driveから直接落としてこないといけない。
os によっては AllenNLP がローカルで動かせない（本当に動かせないのかわからないが、私は解決できなかった）。
- 2019年のmacbook (Retina) では動かせていたのだが、2023年以降のものではことごとく失敗。
- Dockerを使えば良い。

lightblue

Haskellによる日本語CCG parser。
Macユーザーなら、tidyは（おそらく）初めから入っているし、JUMAN++はHomebrew経由で入れられる。
戸次 (2010) +アルファがそのまま実装されているので、語彙項目を参照するのに使い勝手が良い。

ccgtools

Python, Cythonによる英中CCG parser。
高性能。元State-of-the-Art。
作成者であるMilos Stanojevic氏は、Scalaで Rotating-CCG というparserも作っている。論文は Stanojevic and Steedman (2019; NAACL)。
Google Colab上で動かせるようにしてくれているので、環境構築の必要がなく非常に便利。
- pre-trained modelのパラメータをダウンロードさえしておけば、ローカルで動かすことができる。

CCGの導出木をLaTeXでかく

ccg.sty

Jason Baldridge氏によるスタイルファイル。
その他、CTL, 証明木用のスタイルファイルも公開してくれている。
使い方：
- ccg.styをTeXファイルと同じディレクトリにおき、以下のようにする：
```
  \documentclass[border=2mm]{standalone}
  \usepackage{amsmath}
  \usepackage{ccg}
  \begin{document}
  \deriv{3}{
  \text{Taro} & \text{likes} & \text{Hanako} \\
  \uline{1} & \uline{1} & \uline{1} \\
  \mathit{NP} & \mathit{S\bs NP/NP} & \mathit{NP} \\
  & \fapply{2} \\
  & \mc{2}{\mathit{S\bs NP}} \\
  \bapply{3} \\
  \mc{3}{\mathit{S}}
  }
  \end{document}
```
- すると↓こんなのができます：
- 導出木のサイズを変えるのには、\deriv{hoge}{fuga}の前にたとえば\scriptsize\deriv{hoge}{fuga}のようにする。
- linguexパッケージで文番号をつける：
```
  \ex.\label{hoge-label}
  \deriv{hoge}{fuga}
```
- ulemパッケージ（下線とか打ち消し線を挿入する用のパッケージ）を入れると、ccg.sty内の\uline{}が衝突してしまう。
  - コマンドの名前が一致していなければ良いだけなので、ccg.styに\newcommand{\ulines}[1]{\ul{#1}}などと追加して、\deriv内では\ul{}を使うようにすれば良い。

ccg-latex.sty

Cem Bozsahin氏によるスタイルファイル。
上述のccg.styよりも充実していそうに思われる。少なくとも、READMEやexampleは充実している。更新も割と頻繁にしているよう。
個人的には、ccg.styで困っていないので使っていないが、いつか乗り換えてみたいなぁとは思っています。なんだかこだわりを感じるので。
そのほか、証明図を書く bussproofs を使う、というのもあります。

Kohei Kajikawa（梶川康平）

アメリカの大学院への出願について

自己紹介

なぜ出願したか

Minimum score

出願日記

出願してよかったこと

確率・情報理論を使った言語研究

目次

文処理系

Surprisal

サプライザルがとらえているものは何なのか？

言語モデルの性能 (perplexity) との関係

サプライザルと処理負荷の関係は線形か、非線形か

Lossy-context surprisal

Noisy-channel model

効率的なコミュニケーション (Efficient Communication)

単純性と情報伝達性のトレードオフ

Ferrer i Cancho and Sole (2003)

モデル

再現コードと結果

Zaslavsky et al. (2018)

Rational Speech Act (RSA)

Uniform Information Density (UID)

Dependency Length Minimization (DLM)

Memory–prediction trade-off

言語獲得

言語進化

繰り返し学習モデル (Iterated Learning Model)

弱文脈依存文法にまつわる理論言語学のはなし

<工事中>

そもそも、生成力とは？

文脈自由文法 (Context-Free Grammars)

反復補題

他の文法形式との等価性

projective dependency tree

AB grammar

自然言語は文脈自由文法で扱えるのか？

三単現の s

Respectively読み

Extraction / Scrambling

Cross-serial dependencies

多重文脈自由文法 (Multiple Context-Free Grammars)

自然言語は弱文脈依存言語なのか？

1. 文脈自由文法では表現できない構文が自然言語に存在する。

2. 数多くの（独立に提案された）文法理論が、弱文脈依存文法である。

2分でわかるCCG

文献案内

さらっと雰囲気を掴みたい場合

理論言語学関係

機械の文処理関係

人間の文処理関係

生成力関係

標準形関係

言語獲得モデリング

CCG parserを触ってみよう！

depccg

lightblue

ccgtools

CCGの導出木をLaTeXでかく

ccg.sty

ccg-latex.sty