Ⅰ 満州時代
私が生まれたのは旧満州国の真ん中あたりにある四平街(しへいがい)というところで、
私の父は岡山県の田舎の中農くらいの農家の長男であった、本来は家を継がなければいけなかったのだが、どうもやたらに外に飛び出したい性格で、満州へ行った。
最初は万宝山で警察官をしていたが、その後、鞍山(あんざん)に移って住んだ。鞍山には昭和製鋼所があり、昭和製鋼所は八幡製鉄の次に鉄鋼の生産が多いところであった。そしてそこにある満州久保田に勤務した。
母も岡山県出身で、和歌が好きであった。中国地方にある新聞社の『中国民放』に若山牧水選者の短歌壇があり、そこによく投稿して、掲載されたりしていた。
その一例、『中国民放』1927年3月10日
「縫い疲れ 縫いあき なおもこの業(わざ)の ほかにえ知らず 今日も縫い暮る」
「桃割(ももわれ)に 結いなしし わが若さかな われは乙女(おとめ)と呼ばわりてみし」
戦争が終わった。そうして日本が戦争に負けて、祖国が無くなった。満州の日本人は誰も守ってくれない。しかし、満州では蒋介石軍(国民党軍)と八路軍(共産党軍)が戦っていたが、中国軍は一般の人を迫害することは無かった。一般人を迫害したのはソ連軍であった。
鞍山付近は蒋介石軍の支配下であったので、日本人は蒋介石の「暴に報いるに徳をもってせよ」との戦後の対応で、我々も日本に引き揚げられた。私は鞍山から葫蘆(ころ)島を経て無事日本に帰れた。同じ満州でも北部にいた日本人はソ連軍の侵攻により大変であった。
Ⅱ 学生時代
私が高等学校のころ、お茶の水女子大学教授の波多野完治(はだのかんじ)著『文章心理学入門』(三省堂、1941年刊、のち新潮文庫)に大変感心した。
その後、京都大学へ進んだ。大学卒業後国家公務員試験に受かったので、労働省(現、厚生労働省)大阪府庁に務めた。しかし経済的には苦しかったが大学院にも進みたかった。就職後、大学へ出席せずにレポート提出などで、大学院の修士の資格をとった。これは卒業生が少ない割にノーベル賞受賞の学者が多いなど、変わった大学である京都大学でなければできないことだと思う。
Ⅲ わが研究
■最初の本の出版
最初の本は『文章心理学の新領域』(東京創元社、1960年刊)であった。最初の本の出版は大変苦労した。最初は同郷の東京創元社の社長に相談に行ったが、東京創元社では出版できないと言われ、東京創元社から分かれた近藤書店を紹介された。しかし、その近藤書店は資金繰りが苦しいようで、金を貸してくれと頼まれ、なけなしの父の香典まで出したのに、出版する前に破産していまった。どうしようもなく、東京創元社の社長に再度相談したら、今度は東京創元社から出版できることになった。
本が出来上がったころ、更に次は東京創元社が破産して本が販売できなくなり、仕方なく本を受け取り下宿の押入に保管していた。
そこで考え、偉い多くの先生方にその本を贈呈した。本が出回っていないが、先生方の書評により本の評判が良くなった。そのため古本屋で本の価格が高くなった。そして、押入の本を少しづつ古本屋へ売り、時間はかかったが全ての本を売りさばいた。
その後出版を続け、
(1)『源氏物語』「宇治十帖」の作者(『文章心理学の新領域』)
(2)現代作家百氏の分類(『文章心理学入門』『因子分析法』)
(3)日本語の起源(『日本語の誕生』『数理科学』『言語』などに連載の上でまとめた)
そのころ、計量国語学会で邪馬台国問題を発表したら、これがきっかけで、筑摩書房から『邪馬台国への道』を出版した。そうしたら、結構売れたが、批評もあった。そこで、古代史にどんどんのめり込んでいった。
(4)邪馬台国問題(『邪馬台国への道』[新書、筑摩書房、1967年刊]今年でほぼ50年。『卑弥呼の謎』[講談社現代新書、1972年刊])
更に日本語の乙種母音についても本を書き、最近まで続けた。
(5)上代特殊仮名づかいの探求(「『古事記』『日本書紀』の最大未解決問題を解く」勉誠出版、2018年刊)
■データサイエンス
・数理デカラージュ(decalage 敷き写し)問題
フランスの心理学者のピアジェ(J.Piage)は「デカラージュ」という専門用語を定めた。このことばは、同じ構造がほかの操作で再構築されることをさす。
6歳ぐらいの児童の時、「感情や運動を通して、外界を認識」→「言語操作によって再構築される世界」に置き換えられる。
このような移行を「デカラージュ(敷き写し)」という。
それにならっていえば、言語世界によって得たデータなどを数え、確率や頻度などについての数字や、統計的な表やグラフ、数式などによって示される世界に置きかえて行くことを、「デジタルデカラージュ」「数理デカラージュ」「科学のことばや科学世界にデカラージュする」などという。かくして、あらたなデータサイエンス的な外部世界認識構造が成立する。
歴史学、言語学、文学、社会学などや、碁や将棋などのゲーム、さらには広い意味での情報の処理などの分野は、これからのデータサイエンスの主戦場になるとみられる。
つまり統計学の統計の対象が変わってきている。
従来の統計学では、人口を数える。米の生産量を数える。ミカンの数を数える。などのように、おもに、具体的なモノを数えていた。(唯物論などの時代)
しかし、今はビッグデータ分析、データサイエンス、AI(人工知能 Artfical Intelligence)時代の統計学において数えられるものは、おもに言葉や情報、ゲームの勝率などである。(例、アマゾンの「この本を買ったひとは、つぎのような本を買っています」や碁や将棋、オセロなどで、ある手を打ったときの勝率、ジャンケンの勝率、株価、野村克也(かつや)元ヤクルト監督のID[Important Data]野球など。)
野村克也は「先入観は軽いほどいい。先入観が強すぎると、間違いを犯すことがある『この投手は球が速い』などと考えすぎずにデータを重視し、先入観を軽くして勝負をしなければならないとしている。(情報化の時代となってきた)
これは、ほとんどそのまま邪馬台国問題にあてはまる。今の邪馬台国問題は思い込みが強すぎる。データに基づいて客観的に分析するというものでないものが多すぎる。
この話に当てはまる最近の朝日新聞の記事がある。
『朝日新聞』2018年10月21日(日)朝刊
天声人語
シーズンを通してみればバントや盗塁、ヒットエンドランの成功率は低く、自滅行為---。
大リーグの常識を覆したのは、野球の素人たちが持ち込んだ統計学的手法だった
▼セイバーメトリクスと呼ばれ、蓄積された大量の数値をコンピューターで解析する。戦術や選手の評価の指標を否定され、現場の監督やスカウトは猛反発した。その潮目は2000年に変わった。貧乏球団のアスレチックスが新しい指標で低年俸の選手を集め優勝争いの常連となったからだ。
▼最近は軍事用レーダーと高性能カメラの仕組みを全球場で導入し、データを利用できるよう公開している。興味深い一般の研究を吸い上げる仕組みだ。投手なら球の速度や回転数、軌道の変化をチェックできる。技術の上達に加え、投げ込みに頼らない効率的な練習やケガ防止の研究も可能だ▼同じ取り組みは国内でも進む。データスタジアム社(東京)は契約した球団に独自の指標で分析したデータを提供する。かつてどんぶり勘定だった選手の評価や年俸交渉に活用されている▼金沢慧さん(33)はそんなアナリストの一人だ。野球は高校まで。大学は経済学部で統計を学んだ。アルバイトで野球のコラムを書いた。野球と統計分析、伝える力。「一つの分野では平凡でも、異なる領域を三つ持てば活躍できる」。そう考えたという▼セイバーメトリクスを推進したのも、野球の専門家ではなかった。ビッグデータの大海原では、多様な人材が活躍する。そこが面白い。
セイバーメトリクスをWikipediaでは下記のように説明している。
セイバーメトリクスとは、野球ライターで野球史研究家・野球統計の専門家でもあるビル・ジェームズ(George William“Bill" James、1949年~ )によって1970年代に提唱されたもので、アメリカ野球学会の略称SABR(Society for American Baseball Research)と測定基準(metrics)を組み合わせた造語である。ジム・アルバート、ジェイ・ベネットが著した『メジャーリーグの数理科学(原題Curve Ball)』はセイバーメトリクスについてわかりやすく解説している。
野球には、様々な価値基準・指標が存在するが、セイバーメトリクスではこれらの重要性を数値から客観的に分析した。それによって野球における采配に統計学的根拠を与えようとした。しかし、それは野球を知っているものならば「常識」であるはずのバント・盗塁の効力を否定するなど、しばしば野球の従来の伝統的価値観を覆すものであると同時に、ジェームズ自身が本格的に野球をプレーした経験が無く、無名のライターに過ぎなかったこともあって当初は批判的に扱われた。この理論が一般的に知られるようになった現在でも「野球はデータではなく人間がプレーするもの」という信念を持つ人々からは歓迎されていない風潮がある。一方メジャーリーグは、公式記録にセイバーメトリクスに基づく指標を複数使用している。
その他、アメリカの主要なスポーツメディアが、セイバーメトリクスの各種の指標を選手成績として公表している。
これは将棋や碁でもまったく同じで、最初は、コンピューターは将棋や碁の専門家に勝てなかったが、今ではこの専門家がコンピューターにかなわなくなっている。このようにデータを酷使した客観的な解析が先入観に縛られない方がよいということを表している。
■言葉情報とは何か
スイスの言語学者ソシール(Ferdinand de Saussure1857~1913)は、その著『一般言語学講義(Cours de linguistique générale)のなかで、つぎのようなことをのべた。
「言語」は、「記号」の体系である。
その「記号」と、つぎの二つのものの結合体である(図参照)。
(1)表現形式 singifiant(シニフィアン)[フランス語の、「意味するもの」の意味。「意味する」「表現する」という意味の動詞の、能動態]。能記(小林英夫)、記号表現(丸山圭三郎)などとも訳される。
(2)意味内容 signifié(シニフィエ)[フランス語の「意味されるもの」の意味。「意味する」「表現する」という意味の動詞の受動態]。所記(小林英夫)。記号内容(丸山圭三郎)などとも訳される。
言葉は、ある特定の社会での「約束ごと」の中で、おきる現象。
文法はそのルール。
ジャンケン、碁、将棋、オセロ、野球なども、あるルール(約束ごと)があり、そのルールのなかでおきる変化現象。「もの」ではなく、「こと」の世界。
「情報」も、その本質は、「言葉」と同じである。ある「表現形式」と、「意味内容」とが結びついたものである。「意味内容」のほうは数えにくいことがあるが、「表現形式」のほうは数えることができる。(教室で、A先生は、一時間のうちに、「アノー」を何回いうか、など)
邪馬台国問題の解決(考古学的データからみた場合)
『魏志倭人伝』は、倭人は鉄の鏃(やじり)を使うと書いてある。また鏡を与えたとある。
そこで、鏃と鏡の出土状況を見れば下記のようになり、
(下図はクリックすると大きくなります)
これをベイズの公式による計算から導くと、下記のように福岡県と奈良県と圧倒的な差となって表れる。
西洋史学者の会田雄次は、つぎのようにのべている。
「合理主義的なものの考え方をつきつめると、いっさいを量の変化において考え抜こうという精神です。」(『合理主義』[講談社現代新書、1966年刊])
本年度(2018年)のノーベル医学生理学賞を受賞した本庶佑(ほんじょたすく)さんは、NHKのインタビューで、受賞にむすびついた信念として、つぎのようなことを述べられた。
「教科書がすべて正しかったら、科学の進歩はないわけで、教科書に書かれてあることが間違っていることはたくさんある。(安本注:旧石器捏造事件)
人が言っていることや、教科書に書いてあることをすべて信じてはいけない。」
これは、可能なかぎり、自分で検証することの大事さをのべているものとみられる。
現データなどの出所をしめすこと。
・山本一成(将棋プログラム「ボナンザ」作者『人工知能はどのように「名人」を超えたのか?』(ダイヤモンド社2017年刊)
「エミ゛レートとは、「主観や価値判断を加えずに物事を推測する」という意味だと理解してください。この説明だとちょっとわかりにくいかもしれませんが、たとえば「1」が2つあったときに
1+1=2
1-1=0
1×1=1
1÷1=1
となることを計算していくのは、主観や価値判断を加えずに物事を推測しているといえますよね。これと同様に、現在の状況が今後どう変わるかを機械的に推測することをエミュレートすると言うのです。」
データをして語らせる。主観的判断や「解釈」の余地をできるだけすくなくする。
・V.M.ショーンベルガー&K.クエキ著『ビッグデータの正体』(講談社、2013年刊)
「ビッグデータは大変革の始まりを告げるものだ。望遠鏡の登場によって宇宙に対する認識が深まり、顕微鏡の発明によって細菌への理解が進んだように、厖大なデータを収集・分析する新技術のおかげで、これまでとはまったく思いもつかぬ方法で世の中を捉えられるようになる。」
「個人への効果はとてつもなく大きいはずだ。確率や相関関係が重視される世の中では、専門知識の重みが薄れる。専門家が不要になるわけではないが、これからはデータが紡ぎだす。ご託宣々との知恵比べになる。」
「『データによる物事の判断は、人間の判断を補完し、ときに上回ることもある』。これがビッグデータの最大の衝撃だろう。そのような形が普通になれば、統計学者やデータアナリストはともかく、それ以外の分野のエキスパートは輝きを失うはずだ。」
「世界を数量的に捉えて解き明かそうという人類の挑戦が始まった。その重要な第一歩となるのが、ビッグデータだ。かつては計測も蓄積も分析も共有も不可能だった物事が、次々にデータ化されていく。」
「歴史を振り返れば、人類が残してきた素晴らしい業績の舞台裏で、我々は『物事を測る』という行為によって世界を支配してきた。」
・王銘琬(おうめいえん)(囲碁、日本棋院九段)著『棋士とAI』(岩波新書、岩波書店、2018年刊)
「専門家は特定の範囲の知識に対して非常に詳しくなっている分、それを説明するときは、知らず知らずのうちに謙虚さを失い、自分に都合のいい論理を展開しがちです。仮にピントがズレたり、または間違った説明をしていても、それを指摘する能力のある人はいないからです。
まれに専門家のなかから個人的に間違いを指摘することがありますが、文句を言われない状態は極めて心地がいいので、専門家集団としてそれに反応することはめったにありません。
専門分野やその集団全体に大事件が起こったとき、専門家の知っていることがその分野全体に対していかに少ないかが露呈しますが、社会が引き続きその分野を必要とするなら、また徐々に元の姿に戻っていきます。専門家はいままでの考え方とシステムを作り、そのなかにどっぷりとつかっているので、新しい変化が訪れても成功体験にしがみついているのが常です。
私も囲碁AIをめぐって、専門家の知っていることがいかに少ないか、新しい状況に対して頭を切り替えることがいかに難しいか、身をもって体験させられました。」
・竹村彰通(あきみち)(東京大学経済学部教授など)著『データサイエンス入門』(岩波新書、岩波書店、2018年刊)
「付加価値が「物」ではなく「情報」によって生み出されるようになった。情報技術はさまざまな産業分野に共通に役立つ汎用的あるいは横断的な「横串」の手法である。統計学も典型的な横串の手法であり、同じ統計的手法が経済学でも医学でもほぼ同様の形で用いられる。」
・松原望(統計学者、東京大学教授など)『文芸春秋』(2013年9月号)ベイズ統計学のわが国における第一人者
「統計学者が、『鉄の鏃』の各県別出土データを見ると、もう邪馬台国についての結論は出ています。畿内説を信じる人にとっては、『奈良県からも鉄の鏃が四個出ているじゃないか』と言いたい気持ちはわかります。しかし、そういう考え方は、科学的かつ客観的にデータを分析する方法ではありません。
私たちは、確率的な考え方で日常生活をしています。たとえば、雨が降る確率が『0.05%未満』なのに、長靴を履き、雨合羽を持って外出する人はいません」
「邪馬台国に話を戻すと、『邪馬台国があった』という結果を説明するために、『どの県から○○が出土している』という原因が、もっとも説得力があるかと考えるのがベイズ統計学です。各県ごとに、弥生時代後期の遺跡から出土する『鏡』『鉄の鏃』『勾玉』『絹』の数を調べて、その出土する割合をかけあわせれば、県ごとに、邪馬台国が存在した可能性の確率を求めることが可能になります。その意味では、邪馬台国問題は、ベイズ統計学向きの問題なのです」
以上、卒業論文以来、50年以上にわたる歩みをふりかえると、私は「データサイエンス」や「ビッグデータ」などのことばが登場し、さかんに用いられるようになるずっと以前から、ほぼ一貫して、データサイエンス的アプローチによって、従来、人文(じんぶん)科学といわれていきた分野の、文学、言語学、歴史学などの研究を行ってきたことになるようである。