TOP>活動記録>講演会>第362回 一覧 次回 前回 戻る  


第362回 邪馬台国の会
人文データサイエンス入門
(宝賀寿男氏の古代年代論)
天皇の代数と世数


 

1.データサイエンス入門

■データサイエンスとは
2012年度から、高等学校の一年次必修科目、「数学I」に、「データ分析」が導入された。
文部科学省から、統計学習の指導のために、高校の先生むけに発せられた「統計教育に携わる方へ」という文章のなかに、つぎのようにある。
「ビッグデータ時代と言われる今日、データから傾向を把握し、それに基づいて意思決定を行うことは多くの組織で行われていることです。したがって、これからの社会を生きる高校生にとってこのような知識や技能を身に付けておくことは必須のことと考えられます。
このような実際的な学習意義がまず考えられます。また、データに基づいて自分の考えをまとめ発表したり、質疑応答をしたりすることは思考力や表現力を育てることになります。
さらに、自分が関心や興味をもっている事柄を探究するため、必要なデータを集め、傾向を分析し、必要ならより進んだ知識等を参考にしつつ自分の考えをまとめ発信したりすることは、正に新学習指導要領の言う『確かな学力』を育てることと同一線上にあると言えます。」

『デジタル大辞泉』(小学館)では、データサイエンス(data science)について、つぎのようにのべられている。
「データの分析についての学問分野。統計学、数学、計算機(コンピュータ)科学などと関連し、主に大量のデータから、何らかの意味のある情報、法則、関連性などを導き出すこと、またはその処理の手法に関する研究を行なう。これらの研究者および技術者はデータサイエンティス卜とよばれる。」

この文章では、「統計学、数学、計算機(コンピュータ)科学」の三つがあげられていることに注目しよう。
これについては、あとで議論する。
また、この文章のなかの、「何らかの意味のある情報、法則、関連性」とは何をさすか。必要とする情報を、データからくみだすとは、どういうことを意味するのか。

ヤクルトや阪神などの野球監督であった野村克也(のむらかつや)氏は、ID(Important Data)野球をとなえたことでしられる。
データにもとづく野球である。
野村克也氏は若いときに、カーブ打ちに弱かった。そこから、山(やま)のかけ方を研究した。 ピッチャーには、カウントによってクセのある人が多い。このピッチャーは、カウント2(ツー)ストライク、1(ワン)ボールのときは、百パーセントカーブを投げる、などのクセを研究した。それによって弱点を克服したという。
ここでは、数学やコンピュータは使われていない。しかし、確率的なものの考え方、すなわち、統計をとって、ピッチャーのクセ、すなわち、あるていどの規則性、法則性をみちびきだす考え方は、データサイエンスの基本的出発点である。ある目的のためには、どういうデータを集め、どう分析すればよいか。
将棋や碁などでも、一手ごとに、刻々と変化する「勝率」を知ることができるようになっている。その「勝率」を、コンピュータが教えてくれる。
棋士は、コンピュータ技術者である必要はない。利用者であればよいのである。

目的さえはっきりしていれば、コンピュータ処理の部分は、外部に委託することも可能である。

コンピュータ[AI(Artificial Intelligence)、人工知能]は、棋士よりも強い。新幹線は、いかなる人の足よりも速い。コンピュータは、新幹線のようなものである。利用の方法さえわかれば、人間の脳力よりも、はるかに遠いところへ、はるかに速く行ける。

井上智洋著『人工知能と経済の未来』(文春新書、文芸春秋、2016年刊)
「21世紀に入り(正確には1990年代後半以降)、20世紀の論理的アプローチに代わって「確率・統計的なアプローチ」がAI研究の主流となり、実用的な技術が次々と生まれました。

例えば、アマゾンには書籍を薦めてくる「レコメンド・システム」という仕組みがあります。これは自分と似たような買い物をしている他のユーザ(自分の購買履歴と相関が高い他のユーザ)が購入した商品をレコメンド(推薦)するような技術である「協調フィルタリング」を用いています。
その基本的な仕組みはごく簡単な確率・統計に基づいており、論理的推論を行っているわけではありません。こんなものをAIと呼ぶべきではないという人もいますが、人間に代わって知的な処理をするという意味で、ここではAIの一種と見なします。
「確率・統計的なアプローチ」は、必ずしも人間の知的振る舞いを直接的に模倣しようとしているわけではありませんが、結果として人間の直感的思考に相通ずる面を持っています。

例えば、自分と音楽の趣味が似た人がいたとします。そうしたら、その人の好きな曲で自分が聞いていない曲があったら聞いてみようと思うでしょう。「協調フィルタリング」というのはまさにそういうことをやっています。自分と似たような本を買っているユーザがいて、その人が買った本で自分が買っていない本があったら、その本を推薦してきます。そのためには膨大なデータを処理する必要があります。1990年代にコンピュータの処理速度が向上し、インターネットが普及したため膨大なデータを処理することが可能となり、確率・統計的なアプローチによるデータ分析が盛んになりました。
大量のデータを分析し、意味のある知識を取り出すことを「データマイニング」と言います。大量のデータの方は、近頃「ビッグデータ」という流行り語で呼ばれています。
アメリカのスーパーマーケットの販売データを、コンピュータを用いて統計分析した結果、オムツとともにビールが良く同時に購入されていることが分かったというデータマイニングに関する有名な実例があります。
コンピュータが明らかにしたこのような相関関係に対し理屈を付けるは今のところ人間の役割です。お父さんがオムツを買ってくるように頼まれてついでにビールを買うことが多いというのが例えばその理屈です。

かつて、統計学は、人口を数えるとか、米の収穫量を数えるとか、製品の数や販売量を数えるとか、もっぱら「物質」を数え、分析するものであった。
いま、統計学は、「言葉」を数えるとか、パソコンでの検索数を数えるとか、スポーツや、碁や将棋などのゲームの「勝率」を数えるとか、あるいは、株の値動きを見るとか、「情報」を数え、分析することに、かなりな比重がうつっている。

「物」の時代から、「情報」の時代へ。
それとともに、統計学自体も、さまざまな形で発展をとげるようになった。

V・M・ショーンベルガーと、K・クキエ共著の『ビッグデータの正体-情報の産業革命が世界のすべてを変える-』(講談社、2013年刊)のなかでは、つぎのようにのべられている。
「世の中にコンピュータが本格的に入ってきてから50年。データの蓄積が進み、これまででは考えられなかったようなことがいつ起こっても不思議ではない状況にある。かつて世界がこれほどの情報洪水に見舞われたことはないし、その情報量も日増しに拡大する一方だ。規模の変化は状態の変化につながる。そして、量的な変化は質的な変化をもたらす。」
「ビッグデータは大変革の始まりを告げるものだ。望遠鏡の登場によって宇宙に対する認識が深まり、顕微鏡の発明によって細菌への理解が進んだように、厖大なデータを収集・分析する新技術のおかげで、これまでとはまったく思いもつかぬ方法で世の中を捉えられるようになる。」
「個人への効果はとてつもなく大きいはずだ。確率や相関関係が重視される世の中では、専門知識の重みが薄れる。専門家が不要になるわけではないが、これからはデータが紡ぎだす。”ご託宣”との知恵比べになる。」
「『データによる物事の判断は、人間の判断を補完し、ときに上回ることもある』。これがビッグデータの最大の衝撃だろう。そのような形が普通になれば、統計学者やデータアナリストはともかく、それ以外の分野のエキスパートは輝きを失うはずだ。」
「世界を数量的に捉えて解き明かそうという人類の挑戦が始まった。その重要な第一歩となるのが、ビッグデータだ。かつては計測も蓄積も分析も共有も不可能だった物事が、次々にデータ化されていく。」
「歴史を振り返れば、人類が残してきた素晴らしい業績の舞台裏で、我々は『物事を測る』という行為によって世界を支配してきた。
正確さへの強いこだわりは13世紀半ばの欧州で始まった。ちょうど天文学者が時間・空間の正確な数量化に取り組んだ時代である。歴史家のアルフレッド・クロスビーの言葉を借りれば、『現実世界の測定』だ。ある現象を測定さえできれば、理解したも同然だった。
その後、測定は、観察と解釈という科学的手法と結びついた。言い換えれば、数量化して記録し、再現性のある結果を提示する能力だ。
ケルビン卿の通称で知られる物理学者ウィリアム・トムソンは、『測ることは知ること』と断言した。
やがて測定は、権威の根拠になっていく。『知識は力なり』と説いたのは、哲学者フランシス・ベーコンだ。」

「データに新たな意味を与えたのが数学だ。だから単に記録や検索にとどまらず、分析も可能になったのである。
『情報化社会という言葉が聞かれるようになって久しいが、ビッグデータは真の『情報化社会』の到来を意味する。ついにデータが主役になるのだ。我々が蓄積してきたデジタル情報は、ついに斬新な方法でまったく新たな用途に生かされ、そこから新しい価値が生まれるのである。」
「ここまで列挙してきた、この膨大な成果にたどり着けた背景には、コンピュータのプロセッサーの高速化、メモリーの大容量化、ソフトウェアやアルゴリズムの高度化があるが、こうした道具立ては理由の1つに過ぎない。もっと根本的な理由は、『膨大なデータを持てるようになったこと』に尽きる。世の中のさまざまな部分がデータ化されたおかげだ。人類は、コンピュータ革命のはるか前から世の中を数値化したいという野望を燃やしてきた。それがデジタルツールの登場で、データ化が一気に進んだ。」
「我々は、新しいことを上手に、素早く、たくさん成し遂げる力を手に入れた。そこには、とてつもない価値を引き出す可能性が秘められており、新たな勝者と敗者を生み出すはずだ。データの価値の大半は、2次利用から生まれる。」

 


■相関について
・連関係数
上代特殊仮名づかいの例で、連関係数、相関係数の説明をする。

「甲類のコ」と「乙類のコ」の万葉仮名の使用頻度
362-01

これを表にして、連関係数を求める。 362-02

・相関係数
この「甲類のコ」と「乙類のコ」の万葉仮名の使用頻度の相関係数を求めると、下記となり計算結果は1となる。
362-03

 

一般に相関係数について、xとyの相関をまとめると教科書では下記のように表記されている。
362-04

正の相関、負の相関
2つの変量からなるデータにおいて、一方が増えると他方も増える傾向がみられるとき、2つの変量の間には正の相関があるという。また、一方が増えると他方が減る傾向がみられるとき、2つの変量の間には負の相関があるという。どちらの傾向もみられないときは、2つの変量の間には相関がないまたは相関関係がないという。
2つの変量の間に相関があるとき、散布図における点の分布が1つの直線に接近しているほど相関が強いといい、散らばっているほど相関が弱いという。
例:親と子との知能指数の相関係数は、0.5ぐらいの値となる。

相関係数rついては、-1≦r≦1であることが知られており、yの値は、正の相関が強いほど1に近づき、負の相関が強いほど-1に近づく。また、相関がないとき、rの値は0に近い値をとる。
362-05

 


例1:(x、y)のデータが(1,1)、(2,3)、(3,5)の場合は直線となり、下記のグラフにで表わされる。式はy=2x-1で、相関係数を計算すると1となる。
362-06

 

例2:(x、y)のデータが(1,0)、(0,1)、(-1,0)、(0,-1)の場合は円となり、下記のグラフで表わされる。相関係数を計算すると0となる。
362-07

 

天皇の代と没年または退位年をグラフにすると下記のグラフとなり、雄略天皇以後の直線部分から、点線の部分を推定できる。そうすると神武天皇は280~290年となり、天照大神は239年に近いところとなり、邪馬台国の卑弥呼に比定することができる。
362-08

これは、きれいなデータ(客観的なデータ。だれがやってもほぼ同じ結果が得られるデータ)といえる。

宝賀氏の天皇の世数情報からの計算
Y=a+bX1+cX2
=a+bX1+bΣNi

は世数の情報精度が低いこと、X1とX2の変数が2個ありその間の相関係数が0.99と相関が高く、マルチコ問題がある。このようによごれたデータ(主観や不正確さ、諸種の情報のいりまじったデータなど)といえる。

 

■マルチコ問題(多重共線性の問題)
マルチコ問題については前回講演(第361回)を参照。

・今回補足
(下図はクリックすると大きくなります)
362-09

多重共線性には正確多重共線性と準多重共線性があります。正確多重共線性とは、相関行列の逆行列が求められないことを言います。逆行列を計算できない原因は、変数の個数がデータの数より多いか、変数間に1次結合があるかのどちらかです。逆行列を求められないので重回帰分析は途中で打ち切られます。

さて、本来、変数間には1次結合があるはずなのに、測定誤差などによる僅かな誤差があって1次結合が崩れ、逆行列がもとまることがあります。これが準多重共線性の起こっている状況です。重回帰分析の結果もでてきますが、結果の信頼性は低く、データが少しでも増えたり減ったりする度に、偏回帰係数が大きく変化してしまう可能性があります。

通常、トレランスが0.1以下の場合に準多重共線性があると考えます。トレランスの計算方法は統計用語集に難しそうに書いてありますが、単純にすると次の通りです。

トレランス=1-決定係数

この決定係数は、重回帰分析に用いようとした説明変数の中から、変数1個を目的変数にし、残りの変数を説明変数にして重回帰分析を行うと得られます。決定係数が0.9(重相関係数に直すと約0.95)以上と変数間が強い相関を示すとき、トレランスは0.1以下になります。 

VIFの訳語は分散拡大係数です。トレランスが分かればVIFの計算は簡単です。VIFが10 以上なら、準多重共線性を疑うということになります。

VIF=1/トレランス

エクセル統計2008では、多重共線性に対してもう1つ機能を加えています。重回帰分析のダイアログに「線形結合をしている変数を除いて分析する」というオプションがあり、これをチェックしていると、1次結合による正確多重共線性がある場合、1次結合している変数の片方をプログラムが勝手に除いて重回帰分析を行います。

多重共線性の意味について
重回帰分析などの多重共線性の目安として、説明変数の相関係数が0.95とか、 VIF(Variance Inflation Factor)の値が10以上ということが言われているが、多重共線性は数学的な問題だけでなく。実用上どこが問題となるのか考えてみる。ここでの分析は、メニュー[分析-多変量解析他-予測手法-リッジ回帰分析他]を利用する。

VIFは、1つの説明変数xiを目的変数とした他の説明変数による重回帰分析での重相関係数ri を用いて以下のように定義される。

 VIFi=1/(1-ri↑2)

これによると、VIFの値が10 程度というのは、重相関係数が約0.95 ということになる。

 VIFi ≃ 10 ⇔ ri ≃ 0.95

これから、説明変数同士の相関係数が0.95というのは納得の行く数値である。

注:宝賀氏のデータでは、この値が0.99となるのでマルチコ問題となるのである。

 

2.「世数から推定する古代天皇の西暦」、「天照大神は男か?」

■世数は代数以上に信頼できるのか?
前回講演(第361回)の「世数は代数以上に信頼できるのか?」の補足

すでに、慶応大学の教授であった橋本増吉は、大著『東洋史上よりみたる日本上古史研究』(東洋文庫、1956年刊)のなかで、つぎのようにのべている。
「父子直系のばあいの一世平均年数が、ほぼ二十五、六年ないし三十年前後であることは、那珂博士の論じられたとおりであろうけれども、わが上代のおよその紀年を知るために必要なのは、父子直系の一世平均年数ではなく、歴代天皇のご在位年数なのであるから、那珂博士算出の平均一世年数をもって、ただちに上代の諸天皇の御在位平均年数として利用すべきでないことは、明白なところである。」

たとえば、為政者である江戸幕府の将軍のばあいでも、五代将軍徳川綱吉が、家康を一代目として五代目であることは、(「五代将軍綱吉」といういい方をよくするので)すぐに答えられる人は多いであろう。しかし、家康から数えて、「何世目」であるかをたずねられれば、答えられない人が多くなるであろう(綱吉は、三代将軍家光の四男で、家康から数えて「三世目」)。
つまり「世数」は、「代数」にくらべ、情報が正確には、伝わりにくいとみられる。

コラムのなかに示した系図の例にみられるように、「世数」情報を考えるばあいには、その「世数」のなかに、市辺押磐皇子(いちのべのおしはのおうじ)のように、ふつう、天皇位につかなかったとみられている人も、一世として数えられることになる。古代においては、天皇は政治「権力」を直接にぎっていた。そのため、天皇の座は、他からねらわれる対象であった。
そのため、「天皇の座にいる期間」と、市辺押磐皇子のばあいのような、天皇の位につかず、たんに「父でありえた期間」とは、同質ではないものとなる。
現在でも、政治「権力」の座である首相の位置にいる期間は平均してみじかい。現在では天皇は、直接の政治権力から離れている。父帝からつぎの天皇に位がゆずられ、一世が一代という形になっている。
天皇の位にある期間が、「一世」の長さとなっている。このため現代では、総理大臣一代の平均の長さは、天皇一代のへ平均の長さにくらべ、いちじるしく短くなっている。古代では、天皇は総理大臣のような、直接の権力の座にいたのである。

・宝賀寿男氏の推計式算出の基礎データ
(下図はクリックすると大きくなります)362-10


この表を見ると、初期10世代天皇(1世代の神武~10世代の崇神)では平均1.6人に対し、後の天皇(16世代の推古~28世代の冷泉、円融)では平均2.23人となる。初期が少なく、後は多い、これを初期も後と同じ2.23人にすれば、88年新しくなる。

宝賀寿男氏は神武天皇を西暦200年ごろの人とする。
西暦200年をうしろに88年ずらせば、288年ごろの人となり、安本の年代論にほぼあう。
つまり、宝賀氏の方法では、立場や前提により推定年代値がかなり動き「再現性」が少ない。

足立倫行(あだちのりゆき)氏著『血脈の古代史』[ベスト新書.KKベストセラーズ、2015年刊]の記述で、下記がある。
私はかねてから気になっていた、古代氏族系譜研究者の宝賀寿男さんに会うことにした。宝賀さんは、「系図伝承のどこに歴史的事実が伝えられているのか」を探求することが重要と言う。
「これがよく知られる天皇家の系図ですけど、初代神武から第10代崇神までの間に直系で8世代あります。ところがその他の古代氏族の系図では、神武から崇神世代の人々の間は中臣氏・物部氏・三輪氏・大伴氏・忌都氏等すべての氏族で4世です。各氏族が口裏を合わせていっせいに改変したとは考え難いので、系図を造作したのは天皇家の方です」(略)
の記述で、宝賀寿男氏の神武から崇神までの系図がある。362-11


『古事記』にも『日本書紀』にもない、現代の宝賀寿男氏の本にしか記されていない系図が創出というか想定される。そして、それが出発点となって議論が進む。


■平山朝治氏の推計方法
前の方に掲載した「天皇の代と没年または退位年」のグラフと同様天皇の代数に平山朝治氏(筑波大学・経済学者)が「天皇即位年推定」としての推計方法の表を作成した。これらに対し宝賀氏からの質問が来た。

362-12                                    

[宝賀氏から「平山朝治氏の推計方法への疑問」]
安本氏が賛同する平山朝治氏の推計方法やその基礎的な考え方には、様々な問題点があり、これは別途、詳細に検討しようと考えているが、ここでは取りあえず、概略的に取り上げておく。
ちなみに、平山氏の推計式は上古天皇の即位年を推定するものであって、退位・崩御の年を求める拙見とは異なるが、その推計式が「Y = 265.72 + 10.34 H」であり、これをI/R↑2 で記述した私見の推計式に置き換えると、「Y=276.06+10.34X」(R:0.991682、R2:0.983434)となる。

この推計方式の少ないデータ母集団を基礎にして、ずいぶん離れた時期の数値を無理に推計する点にある。具体的体には、31 用明~49 光仁という僅か19個のデータを基礎にして、30代前の神武、あるいは35代前の天照大神を推計する形をとる点である。また、19個のデータのうち、異質なデータ差なぜ除外しないのか(重祚、廃帝、弘文天皇で、すべてが係数を小さくする方向に働く)という問題点がある。
「31~49」代の天皇に範囲を設定する合理的な理由に乏しく、同質的なデータという性格を考えると、上限も下限も更に拡大することが可能であり、仮に、上限のほうを上記拙見のように27 安閑まで引き上げて、データ総数を23個にした場合には、算出される推計式は「Y=241.40+10.92H」(R:0.992975、R2:0.985999)となる。これら数値では、平山氏の上記推計式よりもR2の数値があがり(推計制度があがる)、かつ、平均在位期間が10.34→10.92と増加し、その結果、神武の推定時期が276年から252年に24年も繰り上がることになる。

[安本氏の考え]
平山氏が区間推定に用いた式はつぎのようなものである。(『季刊邪馬台国』16号、1983年刊)
362-13

この推定値で、幅を推定したものが右下の図で、天照大御神、倭迹迹日百襲姫、倭姫、神功皇后を示す。

362-14・データサイエンスを理解して議論をすべきである 新しく発見した事実をお話するのではなく、他の説について、疑問点、問題点などをお話しするのは非生産的で時間のムダのようにも思える。
しかし、データサイエンスにとって、どのような点に気を付けねばならないかを学ぶことにはなる。 距離を測定するには、「メートル」など、きちんと定められた「モノサシ」によって測ることが望ましい。個人個人によって異なる「歩幅(ほはば)」ではかることにすると、「測定する人」によるくいちがいが大きくなりがちである。

「天皇の代の数」は古代においては、「天皇の位(くらい)についたとみとめられている人の数」「政治の最高執政者(為政者)の数」の数であって、多少のくいちがいがあってもまずまず、ほぼだれもが「共通しての数」を定めやすい。 しかし「天皇の世の数」は、明確に定義されているとはいいがたい。測定者の判断によって異なる度合いが、「代の数」よりも大きくなるとみられる。
宝賀氏指摘の「弘文天皇(大友皇子)」 「重祚(ちょうそ)」などの例は数例で、別に処理しうる。


■天照大御神 は男性なのか?
[宝賀氏の見解]
<コラム>天照大神は女神だったか
記紀の記述もあって、天照大神は当然のことのように女神と思い込まれてきた。最近では神武天皇実在説をとる皇學館大学名誉教授田中卓博士ですら、女神を原点とする女系天皇容認論(『諸君!』平成18年3月号)を展開される。
しかし、多角度から検討してみると、むしろ天照大神の原型は男神であったと考えられる。江戸期には天照大神男神説もかなり見られており、津田左右吉博士や最近でも松前健氏、楠戸義昭氏などに男神説が見られる。これらの所説には様々な差異があり、私としても、個別には多少とも異論かあるが、結論的には同説である。ここでは、私見の根拠を簡潔に列挙しておく。

(a)『日本書紀』の冒頭は陰陽二元論で始まり、イザナギ・イザナミニ神[諾冊(だくさつ)二尊]による国生みや神々の生成もこれに従っており、国中(くになか)の柱(天之御柱)を回る場面では、イザナギを「陽神」、イザナミを「陰神」と呼んでいる。男は陽で、女は陰であり、陽は太陽で、陰は月であるから、天照大神は太陽神であり、本来男でなければならず、月読尊は陰神であり、本来女でなければならないはずである。この対比は、ギリシャ神話でも同じであって、太陽神のアポロと月抻のアルテミスの兄妹神の組合せで現れる。(以下略)


[安本氏の考え]
坂本太郎他校注『日本書紀上』(日本古典文学、岩波書店、1967年刊)554ページ、補注1~36より
「皇祖神は最初男性であったのを女帝推古天皇の代に女性に改めたのであるとする推測説が荻生徂徠・山片蟠桃・の著書に見え、津田左右吉もその結論を支持しているが、この神の原始的な名称であったと思われる、オホヒルメノムチが女性を意味する(→86頁注6)とすれば、やはり最初から女性と考えられていたのであろう。上記の古代日本の実情、ならびに当時における女性の社会的地位の高さなどを考えても、皇祖神が女性であるのは不自然ではない。

詳細は前回講演(第361回)参照

以上のように、宝賀氏の世数から算出するやりかたはデータがあって、それを入れれば何とかなる的な方法である。
客観的なデータからでは無く、主観的なデータから求める方法で、強く主張すれば正しいとした弁護士的な手法である。

  TOP>活動記録>講演会>第362回 一覧 上へ 次回 前回 戻る