TOP>活動記録>講演会>第362回 | 一覧 | 次回 | 前回 | 戻る |
| ||||
第362回 邪馬台国の会
|
1.データサイエンス入門 |
■データサイエンスとは 『デジタル大辞泉』(小学館)では、データサイエンス(data science)について、つぎのようにのべられている。 この文章では、「統計学、数学、計算機(コンピュータ)科学」の三つがあげられていることに注目しよう。 ヤクルトや阪神などの野球監督であった野村克也(のむらかつや)氏は、ID(Important Data)野球をとなえたことでしられる。 目的さえはっきりしていれば、コンピュータ処理の部分は、外部に委託することも可能である。 コンピュータ[AI(Artificial Intelligence)、人工知能]は、棋士よりも強い。新幹線は、いかなる人の足よりも速い。コンピュータは、新幹線のようなものである。利用の方法さえわかれば、人間の脳力よりも、はるかに遠いところへ、はるかに速く行ける。 井上智洋著『人工知能と経済の未来』(文春新書、文芸春秋、2016年刊) 例えば、アマゾンには書籍を薦めてくる「レコメンド・システム」という仕組みがあります。これは自分と似たような買い物をしている他のユーザ(自分の購買履歴と相関が高い他のユーザ)が購入した商品をレコメンド(推薦)するような技術である「協調フィルタリング」を用いています。 例えば、自分と音楽の趣味が似た人がいたとします。そうしたら、その人の好きな曲で自分が聞いていない曲があったら聞いてみようと思うでしょう。「協調フィルタリング」というのはまさにそういうことをやっています。自分と似たような本を買っているユーザがいて、その人が買った本で自分が買っていない本があったら、その本を推薦してきます。そのためには膨大なデータを処理する必要があります。1990年代にコンピュータの処理速度が向上し、インターネットが普及したため膨大なデータを処理することが可能となり、確率・統計的なアプローチによるデータ分析が盛んになりました。 かつて、統計学は、人口を数えるとか、米の収穫量を数えるとか、製品の数や販売量を数えるとか、もっぱら「物質」を数え、分析するものであった。 「物」の時代から、「情報」の時代へ。 V・M・ショーンベルガーと、K・クキエ共著の『ビッグデータの正体-情報の産業革命が世界のすべてを変える-』(講談社、2013年刊)のなかでは、つぎのようにのべられている。 「データに新たな意味を与えたのが数学だ。だから単に記録や検索にとどまらず、分析も可能になったのである。
「甲類のコ」と「乙類のコ」の万葉仮名の使用頻度
これを表にして、連関係数を求める。
一般に相関係数について、xとyの相関をまとめると教科書では下記のように表記されている。 正の相関、負の相関 相関係数rついては、-1≦r≦1であることが知られており、yの値は、正の相関が強いほど1に近づき、負の相関が強いほど-1に近づく。また、相関がないとき、rの値は0に近い値をとる。
例2:(x、y)のデータが(1,0)、(0,1)、(-1,0)、(0,-1)の場合は円となり、下記のグラフで表わされる。相関係数を計算すると0となる。
天皇の代と没年または退位年をグラフにすると下記のグラフとなり、雄略天皇以後の直線部分から、点線の部分を推定できる。そうすると神武天皇は280~290年となり、天照大神は239年に近いところとなり、邪馬台国の卑弥呼に比定することができる。 これは、きれいなデータ(客観的なデータ。だれがやってもほぼ同じ結果が得られるデータ)といえる。 宝賀氏の天皇の世数情報からの計算 は世数の情報精度が低いこと、X1とX2の変数が2個ありその間の相関係数が0.99と相関が高く、マルチコ問題がある。このようによごれたデータ(主観や不正確さ、諸種の情報のいりまじったデータなど)といえる。
■マルチコ問題(多重共線性の問題) 多重共線性には正確多重共線性と準多重共線性があります。正確多重共線性とは、相関行列の逆行列が求められないことを言います。逆行列を計算できない原因は、変数の個数がデータの数より多いか、変数間に1次結合があるかのどちらかです。逆行列を求められないので重回帰分析は途中で打ち切られます。 通常、トレランスが0.1以下の場合に準多重共線性があると考えます。トレランスの計算方法は統計用語集に難しそうに書いてありますが、単純にすると次の通りです。 トレランス=1-決定係数 この決定係数は、重回帰分析に用いようとした説明変数の中から、変数1個を目的変数にし、残りの変数を説明変数にして重回帰分析を行うと得られます。決定係数が0.9(重相関係数に直すと約0.95)以上と変数間が強い相関を示すとき、トレランスは0.1以下になります。 VIF=1/トレランス エクセル統計2008では、多重共線性に対してもう1つ機能を加えています。重回帰分析のダイアログに「線形結合をしている変数を除いて分析する」というオプションがあり、これをチェックしていると、1次結合による正確多重共線性がある場合、1次結合している変数の片方をプログラムが勝手に除いて重回帰分析を行います。 多重共線性の意味について VIFは、1つの説明変数xiを目的変数とした他の説明変数による重回帰分析での重相関係数ri を用いて以下のように定義される。 VIFi=1/(1-ri↑2) これによると、VIFの値が10 程度というのは、重相関係数が約0.95 ということになる。 VIFi ≃ 10 ⇔ ri ≃ 0.95 これから、説明変数同士の相関係数が0.95というのは納得の行く数値である。 注:宝賀氏のデータでは、この値が0.99となるのでマルチコ問題となるのである。
|
2.「世数から推定する古代天皇の西暦」、「天照大神は男か?」 |
■世数は代数以上に信頼できるのか? すでに、慶応大学の教授であった橋本増吉は、大著『東洋史上よりみたる日本上古史研究』(東洋文庫、1956年刊)のなかで、つぎのようにのべている。 コラムのなかに示した系図の例にみられるように、「世数」情報を考えるばあいには、その「世数」のなかに、市辺押磐皇子(いちのべのおしはのおうじ)のように、ふつう、天皇位につかなかったとみられている人も、一世として数えられることになる。古代においては、天皇は政治「権力」を直接にぎっていた。そのため、天皇の座は、他からねらわれる対象であった。 ・宝賀寿男氏の推計式算出の基礎データ
宝賀寿男氏は神武天皇を西暦200年ごろの人とする。 足立倫行(あだちのりゆき)氏著『血脈の古代史』[ベスト新書.KKベストセラーズ、2015年刊]の記述で、下記がある。
■平山朝治氏の推計方法 [安本氏の考え] この推定値で、幅を推定したものが右下の図で、天照大御神、倭迹迹日百襲姫、倭姫、神功皇后を示す。 ・データサイエンスを理解して議論をすべきである
新しく発見した事実をお話するのではなく、他の説について、疑問点、問題点などをお話しするのは非生産的で時間のムダのようにも思える。
(a)『日本書紀』の冒頭は陰陽二元論で始まり、イザナギ・イザナミニ神[諾冊(だくさつ)二尊]による国生みや神々の生成もこれに従っており、国中(くになか)の柱(天之御柱)を回る場面では、イザナギを「陽神」、イザナミを「陰神」と呼んでいる。男は陽で、女は陰であり、陽は太陽で、陰は月であるから、天照大神は太陽神であり、本来男でなければならず、月読尊は陰神であり、本来女でなければならないはずである。この対比は、ギリシャ神話でも同じであって、太陽神のアポロと月抻のアルテミスの兄妹神の組合せで現れる。(以下略)
以上のように、宝賀氏の世数から算出するやりかたはデータがあって、それを入れれば何とかなる的な方法である。 |
TOP>活動記録>講演会>第362回 | 一覧 | 上へ | 次回 | 前回 | 戻る |