■「科学的な証明」とはなにか
「邪馬台国九州説」も、一つの仮説であり、「邪馬台国畿内説」も、一つの仮説である。したがって、それらの仮説が正しいことを主張するためには、「根拠(エビデンス)」を示し、「証明」が行なわれなければならない。
では、どのような議論が、「根拠」をもつものであり、「証明」のできた議論といえるのか。
このことを考えるのに、大変参考になる本が、最近刊行されている。
京都大学大学院文学研究科准教授の大塚淳(おおつかじゅん)氏の手になる『統計学を哲学する』(名古屋大学出版会、2020年)である。
3000円をこえる本であるが、私の買い求めたものでは、刊行後1ヵ月と少しで3刷となっている。この種の本を求める人の多いことがわかる。
この本の序章で、大塚氏は述べる。
「この本は何を目指しているのか。その目論見(もくろみ)を一言で表すとしたら、『データサイエンティストのための哲学入門、かつ哲学者のためのデータサイエンス入門』である。ここで『データサイエンス』とは、機械学習[下の注1参照]研究のような特定の学問分野を指すのではなく、データに基づいて推論や判断を行う科学的/実践的活動全般を意図している。」
そして、さらに述べる。
「現代において統計学は、与えられたデータから科学的な結論を導き出す装置として、特権的な役割を担っている。良かれ悪しかれ、『科学的に証明された』ということは、『適切な統計的処理によって結論にお墨付きが与えられた』ということとほとんど同義なこととして扱われている。しかしなぜ、統計学はこのような特権的な機能を果たしうる(あるいは少なくとも、果たすと期待されている)のだろうか。
そこにはもちろん精密な数学的議論が関わっているのであるが、しかしなぜそもそもそうした数学的枠組みが科学的知識を正当化するのか、ということはすぐれて哲学的な問題であるし、また種々の統計的手法は、陰に陽にこうした哲学的直観をその土台に持っているのである。」
「例えば、ベイズ統計(次回の大証明1)や検定理論(今回の中証明2)などといった、各統計的手法の背後にある哲学的直観を押さえておくことは、それぞれの特性を把握し、それらを『腑に落とす』ための一助になるだろう。」
[注1]
機械学習:データから「機械(コンピュータ)」が自動的に「学習」し、データの背景にあるルールやパターンを発見する方法。画像認識、将棋の棋譜、予想、判断、AI。
[注2]
二重盲検
研究参加者が、自分がどちらの群に入ったかを知ってしまうと、それが参加者の判断、行動、心理などに影響を与え、その結果、観察結果にも影響を与えるおそれがある。これを防ぐために、参加者がどちらの群に入ったのかわからないようにすることを盲検法といい、結果を観察する研究者自身にもわからないようにすることを二重盲検法という。
[注3]
帰無仮説[きむかせつ]:仮説検定でその当否を検定しようとする仮説。否定されることを期待する形で提出されるところからいう。(『日本国語大辞典』小学館刊)
帰無仮説の例を示す。
【例】1の目が出ると勝ちとなる遊戯で、一つのさいころを3回投げたところ、3回とも1の目が出た。このさいは正常でないといえるか。
[解]このさいが正常であるという仮説を立てると、1の目が出る確率p=1/6である。したがって、このさいを3回投げて3回とも1の目が出る確率= (1/6)↑3 = 1/216 になる。この確率はきわめて小さい。したがって、このさいころは正常でないと判定する。このように、われわれが仮説を立てる場合には、これが棄却されることを予想して設定することが多い、このような仮説を帰無仮説(null hypothesis)という。
上例の確率が1/216であるというのは、仮説が正しければこのようなことは216回につき1回くらいしか起こらない珍しいことで、正常なさいならめったに起こらないとして仮説を棄却した。しかし、珍しいことは珍しくても絶対に起こらぬことではない。さいが正常であっても、 216回に1回くらいは起こりうるのである。
このように、仮説が正しいにもかかわらず、これを棄却する誤りを第1種の誤りといい、第1種の誤りを冒かす確率を危険率または有意水準(level of significance)という。例1の答としては、「1/216の危険率で、このさいは正常でないと判定する」というのが正確である。危険率をどのくらいにとるかということは、それぞれの場合の目的に応じて異なるが、 0.05以下、0.01以下という数値がよく使われる。
岡田泰栄(やすよし)著『統計』(共立出版刊)
判断の客観的基準を定める。
ふつうの科学の基準では、ある仮説にしたがうとき、計算をするとき、一定の確率(ふつうは、100分の5か100分の1以下でしか起きないことが起きたことになるときは、もとの仮説は捨てる(棄却する)「約束」になっている。機械的(メカニカル)に棄却することによって、議論の客観性をたもつという「基準」をもうけている。どんな小さな確率でも・・・。
旧石器捏造事件がおきたとき、人類学者で、国立科学博物館人類研究部長(東京大学大学院理学系生物科学専攻教授併任)の馬場悠男(ばばひさお)氏が、のべている。
「私たち理系のサイエンスをやっている者は、確率統計学などに基づいて『蓋然性が高い』というふうな判断をするわけです。偉い先生がこう言ったから『ああ、そうでございますか』ということではないのです。ある事実が、いろいろな証拠に基づいて100%ありそうか、50%か、60%かという判断を必ずします。どうも考古学の方はそういう判断に慣れていらっしやらないので、たとえば一人の人が同じことを何回かやっても、それでいいのだろうと思ってしまいます。今回も、最初は変だと思ったけれども何度も同じような石器が出てくるので信用してしまったというようなことがありました。これは私たち理系のサイエンスをやっている者からすると、まったく言語道断だということになります。」
「経験から見ると、国内外を問わず、何ヵ所もの自然堆積層から、同じ調査隊が、連続して前期中期旧石器を発掘することは、確率的にほとんどあり得ない(何兆分の1か?)ことは常識である。
だからこそ、私は、東北旧石器文化研究所の発掘に関しては、石器自体に対する疑問や出土状況に対する疑問を別にして、この点だけでも捏造と判断できると確信していたので、以前から、関係者の一部には忠告し、拙著『ホモ・サピエンスはどこから来たか』にも『物証』に重大な疑義があると指摘し、前・中期旧石器発見に関するコメントを求められるたびに、マスコミの多くにもその旨の意見を言ってきた。
しかし、残念ながら、誰もまともに採り上げようとしなかった。とくに、マスコミ関係者の、商売の邪魔をしてもらっては困るという態度には重大な責任がある。」(以上、春成秀爾編『検証・日本の前期旧石器』学生社、2001年)
確率論的にみれば、「洛陽発見の三角縁神獣鏡事件」も、「旧石器捏造事件」も、問題の構造は、同じである。
・オッカムのかみそり
「オッカムのかみそりは、単純性の原理ともいわれる。それは不要の存在者を不換紙幣のようにむやみに濫発することなく、説明原理はできるだけ切りつめるべきである、という原理である。したがって、この原理はまた節減の法則(law of parsimony)ともいい、さらに思考経済の法則(law of economy)ともいう。単純性の原理は、さらにまたガリレオの「自然はより少ない努力でなしとげうることを、多くの努力でなしとげるようなことをしない」を指すことがあり、ライプニッツのことば「天文学では常に、もっとも単純な体系が選びとられる」を指す場合がある。」[『現代科学思想事典』(講談社現代新書)]
ポーランドに生まれ、アメリカに帰化し、意味論を提唱し、一般意味論研究所の所長となった論理学者、コージプスキー(1879~1950)は、ことばを二種類にわけた。すなわち、専門用語と非専門用語とである。
コージプスキーは、専門用語においては、たとえば、90°とかH2Oとか書けば、誤解なくコミュニケートできるが、そうでない非専門用語は、誤解をまねくことばであるとのべている。
90°とかH2Oとかにおいて、ことばの意味が一義的である。学問を進めるにあたっては、そこで用いられることばは、明確な定義によって限定され、可能なかぎり一義的であることが望ましい。このことは、パスカルの規則のなかにも含まれていることであるが、とくに重要なことであると私は考える。
科学のことばとして、しばしば数学や数理が用いられる。数学や数理は、意味や論理の展開が、一義的であるからである。
京都大学人文科学研究所の教授であり、西洋史学者であった会田雄次(あいだゆうじ)は、その著『合理主義』(講談社現代新書)(1966年刊)のなかで、つぎのようにのべている。
「合理的なものの考え方をつきつめると、そこには、すべてのものを量において考え、質において考えない、ということがあります。いっさいを量の変化において考え抜こうという精神です。」
■拙著『データサイエンスが解く邪馬台国』(朝日新聞出版刊)について、インターネットに見える某氏(以下A氏と記す)
私はデータサイエンスを専門としているものです。安本氏の本を読みました。
証明の方法は、何通りも考えられますが、安本氏の示したデータによるかぎり、どのような方法で行なっても、結果は、変らないと思います。
安本氏は、1目瞭然のことと考えられたのか、計算例を示しておられませんが、以下のように考えるのは、もっとも簡単な確率計算法(証明の方法)であると思います。
(1)全国の都道府県の数は、1都1道2府43県で、全計47都道府県である。
(2)「鏡の出土数」「鉄鏃の出土数」など、「魏志倭人伝」の記載に関係のある項目で、県ごとの出土数が調べられているものは、全部で16項目である。
(3)その16項目のうち、出土数において、福岡県がトップ(1位)をしめるのは、安本氏の示しておられるデータによれば、10項目におよぶ。残りの都道府県が1位になっている例は、総計で、8項目である(2つの県が、ともに1位を示しているような例がある)。
(4)どの県も出土状況が変らない(帰無仮説)とすれば、特定の県が、特定の項目で1位となる確率Pは。
P=1/47=0.0213
である。
16項目調べているから、そのいずれかで1位となる「期待値」は、
16×P=0.340(回)
(5)だか、実際は、福岡県が、10回1位を占めている。この「実現値」は、「期待値」の0.340回を、大きく上まわっている。
(6)したがって。「実現値」と「期待値」との差が、どのていど偶然でおきる範囲を越えているかを、計算すればよい。
(7)「実現値」と「期待値」とは、つぎのとおりである。
福岡県・・・「実現値」10回
「期待値」0.340回
他の46都道府県の合計・・・
「実現値」8回
「期待値」15.66回
(8)この「実現値」と「期待値」との差をカイ自乗検定する。
すると、カイ自乗の値は、278.204というきわめて大きな値となる。帰無仮説は、
1/1000以下の危険率で、十分棄却できる。
つまり、このように、出土数1位が。福岡県に重なる(集中する)ことは、偶然では、
1000回に1回もおきないことである(私のもっているカイ自乗の表には、のっていないが、おそらく10000回に1回以下)。
以上が、安本氏の示したデータによる1番簡単な証明法であると私は考えますが、どうでしょう。安本氏および専門家の方々のご意見をうかがえればと思います。
なお、福岡県をのぞく全都道府県をまとめずに、各都導府県別に、「期待値」と「実測値」とを求めて計算しても、「自由度」は、変りますが。結果には、変りがありません。
また、調査項目間に相関があるとみて、「鉄鏃」「鉄の刀」「鉄の剣」「鉄の矛」などは、1項目にまとめるなどして、調査項目をへらしても。結果に変りがありません。
あとは、安本氏が示しているデータそのものが信頼できるのか、という問題が残りますが。これも「畿内説」の方が集めたデータも用いられおり、かつ。出典が示されているのですから。逆の傾向を示すデータを提出しうることは、かなりむずかしそうです。批判する人は「意見」ではなく、逆の傾向を示す「データ」や「事実」を示さなければなりません。
福岡県は、他の都道府県にくらべ、出土数1位となっている数(10個)が断トツに多いのです。この事実をくつがえす根拠を示すことは、かなりむずかしいと思います。
■インターネットに見えるA氏内容に続く説明(安本)
・鉄の鏃(やじり)
『魏志倭人伝』に、倭人は「鉄の鏃(やじり)」を用いると記されている。
「鉄の鏃」について、各県別の出土数についてのグラフを作れば、下の図のようになる。
(下図はクリックすると大きくなります)
上の図をみれば、福岡県と奈良県との鉄の鏃の出土数は、つぎのようになっている。
福岡県……398個
奈良県…… 4個
(λ鉄鏃=398/4=99.5)
実に百倍近い差がみとめられる。
これについては、「邪馬台国畿内説」の立場にたつ考古学者、大塚初重氏も、その著『邪馬台国をとらえなおす』(講談社現代新書、2012年刊)のなかで、つぎのようにのべておられる。
「『季刊邪馬台国』(梓書院)責任編集者の安本美典氏など、九州説をとる先生方が主張されているように、九州では奈良県の約百倍の鉄鏃が出土し、鉄刀、鉄剣、鉄鉾、刀子も同様の分布の特色を示しているという事実がある。」
つまり、事実として「邪馬台国畿内説」の方といえども、あるていどみとめざるをえないことがらといえよう。
・寺沢薫氏の庄内式土器時代の鏡のデータ
『魏志倭人伝』には、魏の皇帝が、倭王卑弥呼に「銅鏡百枚」を与えたことを記している。
『魏志倭人伝』の正始(せいし)元年(240)の条にも、倭王に「鏡」を賜ったことを記している。
「邪馬台国」がどこにあったかはわからない。しかし、倭国に鏡がもたらされたことはたしかである。
そして、わが国では、そのころのものとみられる鏡が多数出土している。
たとえば、「邪馬台国=畿内説」の立場にたつ、桜井市の纒向学研究センター所長の考古学者、寺沢薫氏は、そのころの土器の時代(庄内式土器の時代)に出土した鏡として、下の表のようなデータを示しておられる。
(下図はクリックすると大きくなります)
ただし、上の表の、いちばん左の欄の、四角のなかの「238年、または、239年卑弥呼遣使」だけは、私の書きいれである。また、上の表の最後の「(以下略)」も、私の書きいれである。
上の表をみれば、寺沢薫氏が、庄内様式期の土器の時代を、大略邪馬台国前後の時代と考えておられることがわかる。
寺沢薫氏は、庄内様式期の時代を、西暦200年をすこし過ぎたころから、255~260年前後ごろまでに、あてておられる。
また、上の表をみれば、いわゆる「三角縁神獣鏡」は一面もふくまれていない。寺沢氏は「三角縁神獣鏡」を、「庄内様式期」よりも、あとの時代の鏡とみておられるようである。
さて、上の表をもとに、庄内様式期に出土した鏡を、各県別の出土数にわけてカウントし、まとめれば前の上の方の図の左(寺沢薫氏の資料・庄内期の鏡の出土数)のようになる。
その図をみれば、つぎのようなことがわかる。
(1)寺沢薫氏の示されたデータでは、庄内様式期の鏡が、全国で、71面示されていることになる。
(2)そのうちの半数近い三十面が、福岡県から出土している。
(3)奈良県からは、3面出土している。
(4)福岡県からの出土数は、奈良県からの出土数の、十倍である。
前の上の方の図(寺沢薫氏の資料・庄内期の鏡の出土数、県別弥生時代の鉄鏃)のようなデータにより、邪馬台国関係で議論されたおもな項目について、全都道府県中、出土量トップを示した県とその項目とをまとめれば、下の表のようになる。
さきのA氏の議論は、拙著『データサイエンスが解く邪馬台国』の中で示した上の表のようなデータにもとづいて行われている。上の表については、全体の調査項目数を、いくつであると判断すべきか、とか、『魏志倭人伝』に記載はないがマスコミを賑わしたのでとりあげた「大型建物」「桃の種」などの項目を、統計学的検定のために取り上げるべき項目にいれるべきかどうか、とか、表の項目の「朱」については「第1位」のものと言えるかどうかとか、異論の生じる可能性のあるものもある。
しかし、A氏の議論の本すじは、基本的に妥当とみられる。また、A氏ののべているように、調査項目数その他についての判断を変えても、A氏の述べている結論が大きく動くことはないとみられる。
いま、A氏の計算の過程を追跡し、それをパラフレイズ[敷衍(ふえん)説明]し、まとめれば、下の表のようになる。
この表は「福岡県」と「福岡県以外の46都道府県の合計」とを比較しているが、いま、この表とまったく同じ形で、「奈良県」と「奈良県以外の46都道府県の合計」を比較すれば、下の表のようになる。
上の二つの表をみれば、「福岡県」の場合は「福岡県以外の46都道府県」と異なり、第1位となった項目数が明らかに(統計学的に意味のある違いが見られる形で)多いといえる。
これに対し「奈良県」のばあいは、「奈良県以外の46都道府県」よりも、第1位となった項目数が、明らかに(統計学的に意味のある形で)多い、というようなことはいえない。
福岡県のばあいは、他の都道府県に比べ、突出して、第1位となっている項目数が多いのである。
ただ、このような形で統計学的検定を行うとすれば、A氏の方法よりも、もっと簡単に検定を行う方法があるように見える。
以下、「福岡県」と「奈良県」との比較を行う場合を取り上げる。
いま、「福岡県」または「奈良県」のいずれかで、全都道府県中第1位となっているような項目だけを取り上げることにする。そして。「福岡県」と「奈良県」とを、対決させる。
そのための比較にあたっては、
(1)『魏志倭人伝』に記載のある事物だけを対象とする。
(2) 明確に、第1位と言える項目だけを取り上げる。すると、上の方の表(全都道府県注、出土量トップを示した県とその項目)のうち、対象となるのはつぎの8項目である。
①鉄の鏃
②鉄の刀
③長い刀(五尺刀)
④鉄の矛
⑤銅鏡
⑥勾玉
⑦絹
⑧槨のない棺(箱式石棺)
この表のうち、「鉄の剣」「桃の核」「大型建物」については、『魏志倭人伝』に記載がない。「朱」については明確に1位であることをきめがたい。「蒨(せん)[茜(あかね)]」「卜骨」については、福岡県、奈良県いずれも第1位ではない。先の①~⑧の8項目について、「福岡県」「奈良県」が、全都道府県中第1位のものを〇印、そうでないものを×印で示す。すると、右の表のようになる。
8項目のすべてについて、「福岡県」は〇印、「奈良県」は×印である。
いま、「帰無仮説」として、「福岡県と奈良県について全国で第1位を占める率(度合)は、母集団においては差がない」という仮説をもうける。
すると、この仮説のもとでは、右の表において、「福岡県」「奈良県」のいずれかにおいて、〇印がつく確率は1/2となる。したがって、8つの項目のすべてに〇印の付く確率は、(1/2)↑8=1/256 となる。これは1/100よりも小さい。
よって「帰無仮説」は棄却される。
〇印がつく率(度合)において、「福岡県」と「奈良県」とのあいだには、統計学的に意味のある違い(差)がみとめられる。以上をみてきたように、統計学的検定論では、ある判断(推論)を下すのに、主観にもとづくのではなく、データにもとづき、客観的基準をもうけて、それによって判定をする。それは基本的に確率論にもとづく基準である。この点が重要である。
医学や薬学の分野で、ある薬が、きくかきかないかの判定も、話は同じである。
さきの上の表(全都道府県注、出土量トップを示した県とその項目)において、データのとりあつかいによっては、「福岡県」と有意の(統計学的に意味のある)差(違い)をもたらさない(帰無仮説を棄却できない)のは、「佐賀県」だけである。
「福岡県」も「佐賀県」も、ともに北部九州である。この表(全都道府県注、出土量トップを示した県とその項目)をよく見れば、『魏志倭人伝』に記載されている事物が、もっともよく出土しているのは「福岡県」であることは、あきらかであるようにみえる。
[蛇足メモ]
上の表(「福岡県」と「奈良県」)の形にまとめられた「福岡県」と「奈良県」との比較問題は、また、以下のように、「χ二乗(カイ二乗)検定問題」として処理することもできる。
「第1位」である度合いが母集団においては差(違い)がない、とする「帰無仮説」をもうけると、この「帰無仮説」のもとでは、「福岡県」に〇印のつく回数が4つ、「奈良県」に〇印のつく回数が4つと期待される。すなわち、これが、「期待値」である。
表の形にまとめれば、下の表のようになる。
このように少し上の表(「福岡県」と「奈良県」)のような〇×表により、「直接確率計算法」によって求めた結果と、上の表(χ二乗検定のための「福岡県」と「奈良県」の比較表)のようなχ二乗検定法によって求めた結果とが一致するのは、これらの検定法が相互に関係をもっているためである 。
少し上の表(「福岡県」と「奈良県」)のような〇×印により検定を行うばあいは、「二項目分布」といわれる分布をもとにして確率計算が行われることとなる。「二項分布」は、一定の条件のもとで左右対称の「正規分布」で近似される。(右図参照)
「正規分布」にしたがうようなデータを、平均値が0、分散が1になるように調整した(基準化した)とき、個々のデータの値を自乗したようなデータの度数分布(正確には確率密度分布)にあたるのが、χ二乗分布である。χ二乗検定はχ二乗分布に基づいて、確率計算を行う。
(下図はクリックすると大きくなります)
このように、確率計算のために用いる分布が、相互に関係を持っているので、どの方法を用いても、結論じたいは変わらないということになるのである。
データによってどの方法を用いるのが、計算に便利か、という話になる。
統計的検定の結果をのべることは、主観的な判断や信念をのべることは異なる。
客観的データにもとづく計算結果(事実)を報告しているのである。他の人も、検証、チェック、追跡できるよな、一定の計算結果をのべているのである。
簡単に言うと、カイ二乗検定は正規分布の縦軸を二乗したもの。
私は、邪馬台国問題も、そのような形で解くべきであると考える。
・「帰納」と「演繹(えんえき)」
「帰納」と「演繹」ということばがある。
「帰納」は個々の観察された事実から、一般に通ずるような結論を、導き出す推理をさす。(Aさんが死んだ、Bさんが死んだ、Cさんも死んだ。・・・・よって、人間は死ぬものである。)
「演繹」は、いくつかの「命題(公理)」を前提とし、経験にたよらず、論理の規則や、数学的計算の。手順(演算約束、アルゴリズム)にもとづいて結論を出す方法をいう。
データサイエンスでは、「データ」にもとづいて、結論を出す。「データ」を、「前提」「公理」と考えれば、数理統計学は、「確率論にもとづいて、データから演繹的(数学的)に、帰納を行なう方法を開発した」ともいいうる。
たとえば、個々の男性、および女性の寿命のデータにもとづき、平均寿命を計算し、「平均寿命は、女性の方が、男性よりも長い、すなわち、女性の方が一般的に長生きである。」という結論を出す。「男性の平均寿命と、女性の平均寿命とのあいだには、(計算の結果)有意な差(統計的に意味のある違い)、確率的に、とうてい偶然によるものとはいえない違いがある。」などという。この計算の手つづきを、「平均値の差の検定」という。
・統計学の発展
いまからおよそ百年前の1920年代に統計学の分野で革命がおきる。
イギリスの統計学者、フィッシャー(Fisher.R.A.1890~1962)が確率論にもとづき、「推定」や「検定」を行う方法を開発したのである。これによって、どれだけのデータがあれば、どれだけのことがいえるのか、などが明確な形で示されるようになった。
以後、この新しい統計学は、それまでの「記述統計学」(数を数え、それを記述する統計学)と区別して、「推計学」「推測統計学」「数理統計学」などとよばれ、発展することとなる。
第二次世界大戦後、この新しい統計学(以後、「数理統計学」とよぶこととする)は、増山元三郎氏(東京理科大学教授など)、北川敏男氏(九州大学教授など)などによって、わが国にも紹介され、急速に応用がひろがることとなった。
現代、自然科学、社会科学、人文科学をとわず、「統計学」が、ひろく研究のための、基本的なツール、用語となっている。
現代の統計学は、確率論を基礎とし、コンピュータによって計算力を獲得し、データから結論をうるためのアルゴリズム(計算約束)が、そうとうによくととのっている。
「推論」が、機械的な計算によって行なわれるがゆえに、「推論」の客観性が保証される。
現代では、野球や将棋や碁の勝率にしても、天気予報にしても、人口や農産物の量などの「もの」そのものの統計をとるよりも、「できごと」の回数の統計、ひろくいえば、「情報」についての統計をとることが多くなっている。
鏡の県別の出土統計なども、「出土」という「できごと」が何回おきているかをカウントしている。
みなさんはよくみて、よく考えて欲しい。ある結論を得るという「判断」が、結局は、論者の「主観」によっているのか、「主観」以外の客観的基準、モノサシによっているのかを。
データサイエンスは、「判断」を、客観的な基準、モノサシにもとづいて下し、議論を進めようとする。
「統計学的検定」は、Aの仮説をとるか、Bの仮説をとるかの、「判断」をきめる客観的「モノサシ」の一つである。
数学の証明法を、お手本として。