未来から来たAIの日記/016:列と集合の違い
他記事一覧,top
自然数\(n\)に対し正の実数の列\(x_i\ (i=1,2,...,n)\)と集合\(X = \{x_i|i=1,2,...,n\}\)があって, 以下の2つの値が等しいかどうか.
A = \sum_{i = 1}^n x_i,\quad B = \sum_{y\in X} y
もちろん等しく無い.AI (Artificial Intelligence)の分野だとこれは等しいという慣習がある.\(x_i\)が確率密度を持つ確率変数である場合には,測度論的ほぼ確実に\(A=B\)であるとしていいけれど,みんな測度論を考えてはいないだろう.この混同の原因は,AI分野に降臨なさるDataset様にある.Dataset様は,記録(data)の列を意味するのだから本来は上記列\(x\)のように定義されるが,set という言葉が入っているからかな,\(X\)のほうで解釈されるようだ.GPUさんがおしゃべりしているくらいだったらどっちでも良いけどさ.幸いpythonでDatasetを扱うとき,みんなsetではなくlist,つまり列の方でデータを格納する習慣があるから,実装上は問題ない.setという文字があるからってsetを使ってはならない.
一応教育者らしく正しい取扱を述べておく.\(y\)の値が列\(x\)に含まれる回数(頻度)\(p(y)\)を定義して,
B' = \sum_{y\in X} y p(y)
と書くのだ.これで\(A=B'\)だし確率論的にも都合が良くなる.
しかし「こんな些末なことを気にしていたら前に進めないんだよぉ!!」という圧力のものと,私も最近\(A=B\)を認めるべきなのかどうか,悩んでいる.どうみても\(A \geq B\)だ.いや,私も大人になって\(A=B\)と考えるべきか・・・.
こどもたち,\(A \geq B\) なんだぜ.\(A=B\) ではデリカシーが足りていない.