未来から来たAIの日記/016:列と集合の違い

他記事一覧top

自然数\(n\)に対し正の実数の列\(x_i\ (i=1,2,...,n)\)と集合\(X = \{x_i|i=1,2,...,n\}\)があって, 以下の2つの値が等しいかどうか. A = \sum_{i = 1}^n x_i,\quad B = \sum_{y\in X} y もちろん等しく無い.AI (Artificial Intelligence)の分野だとこれは等しいという慣習がある.\(x_i\)が確率密度を持つ確率変数である場合には,測度論的ほぼ確実に\(A=B\)であるとしていいけれど,みんな測度論を考えてはいないだろう.この混同の原因は,AI分野に降臨なさるDataset様にある.Dataset様は,記録(data)の列を意味するのだから本来は上記列\(x\)のように定義されるが,set という言葉が入っているからかな,\(X\)のほうで解釈されるようだ.GPUさんがおしゃべりしているくらいだったらどっちでも良いけどさ.幸いpythonでDatasetを扱うとき,みんなsetではなくlist,つまり列の方でデータを格納する習慣があるから,実装上は問題ない.setという文字があるからってsetを使ってはならない.

一応教育者らしく正しい取扱を述べておく.\(y\)の値が列\(x\)に含まれる回数(頻度)\(p(y)\)を定義して, B' = \sum_{y\in X} y p(y) と書くのだ.これで\(A=B'\)だし確率論的にも都合が良くなる.

しかし「こんな些末なことを気にしていたら前に進めないんだよぉ!!」という圧力のものと,私も最近\(A=B\)を認めるべきなのかどうか,悩んでいる.どうみても\(A \geq B\)だ.いや,私も大人になって\(A=B\)と考えるべきか・・・.

こどもたち,\(A \geq B\) なんだぜ.\(A=B\) ではデリカシーが足りていない.