現場データサイエンティスト奮闘記

とある企業で働くデータサイエンティストの日々のアウトプット

GoogleはYMYLという言葉を発明したのがすごいよねという話

ある機械学習モデルによるコンテンツの分類器を作成して本番の運用に乗せてからしばらくたったときの話です。
モデル開発当初はF1 socreもよく本番の運用に十分乗るクオリティとの合意をとって開発していたのですが、ある分類で間違ったレコードがエスカレされてきて、どうやらその「間違い方」が問題らしいとのこと。

曰く、「常識的に考えてこの間違い方はおかしい」とのことなのですが、そもそもそういう前提条件共有されてないし、所詮確率モデルなので間違いは普通に発生するし、間違い方に良いも悪いもあるかとも思ったものです。

さらに、「常識的に」という部分の内容が言語化されていないので、改善しようにも何が問題で何が問題でないかという切り分けが出来ずに苦戦するという事態。
要は、間違うにも間違ってはいけない部分と間違いが許容される領域が暗に存在しているが、明示されていないのでそれを言語化する必要があるという問題(問題以前な気がする…)が発生したのです。

ここで思うのは、Google検索におけるYMYL問題と本質的には同じことだなと。
Googleの検索アルゴリズムには機械学習が使われているのは昨今ではよく知られていますが、少し前に健康領域などで検索結果がおかしいという問題が発生していました。 多くの領域で力を発揮していた機械学習モデルも、その間違いが許容されない分野が存在していたのです。

さて、その領域における間違いがなるべく発生しないように改善を行う必要があるのですが、改善対象となる領域を「YMYL」として問題の切り分けができた(言語化できた)点がGoogleのすごい発明のひとつなのだと思います。

問題を切り分けることでシステムで解決可能な問題となります。
逆に切り分けることができなければ、「これは良い」「これはちょっと違う気がする」というお気持ちと常に戦い続けることを意味し、定式化できずに解決不能な問題に陥ることを意味します。

YMYLという言葉を発明し、問題の切り分けが可能になったことで解決可能な問題として定式化できたのがすごいなあと実感する次第です。