f8g

競馬データの標準化の前に

この糞忙しいときに嬉しい話(笑) いろんな人が興味持ってるかもしれないので、一応競馬データ標準化議論の前提の話をしておけば、どういう目的でやってるのか分かりやすいかもしれない、ってことで書いときます。別に読まなくても大丈夫です。

「俺形式」は不便

標準化の目的は、「どのようなアプリケーションのためか」ということではなく、「アプリケーションを作るため」にデータは標準化されている必要があります。データが標準化されていない場合、様々なアプリケーションと、それに対応した様々なフォーマットのデータが世の中に溢れることになります。となると、こっちのアプリケーションで使えたデータがあっちのアプリケーションでは使えない、ということになってしまいます。あるデータ形式の標準があれば、同じデータを様々なアプリケーションで使えるようになります。

素直に表現

競馬関係のアプリケーションを作る際に利用するデータは非常に重要なものですが、そのデータの多くは標準化されてないでしょう。恐らく、個人で保持しているDBに入っている素のデータを利用してるのだと思います。もしくは、JRA-VANのフォーマットを利用している場合も多いかもしれません。JRA-VANのフォーマットは事実上多くのユーザに利用されているフォーマットなのかもしれませんが、そのフォーマットの全てが合理的な構造をしているとは思えません。例えば、血統のデータ表現はテーブル構造というより、親から子へ、子から親へと繋がるツリー構造です。ツリー構造での表現としてXMLがあり、XMLでデータを記述しようというのが現在のmomdoさんとの議論です。