Penambangan data adalah deja-vu statistik |  Blog perdagangan Betfair

Penambangan data adalah deja-vu statistik | Blog perdagangan Betfair

Analisis statistik merupakan bagian integral dari banyak bidang, termasuk olahraga. Analis pacuan kuda telah menggunakan penambangan data untuk memprediksi hasil di masa depan selama beberapa dekade. Penambangan data adalah proses yang melibatkan pencarian melalui kumpulan data besar untuk mengidentifikasi pola, tren, dan hubungan. Namun, seefektif apa pun penambangan data, hal itu juga dapat menyebabkan “deja vu statistik”.

Namun, sekuat apa pun penambangan data, hal itu juga dapat menyebabkan “deja vu statistik”.

Menggunakan data historis

Mari pertimbangkan skenario hipotetis untuk memahami apa arti statistik deja vu dalam pacuan kuda.

Misalkan kita memiliki kumpulan data pacuan kuda bersejarah. Kita dapat menggunakan data ini untuk menghitung berbagai statistik seperti waktu penyelesaian, jarak, persentase kemenangan joki, seberapa sering kuda menang, dll. Kita kemudian dapat menggunakan statistik ini untuk memprediksi hasil balapan mendatang.

Sebagai contoh, kita mungkin melihat bahwa seekor kuda umum diperdagangkan dengan harga yang jauh lebih rendah dalam permainan dan telah diperdagangkan 50% lebih rendah dalam lima dari enam balapan terakhirnya.

Sekilas, pendekatan ini tampak masuk akal. Lagi pula, jika kita tahu seberapa baik kinerja seekor kuda di masa lalu, kita harus dapat menebak seberapa baik kinerja mereka di masa depan. Namun, pendekatan ini mengasumsikan bahwa masa lalu adalah peramal masa depan yang andal, dan di situlah segalanya menjadi rumit.

Dalam banyak kasus, mengambil pendekatan kuas yang luas saja tidak cukup baik. Misalnya, apakah kuda itu berlari di tanah yang sama, di jalur yang sama melawan lawan yang sama dengan jarak yang sama. Jika tidak, data yang Anda lihat tidak mengandung banyak informasi. Anda hanya melihat sesuatu yang telah terjadi.

Namun, ada juga situasi di mana masa lalu tidak memprediksi masa depan dengan baik. Misalnya, jika seekor kuda mengalami cedera, kinerjanya dapat menurun meskipun statistik historisnya menunjukkan sebaliknya. Usia dan apakah seekor kuda naik atau turun dalam perjalanan dan di mana kariernya juga dapat membantu.

Di sinilah statistik deja vu berperan. Mengandalkan terlalu banyak pada data historis untuk memprediksi hasil masa depan dapat menyebabkan pengulangan masa lalu. Kami berasumsi bahwa apa yang berhasil di masa lalu akan berhasil di masa depan, bahkan ketika keadaan telah berubah.

Salah satu risiko deja vu statistik adalah terlalu percaya diri. Ini dapat membuat kita mengabaikan faktor-faktor penting yang dapat memengaruhi hasil di masa depan.

Terlalu percaya diri

Salah satu risiko deja vu statistik adalah terlalu percaya diri. Jika kami berhasil memprediksi hasil menggunakan data historis, kami dapat berasumsi bahwa kami akan terus berhasil di masa mendatang. Ini dapat membuat kita mengabaikan faktor-faktor penting yang dapat memengaruhi hasil di masa depan.

Misalnya, katakanlah kita sedang mencoba memprediksi hasil pacuan kuda. Kami dapat menganalisis data historis untuk menentukan kuda mana yang memiliki waktu penyelesaian yang lebih baik. Namun, kami mungkin mengabaikan faktor lain seperti kondisi trek, pengalaman joki, kompetisi khusus balapan, dan kondisi cuaca. Faktor-faktor ini dapat memengaruhi hasil balapan secara signifikan, tetapi kami mungkin tidak mempertimbangkannya jika kami terlalu fokus pada data historis.

Namun, ini tidak berarti bahwa penambangan data tidak berguna untuk memprediksi masa depan pacuan kuda. Penambangan data dapat menjadi alat yang ampuh untuk mengidentifikasi pola dan hubungan yang mungkin tidak terlihat sebaliknya. Untuk membuat prediksi akurat tentang masa depan, kita harus mempertimbangkan berbagai faktor dan bersedia menyesuaikan pendekatan kita saat keadaan berubah.

Penambangan data dapat menjadi alat yang ampuh untuk mengidentifikasi pola dan hubungan yang mungkin tidak kita lihat sebaliknya. Namun, penting untuk diingat bahwa data historis hanyalah salah satu bagian dari teka-teki.

Kesimpulan

Saat saya menggunakan data, saya menggunakannya untuk membuat model.

Jadi jika saya mencoba memprediksi hasil pacuan kuda, saya akan menambang data, tetapi hanya untuk menemukan hubungan antar faktor yang dapat saya gunakan dalam model saya. Setiap faktor merupakan persentase dari model itu. Formulir pelatih adalah persentase tertentu, formulir saat ini, preferensi pergi, dan banyak faktor lainnya.

Saya telah mengidentifikasi 19 faktor yang menggambarkan 95% perbedaan antara kedua tim dalam sepak bola. Masing-masing diberi bobot pada faktor-faktor tertentu yang muncul dalam berbagai bit data. Ketika saya memiliki semua itu, saya dapat menggunakan beberapa matematika untuk memproyeksikan ke depan dan memberi diri saya persentase. Tentu saja, saya akan melihat data historis, tetapi itu hanya sebagian dari model dan ditimbang dengan cermat.

Jadi data sangat membantu, tetapi hanya jika digunakan dengan benar. Tetapi pengalaman saya tentang layanan dan saran data adalah bahwa mereka umumnya tidak digunakan dengan benar, jika tidak mereka akan menghasilkan persentase harga dan menetapkan nilai tertimbang ke beberapa aspek data. Itu adalah kelemahan dan membimbing orang ke jalan yang sederhana namun tidak berguna dan malas.

Kesimpulannya, deja vu statistik adalah bahaya nyata dalam penambangan data. Anda tidak akan mengemudikan mobil Anda ke depan dengan melihat ke kaca spion?

Saat kita terlalu mengandalkan data historis untuk memprediksi masa depan, kita berisiko mengulangi masa lalu dan mengabaikan faktor penting yang dapat memengaruhi hasil di masa mendatang. Namun, ini tidak berarti penambangan data tidak berguna untuk memprediksi masa depan. Dengan mempertimbangkan berbagai faktor dan bersedia untuk menyesuaikan dan menimbang data tersebut, kita dapat menggunakan penambangan data untuk membuat prediksi yang akurat dan mendapatkan wawasan yang mungkin tidak mungkin dilakukan.

Author: Justin Parker