100cia Sabías que

Cómo hacer una buena media en un sistema de votaciones: media bayesiana

¿Te gusta el artículo? ¡Valóralo!

4.9 basada en 23979

  • Excelente
    11415
  • Muy bueno
    6849
  • Normal
    3425
  • Regular
    1713
  • Malete
    571
He tenido que lidiar con muchos sistemas de votaciones a lo largo de mi vida como programador y siempre me he dado cuenta de un problema: los elementos que tienen pocos votos con mucha puntuación. Pondré un ejemplo para ilustrarlo mejor. Imaginemos que tenemos 2 elementos que pueden recibir votos:

  • El primer de ellos recibe 10 votos, a saber: 9.4, 9.1, 9.9, 7.5, 8.2, 8.6, 9.1, 9.3, 6.5 y 8.3
  • El segundo de ellos recibe 2 votos, a saber: 10.0 y 9.8

La media , que es el sistema de votaciones que se usa en casi todos los sistemas de votaciones en páginas web, que es aquella que divide la suma de las votaciones entre el número de votos, daría un 8.59 para el primer elemento, y un 9.9 para el segundo elemento. Al realizar la típica lista «Top10», pondría al segundo elemento en primer puesto, ya que tiene una media mayor, pero no es lógico o justo para el primer elemento, que ha recibido muchos más votos, por tanto dispone de un universo de votaciones mucho más rico y leal a la nota que realmente tenga.

Para este tipo de casos y poder realizar una media más justa existe una solución basada en la media . En muchos sistemas de votaciones en los que hace falta conocer, de la manera más fiel posible un ranking, uno de los elementos puede estar «viciado» por los pocos votos recibidos de mucha puntuación, como hemos visto en el segundo elemento del ejemplo. La media bayesiana es una técnica usada para reducir el ruido por estos elementos con tan pocas votaciones. De hecho, cuantos menos votos recibe un elemento, el resultado bayesiano más se acerca a la media global de todos ellos.

La fórmula es la siguiente:

Media = (v / (v+m)) × R + (m / (v+m)) × C

donde:

  • R = media aritmética de un elemento
  • v = número de votos de un elemento
  • m = mínimo número de votos requeridos para ser listado
  • C = la media de todos los votos de todos los elementos

De esta forma se equilibran mucho mejor los pesos y la influencia de cada elemento respecto a los demás. El primer sumando (V/(V+M)) R indica el peso dado a la media propia, mientras que el segundo sumando (M/(V+M))*C es el peso dado a la media general. Si se obtienen muchos votos de un elemento, pesa más la propia media de ese elemento que la general, y viceversa, si tienes muy pocos votos, pesa más la media general. Otra forma de explicarlo es que, cuantos más votos tiene un elemento, menos deriva o se modifica el resultado bayesiano de la media aritmética de ese elemento.

Veamos un ejemplo con una tabla de datos real (con m = 50):

ElementoMedia de votos (r)Votos recibidos (v)Media total (c)Media Bayesiana
25316.0167005.336.007
17277.665355.337.460
21357.573675.337.300
15437.762985.337.406
16334.182625.334.360
16714.972315.335.033
14624.552095.334.700
21005.471935.335.437
23097.011805.336.645
23336.911695.336.549
16916.141585.335.944
26368.751505.337.896
18826.941445.336.522
29038.301395.337.515
5424.841345.334.974
38109.031285.337.990
15026.611225.336.240
19037.061175.336.541
24607.261125.336.662
10745.901055.335.711
21486.821015.336.326
15765.85965.335.673
19446.89925.336.340
23036.77875.336.243
17717.01815.336.368
24595.77745.335.591
6185.07695.335.179
23285.11615.335.210
7095.81545.335.580
5564.71495.335.023
153.60435.334.530
11703.62375.334.601
14526.64335.335.847
26569.52295.336.864
26828.12265.336.280
14376.39235.335.661
13606.29215.335.609
7507.37195.335.888
19996.94185.335.754
26909.12175.336.288
12315.73155.335.420
11825.07145.335.270
13457.31135.335.734
9616.50125.335.553
29019.33125.336.101
6583.45115.334.988
1776.30105.335.488
9096.7895.335.547
5724.5695.335.208
12446.0085.335.418
28599.2585.335.867
3167.2975.335.566
9577.6765.335.576
5745.0065.335.291
10097.8055.335.550
6524.2055.335.223
12144.0045.335.227
29399.5045.335.635
8378.6735.335.515
29384.3335.335.269
31326.0035.335.364
3486.5025.335.371
30777.5025.335.409
34135.5025.335.332
1977.0015.335.358

NOTA: He tomado un valor de m = 50, por poner un ejemplo, pero se puede variar esta constante para maximizar o minimizar la influencia del número de votos de los elementos. Es bueno jugar con una m baja al principio e ir ajustando hasta encontrar un valor lo más aproximada al sentido común, y suele ser en torno al 1% del número de votos recibido por el elemento que más votos haya conseguido.

En la primera columna aparece el identificador numérico del elemento (he cogido estos datos de un sistema de más de 4000 elementos donde todos reciben votaciones, la imagen del día de Observatorio.info).

En la segunda aparece r, la media de votos aritmética de ese elemento, es decir, la suma de todas las puntuaciones que ha recibido ese elemento dividido entre el número de votos que ha recibido dicho elemento.

En la tercera columna v, que es simplemente los votos que ha recibido dicho elemento.

En la cuarta vemos c, que es la media global de todos los elementos del conjunto, es decir, la suma de todas las votaciones de todos ellos, dividido por el número de votos que han recibido todos los elementos.

Y en la quinta por fín, el resultado de la media bayesiana.

Como se puede apreciar y como se comentaba, cuantos más votos tiene un elemento (la tabla está ordenada así en descenso), menos se altera su media aritmética original, y mientras menos tiene, el resultado bayesiano modifica su valor acercándose más a la media global del conjunto.

Veamos un ejemplo de esta tabla que ilustra muy bien este sistema y su «justicia»:

  • El elemento 2309, tiene una media aritmética normal de 7.01, conseguida con 180 votos.
  • El elemento 1771, también tiene una media aritmética de 7.01, pero sólo fueron 81 personas las que votaron.

En cambio, el primero de ellos, con la fórmula bayesiana obtiene un resultado de 6.645, mucho más justo y fiel ya que se ha formado con un mayor número de personas que fueron las que votaron, mientras que el segundo obtiene un resultado bayesiano de tan sólo 6.368, habiéndose variado más y acercándose más a la media global, por el poco peso que tiene los más de la mitad de los votos que recibió respecto al primero.

Todo esto se inició mientras que veía un ranking de cartelera, en donde, tras votar una película que no tenía ningún voto (porque fui el primero en votarla) con una puntuación de 9, se trasladó a ser «la mejor película votada por los usuarios», cuando en realidad, otras con muchas más votaciones estaban en puestos inferiores. Esta es la solución con la que he trabajado estos días para crear un sistema de votaciones mucho más justo para mi web de Observatorio y poder formar un ranking más acorde a la realidad. Espero haberme explicado bien y a partir de ahora, ya sabéis como hacer un sistema de votaciones con ranking algo más justo.

Más información en la Wikipedia: Media Bayesiana y en este documento

, , , , ,

Alex

Ciudadano del mundo. Me encanta llevarme mi cámara fotográfica para inmortalizar esencias y experiencias en lugares diferentes, donde la gente vive diferente, pero donde todos disfrutamos cada día de puestas de un mismo Sol.

Vistos recientemente...

Observatorio cumple 20 años traduciendo imagenes de la NASA día a día

Memozzle, un gimmasio para las neuronas

Curiosas costumbres de Pascua

En directo: esperando que Venus cruce el Sol

¿Cómo se están utilizando realmente los smartphone?

12 Comments

  1. ehtiotumolas

    Eso mismo pensaba yo

    15 de enero de 2008
  2. manolagay

    CARIÑO, SE ME DAN MUY MAL LAS MATEMÁTICAS. ALGO MEJOR SE ME DAN LAS MEDIAS Y LOS LIGUEROS, AUNQUE CON ESTAS PATORRAS QUE TENGO, CADA DÍA ME CUESTA MÁS LLEGAR HASTA LAS SUBMOLLAS DEL OMBLIGO. SÓLO QUERÍA DECIRTE QUE TE HE VISTO EN LA TELE, Y ME HE DICHO, MANOLA, VAMOS A VER QUÉ SE CUENTA ESTE MUCHACHITO TAN MONO. CLARO QUE ME HE ENCONTRADO CON ESTO DE LAS BAYESIANAS Y ME HAS DEJADO MUERTA.
    OTRO DÍA TE DOY UN BUEN REPASO QUE ES MUY TARDE.
    CIAO, BELLISIMO!!!

    15 de enero de 2008
  3. josefpm

    Muy interesante y util.
    Pero tengo una duda que pasa con el primer elemento de la serie, ese que tiene 6000 votos, la media bayesiana deja casi igual la media aritmética pero parece poco justo ya que según esos datos, ha recibido 6000 votos mas que cualquier otro elemento.
    Por tanto si eso es así, ese elemento sigue saliendo perjudicado claramente, ya que como bien dices lo ha visto muchísima mas gente que los otros y eso modifica mucho la media ya que es mas real al votar mucha gente dan su opinión y habrá tantos a favor como en contra siendo mas orientativa, en cambio que 80 o 180 personas tengan gustos mas parecidos es mas probable.
    ¿Cómo se solucionaría esto?

    15 de enero de 2008
  4. Azimut

    Y no seria mas facil establecer un numero de votos minimo para que sea tomado en cuenta una candidatura?

    15 de enero de 2008
  5. ehtiotumolas

    Alex, como es que ignoras el mensaje de Manolagay?
    Que te ha visto en la tele!! xD

    15 de enero de 2008
  6. Sirius

    ¿Sabes si hay algún script de encuestas en PHP que utilice esta técnica?

    17 de enero de 2008
  7. tonny

    Buenas!

    Me ha parecido realmente interesante el artículo, pero una duda que tengo yo.

    Si la media aritmética total está muy alta, ¿no puede llegar a pasar de 10?

    Un saludo!

    11 de febrero de 2008
  8. tonny

    Buenas!!

    Jaja, ahora que lo leo más detenidamente no entiendo por qué pregunté eso. Jaja.

    Creo que me confundí y vi un «+ C» en vez de «× C»… jaja

    En fin, esa media es la que yo también utilizaré, muchas gracias! ;-)

    22 de febrero de 2008
  9. Marc

    Al intentar poner en practica esta formula he tenido una duda, puesto que estoy haciendo un sistema de votaciones para un photocontest, en principio que valor «m» sería justo?

    Por que claro, según incrementes o decrementes «m» la cosa cambiará.. no? O me estoy confundiendo y «m» es el número mínimo de votaciones, no de un elemento si no del todo…

    Jarll que pollo…

    P.D: Muy buen artículo,.

    29 de febrero de 2008
  10. Marc

    OK, gracias Alex.

    Ahora realmente no puedo estimar que cantidad de votos que puede tener un concurso por que esta herramienta es nueva para la web en la que se va a implementar pero situaré m en 30 como valor inicial, con el uso de dicha herramienta ya variaré m…

    29 de febrero de 2008
  11. Juanjo

    No te imaginas la cantidad de trabajo que me has ahorrado con tu solución. Es realmente útil.
    Felicidades por ello.

    13 de agosto de 2008