votos

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia, Sabías que el 14 de enero de 2008 a las 7:00 pm

Cómo hacer una buena media en un sistema de votaciones: media bayesiana

He tenido que lidiar con muchos sistemas de votaciones a lo largo de mi vida como programador y siempre me he dado cuenta de un problema: los elementos que tienen pocos votos con mucha puntuación. Pondré un ejemplo para ilustrarlo mejor. Imaginemos que tenemos 2 elementos que pueden recibir votos:

  • El primer de ellos recibe 10 votos, a saber: 9.4, 9.1, 9.9, 7.5, 8.2, 8.6, 9.1, 9.3, 6.5 y 8.3
  • El segundo de ellos recibe 2 votos, a saber: 10.0 y 9.8

La media aritmética, que es el sistema de votaciones que se usa en casi todos los sistemas de votaciones en páginas web, que es aquella que divide la suma de las votaciones entre el número de votos, daría un 8.59 para el primer elemento, y un 9.9 para el segundo elemento. Al realizar la típica lista "Top10″, pondría al segundo elemento en primer puesto, ya que tiene una media aritmética mayor, pero no es lógico o justo para el primer elemento, que ha recibido muchos más votos, por tanto dispone de un universo de votaciones mucho más rico y leal a la nota que realmente tenga.

Para este tipo de casos y poder realizar una media más justa existe una solución basada en la media bayesiana. En muchos sistemas de votaciones en los que hace falta conocer, de la manera más fiel posible un ranking, uno de los elementos puede estar "viciado" por los pocos votos recibidos de mucha puntuación, como hemos visto en el segundo elemento del ejemplo. La media bayesiana es una técnica usada para reducir el ruido por estos elementos con tan pocas votaciones. De hecho, cuantos menos votos recibe un elemento, el resultado bayesiano más se acerca a la media global de todos ellos.

La fórmula es la siguiente:

Media = (v / (v+m)) × R + (m / (v+m)) × C

donde:

  • R = media aritmética de un elemento
  • v = número de votos de un elemento
  • m = mínimo número de votos requeridos para ser listado
  • C = la media de todos los votos de todos los elementos

De esta forma se equilibran mucho mejor los pesos y la influencia de cada elemento respecto a los demás. El primer sumando (V/(V+M)) R indica el peso dado a la media propia, mientras que el segundo sumando (M/(V+M))*C es el peso dado a la media general. Si se obtienen muchos votos de un elemento, pesa más la propia media de ese elemento que la general, y viceversa, si tienes muy pocos votos, pesa más la media general. Otra forma de explicarlo es que, cuantos más votos tiene un elemento, menos deriva o se modifica el resultado bayesiano de la media aritmética de ese elemento.

Veamos un ejemplo con una tabla de datos real (con m = 50):

Elemento Media de votos (r) Votos recibidos (v) Media total (c) Media Bayesiana
2531 6.01 6700 5.33 6.007
1727 7.66 535 5.33 7.460
2135 7.57 367 5.33 7.300
1543 7.76 298 5.33 7.406
1633 4.18 262 5.33 4.360
1671 4.97 231 5.33 5.033
1462 4.55 209 5.33 4.700
2100 5.47 193 5.33 5.437
2309 7.01 180 5.33 6.645
2333 6.91 169 5.33 6.549
1691 6.14 158 5.33 5.944
2636 8.75 150 5.33 7.896
1882 6.94 144 5.33 6.522
2903 8.30 139 5.33 7.515
542 4.84 134 5.33 4.974
3810 9.03 128 5.33 7.990
1502 6.61 122 5.33 6.240
1903 7.06 117 5.33 6.541
2460 7.26 112 5.33 6.662
1074 5.90 105 5.33 5.711
2148 6.82 101 5.33 6.326
1576 5.85 96 5.33 5.673
1944 6.89 92 5.33 6.340
2303 6.77 87 5.33 6.243
1771 7.01 81 5.33 6.368
2459 5.77 74 5.33 5.591
618 5.07 69 5.33 5.179
2328 5.11 61 5.33 5.210
709 5.81 54 5.33 5.580
556 4.71 49 5.33 5.023
15 3.60 43 5.33 4.530
1170 3.62 37 5.33 4.601
1452 6.64 33 5.33 5.847
2656 9.52 29 5.33 6.864
2682 8.12 26 5.33 6.280
1437 6.39 23 5.33 5.661
1360 6.29 21 5.33 5.609
750 7.37 19 5.33 5.888
1999 6.94 18 5.33 5.754
2690 9.12 17 5.33 6.288
1231 5.73 15 5.33 5.420
1182 5.07 14 5.33 5.270
1345 7.31 13 5.33 5.734
961 6.50 12 5.33 5.553
2901 9.33 12 5.33 6.101
658 3.45 11 5.33 4.988
177 6.30 10 5.33 5.488
909 6.78 9 5.33 5.547
572 4.56 9 5.33 5.208
1244 6.00 8 5.33 5.418
2859 9.25 8 5.33 5.867
316 7.29 7 5.33 5.566
957 7.67 6 5.33 5.576
574 5.00 6 5.33 5.291
1009 7.80 5 5.33 5.550
652 4.20 5 5.33 5.223
1214 4.00 4 5.33 5.227
2939 9.50 4 5.33 5.635
837 8.67 3 5.33 5.515
2938 4.33 3 5.33 5.269
3132 6.00 3 5.33 5.364
348 6.50 2 5.33 5.371
3077 7.50 2 5.33 5.409
3413 5.50 2 5.33 5.332
197 7.00 1 5.33 5.358

NOTA: He tomado un valor de m = 50, por poner un ejemplo, pero se puede variar esta constante para maximizar o minimizar la influencia del número de votos de los elementos. Es bueno jugar con una m baja al principio e ir ajustando hasta encontrar un valor lo más aproximada al sentido común, y suele ser en torno al 1% del número de votos recibido por el elemento que más votos haya conseguido.

En la primera columna aparece el identificador numérico del elemento (he cogido estos datos de un sistema de más de 4000 elementos donde todos reciben votaciones, la imagen del día de Observatorio.info).

En la segunda aparece r, la media de votos aritmética de ese elemento, es decir, la suma de todas las puntuaciones que ha recibido ese elemento dividido entre el número de votos que ha recibido dicho elemento.

En la tercera columna v, que es simplemente los votos que ha recibido dicho elemento.

En la cuarta vemos c, que es la media global de todos los elementos del conjunto, es decir, la suma de todas las votaciones de todos ellos, dividido por el número de votos que han recibido todos los elementos.

Y en la quinta por fín, el resultado de la media bayesiana.

Como se puede apreciar y como se comentaba, cuantos más votos tiene un elemento (la tabla está ordenada así en descenso), menos se altera su media aritmética original, y mientras menos tiene, el resultado bayesiano modifica su valor acercándose más a la media global del conjunto.

Veamos un ejemplo de esta tabla que ilustra muy bien este sistema y su "justicia":

  • El elemento 2309, tiene una media aritmética normal de 7.01, conseguida con 180 votos.
  • El elemento 1771, también tiene una media aritmética de 7.01, pero sólo fueron 81 personas las que votaron.

En cambio, el primero de ellos, con la fórmula bayesiana obtiene un resultado de 6.645, mucho más justo y fiel ya que se ha formado con un mayor número de personas que fueron las que votaron, mientras que el segundo obtiene un resultado bayesiano de tan sólo 6.368, habiéndose variado más y acercándose más a la media global, por el poco peso que tiene los más de la mitad de los votos que recibió respecto al primero.

Todo esto se inició mientras que veía un ranking de cartelera, en donde, tras votar una película que no tenía ningún voto (porque fui el primero en votarla) con una puntuación de 9, se trasladó a ser "la mejor película votada por los usuarios", cuando en realidad, otras con muchas más votaciones estaban en puestos inferiores. Esta es la solución con la que he trabajado estos días para crear un sistema de votaciones mucho más justo para mi web de Observatorio y poder formar un ranking más acorde a la realidad. Espero haberme explicado bien y a partir de ahora, ya sabéis como hacer un sistema de votaciones con ranking algo más justo.

Más información en la Wikipedia: Media Bayesiana y en este documento

, , , , ,

RelacionadasTodos a pagar en el 2010Cuidado en la F1Chiki Chiki a por EurovisiónCuriosidades de la vida (y 3)
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como "Personalissimo", Blogs e Internet, Insensatos el 1 de octubre de 2007 a las 2:07 pm

Los datos de meneame hablan por sí solos: la controlan unos pocos

A colación de la "super noticia" de que en Meneame han superado el millón de comentarios (curiosamente una noticia de autobombo que tan poco les gusta a los "dueños" pero que aun así ha salido a portada), y en donde se publica que un tal usuario "jotape" es el que más ha comentado con un total de 13554 comentarios hasta la fecha de este artículo, me he lanzado por analizar lo que siempre he opinado en este blog, y es que Menéame lo llevan "unos cuantos" que deciden con sus votos lo que sale y lo que no sale a portada.

La completa involución que está llevando el sistema es atroz últimamente, y aunque es una herramienta que todos visitamos y usamos para ver "lo último de lo que pasa por el mundo e Internet", está más que demostrado que los votos negativos son los que hunden cualquier esperanza a noticias buenas, que muchas veces hay más calidad en las pendientes y que sobre todo, meneame lo llevan unos pocos, y si no analicemos estadísticas.

Comentaristas: es donde más claro se puede ver que los mini-foros que se montan en las noticias que se envían los llevan "unos pocos". De los 44188 usuarios que hay en este momento, los 100 que más comentan han realizado 272767 comentarios, es decir, que entre los 100 primeros se llevan más del 27% de los comentarios, entre los que se encuentra como comentaba, liderando la tabla un tal "jotape", que viendo la fecha de su registro en el sistema, realiza sólo él, una media de 22,36 comentarios por día (me pregunto si hace algo más que vivir en esta página :P )

Pero también es apabullante el otro grupo, es decir, los que comentan poco, los que pasan de enviar sus comentarios a las noticias. Exactamente 37289 usuarios (84%) han comentado 10 veces o menos. O visto de otro modo, 23626 usuarios (un 53%) nunca han comentado nada. Es decir, que más de la mitad de sus usuarios nunca han enviado ningún comentario, y es que creo que, vista la obsesión por un reducido grupo, es mucho mejor realizar los comentarios en el blog/página de donde realmente viene la noticia que intentar "discutir" con ese grupo de 100 personas ominipresentes que están prácticamente en cualquier noticia que aparezca. Esto además hace perder precisamente la vidilla de un blog, que son sus comentarios, ya que éstos se trasladan a "menéame", donde además, repito, abundan los de unos pocos.

También es impresionante el número de noticias enviadas, hasta el momento 195.253 noticias. También tenemos un usuario ganador y que como jotape debe vivir dentro del sistema, se llama mezvan (otro bien conocido de los famosos "talibanes").

Si cogemos de nuevo los 100 que más noticias han enviado, nos dan una suma de 53.291 noticias, es decir, que entre los 100 más "activos" ellos solitos han enviado más del 27% de todas ellas. Casualidad que sea el mismo porcentaje que los comentarios. Es decir, se podría decir que un 27% de las noticias enviadas y comentarios del sistema lo hacen un grupo de 100 personas.

Pero ahora viene otro dato bastante interesante y que demuestra claramente el poder "de unos pocos en el sistema". De las 195.253 noticias enviadas se han publicado únicamente 24290, es decir un 12,44%. Ahora bien, si en lugar de coger los datos globales cogemos sólo las de esos 100 usuarios más activos que envían noticias, ellos han enviado, como he dicho, 53.291, de las que se han publicado 8267, es decir, ¡¡ un 15.51% !! (¿será que entre ellos les gusta menearsela?)

Se podría pensar de todo esto que ese grupo de 100 se preocupa mucho porque sus noticias salgan siempre publicadas, votándose unos a otros y que las que prefieren que no salgan (porque probablemente simplemente no les gustan o no entran en sus principios) utilizan la famosa arma del "voto negativo", que con apenas 5 o 6 votos negativos pueden hundir una noticia y hacer que no salga publicada aunque ésta supere los 100 meneos (ya que cuanto más voto negativo, más meneos hacen falta para que salga publicada).

Y ya que hablamos de los votos podemos también sacar buenas estadísticas. Se han mandado 2.064.528 meneos a las noticias enviadas. De nuevo es importante recalcar que 201462 meneos (casi un 10%) ha sido realizado por un grupo de 100 personas, que coinciden bastante con los 100 que más envían y los 100 que más comentan (casualidades que da la vida…). Por completar el tema de los votos, comentar que un 71,3% de los usuarios han realizado 5 meneos o menos, volviendo a recalcar que es un grupo muy reducido de usuarios los que controlan el sistema.

Dicen que no se "puede controlar" un sistema como meneame, y sigo opinando con estos datos que es falso. Sigo opinando que grupos de apenas 100-200 usuarios son los que se votan entre sí para ganar más karma y que sus noticias se publiquen, que son los que hunden buenísimas noticias con apenas 5-6 votos negativos cuando les da la gana, que son los que monopolizan los comentarios y hacen perder discusión en donde la debería haber (en los blogs) y que son los que estarán allí apoyando y negando lo que las cifras hablan por sí solas, que son los que deciden cuando algo es spam/autobombo y cuando no…

Aun así, obviamente, seguiré visitándola, sobre todo la sección de "pendientes", que es donde más calidad suele haber, ya que en portada sólo existen las noticias que unos pocos quieren…

Actualización: Como veo que lo único que se quiere sacar en claro de este análisis es que parece que digo que los datos de participación son alarmantes lo aclararé. Es normal, regular, racional y lógico aplicar la regla del 80-20 a meneame, como a otros tantos foros en la red. El 80% hace el 20% de ruido y viceversa. No estoy analizando eso en meneame. Lo que analizo es que el 20% (aquí nombrados como "el grupo de 100″) son los que más envían, los que mas menean, los que mas comentan y los que más votan negativamente.

El tema está en que esos 100 se ayudan unos a otros tanto para tumbar una noticia, como para publicarla rápidamente si quieren. Esos 100 tumban a cualquier pequeña voz que salga en unos comentarios diciendo lo contrario, y esos 100 tumban la posibilidad de que lo que no sea "de su agrado" salga en portada. ESE es el análisis, y no otro.

Decir también que a mi me encanta meneame como idea, pero le falta mucho de pulir: karma, votos negativos, demasiada "facilidad" para tumbar una noticia y que nunca salga, etc… El sistema ES BUENO, es útil, muy útil, pero es una lástima que ese grupo de 100 no es que sean los más activos, sino que sean los que la CONTROLAN (verbo bien utilizado con todas sus consecuencias).

, , , , , , ,

RelacionadasTanto va el cántaro a la fuenteA esto le llaman libertad de expresiónA Menéame le gusta el fútbolRacismo en pleno spot de TV de un banco
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como Blogs e Internet el 26 de julio de 2007 a las 12:58 pm

Si les caes mal, no hay nada que hacer

He hablado en otras ocasiones del poder de menéame.net y de su gran y único fallo bajo mi punto de vista: los votos negativos. Esta claro que cuando una noticia tiene 5 o 6 votos negativos es prácticamente imposible que salga en portada.

Los votos negativos para colmo son anónimos, cosa que me parece de muy poca valentía por parte del programa y de los que los hacen. En los sistema de votaciones normales … ¿existen los votos negativos? Imaginaos que en las elecciones uno pudiera votar un voto al PP, o por ejemplo un voto negativo al PSOE… jajaja, sería el caos, ¿ no ?

Bueno, para demostrar de nuevo que hay una "pandilla" que controla menéame en lo que se refiere a "la noticia que elijamos no sale a portada en su vida", me fijé el otro día en una que le pasó algo muy curioso.

Se envió a las 21:14:13 segundos. Como se puede apreciar en el gráfico, se tardó 12, 30 y 75 segundos en votarla como spam. Los siguientes 2 votos de spam vinieron en los siguientes 5 minutos, con lo que esa noticia, con el cartelito de "varios votos negativos" se quedó en el olvido:

No voy a discutir ahora lo que es y lo que no es spam (aunque es obvio que la gente lo tiene mal asimilado en un sitio que precisamente se refiere a la promoción de noticias, no tienen que ser externas a tu blog ni en un 50% ni en un 10%, puedes poner las que quieras). Pero lo que si es cierto es la facilidad y rapidez con la que la gente da votos… y ojo !! hablo tanto positivos como negativos.

No es la primera vez que me encuentro algo así. Sinceramente… la gente NO LEE LA NOTICIA, con el titular y sobre todo, con el nick de quien lo manda, son capaces de determinar si es spam o no…

Me encanta los talentos "x-men" que tienen algunos poderes de menéame :)

, , ,

RelacionadasGirando en las escaleras mecánicasUna silla muy originalTirarse en paracaidas en tandem30 metros de caida libre… y vive
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como "Personalissimo", Blogs e Internet el 8 de septiembre de 2006 a las 8:59 pm

El problema de Meneame: los votos negativos

Meneáme es un sitio donde catorce Talibanes se dedican a amargarle la existencia a los spammers para impedir que sus envios lleguen a portada.

Todo el mundo conoce menéame, o puede que no todo, a nadie le gusta y nadie necesita la cantidad de visitas que puede reportar.

Entre la fauna variada y dispersa que puedes encontrar en semejante sitio de lujuria y perversión te puedes encontrar cualquier cosa

Esto es parte de lo que se puede encontrar en el Wiki de Taikochu (en tono de broma). Mucho se ha hablado de meneame en muchas ocasiones por muchos blogs, y siempre se ha intentado de debatir cual era el fallo del sistema. Ahora que han pasado ya muchos meses de análisis y de que he leido muchas cosas y de que he sufrido otras tantas creo que he llegado a la conclusión de que el problema son los votos negativos.


Relacionadassacudeme.netSi les caes mal, no hay nada que hacerA esto le llaman libertad de expresiónMeneamela rápido, que sólo quiero votos
Artículo aleatorio Artículo aleatorio
Busca en 86400:
Artículo aleatorio

Te invito a otros blogs ...


AstroRED