100cia

1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia, Sabías que el 14 de enero de 2008 a las 7:00 pm

Cómo hacer una buena media en un sistema de votaciones: media bayesiana

He tenido que lidiar con muchos sistemas de votaciones a lo largo de mi vida como programador y siempre me he dado cuenta de un problema: los elementos que tienen pocos votos con mucha puntuación. Pondré un ejemplo para ilustrarlo mejor. Imaginemos que tenemos 2 elementos que pueden recibir votos:

  • El primer de ellos recibe 10 votos, a saber: 9.4, 9.1, 9.9, 7.5, 8.2, 8.6, 9.1, 9.3, 6.5 y 8.3
  • El segundo de ellos recibe 2 votos, a saber: 10.0 y 9.8

La media aritmética, que es el sistema de votaciones que se usa en casi todos los sistemas de votaciones en páginas web, que es aquella que divide la suma de las votaciones entre el número de votos, daría un 8.59 para el primer elemento, y un 9.9 para el segundo elemento. Al realizar la típica lista "Top10″, pondría al segundo elemento en primer puesto, ya que tiene una media aritmética mayor, pero no es lógico o justo para el primer elemento, que ha recibido muchos más votos, por tanto dispone de un universo de votaciones mucho más rico y leal a la nota que realmente tenga.

Para este tipo de casos y poder realizar una media más justa existe una solución basada en la media bayesiana. En muchos sistemas de votaciones en los que hace falta conocer, de la manera más fiel posible un ranking, uno de los elementos puede estar "viciado" por los pocos votos recibidos de mucha puntuación, como hemos visto en el segundo elemento del ejemplo. La media bayesiana es una técnica usada para reducir el ruido por estos elementos con tan pocas votaciones. De hecho, cuantos menos votos recibe un elemento, el resultado bayesiano más se acerca a la media global de todos ellos.

La fórmula es la siguiente:

Media = (v / (v+m)) × R + (m / (v+m)) × C

donde:

  • R = media aritmética de un elemento
  • v = número de votos de un elemento
  • m = mínimo número de votos requeridos para ser listado
  • C = la media de todos los votos de todos los elementos

De esta forma se equilibran mucho mejor los pesos y la influencia de cada elemento respecto a los demás. El primer sumando (V/(V+M)) R indica el peso dado a la media propia, mientras que el segundo sumando (M/(V+M))*C es el peso dado a la media general. Si se obtienen muchos votos de un elemento, pesa más la propia media de ese elemento que la general, y viceversa, si tienes muy pocos votos, pesa más la media general. Otra forma de explicarlo es que, cuantos más votos tiene un elemento, menos deriva o se modifica el resultado bayesiano de la media aritmética de ese elemento.

Veamos un ejemplo con una tabla de datos real (con m = 50):

Elemento Media de votos (r) Votos recibidos (v) Media total (c) Media Bayesiana
2531 6.01 6700 5.33 6.007
1727 7.66 535 5.33 7.460
2135 7.57 367 5.33 7.300
1543 7.76 298 5.33 7.406
1633 4.18 262 5.33 4.360
1671 4.97 231 5.33 5.033
1462 4.55 209 5.33 4.700
2100 5.47 193 5.33 5.437
2309 7.01 180 5.33 6.645
2333 6.91 169 5.33 6.549
1691 6.14 158 5.33 5.944
2636 8.75 150 5.33 7.896
1882 6.94 144 5.33 6.522
2903 8.30 139 5.33 7.515
542 4.84 134 5.33 4.974
3810 9.03 128 5.33 7.990
1502 6.61 122 5.33 6.240
1903 7.06 117 5.33 6.541
2460 7.26 112 5.33 6.662
1074 5.90 105 5.33 5.711
2148 6.82 101 5.33 6.326
1576 5.85 96 5.33 5.673
1944 6.89 92 5.33 6.340
2303 6.77 87 5.33 6.243
1771 7.01 81 5.33 6.368
2459 5.77 74 5.33 5.591
618 5.07 69 5.33 5.179
2328 5.11 61 5.33 5.210
709 5.81 54 5.33 5.580
556 4.71 49 5.33 5.023
15 3.60 43 5.33 4.530
1170 3.62 37 5.33 4.601
1452 6.64 33 5.33 5.847
2656 9.52 29 5.33 6.864
2682 8.12 26 5.33 6.280
1437 6.39 23 5.33 5.661
1360 6.29 21 5.33 5.609
750 7.37 19 5.33 5.888
1999 6.94 18 5.33 5.754
2690 9.12 17 5.33 6.288
1231 5.73 15 5.33 5.420
1182 5.07 14 5.33 5.270
1345 7.31 13 5.33 5.734
961 6.50 12 5.33 5.553
2901 9.33 12 5.33 6.101
658 3.45 11 5.33 4.988
177 6.30 10 5.33 5.488
909 6.78 9 5.33 5.547
572 4.56 9 5.33 5.208
1244 6.00 8 5.33 5.418
2859 9.25 8 5.33 5.867
316 7.29 7 5.33 5.566
957 7.67 6 5.33 5.576
574 5.00 6 5.33 5.291
1009 7.80 5 5.33 5.550
652 4.20 5 5.33 5.223
1214 4.00 4 5.33 5.227
2939 9.50 4 5.33 5.635
837 8.67 3 5.33 5.515
2938 4.33 3 5.33 5.269
3132 6.00 3 5.33 5.364
348 6.50 2 5.33 5.371
3077 7.50 2 5.33 5.409
3413 5.50 2 5.33 5.332
197 7.00 1 5.33 5.358

NOTA: He tomado un valor de m = 50, por poner un ejemplo, pero se puede variar esta constante para maximizar o minimizar la influencia del número de votos de los elementos. Es bueno jugar con una m baja al principio e ir ajustando hasta encontrar un valor lo más aproximada al sentido común, y suele ser en torno al 1% del número de votos recibido por el elemento que más votos haya conseguido.

En la primera columna aparece el identificador numérico del elemento (he cogido estos datos de un sistema de más de 4000 elementos donde todos reciben votaciones, la imagen del día de Observatorio.info).

En la segunda aparece r, la media de votos aritmética de ese elemento, es decir, la suma de todas las puntuaciones que ha recibido ese elemento dividido entre el número de votos que ha recibido dicho elemento.

En la tercera columna v, que es simplemente los votos que ha recibido dicho elemento.

En la cuarta vemos c, que es la media global de todos los elementos del conjunto, es decir, la suma de todas las votaciones de todos ellos, dividido por el número de votos que han recibido todos los elementos.

Y en la quinta por fín, el resultado de la media bayesiana.

Como se puede apreciar y como se comentaba, cuantos más votos tiene un elemento (la tabla está ordenada así en descenso), menos se altera su media aritmética original, y mientras menos tiene, el resultado bayesiano modifica su valor acercándose más a la media global del conjunto.

Veamos un ejemplo de esta tabla que ilustra muy bien este sistema y su "justicia":

  • El elemento 2309, tiene una media aritmética normal de 7.01, conseguida con 180 votos.
  • El elemento 1771, también tiene una media aritmética de 7.01, pero sólo fueron 81 personas las que votaron.

En cambio, el primero de ellos, con la fórmula bayesiana obtiene un resultado de 6.645, mucho más justo y fiel ya que se ha formado con un mayor número de personas que fueron las que votaron, mientras que el segundo obtiene un resultado bayesiano de tan sólo 6.368, habiéndose variado más y acercándose más a la media global, por el poco peso que tiene los más de la mitad de los votos que recibió respecto al primero.

Todo esto se inició mientras que veía un ranking de cartelera, en donde, tras votar una película que no tenía ningún voto (porque fui el primero en votarla) con una puntuación de 9, se trasladó a ser "la mejor película votada por los usuarios", cuando en realidad, otras con muchas más votaciones estaban en puestos inferiores. Esta es la solución con la que he trabajado estos días para crear un sistema de votaciones mucho más justo para mi web de Observatorio y poder formar un ranking más acorde a la realidad. Espero haberme explicado bien y a partir de ahora, ya sabéis como hacer un sistema de votaciones con ranking algo más justo.

Más información en la Wikipedia: Media Bayesiana y en este documento

, , , , ,

RelacionadasTodos a pagar en el 2010Cuidado en la F1Chiki Chiki a por EurovisiónCuriosidades de la vida (y 3)
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia el 14 de enero de 2008 a las 2:53 pm

Eta Carinae, esculpiendo los Pilares del Sur

Eta Carinae, una de las estrellas más masivas e inestables de la galaxia Vía Láctea, ha tenido un profundo efecto en su entorno.

Situados en el Pilar del Sur, una región de la Nebulosa Carina, estos fantásticos pilares de polvo y gas brillantes con incrustaciones de estrellas recién nacidas son esculpidos por los intensos viento y radiación procedentes de Eta Carinae y otras estrellas masivas.

La enorme Nebulosa Eta Carinae, que brilla con fuerza en el cielo austral del planeta Tierra, se encuentra solamente a 10 mil años-luz.

Sin embargo, esta extraordinaria vista cósmica está oscurecida en gran parte por polvo nebular y sólo se revela aquí gracias a la penetrante luz infrarroja capturada por el Telescopio Espacial Spitzer.

La propia Eta Carinae está a la izquierda y arriba en esta imagen de color falso, apuntando los brillantemente coronados pilares de polvo hacia la posición de la masiva estrella.

La imagen del Spitzer abarca casi 200 años-luz a la distancia de Eta Carinae.

Texto de Ricardo Cárdenes para Observatorio.info

, , , ,

RelacionadasCuil, (otro posible) competidor de GoogleDesmantelando un edificio piso a pisoUn hemisferio Sur intranquilo y brillanteWikipedia, un gallifante para tí
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia el 10 de enero de 2008 a las 5:54 pm

La hecatombe astronómica

Si es que últimamente la astronomía se ha puesto de moda, y eso que el Año Internacional de la astronomía todavía no ha llegado, es en el 2009. Pues bien, he leído tres noticias últimamente que merecen comentarse:

La hibernación del Sol: A la hora de comunicar una noticia científica hay que tener mucho cuidado con el vocabulario ya que todos no somos científicos y puede dar lugar a conclusiones erróneas o alarmistas. La simple noticia de un descenso en la actividad solar (sin entrar en detalle) ha llevado a escribir a ciertos periodistas la palabra "hibernación". Ya me he encontrado con más de una persona que me ha dicho lo mismo: "cuando oí la noticia me sorprendió/asusté". Y es que es muy peligroso jugar con la "hibernación" de un astro como es el Sol, que está en su mitad de vida (5000 millones de años de viejo) y todavía le queda combustible suficiente para varias generaciones.

Intentando aplicar al Sol la definición de hibernar, sería decir que va a entrar en un estado de aletargamiento con disminución general de las funciones metabólicas (la combustión de hidrógeno) y su temperatura. No es del todo cierto que vaya a pasar esto con el Sol, y por tanto, el término hibernan a lo único que conduce es a confusión y alarmismo.

La segunda noticia es la del meteoroide que pudo chocar con Marte pero que al final, tras los últimos estudios, no va a ser así. En dos radios bastante diferentes han tornado la noticia drástica y demagógicamente al impacto de uno similar con la Tierra, como ocurrió en Tunguska en 1908. Lo mejor de todo, es que para darle más realismo han comunicado que la explosión liberaría la energía que desata la explosión de 15 millones de toneladas de TNT, como si así pareciera más catastrófico el dato. En astronomía local (choques de objetos) se habla en todo caso de megatones, no en "millones de toneladas de TNT", que, aun siendo lo mismo, parece que lo de millones tira más y asusta más a la gente.

Sin ánimo de minimizar los riesgos que tenemos como planeta de recibir un impacto de estas características, creo que es demasiado sensacionalista dar datos de estas magnitudes. Es como si hablan de una estrella "cercana" donde se ha descubierto un planeta, y en lugar de decir "está a 10 años luz" (medida estandar en astronomía) se dijera para dar más "bestialidad" a la noticia que "se encuentra a 96.000 billones de kilómetros de distancia".

Y por último, y ya para reirse un rato, es la de un ruso que dice haber descubierto una puerta en Marte, en una de las fotografías de la NASA. Como otros tantos que descubren caras, autopistas y aeropuertos… nos desvela este misterioso secreto Patatas Traigo con un gracioso montaje.

La astronomía es muy sensible a la demagogia y al sensacionalismo. ¿No tenemos bastante con aplicar esto a la política que también tenemos que hacerlo con la ciencia?

, , , , ,

RelacionadasImagen astronómica del díaObservatorio, una imagen astronómica diferente cada díaPreparándo el servicio APOD en español
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia el 8 de enero de 2008 a las 11:52 am

Halcón peregrino

Siempre me han fascinado los halcones y las águilas. Su velocidad, su pericia en vuelo, su visión. El halcón peregrino (Falco peregrinus) es el más conocido de los halcones, y también el más extendido geográficamente. Mide entre 35 y 50 cm y tiene una envergadura (de punta a punta de ala) que puede superar el metro. Lo más fascinante de todo es que se le ha registrado a una velocidad punta de 389 km/h, es decir, que le quitarían todos los puntos de carnet de una tacada :P

High-Velocity Falcon –
, ,

RelacionadasExtrañas formas callejerasHalcón Milenario enterrada bajo barrio zaragozanoLa Enterprisa encontrada en Google Maps
1 Star2 Stars3 Stars4 Stars5 Stars
Loading ... Loading ...
Escrito por Alex como 100cia, Sabías que el 5 de enero de 2008 a las 2:03 am

¿Por qué cuesta localizar a un grillo de noche?

Se les suele llamar grillos pero en verdad se llaman grillidos. Estos insectos, tan características en cualquier escena nocturna, los hemos odiado todos alguna vez. En alguna noche que hemos dormido en el campo, a la intemperie o en algún pueblo, todos hemos sufrido su famoso chirriar que nos ha molestado algunos minutos de sueño.

Me acuerdo que alguna vez que me los he encontrado cerca de mi casa, me he puesto a buscarlos pero nunca he conseguido ver ninguno en mi vida. ¿Por qué costará tanto dar con ellos? En primer lugar, y por sentido común, los grillos realizan sus cánticos de noche, y por tanto con ausencia de luz. Es muy raro verlos cerca incluso de farolas o puntos luminosos, con lo que la propia oscuridad ya es un handicap para su búsqueda.

Pero existe una razón mucho más científica que nos dificulta su caza. Se trata de la longitud de onda del sonido que emiten. Dicho sonido se realiza cuando levantan ligeramente sus alas y las frotan entre sí. El canto que realizan es constante y sigue un compás muy rítmico, de forma que atraen a las hembras, que escuchan dichos sonidos ensimismadas.

Pues este sonido chirriante se emite al aire a una longitud de onda que es muy parecida a la distancia que existe entre los dos oídos del ser humano (unos 20cm aproximadamente) y de ahí que no podamos determinar bien su posición: se trata de una ilusión acústica. Normalmente creemos que el sonido del grillo viene de una lado cuando está realmente en el otro.

Esta ilusión se acentúa además cuando el sonido está exactamente delante nuestro, cuando no podemos determinar la fuente aunque si aproximadamente la distancia por la intensidad del mismo. El oído humano funciona usándose los dos sistemas auditivos. El oído que antes recibe un sonido determina la dirección de la fuente, pero si la fuente se encuentra exactamente delante o detrás nuestro, nuestra percepción de dicha fuente se desvirtúa.

De ahí que sea muy complicado cazar a un grillo, que seguro que más de uno lo hemos intentado por no dejarnos dormir en paz… aun así, aquí tenéis una foto para que sepáis como son estos chirriantes insectos nocturnos.

P.D. Escrito porque ahora mismo estoy escuchando a uno ;)

, , ,

Relacionadas¿Hace falta tirar tanta luz por la noche?Mitad de jornadaLos Ángeles de noche, a cámara rápida¿Por qué no ir al baño con unas buenas vistas?
Artículo aleatorio Artículo aleatorio
Busca en 86400:
Artículo aleatorio

Te invito a otros blogs ...