Cuando el benchmark es dogma: por qué no confiar en pruebas comparativas en Android

Publicado en Android

18/08/2018 22:01

La historia del benchmark se remonta a los años 70, convirtiéndose en un método estandarizado y popular para medir las capacidades -en un principio- de cómputo de las CPUs. Principalmente encontrábamos dos unidades de medida, los Dhrystones y los Whetstones, nombres asignados debido a las localidades de Reino Unido y Escocia en las que se inició todo este asunto.

Android

Ambas unidades son la base de los benchmarks que conocemos hoy en día, y no eran más que instrucciones básicas para lograr una imagen de cómo rendía un procesador. Con el tiempo llegaron distintas unidades de medida, como el MIPS -relegado a la CPU-, el FLOP -relegado a la GPU-, las velocidades de lectura medidas en Mbps... Los procesadores son algo complejo con varios puntos a medir, y siempre es interesante conocer las capacidades de los mismos.

Sin embargo, con la llegada de los mismos a Android, comenzó una insana fiebre por ver qué móvil iba a rendir más sobre el papel, relegando a un plano secundario las optimizaciones de software y diferencias en uso que puede tener cada usuario. Lejos de quedar en un segundo plano, empezaron a surgir Benchmarks de cámara como DxOMark, parcos Speedtest a los que se les da una desmesurada importancia, y todo tipo de pruebas objetivas a un nivel técnico, pero no práctico. Hoy, te contamos Varias pruebas que no deberías tener en cuenta a la hora de comprar un teléfono, y el porqué de este razonamiento.

Pilar básico: la experiencia de usuario no es objetiva ni medible

Antes de proceder a argumentar por qué no deberías fiarte de las pruebas comparativas a la hora de comprar un teléfono, es necesario aclarar un par de aspectos. Los benchmarks per se son pruebas objetivas y útiles para comprobar cuán potente es un teléfono, así como la capacidad de sus componentes. No hay problema alguno en conocer las capacidades brutas de nuestros teléfonos, ya que esto puede ser muy útil a modo comparativo, los números están ahí, para cuando sea necesario mirarlos.

El problema aparece cuando el benchmark se convierte en dogma, correlacionándose con el rendimiento global de un dispositivo, este es el punto. Poniendo ejemplos prácticos y sencillos, una altísima puntuación en GPU y CPU puede ayudarte a intuir que tu móvil moverá bien un juego pesado, pero no te garantiza que tu móvil no tenga lags, ralentizaciones o problemas de rendimiento debidos a una mala optimización de software.

El benchmark de por sí es una excelente prueba para medir de forma objetiva las capacidades del hardware. El problema viene cuando estos se convierten en una vara de medir qué teléfono funciona mejor que otro, algo que depende de otros factores.

Cuando nos centramos exclusivamente en los números, estamos obviando el software, y en un sistema tan diverso como Android, esto resulta en un pecado capital. Un smartphone es la conjunción del hardware y el software, así como de los propios hábitos del usuario.

La experiencia de usuario no es objetiva. Lo que para mi puede ser un funcionamiento lento y pesado para otro usuario puede ser perfecto -prueba de ello es el amor de muchos usuarios por Touchwiz, EMUI y demás ROMs pesadas que objetivamente lastran el rendimiento-. Poco sentido tiene pues, centrarnos en la potencia bruta que tenga un terminal, si la fluidez y el feeling que le proporciona al usuario acaba dependiendo en grandísima parte del mismo usuario.

A este dogma, hemos de sumarle el de las pruebas comparativas pseudo-objetivas, en el sentido de que son pruebas replicables por cualquier usuario, pero que no reflejan un uso real ni objetivo de cara a la experiencia de usuario. Hablamos de los Speedtest, comparativas de cámara, pruebas de DxOMark y test de batería. Empecemos por lo básico.

Benchmarks

Actualmente contamos con infinidad de benchmarks en Android, destacando principalmente Antutu y Geekbench. Ambas pruebas miden de forma objetiva la potencia bruta de nuestros terminales (CPU, GPU, memorias, estrés...) Como decíamos antes, si un móvil arroja 150.000 puntos en Antutu y otro 50.000, podemos saber que uno es más potente que el otro pero... ¿mide esto la experiencia de usuario?

Un Google Pixel de 2016 arroja menos puntuación en benchmarks que un Samsung Galaxy S8, terminal objetivamente menos fluido que el propio Pixel, tema tratado por varios medios en foros y análisis. ¿Deberías comprar el modelo más potente por el número que arroja en AnTuTu? Esto mismo es extrapolable a la infinita guerra entre iOS y Android. Los iPhone han estado por detrás de Android en cuanto a potencia durante muchísimos años, a pesar de que el rendimiento de iOS superaba con creces al de Android precisamente en esa época.

Irónicamente, con la llegada de iOS 11, versión que ha causado numerosos problemas de rendimiento a los usuarios, llegaron los iPhone 7 con su chip A11, arrasando en benchmarks y pruebas de rendimiento. Sin embargo, a la hora de la verdad, las inconsistencias y falta de optimización del SO salieron a reducir, ¿de qué servían los números aquí?

La conclusión es clara, los benchmarks son extremadamente útiles para medir y comparar de forma objetiva las capacidades del hardware en un dispositivo, sin embargo, jamás deben ser interpretados como una herramienta que mide la experiencia de usuario. Algo que puede parecer evidente, pero necesario de explicar por los miles de comentarios que se encuentran en la red sobre que un móvil es mejor que otro porque arroja más potencia en un bench.

DxOMark

DxOMark ha sido considerada prácticamente como esa prueba irrefutable de que una cámara es mejor que otra, hasta que empezaron a llegar los resultados extraños. En primer lugar, es sencillamente imposible dar una puntuación global a las cámaras de los teléfonos móviles, teniendo en cuenta la multitud de funcionalidades que tienen. En el caso de un benchmark, no deja de estar midiendo GPU, CPU, memorias y otros componentes que todos los teléfonos tienen, aquí sí cobra sentido arrojar un número exacto, sin embargo las cámaras son algo bastante más complejo. Algunos fabricantes potencian el modo nocturno, otros el retrato, modos de gran angular, inteligencia artificial... ¿Cómo se mide la importancia que tiene para un usuario la presencia o ausencia de una de estas características?

En segundo lugar, el sistema de puntuación de DxOMark es bastante controvertido, y es que la medición parte de la subjetividad, el peor comienzo posible. En las pruebas de DxO se miden 9 categorías para la fotografía y 7 para el vídeo, todo bien hasta que profundizas. Analizando una de las puntuaciones polémicas, en concreto que la cámara de un Xiaomi Mi 8 es mejor que la de un Google Pixel 2 XL, podemos encontrar el problema que presenta este test.

Como puedes ver en la imagen, el Xiaomi Mi 8 tiene una puntuación global en fotografía de 105 puntos, pero si sumamos todos los valores obtenidos y los dividimos entre el total de valores, no obtenemos esta puntuación, ¿por qué? Sencillo, las categorías están ordenadas por orden de importancia, es decir, aunque hagas la suma no obtendrás el resultado final, ya que cada categoría suma de una forma distinta. Que la exposición y el contraste sean más importantes que una buena interpretación del color o el nivel de ruido es algo totalmente subjetivo, por lo que hablamos de un test que arroja una puntuación que mide valores objetivos, pero los suma a su antojo de forma subjetiva.

DxOmark otorga más valor a cada categoría en base a un juicio subjetivo. Para ti puede ser más importante el realismo de una foto o la nitidez, para ellos el contraste. Este juicio subjetivo hace que la puntuación final se vea contaminada por la diferencia que hay en la sumatoria final.

Si seguimos analizando este caso, encontramos que el Mi 8 obtiene una puntuación algo baja en grabación de vídeo, 88 puntos, y a pesar de que el Pixel obtiene la friolera de 96 puntos, la suma final hace que el móvil chino resulte ganador. De nuevo el orden subjetivo hace que factores como la exposición sean más importantes que la estabilización, los artefactos generados en la grabación o el ruido, por lo que la puntuación final queda contaminada. De nuevo, si sumamos la puntuación de vídeo y fotografía tampoco obtenemos la nota final que arroja DxO, ya que no dan la misma importancia a los valores.

Por otro lado, al saber la importancia de los valores que mide DxOmark, muchos fabricantes modifican sus cámaras para que obtengan mejores puntuaciones. Por ejemplo, si un móvil no tiene doble cámara, se verá gravemente perjudicado en el apartado de zoom, por lo que tiene todas las papeletas para obtener una puntuación más baja que si tuviese una doble cámara, sencillamente para hacer dicho zoom.

DxOMark penaliza a los móviles con un sensor de cámara, independientemente de los buenos resultados que salgan. Por ello las cámaras triples están en auge, y tienen todas las papeletas para ocupar los primeros puestos del ranking.

En definitiva, DxOmark valora y suma de forma subjetiva categorías cuya importancia ha sido escogida de forma también subjetiva. Si escoges un móvil por su puntuación global sin fijarte en las subcategorías, podrías encontrarte con un móvil de gran puntuación en el ranking, pero con una puntuación en la subcategoría que más te interesa inferior a la de otro móvil que esté unos cuantos puestos más abajo en dicho ranking.

Speedtest

Una de las pruebas -si no la que más- daño ha hecho a la percepción de los usuarios sobre los teléfonos han sido los speedtest. Parcas y poco científicas pruebas en las que alguien se dedica a abrir aplicaciones y calcular el tiempo de apertura. De esta forma, se extrae la tajante conclusión de que este móvil es más rápido que este otro, ya que en una situación concreta ha abierto antes unas pocas aplicaciones.

Abrir aplicaciones no es un uso real ni objetivo, y ni mucho menos refleja el rendimiento real que tendrá un teléfono en un uso normativo. Las condiciones de las mismas pruebas son controladas y específicas, sin tener en cuenta que un teléfono a lo largo del día pasa por cientos de procesos que hacen que dicho rendimiento pueda variar según el ritmo de trabajo que tenga en determinado momento.

En estos test no se tiene en cuenta cómo el fabricante ha diseñado las animaciones del sistema, la respuesta táctil de la pantalla, la sensibilidad de la misma al hacer scroll, el rendimiento sostenido a lo largo del día, y no tras reiniciar los teléfonos y borrarles todo el contenido de la RAM... Una prueba poco objetiva, aglutinadora de clicks y polémicas y capaz de confundir a miles de usuarios que triunfa en internet.

Comparativas de cámara "clásicas"

Otra de las pruebas más polémicas y confusas que encontramos en la red son las comparativas de cámara en formato "clásico". En estos casos, se hacen X fotografías en condiciones de buena luz, X fotos de noche, X selfies y algunas grabaciones de vídeo, para obtener posteriormente unas conclusiones finales. Pueda parecer un buen método, pero deja demasiadas cosas en el aire, y no llega a ser del todo objetivo.

En primer lugar, volvemos al punto de la experiencia de usuario y los usos de cada uno. ¿Consideramos mejor cámara a la que tiene un mejor modo automático o a la que le podemos sacar más partido en modo manual? Esto queda al gusto y opinión del usuario, y no es medible mediante unas cuantas fotos tomadas en situaciones típicas.

Desde un punto de vista neutral, es igual de válido juzgar una cámara por las capacidades de su modo manual que por las bondades de su modo automático. De igual modo, la interpretación del color, balance de blancos y look final de la foto no deja de ser algo que si bien puede ser juzgado de forma técnica, cuenta con un componente subjetivo inherente al propio arte de la fotografía.

Por otro lado, la subjetividad entra en juego, siendo algunos aspectos de la fotografía más importantes para unos usuarios que para otros. Algunos valoran el modo retrato, otros no le prestan la menor importancia, algunos valoran que la escena esté correctamente iluminada mostrando el color del cielo, otros prefieren que esté algo quemado para que la fotografía tenga mayor exposición...

Otro asunto a tratar es el del juicio subjetivo que hacemos motivados por la expectativa o por nuestra preferencia personal. Si te gusta más un teléfono, vas a ver la imagen de dicho teléfono con otros ojos, por lo que la mejor forma de comprobar si te gusta una imagen más o menos es verla en un test a ciegas. No obstante, ni siquiera con este test sería suficiente, ya que la habilidad del fotógrafo influye de forma directa en la instantánea final.

Puede que nunca llegues a lograr hacer esas espectaculares fotos que ha hecho tu youtuber preferido con el smartphone que te quieres comprar, y quizás el modo auto de ese otro móvil que no sale bien parado en modo manual te facilite el trabajo... La fotografía es algo complejo, difícilmente medible y con un componente personal bastante fuerte, por lo que no debemos nunca sacar conclusiones precipitadas con este tipo de test.

Test de batería

Los test de batería son otra de las pruebas de las que jamás deberías fiarte. Una de las más populares es poner sobre la mesa 4 o 5 móviles y ponerlos a reproducir vídeos de YouTube y algunos juegos. El que muera último gana, in science we trust. Estas pruebas no tienen en cuenta el consumo que hace el móvil de la red móvil, las diferencias en gasto entre 4G y WiFi, la gestión en reposo de la batería, si el móvil es capaz de mantener un buen equilibrio con el brillo automático para no gastar en exceso en exteriores...

Un terminal con una pantalla AMOLED de bajo consumo y un procesador con núcleos bien optimizados para ahorrar energía en tareas poco exigentes siempre saldrá ganador en estas pruebas, pudiendo drenarse en pocas horas en un uso "real" si salimos a la calle a ponerlo a prueba. A este teléfono le dura más la batería que a este otro, porque lo he visto en un vídeo, otra de los dogmas que deberían desaparecer de la red.

La única forma de saber cómo funciona un móvil es probarlo por ti mismo

La experiencia nos dice que la única forma de saber cómo funciona un teléfono es probarlo por ti mismo. Evidentemente, siempre es bueno saber cuán potente es, si a priori tiene una cámara destacable, si la batería apunta a durar la jornada entera... Volvemos a lo ya comentado, las pruebas sirven para hacernos una idea global de cómo funcionará un dispositivo, pero jamás deben ser algo que correlacione con la experiencia de usuario real, y mucho menos un factor determinante para su compra.