Quadrant – der überschätzte Benchmark?
Eine ganze Weile dachte ich, Quadrant wäre ein sehr guter Gesamtperformance Benchmark, bis ich das Dell Streak in die Finger bekam. Das Gerät erreicht im Quadrant gerade mal knapp 800 Punkte, das Archos 70 hingegen knapp 1400. Das Archos 70 ist zwar (vor allem in Sachen Preis/Leistung) ein gutes Gerät, aber die Performance des Dell Streak ist definitiv ein ganz anderes Kaliber.
Was den Quadrant Benchmark angeht, kann hier also irgendwas nicht stimmen, zumindest ist es kein aussagekräftiges Gesamtergebnis. Auch wenn man sich die Einzelergebnisse genauer anschaut, verwundern z. B. die Werte der CPU. Hier sind 1655 für das Dell Streak (das Archos 70 hat hier im Vergleich 3325) einfach nicht korrekt.
Beim Milestone 2 schwanken die Ergebnisse sogar gravierend, zwischen knapp 900 und knapp 1500 Punkten erreicht das Gerät im Quadrant. Auch diese Tatsache hat mich etwas irritiert, was die Aussagekraft des Benchmarks angeht.
Da ich sowohl das Archos 70, das Dell Streak, das Nexus One und das Milestone 2 ausgiebig getestet habe, kann ich die Gesamtperformance der Geräte gut beurteilen. Hier ist der Linpack Benchmark aussagekräftiger als der Quadrant, obwohl dies natürlich kein „All in One“ Benchmark ist. Im Linpack liegt das Dell Streak auf Platz Eins, und das ist auch meine Einschätzung, was die Performance des Gerätes angeht. Diese „toppt“ sogar noch mein Nexus One mit dem MIUI MOD. Hier liegt allerdings das Milestone 2 gleichauf mit dem Archos 70, was so auch nicht stimmt.
Auf meiner Suche nach einem Gesamtperformance Benchmark, der auch die „richtigen“ Ergebnisse bringt, bin ich auf Smartbench gestoßen, und dieser wird wohl zukünftig für meine Reviews und Tests herhalten, denn die Ergebnisse (diese stehen auch oben in der Tabelle) decken sich (zumindest viel besser, als die vom Quadrant) zum großen Teil mit meinen Einschätzungen der Geräte.
Aber auch hier findet sich ein etwas ungewöhnlicher Wert, das Archos 70 bekommt 1752 Punkte in der Game Performance. Diese ist zwar nicht schlecht, erstaunt bin ich über dieses Ergebnis aber trotzdem. Komischerweise geht auch auf meinem Archos 70 mit Android 2.2 der Neocore Benchmark, der ja eigentlich die Grafikleistung noch mal untermauern könnte, nicht mehr.
Was also lernen wir aus dieser Geschichte? Alles nur Zahlen ohne Sinn und Zweck?
Das würde ich zwar so nicht sagen, aber letztendlich sind es doch nur Messergebnisse, die halt nicht immer hundertprozentig aussagekräftig sind. Gerade der Quadrant Benchmark scheint mir, was das angeht, auch in der Tat etwas überschätzt zu werden.
Ich bin gespannt auf eure Meinungen zum Thema, vor allem was die Ergebnisse des Quadrant Benchmarks angeht.
Mein Milestone 1 mit 1GHZ OC und Android 2.2 kommt auch locker über 1400 Punkte :D
Die extremen Schwankungen liegen an einem bug im Quadrant Benchmark. Mit Froyo wurde ein neuer Videocodec (stagefright) eingeführt, der auf einigen Geräten aktiviert ist, auf anderen nicht. Wenn aktiviert, bricht der H264 Test ab, fliesst aber voll in die Wertung mit ein. Dadurch wird der Gesamtwert verdoppelt. Zu erkennen ist das an den farbigen Balken der pro version. Wenn der CPU Balken sehr lang ist, ist stagefright aktiviert.
Hmmm. Das macht mich alles sehr skeptisch. Wir haben fast alle die selbe Software Plattform. Aber nicht die selbe Hardware. Am Pc z.b. gibt es ja auch verschiedene
Hersteller von Hardware und dazu passende Treiber. ich denke das die Hersteller unserer Handys auf Performance keinen so großen wert legen wie die die Computer Hardware bauen. Wer benutzt sein Handy schon um komplexe Berechnungen auszuführen? Das selbe denke ich über die hippen tablet pcs. Emails lesen, Tabellen erstellen erfordert keine highend Hardware. wer kann von sich behaupten das er seine Hardware voll ausnutzt? Und wenn ja, warum? diese Performance Tests dienen ja im grunde genommen nur dafür um als Hersteller gut darzustehen. Wenn das gerät seinen Dienst richtig tut sehe ich keinen Grund es auf Geschwindigkeit zu testen. dafür ist meine Zeit zu wertvoll.
Das Streak ist wirklich gut, da gibt es nichts zu meckern, nur das Display ist etwas klein ;-), deshalb hab ich mich für das Galaxy Tab entschieden, was nach meinem Empfinden noch einen Ticken besser und runder als das Streak läuft.
Ich halte auch nichts von den Benchmark-Tests, denn ich hatte auch das Galaxy S, damit kam man mit Speed- und Lag-Fix auf weit über 2000 mit Quadrant und ich hatte noch kein so schlecht laufendes Android-Handy. Die Lags kamen immer wieder.
Ich habe Smartbench mal installiert und komme mit dem Tab auf 468/1429.
Im Market steht unter den Kommentaren ein Defy mit 712/2100 @ 1,1GHZ.
Diese Werte kann ich bestätigen, habe auch ein Defy und diese Konstellation getestet.
Das bedeutet für mich, daß auch Smartbench absolut wertlos ist, denn das Defy kommt in absolut keinem Bereich was die Perfomance angeht auch nur annähernd an das Tab ran, benutze beide parallel und kann das durchaus beurteilen.
Das streak ist einfach Top von der Performance, ich würde ihm 2000 geben :-)
Ich hab mich bei meinem 2.2er streak aber auch derbe erschrocken, hab mit über 1000 punkten auf jeden fall gerechnet^^
jetzt weiß ich,das ich dieses ergebniss nicht auf die goldwaage legen sollte :-)
Mir waren die ganzen Benchmarks sowieso ziemlich egal
einer der Gründe für die unterschiedlichen Werte ist sicher die Optimierung durch die Dalvik-VM... bei mehreren, direkt hintereinander gestarteten Durchläufen werden die tendenziell schneller - so lange bis eben der Programmcode vollständig 'gecachet' wurde...
nach 3-4 Durchläufen spuckt bei
smartbench bei mir 1326 productivity und 1609 games aus
und quadrant schießt sich von anfangs 2253 auf knapp über 2600 ein
(HTC Vision, ähm DesireZ,CM6.1.1;-) )
Sind die Ursachen nicht offensichtlich?
Ich halte Quadrant für einen guten Benchmark, jedoch kranken alle Benchmarks an den selben Problemen: Sie bewerten ein System insgesamt aufgrund spezifischer, immer gleicher, Tests.
Bei Quadrant sind das Tests in allen "möglichen" Bereichen.
CPU / Memory / IO / Gaming / 2D / 3D.
Diese Tests werden aufsummiert und daraus eine Bewertung der Gesamtperformance erzeugt.
Und genau diese Bewertung ist letztlich völlig Aussagefrei.
Möchte man ein Gerät wirklich objektiv beurteilen so muss man die Einzelergebnisse der jeweiligen Gruppen individuell, z.B. über Relevanz-Faktoren, heranziehen.
Für den "normalen täglichen Gebrauch" sind CPU, IO, Memory und 2D entscheidend. Für's Gaming sind hauptsächlich CPU und 2D/3D Performance entscheidend.
Die beste IO-Performance hilft nichts wenn ich grade 3D-Grafik darstellen will.
Eine geniale Gaming-Performance wiederum hilft mir überhaupt nicht wenn ich dummerweise gerade im Internet surfe oder Mails lese.
Was zu dem Schluss führt:
Es eigentlich völlig nutzlos alle Performancebereiche eines Gerätes "sinnlos" aufzukumulieren und dann voneinem "schnellen oder langsamen" Gerät zu sprechen.
Im meinen Augen muss eine objektive Bewertung mindestens in die Bereiche "Gaming" und "Daily Use" unterteilt werden.
Edit:
Der Grund für die enormen Schwankungen ist bei Android einfach in den u.U. enorm vielen Hintergrundprozessen zu suchen. Wenn das Gerät während des Benchmarks grad einen Sync gg. z.B. eine Exchange-Postfach mit einigen hundert Mails durchführt ist die Ursache offensichtlich... Da man das bei Android nicht wirklich beeinflussen kann ist man dieser "Willkürlichkeit" ausgesetzt. Eine Lösung dafür ist mehrere Benchmakrs durchzuführen (ich würde sagen min.3 besser 5) und den Mittelwert aller Ergebnisse zu bilden.
beim Dell Streak scheint wohl kein JIT aktiv zu sein
ansonsten sind die Snapdragons einfach mal im CPU-Bench in Quadrant schneller mit JIT, weil die SIMD-Einheiten für Float-Berechnungen 128bit breit sind und nicht nur 64bit wie bei den anderen Cortex-A8-CPUs
wenn ich denke, wie stark sich das ergebnis beim sgs nach dem lagfix änderte... da komm ich auf werte zwischen 1.800 und 2.200... und das nur wegen dem dateisystem? :)
Smartbench ist komisch. Ich hab das jetzt 5-6 mal durchlaufen lassen, auch mit Telefonneustarts und er behauptet mein Desire Z wäre je ~300 Punkte schlechter als das HTC G2, also deutlich schlechter als baugleiche Telefone... und je öfter ich die durchführe desto schlechter werden die Ergebnisse. Inzwischen bin ich bei 495 Productivity und 758 Games Index angekommen. Dann lieber Quadrant
Der Smartbench ist aber auch nicht viel zuverlässiger, beim 1. Durchgang mit nem Desire HD etwas schneller als das G2 (Desire Z), beim zweiten auf einmal langsamer?
Also wirklich korrekt ist der auch nicht.
Beim Milestone 2 im Quadrant kann ichs mir nur so erklären: Da lief im Hintergrund irgendwas, was Daten auf den internen und/oder externen Speicher geschrieben hat, während der Bench lief, denn der I/O Balken ist der einzige der da kürzer wurde.
Ich finde die farbigen Balken eigentlich super aussagekräftig... wenn sie nicht nur in der Pro Version wären. Besonders bei single-core cpus finde ich das aber auch nicht aussergewöhnlich, dass es zu solchen "messfehlern" kommt. Da kann man dem Quadrant-Entwickler im Grunde keinen Vorwurf machen. Das einzige was er verbessern könnte wären die Benches (CPU, Memory, I/O, 2D und 3D) *einzeln* in Genüberstellung zu den bereits gemessenen.
Ich mache immer wieder die gleichen Erfahrungen. Benchmarks taugen nix um die Alltagsperformance darzustellen. Vielleicht läuft dadurch ein Spiel besser. Aber mein Magic läuft im Moment mit dem richtigen CustomRom so rund, da kann ich über Ruckler bei deutlich besseren Geräten nur lachen.
Ich glaube, kein Benchmark zeigt wirklich, wie flüssig ein Smartphone im Alltag läuft.
Denke der quadrant-benchmark ist immernoch der beste. Es hat doch nichts damit zu tun, wie schnell dein Gerät in Alltagssituationen oder beim surfen läuft ... sowas testet kein Benchmark, er testet die einzelnen Perfomances, sowohl 3D, 2D, CPU, Memory etc etc ... und das macht Quadrant perfekt meiner Meinung nach ....
klar kanns da mal vorkommen das einem das eine Gerät schneller vorkommt obwohls im Benchmark schlechter ist, aber dafür ist vll der Grafikchip um Welten besser beim anderen und 3D-Spiele laufen schöner, oder es hat mehr oder schnelleren RAM ... sowas macht sich eben nicht in den normalen alltagssituationen bemerkbar ....
also denke man muss schon immer schaun für was ein Benchmark gut ist, und um die allgemeine Gesamtleistung von Geräten und all ihrer
Komponenten in einer "Zahl" darzustellen, finde ich ist Quadrant perfekt...
Linpack z.B. kann über die Gesamtperformance eines Geräts beispielsweise gar nichts aussagen ...
Ist mir auch schon aufgefallen! Gibt es keine vernünftige Alternative um die Gesamtperformance zu bewerten (smartbench :) )?
@Christian:
Schau dir Smartbench mal an und sag mal was du über den denkst.
Der wird nicht überschätzt, sondern ist der einzige, an dem sich Geräte ansatzweise vergleichen lassen. Gäbe es gute Alternativen, die auf ALLEN Geräten laufen, würde keiner den nutzen.
Guter Artikel!
Zeit, sich einen neuen Benchmark zu suchen...