Eine Rückfrage, bzw. ich glaube dass es mit der Fairness und Objektivität auch nach deinem Modell Probleme gibt (aber vll. weniger als im Status Quo):
“Team E war in der ersten Runde stärker, wurde dann aber im besseren Raum (Raum 1) nur Dritter. Team G war zuerst schwächer, hat dann aber den schlechteren Raum (Raum 2) gewonnen und hat somit ebenfalls 4 Teampunkte.”
Gerade die erste Runde basiert oft auf Zufall, welche Gegner ich habe. Generell davon auszugehen, dass der Top-Room in Runde 2 schwerer ist als ein mittlerer Raum in Runde 2, wage ich zu bezweifeln. Aber generell: Das System hat die Annahme, dass ein höherer Raum automatisch ein “schwierigerer” Raum ist. In der Logik von BPS ist das vollkommen richtig. Dennoch ist die Performance des Raums eine zufällige. Ein mittlerer Raum kann viel besser sein als der Top Room. Gründe dafür können spezifisches Wissen, Zufall, punktuelle Leistungsfähig und ähnliches sein. Rednerpunkte erlauben, diese individuelle Performance wiederzuspiegeln. Dein System sorgt dafür, dass individuelle Leistungen nicht gewürdigt werden. Das ist in mehrere Hinsicht schade. Vll. schreibe ich später nochmal was dazu, warum Rednerpunkte gerade auch in BPS ihren Sinn und Zweck haben.
Danke für den spannenden Artikel, ich finde die Idee prinzipiell gut und finde, wir sollten auch bestehende Formate immer mal wieder neu denken und ausprobieren.
Hier kaufe ich jedoch zwei Prämissen nicht:
1. “Grundvoraussetzung für eine absolute Bewertung ist, dass die Juroren einen gemeinsamen Maßstab teilen. Dies sehe ich bei den BPS-Rednerpunkten nicht erfüllt.” Darauf lässt sich direkt mit dem BP Jurorenleitfaden der DDM 2014, der die derzeitige Kommentierung des Regelwerkes im deutschsprachigen Raum darstellt, antworten: “Der Durchschnitt liegt bei 75 Punkten und wird für eine solide Rede vergeben, in der Stärken und Schwächen sich die Waage halten. […] Eine Punktevergabe unter 55 bzw. über 85 Punkten ist sehr selten …” Damit gibt es einen gemeinsamen Maßstab, der ähnlich wie bei OPD ist, die 75 entspricht also der (früheren) 40.
Aus deiner Prämisse folgt: “Das Niveau der Rednerpunkte unterscheidet sich teilweise stark zwischen den Räumen und Juroren, was für Redner zu nicht nachvollziehbaren Ergebnissen führt.” Und nachdem ich deine Prämisse schon nicht gekauft habe, muss ich aus meiner Erfahrung heraus auch deiner Schlussfolgerung nicht: In den meisten Jurorendiskussionen, in denen ich in letzter Zeit saß lagen, haben wir in der Punktespanne um 1 max 2 Punkten auseinander. Haben also diskutiert, ob es z. B. eine 78 oder 79 ist. Selbst wenn man jetzt annähme, ein BP Punkt entspricht zwei OPD Punkten, sind das Abweichungen, von denen viele OPD-Juroren-Panels nur träumen können. Demnach würde dein Vorwurf der Nicht-Nachvollziehbarkeit ebenso auf OPD-Punkte zutreffen.
Zu deiner Frage, ob Auftreten und Sprachkraft in diese Punkte gehören, möchte ich wieder aus dem BP-Leitfaden zitieren: “Die “linken Kriterien” der OPD-Bewertung (Sprachkraft, Auftreten, Kontaktfähigkeit) werden in BPS nicht gesondert bewertet …” Und das entspricht auch meiner erlebten Jurorenpraxis, in der wir uns bei ausnahmslos jeder Bewertung die Frage gestellt haben: Wer hat den stärkeren Beitrag geleistet. Nie, wer hat den schöner geredet.
Daher, auch wenn ich deine Idee spannend finde, sehe ich dein Problem überhaupt nicht. Die Vorteile, kaufe ich auch nicht mit ein:
– Es wird leichter –> wer empfindet denn die Bepunktung als schwer?
– Endplatzierung ist objektiver –> Kauf ich wegen der fragwürdigen Prämissen nicht
– Team in besseren Räumen haben auch im Status quo i. d. R. mehr Punkte gesammelt, da die Debatten dort oft ein hohen Niveau haben, wodurch auch mehr Rednerpunkte erreicht werden.
– Beim jetzigen Tabben muss man nur addieren, dein Verfahren ist sicher auch machbar, aber ich das es mathematisch leichter ist als nur addieren, wird mir nicht ersichtlich.
Auch wenn ich weder deine Prämisse, noch deine Vorteile, kaufe. Das heißt nicht, dass ich dagegen bin, es einfach mal auszuprobieren!
Ich finde den Vorschlag interessant und es ist unbestritten, dass man über die Rednerpunkte in BP nachdenken muss, da die aktuelle Vergabepraxis häufig doch eher eine Lotterie gleicht und die Einzelredner-Rankings eine wirkliche Aussagekraft vielleicht innerhalb eines Teams haben.
Das vorgeschlagene System hat aber leider den Nachteil, dass wir auch hier wieder (dem System direkt innewohnende) Lotterieelemente einbauen.
Es ist ja besser, in der ersten Runde von Oxford, Monash und Cambridge weggehauen zu werden als von Tel Aviv und Manchester, obwohl ich keinen Einfluss darauf habe, wer mich in der ersten Runde weghaut. (Mal angenommen, ich werde in beiden Räumen weggehauen, was aber zumindest bei mir der Fall sein sollte)
Und auch das Springer-Beispiel lässt sich verallgemeinern: Was ist mit Teams, die am ersten Tag extrem gut sind und dann aber auf der Party zu tief (und zu lange) ins Glas schauen? Vielleicht sogar verschlafen? Deren Gegner am ersten Tag sind ja schon genug gestraft, würden dann aber durch die neue Feinwertung zusätzlich auf die Mütze kriegen. Daher würde ich schon sagen, dass es praktisch relevant werden kann, dass Rankings zwischen zwei Teams in Debatten entschieden werden, in denen keines der beiden Teams anwesend ist.
Trotzdem bin ich aber dafür, Alternativen zu den Rednerpunkten auszuprobieren, halte vom Gefühl her das hier vorgeschlagene System für nachvollziehbarer.
Wenn sich viel an der ersten Runde aufhält, wie wäre es diese wegzulassen (also die Einzelrednerbepunktung)?
Btw. auch in OPD ist man vom gegnerischen Team abhängig. Umso besserer dieses ist, umso besser wird die Debatte, umso besser die eigene Punktzahl. Gerade bei guten Teams und kleinen Breaks kann es entscheidend sein, ob 2 der guten Teams in einer Vorrunde aufeinandertreffen.
Daher gilt auch bei OPD das Argument mit dem zu tief ins Glas-Geschaue.
Wo ich dir aber zustimmen muss ist, die Aussagekraft über die Homogenität im Team. Regelmäßig wird der Top of the Tab jemand, der in einem nicht ganz so ausgeglichenem Team ist.
P. S. Toni. ich hab dich beim Potsdam Punk vermisst ;-).
Und @Robert: Woher kommen denn die niedrigen Abweichungen bei BP-Jurierungen? Häufig hat man gerade 13 Minuten über das Ranking geredet, sich mühevoll geneinigt und dann redet man “mal kurz noch” über Rednerpunkte. Dann schlägt entweder der Chair Punkte vor und alle nicken bedächtig oder der Chair schlägt wen anders vor, der Punkte vorschlägt und dan die grobe Richtung dann meist stimmt (man hat ja lange genug über die Teams geredet), geht man vielleicht noch einen Punkt hoch oder runter. Zusätzlich wird die Skala meist noch weniger ausgeschöpft als in OPD.
Naja Toni, die Analyse stimmt nur so halb. Da die Rednerpunkte den individuellen Beitrag zur Debatte widerspiegeln und man in den 13 Minuten schon alle Seiten genau nach diesem Beitrag abgeklopft und verglichen hat, hat man implizit bereits 13 Minuten über die Rednerpunkte gesprochen.
So kam es am Wochenende vor, dass ein Team in einer Debatte weit vorne lag (Erster oder Zweiter), aber nur aufgrund des Beitrages einer der beiden Redners und der zweite Part keinen Beitrag mehr geleistet hat. Dies ist bereits während der Jurorenbesprechung klar geworden und daraus hat sich dann etwa eine relative hohe Punktespanne zwischen diesen beiden Rednern ergeben. Aber die Entscheidung hierfür ist nicht in den 2 Minuten gefallen, sondern stand längst in der Besprechung vorher im Raum.
Das mit der Punkteskala verstehe ich, ich glaube, das rührt auch daher, dass 1 Punkt in BP mehr wert ist als einer in OPD. Dafür kann ich tatsächlich gerade nur auf ein Gefühl verweisen, aber: Ich denke, 80 BP-Punkten entspricht ungefähr 50 OPD Punkten, da nun 75 der Durchschnitt sind und das angeblich 40 bei OPD (mal waren) sind. Würde das eine Umrechnung von 2 zu 1 entsprechen. Das Bild hinkt jedoch nach unten, da dann eine 70 eine 30 wäre und das empfinde ich nicht so: Daher stimme ich dir zu, die Skala könnte man ein bisschen mehr (gerade nach oben) ausreizen.
Einzelrednerpunkte sind in BP nur für die knapp (nicht) breakenden Teams relevant, also für das Turnier fast völlig irrelevant. Was spricht dagegen, das Los über die Feinwertung entscheiden zu lassen? (Und vielleicht ist der Status Quo ja eine Art Los.)
@Willy: Das System geht nicht davon aus, dass ein “höherer” Raum immer besser ist. Gezählt wird nur, wie viele Punkte die im Raum debattierenden Teams am Ende der Vorrunde haben. Du beschreibst den Fall, dass in der zweiten Runde durch Zufall der Top-Raum aus Teams bestehen kann, die eigentlich nur Durchschnitt sind. Das wäre überhaupt kein Problem, wenn diese Teams nach 3-5 Vorrunden nur durchschnittliche Teampunkte haben. Außerdem gehst du darauf ein, dass die Leistung der Teams durch Zufall und individuelles Wissen, von Runde zu Runde variieren kann. Ich glaube, dass dieser Effekt nicht sehr groß ist und die Teampunkte am Ende recht gut die tatsächliche Stärke eines Teams widerspiegeln.
@Robert: Ich habe tatsächlich andere Erfahrungen gemacht. Zum einen unterscheidet sich das Niveau der Jurierung deutlich stärker als bei OPD, zum anderen kommt es manchmal vor, dass man die Punkte, die die Rede eigentlich verdient hat, nicht geben kann, weil es sonst mit dem Endergebnis nicht hinkommt. Dass 75 Punkte als Durchschnitt angegeben sind, reicht bei weitem nicht aus um tatsächlich einen Maßstab zu definieren. Das sieht man schon alleine daran, dass bei OPD im Durchschnitt deutlich über dem “Durchschnitt” (40) bepunktet wird, während bei BP die Punkte im Durchschnitt deutlich unter dem “Durchschnitt” (75) sind. Wenn du weiter sagst, dass das gleiche Team in besseren Räumen höhere Punkte bekommt, ist das schon ein Zeichen, dass die absolute Bewertungsskala nicht funktioniert.
@ Toni: Wenn die Redner eines Teams wechseln (Krankheit oder verschiedene Springer) muss man eine Sonderregelung finden. Ansonsten sollte die Stärke eines Teams relativ konstant sein. Die Teams, die länger auf der Party bleiben, können das typischerweise auch gut wegstecken 🙂
Barbara S. hat mich netterweise noch auf einen weiteren Vorteil hingewiesen: Das Hochziehen von Teams in einen höheren Raum, wird durch diese Regelung auch besser ausgeglichen.
@Robert: Natürlich findet ein Teil dieser Analyse auch schon in der Besprechung des Rankings statt. Es wird also allgemein Konsens sein, dass eine relativ hohe Punktespanne zwischen diesen Rednern bestehen sollte. Die Quantifizierung dieser Punktespanne wird aber nirgendwo vorher besprochen. Und auch die Frage, wo wir absolut die Debatte einordnen, spielte bisher kaum eine Rolle. Und so hat jeder ein ungefähres Gefühl, wo die Debatte liegt und wenn dann jemand eine ungefähr passende Punktzahl vorschlägt, ist man doch stark dazu verleitet einfach nur “ja, passt” zu sagen, weil man ja (im Gegensatz zu OPD) nie aufgefordert wurde, vorher sein Gefühl in eine Zahl zu gießen.
Ich stimme Christian zu, dass Rednerpunkte in BPS tendenziell weniger gut geeicht vergeben werden als in OPD, nicht zuletzt aus den von Christian angeführten Gründen. Ich stimme auch Toni zu, dass es in der Punktevergabe häufig zu der schnellen Einigung auf den Vorschlag des Chairs kommt. Die Rednerpunkte deswegen gleich gänzlich abzuschaffen, finde ich trotzdem ein bisschen drastisch.
Trotzdem scheint mir, dass Christians Vorschlag zwei weitere Probleme adressiert, die ich durchaus im Status Quo sehe:
1. Die Bindung der Rednersumme an die Reihenfolge der Platzierung erlaubt tatsächlich nur eine eingeschränkte Differenzierung der Rednerleistung in einem sehr heterogenen Team. Wenn einer der Redner sehr gut ist, der andere aber drastische Fehler macht, die dazu führen, dass das Team weiter hinten landet und er auch generell “nicht gut” redet, habe ich es schon öfter erlebt, dass “Kompromisse” gemacht werden, wie dies noch angemessen in der Bepunktung dargestellt werden kann. Eine krasse Abwertung des “schwächeren” Redners in diesem Team kann schnell zu einer Benachteiligung gegenüber einem anderen Team im Raum führen, das solide gearbeitet hat, aber dafür dennoch keine allzu hohen Rednerpunkte erhält und daher objektiv nicht *so* viel besser war als der zu bepunktende schwächere Redner. Die Verknüpfung des absoluten Maßstabs für eine Einzelleistung mit der maßgeblichen relativen Platzierung nach der durchschnittlichen Teamleistung kann hier tatsächlich zu Problemen führen.
2. Mir scheint, dass der Vorschlag einen besseren Ausgleich für “hochgezogene” Teams schafft: Sie haben zwar etwas schlechtere Chancen, zu gewinnen, erhalten aber immerhin einen klar bestimmbaren “Bonus” über diese Buchholz-Wertung. Dies finde ich deshalb eine Verbesserung, weil ich den Eindruck habe, dass es aktuell eine Art “inoffizielle” Form dieses Bonusses gibt, der aber jurorabhängig ist. Erfahrungsgemäß sind Rednerpunkte in besseren Räumen höher als in mittleren. Im Regelfall ist dies natürlich (hoffentlich) darin begründet, dass die Debatte besser verlief. Man müsste aber vielleicht einmal untersuchen, ob es nicht tatsächlich etwas wie die u.a. aus der Verhaltensökonomie bekannten “Ankereffekte” in der Jurierung gibt. Ein solcher Ankereffekt würde sich so auswirken, dass es insgesamt im Raum zu besseren Ergebnissen führt, wenn durch den Chair für das beste Team bereits hohe Punkte (im Sinne einer 79-82+) vorgeschlagen wurden. Das z.B. drittplatzierte Team könnte hierdurch insgesamt bessere Punkte bekommen als es für die identische Leistung in einem Raum bekommen hätte, wo der obere “Anker” niedriger war. Dies würde dann auch zumindest teilweise gegen das von Willy vorgebrachte Argument sprechen, da nicht gesichert wäre, dass die Punkte in der objektiv vlt besseren Debatte im mittleren Raum über das Turnier hinweg auch zu besseren Punkten als im Topraum führen.
Insgesamt spricht daher aus meiner Sicht wenig dagegen, das System vielleicht einfach mal parallel auszuprobieren und zu schauen, ob es zu Abweichungen gegenüber der Reihenfolge nach den Rednerpunkten kommt. Wenn die Rednerpunktevergabe tatsächlich so objektiv und absolut funktioniert, wie sie gedacht ist, dürfte das im Mittel über das Turnier ja eigentlich nicht passieren. Falls doch, könnte sich diese Buchholz-Wertung tatsächlich als fairerer “Tie-Break” darstellen. Rednerpunkte könnte ja trotzdem noch vergeben werden, z.B. zur Kürung des Top of the Tab, und zudem als “Tie-Break” dritter Ordnung gelten, falls es nach Teampunkten und Buchholz-Wertung immer noch zu einem Gleichstand kommt. 🙂
Und @Christian (ich sollte echt nicht Kommentare schreiben, weggehen, und dann ohne Aktualisierung abschicken): Es gibt massig Gründe, warum die Leistung eines Teams nicht konstant sein muss. Das kann Kater sein, das kann Frust sein (ein Team fährt mit dem Anspruch zu breaken hin, hat darauf nach den offenen Runden keine wirklich Chance mehr und schenkt die ausstehenden Runden her) usw.
@ Philip: Ich meine, dass wenn die gleiche Rede in unterschiedlichen Räumen von unterschiedlichen Juroren bewertet werden würde, die Unterschiede bei den BPS-Rednerpunkten größer wären.
Sehr guter Artikel und volle Zustimmung zu dem vorgeschlagenen System. Jeder der regelmäßig BP juriert weiß wie Rednerpunkte im Normalfall gemacht werden. Der Chair schlägt in den letzten Minuten Punkte für das erste Team vor, man einigt sich und dann geht man nach unten runter. Und zwar zwangsläufig weil die Team und Rednerpunkte ja zusammenpassen müssen. Wieso landen die meisten ersten Teams zwischen 77-79? Ganz einfach, Bei dieser Punkthöhe tut man niemandem weh, hat nach unten Spielraum und ist sich als Chair auch sicher dass man das Tab nicht verzerrt. Da man die Speaks ja auch nicht erklären muss und sie zumeist unter Zeitdruck ohne klare Kriterien zustande kommen ist man als Juror bei dieser Punkthöhe fein raus. Niemand kann sich beschweren und man kann auch zweitem und drittem Team noch nette Punkte geben. Will ich als Juror jedoch dich Doppel-81 geben kann ich mich auf anstrengende Diskussionen mit den Co-Juroren einstellen, Selbiges gilt übrigens zumeist auch für die Doppel-65… Und da ja allgemein bekannt ist dass Speaks nicht so richtig relevant sind und man nicht viel Zeit hat gibt es hier ein klares Incentive für Juroren in diesem sehr eng zusammenliegenden Bereich zu bleiben. Und die Rechtfertigung muss man wenn überhaupt erst auf der Party geben wenn überhaupt jemand kommt um spezifisch nach den Speaks aus VR3 oder so zu fragen. Sprich ein systemische Anreiz für schlechtes Jurieren in Form von unreflektierter unangemessener Punktevergabe. Daher bin ich ausserordentlich erfreut über diesen Vorschlag weil er es schafft den relativen Ansatz von BP zu komplettieren.
Sehr spannender Ansatz. Gefällt mir gut. Die Springerproblematik müsste man aber tatsächlich lösen und so ganz trivial erscheint mir das aktuell nicht. Trotzdem könnte das System der bessere “Breakentscheider” sein.
Was man sich fragen muss ist, ob man nicht gerne ein Einzelrednertab haben möchte. Mir gefällt daher Barbaras Gedanke gar nicht schlecht, einfach alles zu machen. Alternativ, als spontaner undurchdachter Gedankenerguss: Rednerpunkte in jedem Raum auch relativ vergeben (0P.-7P.). Problem: Es gibt kein Rednerpowerpairing, daher wird das was dabei rauskommt Unfug sein. Eventuelle Lösung: Die Buchholzwertung für jeden Raum als Gewichtungsfaktor an die jeweilige Punktzahl multiplizieren. Nur so ne Idee…
Also ich hab mir einfach mal kurz den Wikipedia Artikel zur Buchholz-Wertung gegeben, da stehen übrigens noch ein paar mehr Nachteile drin, als hier in dem Artikel genannt, aber egal.
1. Wenn ich das richtig sehe zählen in die Werte nur die Punkte rein, die die Teams im Raum am Ende des Raumes haben. Wieso nimmt man nicht die Punkte am Ende des Turniers? Das sollte wesentlich zuverlässiger sein, weil sich die Varianz über die Anzahl der Runden eher rausmittelt.
2. Man könnte, wie im Schach, die beiden Teams mit den wenigsten Punkten rausnehmen. Dadurch lässt sich z.B. der Effekt, dass man in der ersten Runde zufällig mit zwei grottenschlechten Teams im Raum ist, während ein anderer zwei schlechte Teams im Raum hat minimieren.
Grundsätzlich könnten die Vorteile die Nachteile überwiegen, wenn du voraussetzt, dass grundsätzlich höherpunktige Räume schwerer zu gewinnen sind. Ich glaube aber, dass das eine Fiktion ist. Vor allem auf Turnieren mit wenigen Räumen werden z.B. durch PowerPairing Teams hochgespült die eigentlich nicht in eine höher bepunktete Debatte “gehören”. Alternativ kann aufgrund eines schweren Themas die Debatte im Vorraum ziemlich messy geworden sein oder ein Team hatte in einer Runde einen Aussetzer.
Die Speaker Points messen eben genau die Leistung der Teams in der einzelnen Debatte. D.h. es wird ein leistungsbezogener Unterschied bezogen auf die Leistung des einzelnen Teams gemacht.
Bei der Buchholz Wertung hingegen werden Teams dafür belohnt, dass ihre Gegner im Turnierverlauf viele Punkte gesammelt haben.
Ich finde, wenn man den Juroren zutraut einigermaßen (über den Daumen gepeilt) die Qualität der Debatte einzuschätzen, dann ist der auf die Leistung des einzelnen Debattenteams bezogene Unterschied der Bessere.
Wäre aber interessant mal die Buchholz Wertung zusätzlich auf der nächsten ZD zu testen, wenn wir ein Tab haben, dass zeigt, was sich in der Realität ändern würde gewinnt die Debatte mit Sicherheit wesentlich mehr Realitätsnähe.
Spannendes Thema! Kurze Frage: Was spricht dagegen es an vergangenen Turnieren durchzurechnen (bzw im Idealfall automatisiert zu lassen)? Wenn man es (parallel) anwenden will wäre sowohl der Aufwand als auch der Erkenntnisgewinn der gleiche ohne die Einschränkung der Wartezeit und der begrenzten Datenmenge
Im Übrigen stimme ich der Analyse zu, dass BP-Punkte – gerade wenn man noch nicht so vor Erfahrung strotz – schwerer zu vergeben sind. Ein glaube ich noch nicht genannter Punkt ist, dass zumindest meiner Erfahrung nach bei Clubdebatten oft keine Speaks vergeben werden, sprich ich komme damit mehr oder weniger zum ersten Mal auf einem Turnier in Berührung und habe auch danach quantitativ deutlich weniger Möglichkeiten einen Erfshrungsschatz zum Abgleich aufzubauen.
@Benedikt: Solange jemand die Daten noch hat sollte das kein Problem sein. Im Tab findeste ja die einzelnen Rundenergebnisse nicht. Also muss da der ein oder andere Tabmaster mal ran.
@Jonas: Siehe meine Antwort auf Willys Frage. Es sollen, wie von dir vorgeschlagen, die Punkte am Ende der Vorrunde. In der Theorie können Rednerpunkte tatsächlich die individuelle Leistung besser widerspiegeln. In der Praxis ist das aber aus verschiedenen Gründen nicht der Fall. Mir erscheint es daher am sinnvollsten diesen Versuch erst gar nicht zu unternehmen und die Teams nur relativ zueinander zu bewerten.
@ Benedikt: Daran, dass nachträglich auszurechnen habe ich auch schon gedacht. Wenn man Daten hat, wer in welchem Raum war, sollte das recht fix gehen.
Ich finde den Vorschlag, die Speakerpoints abzuschaffen sehr gut. Deren Schwächen wurden hier bereits deutlich gemacht. Gleichzeitig finde ich auch Christians Alternativvorschlag sehr gelungen, denn er passt nach meinem Gefühl her deutlich besser zum BPS-System der relativen Bewertung.
Einziger Nachteil wäre der Verlust der Einzelrednerwertung, wobei ich mir da nicht mal sicher wäre, ob das ein so großer Nachteil wäre. Klar, für die DDL-Wertung wäre es irgendwie doof, aber sonst gibt es aus meiner Sicht nicht wirklich einen besonderen Nachteil…und immerin würde dadurch der Teamgedanke gestärkt, das wäre doch auch was schönes 😉 Und wenn man wirklich unbedingt eine Einzelrednerwertung braucht, könnte man ja wirklich mal die Idee von Peter mit der relativen Raumbepunktung in Kombination mit der Buchholzwertung ausprobieren. Der Weisheit letzter Schluss wird auch das nicht sein, aber so ein relatives Modell kommt dem Gedanken von BPS meiner Ansicht nach näher als das aktuelle Punktesystem. Oder man vergibt eben doch für die Einzelrednerwertung die Speaks, das nimmt aktuell ja selten mehr als eine Minute innerhalb der Jurierzeit ein (was schon einiges über den Wert sagt). Mir ist die Einzelwertung echt egal, aber für die Teamwertung halte ich Christians Vorschlag für sehr gut!
Eins noch zur Überprüfung: ich bin nicht ganz sicher, was uns eine Überprüfung bringt, ob bei den verschiedenen Varianten unterschiedliche Ergebnisse heraus kommen. Wenn es aufs gleiche heraus kommt, wissen wir nicht, welches System das bessere ist (um heraus zu finden, ob das gleiche Ergebnis ein einmaliger Zufall ist, müsste man wohl sehr viele Turniere testen). Wenn es Unterschiede gibt, wissen wir auch nicht welches System das bessere ist, denn dann haben wir einfach erst mal unterschiedliche Ergebnisse. Oder kann mir hier jemand weiter helfen, der mehr Ahnung von Statistik und Empirie hat als ein diesbezüglich unwissender Jurist wie ich?
Nicolas, bei der BP-Bepunktung sollte natürlich nicht unbedingt mit dem ersten Team begonnen und dann heruntergegangen werden, und man sollte dabei weder einbeziehen, wem man mit seinen Punkten möglicherweise wehtut, noch ob man das Tab verzerrt. Wenn das die Gründe sind, weshalb auf deutschsprachigen BP-Turnieren meist nur so knauserige Punkte <80 vergeben werden, erschreckt mich das, aber dann sind das immerhin Ansätze, die Lage zu verbessern. Denn gute deutschsprachige Redner*innen sind nicht alle schlechter als britische Studierende im zweiten Jahr, die schon mal 80+ kriegen. Bessere Punkte und eine größere Spanne schaffen auch mehr Differenzierung und können sehr motivierend wirken. Also mehr Mut zu höheren (und tieferen) BP-Punkten!
@Christian: Ich bin auch davon ausgegangen, es an mehr als einem Turnier zu testen. Man würde halt erstens schonmal erkennen, ob die Abweichungen groß oder klein sind. Damit würde einhergehen, dass bei kleinen Abweichungen das “Risiko” bei einer Änderung gering ist. Bei großen Abweichungen wäre es zum Beispiel ein Indikator, dass die oben beschriebenen Effekte zutreffen: Sind die Speaks wirklich recht willkürlich, müsste es bei Einfüjring eines Systems ja Änderungen geben.
Ob man noch weitere Muster erkennt (Aufwertung der ersten Runde etc.) hängt dann vermutlich stark von der Datenmenge und wie viel Aufwand man in Analyse stecken will.
Nun ja, wenn wir große Unterschiede zwischen dem Speakssystem und der anderen Variante fest stellen, heißt das ja noch nicht, dass die Speaks willkürlich vergeben waren etc. Ich denke, das wären dann einfach unterschiedliche Ergebnisse und wir stünden wieder am Anfang, welche Variante wir besser finden. Denn nur weil die Ergebnisse unterschiedlich sind, wissen wir ja noch nicht, welches System das bessere oder gerechtere ist. Ich denke, es ist wirklich eher eine Philosophiefrage: rein relative Bewertung nach Christians Vorschlag oder Beibehaltung der Kombination von relativen und absoluten Maßstäben im SQ.
So wie du, Benedikt, es in deinem Post formulierst, klingt es so, als sei bereits klar, dass Christians Variante gerechte Ergebnisse produziert, während wir das bei den Speaks erst nachmessen müssten. Denn sonst wäre ein Abweichen der Speaks von der neuen Methode ja kein Indikator für willkürliche Jurierung. Wenn wir aber davon ausgehen, dass Christians Variante in jedem Fall gerecht ist, während das bei der Speaksvariante nur möglicherweise (!) der Fall ist, spricht in meinen Augen alles dafür, Christians Vorschlag zu folgen und die Speaks als Kriterium für den Break zu streichen. Aber wie gesagt, ich bin Jurist und kein Statistikexperte 😉
Mir hat sich der Nutzen eines BP-Einzelrednertabs bisher noch nicht erschlossen. Die jeweiligen Teams wissen, wer welchen Beitrag zur eigenen Teamleistung erbracht hat. Alle anderen Teilnehmer können durch das Einzelrednertab in Bezug auf andere Teams vielleicht ihre Neugierde befriedigen, das war es dann aber auch schon mit dem Mehrwert.
Wenn man nun unbedingt ein Hilfsmittel benötigt, um bei Punktgleichheit knappe Breakentscheidungen fällen zu können, könnte man auch auschließlich Teamrednerpunkte vergeben nach dem Muster: Berlin A (154), Jena B (149), ohne auf die differenzierte Leistungen der einzelnen Redner einzugehen.
Mein Alternativvorschlag ohne irgendwelche Einzel- oder Gesamtteampunkte:
Ein objektives Verfahren bestünde darin, bei knappen Breakentscheidungen die Anzahl der Pull-Ups bzw. Pull-Downs der jeweiligen Teams heranzuziehen. Die Anzahl der Pull-Ups wird schon jetzt im Tab angezeigt. So hat Berlin A beispielsweise im Turnierverlauf drei Pull-Ups, Jena B nur zwei. Also musste Berlin A häufiger in den sauren Apfel des stärkeren Raums beißen, weswegen sie breaken dürfen.
Für den Fall von gleichvielen Pull-Ups kann man z.B. noch die Anzahl der gewonnenen Debatten heranziehen. Oder man lost.
(Nach welchen Kriterien das Tab-Programm bisher Pull-Ups zuweist entzieht sich meiner Kenntnis. Sofern dies aufgrund der Gesamtteampunkte erfolgt, könnte man versuchen, ein anderes Kriterium zu finden.)
Außerdem müssten sich alle bei der Tab-Ausgabe nur noch um einen Zettel prügeln. Das spart plattgetretene Füße und Papier.
Ein empirischer Vergleich der Systeme ergibt keinen Sinn. Um das Buchholz-System zu bewerten, muss man abschätzen, wie gut die Endpunktzahl eines Teams als Schätzer für die Stärke dieses Teams in einer bestimmten Vorrunde funktioniert. Um das System der Einzelredner*innenpunkte zu bewerten, muss man abschätzen, wie aussagekräftig die Einzelredner*innenpunkte sind. Zeigt sich, dass Buchholz und Speax ähnliche oder unähnliche Ergebnisse liefern, sagt das über beide Fragen nichts aus.
Eine Frage ist bei mir noch offen: Beim Schweizer System wird, anders als beim Power Pairing, das zweimalige Aufeinandertreffen der Gegner verhindert. Kann ein mehrmaliges Aufeinandertreffen zu Verzerrungen führen, wenn man die Buchholz als Feinwertung in BP verwendet?
Und noch etwas: Die Buchholz-Wertung dient ja im Schweizer System vor Allem dazu, Gegner*innen zu vergleichen, die gleiche Punktzahl haben, aber nie gegeneinander angetreten sind. Ich nehme an, dass das bei normalgroßen Turnieren im Power Pairing nicht vorkommt. Stimmt das?
Ich durchschaue aber noch nicht ganz alle Implikationen dieser Unterschiede zwischen Schweizer System und Power Pairing – vielleicht gibt es auch keine.
Naja als Physiker würde ich sagen, dass man das Experiment auch machen sollte, wenn man der Meinung ist, man weiß was rauskommt – so wurden schon viele Entdeckungen gemacht 😉
Bei Abweichungen wäre zum Beispiel die Frage, ob sie rein zufällig erscheinen (womit ich wieder bei obiger Theorie wäre) oder ob man ein bestimmtes System erkennt. Sei es, dass bestimmte Runden mit besonders “schweren” Themen anders abgebildet werden, weil bei diesen z.B. durch Einzelrednerpunkte besser das Niveau einer einzelnen Debatte abgebildet werden kann. Sei es, dass auffällt, dass die Abweichung besonders groß sind bei Teams mit inhomogenen Speaks. Das lässt sich jetzt natürlich schwer vorhersagen, was man finden könnte, und bedüfte dann zugebenermaßen einer recht großen Datenmenge und Analyse so etwas festzustellen.
Davon abgesehen stimmt es natürlich, dass ich oben davon ausgegangen bin, dass das Buchholzsystem zumindest im gewissen Maße funktioniert. Intuitiv hätte ich jetzt sowieso keinen riesigen Unterschiede vermutet – dann wäre es tatsächlich mehr eine Frage der Philosophie und vor allem der Praktikabilität als Kriterium. Signifikante Unterschiede würden zumindest zeigen, dass es Wert ist, diese Debatte zu führen. Bei (fast) keinen Abweichungen muss man einsehen, dass diese Diskussion zwar theoretisch interessant ist, aber keinen Impact hat und damit – gerade wenn es um BP geht – die Redezeit nicht wert ist (als Debattierer/ meiner Erfahrung nach vielleicht nicht immer leicht) bzw die Praktikablität wichtiger ist als das Prinzip (ebenfalls oft schwer einzusehen).
Und um die Empirie noch etwas weitergehender zu verteidigen: Der Auslöser dieser Diskusion war ja (im Wesentlichen) die Beobachtung, dass es in der Praxis Probleme mit dem Status Quo gibt.
Selbst wenn man nur das Gefühl hätte, dieses System wäre objektiver, würde man Diskussionen a´ la “Wir sind nur nicht gebreackt weil Juror X uns in Runde Y so wenig Speaks gegeben hat” vermeiden.
Ich habe nochmal über den Fall von signifikanten Abweichungen, jedoch ohne erkennbare Tendenzen (sprich es mag bei einzelnen Turnieren durchaus einen Einfluss haben aber es ist nicht klar, weil nicht vergleichbar, ob es sich über mehrere Turniere rausmitteln würde oder Zusammenhänge gibt), nachgedacht. Mir ist bewusst, dass bei empirischen Daten die Interpetation der Flaschenhals ist und das sind auch noch ein paar Gedankengänge:
In diesem Fall wäre es natürlich noch möglich, dass beide System auf ihre Art und Weise, jedoch sehr unterschiedlich, funktionieren. Folgendes halte ich jedoch für wahrscheinlicher:
Wenn man keine Zusammenhänge feststellen kann, liegt es oft daran, dass es andere Variablen gibt, die stärker schwanken. Die eigentliche Messung geht sozusagen im “Rauschen” / der Unsicherheit unter.
Ich habe schon öfter darüber nachgedacht, warum es in BP deutlich häufiger als in OPD vorkommt, dass Teams unerwartet breaken, sprich dass erfahrene Teams weiter hinten im Tab landen als man denkt. Dafür mag es verschiedene Gründe geben: Dass die letzte Runde (oder vllt die letzten beiden) im Wesentlichen das Turnier entscheiden, zumindest wenn man keine übergroße Zahl an Runden hat. Dass es bei BP stärker auf die Argumente bei einem einzelnen Thema ankommt und man damit auch mal gute Teams schlagen kann, wenn man sich auskennt. Diese können dann nicht auf ihre gewohnten Punkte von links bauen. Dass man Glück / Pech haben kann, ob man – insbesondere in den letzten Runden – hinter einem (in dieser Runde) starken / schwachen Teams gesetzt wird.
Letztlich ist die genaue Begründung auch egal, das Ziel meiner Argumentation ist folgendes: BP ist sowieso deutlich stärker abhängig von anderen Schwankungen. Akzeptiert man dies, wäre der Break nach Rednerpunkten letztlich sowieso weniger aussagekräftig im Sinne, dass er eben nur neben diese gegebenen Schwankungen einen kleinen Einfluss hat (und man halt irgendwie eine Entscheidung treffen muss).
Damit hätten wir einen Indikator, dass wir letztlich mehr Zufall in der Realität akzeptieren müssten (der sich über viele Turnier natürlich wieder rausmittelt und deshalb akzeptabel klingt) und man sich darauf konzentrieten könnte, was die angenehmste und praktikabelste Lösung wäre. Dies wäre in erster Linie vermutlich Losen. Da dies bei Leuten jedoch das Gefühl von Willkür verstärken würde, wäre die Bucholzmethode ein guter Kompromis. Implementiert in das Tabprogramm ist sie überhaupt kein Aufwand, erspart Diskussionen, erleichtert neuen Juroren den Einstieg (man hätte z.B. auch Zeit die Jurorendiskussion auszudehnen) und hat immer noch den Versuch gewahrt, zumindest so viel Objektivität wie möglich rein zu bringen.
Problematisch wäre dann natürlich das fehlende Einzelrednertab, außerdem ist mir bewusst, dass das erstmal Spekulationen waren 😉
Die Idee der Buchholz-Wertung ist letzendlich Teams dafür zu belohnen, dass sie gegen stärkere Teams angetreten sind. Dabei wird für die Bewertung der Durchschnitt der Gesamtpunkte der gegnerischen Teams berechnet. Damit diese Idee sinnvoll ist, muss angenommen werden, dass die Stärke eines Teams über alle Debatten einigermaßen gleich bleibt. Jeder, der mal müde, verkatert oder schlecht gelaunt debattiert hat oder in der falschen Fraktion bei einem “lastigen” Thema war weiß, dass dies nicht unbedingt wahr ist. Die Lotterie des Anfangs, die Toni schon angesprochen hat, lässt sich zusätzlich nur durch eine höhere Anzahl an Vorrunden ausgleichen.
Dass man die Stärke eines Raumes erst im Nachhinein mit den Gesamtpunkten misst, finde ich allerdings seltsam. Warum quantifiziert man nicht die Stärke eines Raumes mit den Teampunkten vor Beginn der Debatte? Teams, die sich bis dahin als stark erwiesen haben, kontribuieren zu einer höheren Wertung; wenn sie aber danach nur Mist bauen, werden ihre Gegner der vorherigen Runden nicht dafür bestraft. Vor Runde 1 haben alle Teams 0 Punkte, es macht also keinen Unterschied, ob man gegen Oxford, Tel Aviv oder Binroomshausen verliert.
In Christians Beispiel hätte Team A eine Wertung von 1,16=0+0+0+2+3+2, welche sich aus der Bepunktung von Teams B, C und D vor Runde 1 und B, E, F vor Runde 2 ergibt. Team B hätte 1,33, Team E 1,16 und Team G 0,16. Wir haben immernoch höhere Wertungen für die Topraum-Teams, aber ohne die Anfangslotterie. Falls Team A vor Runde 3 jede Menge Glühwein schluckt, müssen sich B und E nicht ärgern, weil ihre Wertung nicht mehr darunter leidet.
Wenn man so eine Wertung als Pattbrecher einführt kann man auch gerne die Rednerpunkte behalten, das Tabbing während des Turniers wird dadurch praktisch nicht beeinflusst. Das Programm müsste aber etwas geändert werden.
Problematisch an der Buchholz-Wertung scheint mir, dass es zumindest theoretisch die Möglichkeit für Absprachen zum strategischen Verlieren gibt: Team 1 sieht seinen Break durch Team 2 gefährdet und bittet Team 3 (vielleicht vom gleichen Club oder Bekannte), das zuvor gegen Team 2 verloren hat und sowieso nicht breaken wird, in den nächsten Runden absichtlich zu verlieren. Damit sinkt die Buchholz-Wertung von Team 2 und Team 1 kann sich eventuell einen Vorteil verschaffen.
herzlichen Dank für Deinen hervorragenden Artikel. Die Idee, die Du vorträgst scheint mir eines der Kernprobleme im Turniergebrauch von BPS zu lösen.
Zur Erinnerung für diejenigen, die mit der ursprünglichen OPD-BPS-Argumentation nicht mehr vertraut sind: Das BPS-Powerpairing-Problem war einer der Hauptauslöser, warum wir uns in den Gründungsjahren für ein streng absolutes Bewertungssystem für OPD entschieden haben. Das Problem wie wir (Ansgar, Bernd und ich) es sahen (und das – soweit ich es sagen kann – im gleichen Maße fortbesteht), ist das folgende: Powerpairing in BPS führt dazu, dass die natürliche und zu erwartende Korrelation zwischen durchschnittlicher Teamstärke und Turniererfolg maßgeblich reduziert wird. Aber wie misst man so etwas? Natürlich waren wir uns bewusst, dass der Eindruck, dass insbesondere das Powerpairing der letzten Runden auf BPS-Turnieren ein Favoritenkiller ist (genzugenommen kein Favoritenkiller, sondern ein 3./4. und 8.-besten-Killer, aber das macht es nicht besser) zunächst einmal nur ein subjektiv-anekdotischer sein könnte. Deshalb haben wir uns 2001 mal einige – sehr nerdige – Nachmittage um die Ohren geschlagen und ein umfangreiches elektronisches Experiment programmiert. In Kürze die Daten dafür: Wir haben eine Gruppe von einigen dutzend hypothetischer Turnierteams programmiert und diesen eine hypothetische Durchschnittsstärke zugeschrieben. Um die in den Kommentaren bereits mehrfach richtigerweise genannte Turniervarianz (verkatert, keine Ahnung vom Thema, Liebeskummer, schlechter Tag) zu berücksichtigen, haben wir jedes Team dann mit einer Zufallsabweichung von zwischen +/-10% und +/-20% versehen. Dann haben wir die Teams nach geltenden BPS-Break-Regeln in 150.000 Turnieren unterschiedlicher Größe, unterschiedlicher Varianz und unterschiedlicher Rundenzahl gegeneinander antreten lassen (Bernd’s State of the Art Rechner von 2001 hat dafür einen Nachmittag gebraucht! Bernd war im übrigen auch die treibende Kompetenz in Excel-Programmierung, die wir dafür gebraucht haben). Das Ergebnis (und wir haben das Experiment in unterschiedlichen Varianten wiederholt und verifiziert) hat uns in einer Hinsicht bestätigt und in der anderen überrascht. Die Bestätigung kam in Form der erwarteten statistisch signifikanten Abweichung von Teamstärke (inkl. Tagesform) und Turniererfolg – zwischen 15% und 30% (!), der Teams, die nach ihrer durchschnittlichen Turnierstärke hätten breaken sollen, haben das in unseren 150.000 Turnieren nicht getan. Die Überraschung kam in Form der mangelnden Korrelation zwischen Abweichung und Rundenzahl: Während größere Turniere erwartungsgemäß eine geringere (aber immer noch signifikante) Abweichung vom Idealergebnis hatten, war dies für Turnieren mit einer erhöhten Rundenzahl nicht der Fall. Wie dieses Phänomen zu erklären ist, ist mir bis heute nicht klar (aber so ist es eben machmal mit Experimenten).
Um das ganz klar zu machen: Die 15-30% Abweichung entsteht zusätzlich (!) zu Jurorenvarianzen (dieses Problem teilen absolute und relative Bewertungssysteme in einer relativen Disziplin wie Debatte und Rhetorik) nur durch das Tab-System. Mit dem absoluten Bewertungssystem konnten wir diesen Fehler beheben (auf die Frage, wer innerhalb der verbleibenden Herausforderungen wie Jurenschulung, -eichung, -setzung etc etc zwischen BPS und OPD die Nase vorn hat, will ich hier nicht eingehen – wenngleich ich da offensichtlich einen persönlichen Verdacht habe). Wenn BPS nun innerhalb des relativen Systems auf die Schachwertung umschwenken würde, scheint mir das ein riesiges Potenzial zur Behebung dieses Problems zu haben – was ein großer Fortschritt im deutschsprachigen Turnierwesen wäre. Das wäre hervorragend!
(NB: Damit würde OPD in einer Hinsicht ein gewichtiges Argument in der Welches-Format-ist-besser-Debatte verlieren – aber das scheint mir ein sehr kleiner Verlust in Anbetracht der Verbesserung der Turnierszene und in Kenntnis der vielen anderen Argumente die noch verbleiben – und ausserdem sind die “Formatkriege” ja nun auch schon viele Jahre vorbei! 😉 )
Zwei Anmerkungen jedoch noch dazu:
1) Für die, die sich fragen, wie man denn nun errechnen könnte, was das bessere System ist: Ja, natürlich, die Abweichung zwischen Einzelrednerpunkten und Schachbewertung ist für sich betrachtet wertlos. Spannend wäre hingegen eine Neuauflagen unserer 2001 Experimente mit der riesigen Datenmenge vergangener Turniere und unter Einbeziehung der beiden Alternativen (Buchholtz-Tiebreak und Einzelrednerpunkte-Tiebreak). Das Ergebnis dieser Rechnung wäre tatsächlich signifikant (und falls es jemand macht, wäre ich sehr auf das Ergebnis gespannt)!
2) Der beiden Alternativen? Vielleicht sollten wir eher von drei Alternativen ausgehen, von denen die dritte (soweit ich sehen kann – 36 Kommentare sind eine Menge Lesestoff) m.E. noch nicht erwähnt ist. Christian, Du präsentierst die Buchholtzwertung nur als Alternative zum Tiebreak – wäre es nicht noch konsequenter einen Rundenmultiplikator der Buchholtzwertung als lexikographisches Erstkriterium zu verwenden, d.h. das Teams sich auf Grund ihrer Teampunkte in Relation zur Turnierstärke ihrer Gegner nicht nur gegenüber Teams mit der gleichen Anzahl von Teampunkten, sondern unter bestimmten Konstellation auch gegenüber Teams mit mehr Teampunkten durchsetzen könnten. Mir fehlt im Moment die Zeit, um die daraus entstehenden Ergebnisse detaillierter zu bewerten, aber mir scheint es zu Mindest als Alternative bedenkenswert. (Und wie erwähnt, es scheint mir eine Möglichkeit zu geben, die daraus resultierenden Turnierergebnisse objektiv zu bewerten)
Noch eine kleine Nebenbemerkung zur Eric’s Sorge (Kommentar 36): Gegen diese Art von Stallorder ist kein System gefeit – im bestehenden BPS-System könnte ein Team aus dem gleichen Club oder Freundeskreis den die Debatte im gleichen Raum verzerren und selbst in OPD könnte man sich gezielt Argumente oder freundliche Fragen zuschieben. Aber ich glaube nicht, dass wir uns in unserer Szene ersthaft gegen derartig geplante Verzerrungen wappnen müssen – und wenn sie tatsächlich einmal vorkommen sollten, kann ein großen Turnier und eine faire Szene sie glaube ich problemlos abfedern.
In Summe: Tolle Idee – ich hoffe, Ihr probiert sie bald einmal aus!
Hier noch ein paar Antworten zu ein paar eurer Beiträge. Freut mich, dass es bei einigen von euch so gut ankommt!
@ Sabrina (Beitrag 26): Man könnte am Anfang die Rednerpunkte parallel laufen lassen. Ich befürchte allerdings, dass wenn die Rednerpunkte für die Reihenfolge der Teams egal ist, die Juroren (zurecht) noch weniger Zeit und Mühe hineinstecken. Ein Vorteil wäre dann allerdings, dass man die Rednerpunkte beim Feedback verkünden kann.
@ Jonathan (31): Ich sehe keine Probleme damit, dass beim Powerpairing Teams mehrmals gegeneinander antreten. Die jeweiligen Teampunkte werden dann einfach auch mehrmals in die Buchholz-Zahl eingerechnet. Ich glaube nicht, dass beim Schach die Buchholz-Wertung vor allem für den Vergleich von Spielern gedacht ist, die nie gegeneinander gespielt haben. Es zählt immer zuerst die Anzahl der Punkte und die Buchholz-Wertung ist die Feinwertung – unabhängig, ob die Spieler gegeneinander angetreten sind. Ich habe aber selbst noch nie im Verein Schach gespielt – bin also auch kein Experte.
@ Leonardo (35): Dein Vorschlag, nicht die Teampunkte am Ende, sondern die “aktuellen” Teampunkte zu nehmen, unterstellt, dass ein “höherer” Raum immer besser ist als ein “niedrigerer”. Zu dieser Problematik haben Willy und Jonas schon etwas geschrieben. Ich denke die Teampunkte am Ende sind deutlich aussagekräftiger und spiegeln die durchschnittliche Stärke eines Teams gut wider.
@Eric (36): Das ist theoretisch tatsächlich möglich, aber ich denke ohne praktische Relevanz. Die Teams wissen erstens nicht, ob sie am Ende wirklich auf einen Tie-Break angewiesen sind, und sie wissen zweitens noch weniger, welche Teams gleich viele Punkte haben werden. Die relevantere Möglichkeit zu betrügen ist, wie Michael beschreibt, wenn zwei Teams des gleichen Clubs in einer Debatte sind. Dies geht schon im SQ und wird soweit ich weiß vom Tabprogramm nicht versucht zu umgehen.
@Michael: Schön, dass dich dieser Vorschlag für BPS so begeistert! Ich habe es tatsächlich immer als einen Vorteil von BPS empfunden, dass man auch als junges Team bis zum Ende Chancen auf den Break hat. Das sollte auch nicht abgeschafft werden, aber bei Punktegleichstand finde ich es fair dem Team den Vorzug zu geben, das gegen durchschnittlich stärkere Teams angetreten ist.
Ich finde den Vorschlag der Buchholz-Wertung sehr spannend und begrüßenswert!
Ich möchte allerdings darauf hinweisen, dass Rednerpunkte in BP die individuelle Rednerleistung im Sinne des inhaltlichen Beitrags für die Debatte widerspiegeln. Somit sind Speaks IMMER kohärent zum Teamranking. Zwei Redner die schön geredet haben, aber von einem anderen Team geschlagen werden, können somit offensichtlich nicht besser bewertet werden, als das höher gerankte Team. Ergo kann diese Leistung dann auch nicht soo gut gewesen sein, sonst hätte das Team ja einen besseren Platz erreicht. 🙂
Eine gemeinsame Redner-Skala gibt es übrigens schon länger. Sie findet sich hier http://idebate.org/node/16440 und war auf der letzten BP-DDM bereits offizieller Maßstab.
1. Warum anonym? Das verstößt hier gegen die Regeln.
2. Das Problem ist der Vergleich der Speax über die Räume hinweg.
3. Die Speax bewerten auch nicht völlig konsisten den Beitrag der einzelnen Redner*innen zur Debatte. Ich habe schon oft erlebt, dass der tatsächliche inhaltliche Beitrag zur Debatte in den bewerteten Reden gar nicht sichtbar wurde, weil er in der Vorbereitungszeit lag. Das führte schon mal dazu, dass meine Teampartnerin mir in der Vorbereitungszeit 14 Minuten lang erklärt hat, was wir sagen werden, mein einminütiger Redeanteil aus Verständnisfragen bestand, ich am Ende einfach das gemacht habe, was mir gesagt wurde, und damit bester Redner im Raum – wohlgemerkt vor meiner Teampartnerin (!) geworden bin. Aber dieser Punkt ist nur ein Randpunkt, wichtiger ist 2.
Kurz zum Inhalt: Ich habe die Buchholz-Punkte anders berechnet als im Artikel oben. Ich habe für jeden Raum die Summe der (finalen) Teampunkte ausgerechnet und dann für jedes Team die Summe seiner Raumpunkte genommen. Mein Buchholz-Ranking zählt also die eigenen Teampunkte mit und bildet keinen Durchschnitt – das führt aber zum selben Ranking.
Das ist jetzt nur ein Turnier, aber durchaus schonmal instruktiv:
– Der Break wäre der gleiche gewesen 🙂
– Am oberen und unteren Ende des Tabs sind die Verschiebungen meist nicht so groß, meist im Rahmen von +- 2 Plätzen. Es gibt aber auch Ausreißer: ein Team aus Münster mit 13 Teampunkten wäre mit Buchholz-Wertung 4 Plätze weiter vorne gelandet. Die geringe Varianz an den Enden des Tabs ist plausibel, da hier die Gruppen mit gleichen Teampunkten eher klein sind (hier z.B. 4 Teams mit 14 Teampunkten).
– In der Mitte des Tabs gibt es z.T. riesige Verschiebungen. Den größten Satz hätte hier ein Hamburger Team mit 9 Punkten gemacht, nämlich um 11 Plätze nach vorne.
Ich würde es noch interessant finden, ob die Buchholz-Wertung häufig Punktgleichheit produziert, vor allem in den Regionen, wo der Break liegt. Dafür müsste man eine Simulationsstudie machen, ähnlich wie von Michael beschrieben. Wer hat Lust und kann mit R umgehen?
PS: Das Buchholz-Tab ist nur eine Illustration und ich habe sie nicht so sorgfältig kontrolliert wie ein Chefjuror das tun würde. Wenn ihr Fehler findet, lasst es mich wissen.
ich habe mal einige Simulationen laufen lassen, um zu sehen, wie gut die Buchholz-Punkte wohl in der Praxis funktionieren würden. Erstmal meine Einsichten, unten mehr zum Modell:
– Wie man es dreht und wendet, bei etwa 6% der Turniere wäre der Cut-Off des Breaks zwischen zwei Teams, die sowohl nach Teampunkten als auch nach Buchholz-Punkten gleich wären. Das gilt für Turniere mit DDM-Größe. Bei kleineren Turnieren mit 40 Teams, 5 Runden und Break ins Viertelfinale käme es wohl seltener vor (2,2%), bei Turnieren der WUDC-Größe wären es knapp 8% der Turniere (bei Break ins Achtelfinale). Das würde also durchaus manchmal passieren, wenn auch nicht übermäßig häufig. Ich weiß nicht, ob das mit Speaker-Points häufiger oder seltener vorkommt.
– Die theoretische Trennschärfe der Buchholz-Punkte alleine ist besser als das avisierte Ranking aus (Teampunkte, Buchholz-Punkte). Ziemlich sicher sind Buchholz-Punkte alleine auch besser als Teampunkte + Speaks. Trennschärfe beschreibt dabei, wie gut das Turniertab die Teamstärke abbildet (die in meinem Modell eine explizite Zahl ist). Der Grund dürfte in den Misch-Eigenschaften von Power-Pairing liegen, so wie Michael das weiter oben schon beschrieben hat. Die Kreditrisikomodelle von Banken haben jedenfalls eine bessere Trennschärfe 😉
– Trotzdem: unter Verwendung von Buchholz-Punkten als Tiebreaker würden die Top-Teams in aller Regel alle den Break schaffen. Mit Top-Teams meine ich hier die stärksten 4 Teams bei einem Break von 8, die stärksten 8 Teams bei einem Break von 16 usw. Das System würde also im weitesten Sinne leisten, was wir wollen.
Zum Modell:
Um BPS-Turniere zu modellieren braucht man ein paar Annahmen. In meinem Fall habe ich jedem Team zufällig eine absolute Stärke zugeordnet, normalverteilt um 150 herum (kein Zufall, denn das ist die durchschnittliche Speaker-Punktzahl). In einer Debatte nehme ich an, das jedes Team eine zufällige “Leistung” erbringt, normalverteilt um seine Teamstärke herum. Sortiert nach den Leistungen ergibt sich das Ranking pro Raum. Der Rest ist straight-forward simulation.
Das Modell habe ich ein bisschen anhand der DDM 2014 kalibriert, um normalen Turnierverhältnissen zu entsprechen (zu kalibrieren sind die Standardabweichungen der Normalverteilungen). Da ich nicht viele historische Daten von Turnieren zur Hand hatte, habe ich das Modell nicht sonderlich intensiv gegen die Realität getestet. Mein Gefühl ist allerdings, dass es in sich plausibel ist, plausible Ergebnisse liefert, und dass die meisten Modellveränderungen (z.B. andere Verteilungen als die Normalverteilung) sehr ähnliche Erbgebnisse liefern würden.
Ich kenne kein anderes Modell von BPS-Turnieren außer dem, das Michael angesprochen hat. Von daher dürfte es noch für viele andere Zwecke interessant sein. Es lässt sich damit z.B. zuverlässig klären, wieviele Runden nötig sind, damit sich ein einigermaßen stabiles Ranking herauskristallisiert. Ich habe den Code (geschrieben in R) öffentlich gemacht unter https://github.com/blaubner/tournament-simulation
Gibt es statistische Erkenntnisse zu der Frage, ob die Speaks in höheren Räumen im Schnitt höher sind? Falls nein: Hat jemand Lust, die verdienstvolle Aufgabe zu übernehmen, das zu ermitteln?
Spannend! Danke für den Artikel, Christian!
Eine Rückfrage, bzw. ich glaube dass es mit der Fairness und Objektivität auch nach deinem Modell Probleme gibt (aber vll. weniger als im Status Quo):
“Team E war in der ersten Runde stärker, wurde dann aber im besseren Raum (Raum 1) nur Dritter. Team G war zuerst schwächer, hat dann aber den schlechteren Raum (Raum 2) gewonnen und hat somit ebenfalls 4 Teampunkte.”
Gerade die erste Runde basiert oft auf Zufall, welche Gegner ich habe. Generell davon auszugehen, dass der Top-Room in Runde 2 schwerer ist als ein mittlerer Raum in Runde 2, wage ich zu bezweifeln. Aber generell: Das System hat die Annahme, dass ein höherer Raum automatisch ein “schwierigerer” Raum ist. In der Logik von BPS ist das vollkommen richtig. Dennoch ist die Performance des Raums eine zufällige. Ein mittlerer Raum kann viel besser sein als der Top Room. Gründe dafür können spezifisches Wissen, Zufall, punktuelle Leistungsfähig und ähnliches sein. Rednerpunkte erlauben, diese individuelle Performance wiederzuspiegeln. Dein System sorgt dafür, dass individuelle Leistungen nicht gewürdigt werden. Das ist in mehrere Hinsicht schade. Vll. schreibe ich später nochmal was dazu, warum Rednerpunkte gerade auch in BPS ihren Sinn und Zweck haben.
Danke für den spannenden Artikel, ich finde die Idee prinzipiell gut und finde, wir sollten auch bestehende Formate immer mal wieder neu denken und ausprobieren.
Hier kaufe ich jedoch zwei Prämissen nicht:
1. “Grundvoraussetzung für eine absolute Bewertung ist, dass die Juroren einen gemeinsamen Maßstab teilen. Dies sehe ich bei den BPS-Rednerpunkten nicht erfüllt.” Darauf lässt sich direkt mit dem BP Jurorenleitfaden der DDM 2014, der die derzeitige Kommentierung des Regelwerkes im deutschsprachigen Raum darstellt, antworten: “Der Durchschnitt liegt bei 75 Punkten und wird für eine solide Rede vergeben, in der Stärken und Schwächen sich die Waage halten. […] Eine Punktevergabe unter 55 bzw. über 85 Punkten ist sehr selten …” Damit gibt es einen gemeinsamen Maßstab, der ähnlich wie bei OPD ist, die 75 entspricht also der (früheren) 40.
Aus deiner Prämisse folgt: “Das Niveau der Rednerpunkte unterscheidet sich teilweise stark zwischen den Räumen und Juroren, was für Redner zu nicht nachvollziehbaren Ergebnissen führt.” Und nachdem ich deine Prämisse schon nicht gekauft habe, muss ich aus meiner Erfahrung heraus auch deiner Schlussfolgerung nicht: In den meisten Jurorendiskussionen, in denen ich in letzter Zeit saß lagen, haben wir in der Punktespanne um 1 max 2 Punkten auseinander. Haben also diskutiert, ob es z. B. eine 78 oder 79 ist. Selbst wenn man jetzt annähme, ein BP Punkt entspricht zwei OPD Punkten, sind das Abweichungen, von denen viele OPD-Juroren-Panels nur träumen können. Demnach würde dein Vorwurf der Nicht-Nachvollziehbarkeit ebenso auf OPD-Punkte zutreffen.
Zu deiner Frage, ob Auftreten und Sprachkraft in diese Punkte gehören, möchte ich wieder aus dem BP-Leitfaden zitieren: “Die “linken Kriterien” der OPD-Bewertung (Sprachkraft, Auftreten, Kontaktfähigkeit) werden in BPS nicht gesondert bewertet …” Und das entspricht auch meiner erlebten Jurorenpraxis, in der wir uns bei ausnahmslos jeder Bewertung die Frage gestellt haben: Wer hat den stärkeren Beitrag geleistet. Nie, wer hat den schöner geredet.
Daher, auch wenn ich deine Idee spannend finde, sehe ich dein Problem überhaupt nicht. Die Vorteile, kaufe ich auch nicht mit ein:
– Es wird leichter –> wer empfindet denn die Bepunktung als schwer?
– Endplatzierung ist objektiver –> Kauf ich wegen der fragwürdigen Prämissen nicht
– Team in besseren Räumen haben auch im Status quo i. d. R. mehr Punkte gesammelt, da die Debatten dort oft ein hohen Niveau haben, wodurch auch mehr Rednerpunkte erreicht werden.
– Beim jetzigen Tabben muss man nur addieren, dein Verfahren ist sicher auch machbar, aber ich das es mathematisch leichter ist als nur addieren, wird mir nicht ersichtlich.
Auch wenn ich weder deine Prämisse, noch deine Vorteile, kaufe. Das heißt nicht, dass ich dagegen bin, es einfach mal auszuprobieren!
Ich finde den Vorschlag interessant und es ist unbestritten, dass man über die Rednerpunkte in BP nachdenken muss, da die aktuelle Vergabepraxis häufig doch eher eine Lotterie gleicht und die Einzelredner-Rankings eine wirkliche Aussagekraft vielleicht innerhalb eines Teams haben.
Das vorgeschlagene System hat aber leider den Nachteil, dass wir auch hier wieder (dem System direkt innewohnende) Lotterieelemente einbauen.
Es ist ja besser, in der ersten Runde von Oxford, Monash und Cambridge weggehauen zu werden als von Tel Aviv und Manchester, obwohl ich keinen Einfluss darauf habe, wer mich in der ersten Runde weghaut. (Mal angenommen, ich werde in beiden Räumen weggehauen, was aber zumindest bei mir der Fall sein sollte)
Und auch das Springer-Beispiel lässt sich verallgemeinern: Was ist mit Teams, die am ersten Tag extrem gut sind und dann aber auf der Party zu tief (und zu lange) ins Glas schauen? Vielleicht sogar verschlafen? Deren Gegner am ersten Tag sind ja schon genug gestraft, würden dann aber durch die neue Feinwertung zusätzlich auf die Mütze kriegen. Daher würde ich schon sagen, dass es praktisch relevant werden kann, dass Rankings zwischen zwei Teams in Debatten entschieden werden, in denen keines der beiden Teams anwesend ist.
Trotzdem bin ich aber dafür, Alternativen zu den Rednerpunkten auszuprobieren, halte vom Gefühl her das hier vorgeschlagene System für nachvollziehbarer.
Wenn sich viel an der ersten Runde aufhält, wie wäre es diese wegzulassen (also die Einzelrednerbepunktung)?
Btw. auch in OPD ist man vom gegnerischen Team abhängig. Umso besserer dieses ist, umso besser wird die Debatte, umso besser die eigene Punktzahl. Gerade bei guten Teams und kleinen Breaks kann es entscheidend sein, ob 2 der guten Teams in einer Vorrunde aufeinandertreffen.
Daher gilt auch bei OPD das Argument mit dem zu tief ins Glas-Geschaue.
Wo ich dir aber zustimmen muss ist, die Aussagekraft über die Homogenität im Team. Regelmäßig wird der Top of the Tab jemand, der in einem nicht ganz so ausgeglichenem Team ist.
P. S. Toni. ich hab dich beim Potsdam Punk vermisst ;-).
Und @Robert: Woher kommen denn die niedrigen Abweichungen bei BP-Jurierungen? Häufig hat man gerade 13 Minuten über das Ranking geredet, sich mühevoll geneinigt und dann redet man “mal kurz noch” über Rednerpunkte. Dann schlägt entweder der Chair Punkte vor und alle nicken bedächtig oder der Chair schlägt wen anders vor, der Punkte vorschlägt und dan die grobe Richtung dann meist stimmt (man hat ja lange genug über die Teams geredet), geht man vielleicht noch einen Punkt hoch oder runter. Zusätzlich wird die Skala meist noch weniger ausgeschöpft als in OPD.
Naja Toni, die Analyse stimmt nur so halb. Da die Rednerpunkte den individuellen Beitrag zur Debatte widerspiegeln und man in den 13 Minuten schon alle Seiten genau nach diesem Beitrag abgeklopft und verglichen hat, hat man implizit bereits 13 Minuten über die Rednerpunkte gesprochen.
So kam es am Wochenende vor, dass ein Team in einer Debatte weit vorne lag (Erster oder Zweiter), aber nur aufgrund des Beitrages einer der beiden Redners und der zweite Part keinen Beitrag mehr geleistet hat. Dies ist bereits während der Jurorenbesprechung klar geworden und daraus hat sich dann etwa eine relative hohe Punktespanne zwischen diesen beiden Rednern ergeben. Aber die Entscheidung hierfür ist nicht in den 2 Minuten gefallen, sondern stand längst in der Besprechung vorher im Raum.
Das mit der Punkteskala verstehe ich, ich glaube, das rührt auch daher, dass 1 Punkt in BP mehr wert ist als einer in OPD. Dafür kann ich tatsächlich gerade nur auf ein Gefühl verweisen, aber: Ich denke, 80 BP-Punkten entspricht ungefähr 50 OPD Punkten, da nun 75 der Durchschnitt sind und das angeblich 40 bei OPD (mal waren) sind. Würde das eine Umrechnung von 2 zu 1 entsprechen. Das Bild hinkt jedoch nach unten, da dann eine 70 eine 30 wäre und das empfinde ich nicht so: Daher stimme ich dir zu, die Skala könnte man ein bisschen mehr (gerade nach oben) ausreizen.
Einzelrednerpunkte sind in BP nur für die knapp (nicht) breakenden Teams relevant, also für das Turnier fast völlig irrelevant. Was spricht dagegen, das Los über die Feinwertung entscheiden zu lassen? (Und vielleicht ist der Status Quo ja eine Art Los.)
Iiiieh! Losglück!! Pfui 🙂
Danke für eure Anmerkungen!
@Willy: Das System geht nicht davon aus, dass ein “höherer” Raum immer besser ist. Gezählt wird nur, wie viele Punkte die im Raum debattierenden Teams am Ende der Vorrunde haben. Du beschreibst den Fall, dass in der zweiten Runde durch Zufall der Top-Raum aus Teams bestehen kann, die eigentlich nur Durchschnitt sind. Das wäre überhaupt kein Problem, wenn diese Teams nach 3-5 Vorrunden nur durchschnittliche Teampunkte haben. Außerdem gehst du darauf ein, dass die Leistung der Teams durch Zufall und individuelles Wissen, von Runde zu Runde variieren kann. Ich glaube, dass dieser Effekt nicht sehr groß ist und die Teampunkte am Ende recht gut die tatsächliche Stärke eines Teams widerspiegeln.
@Robert: Ich habe tatsächlich andere Erfahrungen gemacht. Zum einen unterscheidet sich das Niveau der Jurierung deutlich stärker als bei OPD, zum anderen kommt es manchmal vor, dass man die Punkte, die die Rede eigentlich verdient hat, nicht geben kann, weil es sonst mit dem Endergebnis nicht hinkommt. Dass 75 Punkte als Durchschnitt angegeben sind, reicht bei weitem nicht aus um tatsächlich einen Maßstab zu definieren. Das sieht man schon alleine daran, dass bei OPD im Durchschnitt deutlich über dem “Durchschnitt” (40) bepunktet wird, während bei BP die Punkte im Durchschnitt deutlich unter dem “Durchschnitt” (75) sind. Wenn du weiter sagst, dass das gleiche Team in besseren Räumen höhere Punkte bekommt, ist das schon ein Zeichen, dass die absolute Bewertungsskala nicht funktioniert.
@ Toni: Wenn die Redner eines Teams wechseln (Krankheit oder verschiedene Springer) muss man eine Sonderregelung finden. Ansonsten sollte die Stärke eines Teams relativ konstant sein. Die Teams, die länger auf der Party bleiben, können das typischerweise auch gut wegstecken 🙂
Barbara S. hat mich netterweise noch auf einen weiteren Vorteil hingewiesen: Das Hochziehen von Teams in einen höheren Raum, wird durch diese Regelung auch besser ausgeglichen.
@Robert: Natürlich findet ein Teil dieser Analyse auch schon in der Besprechung des Rankings statt. Es wird also allgemein Konsens sein, dass eine relativ hohe Punktespanne zwischen diesen Rednern bestehen sollte. Die Quantifizierung dieser Punktespanne wird aber nirgendwo vorher besprochen. Und auch die Frage, wo wir absolut die Debatte einordnen, spielte bisher kaum eine Rolle. Und so hat jeder ein ungefähres Gefühl, wo die Debatte liegt und wenn dann jemand eine ungefähr passende Punktzahl vorschlägt, ist man doch stark dazu verleitet einfach nur “ja, passt” zu sagen, weil man ja (im Gegensatz zu OPD) nie aufgefordert wurde, vorher sein Gefühl in eine Zahl zu gießen.
Ich stimme Christian zu, dass Rednerpunkte in BPS tendenziell weniger gut geeicht vergeben werden als in OPD, nicht zuletzt aus den von Christian angeführten Gründen. Ich stimme auch Toni zu, dass es in der Punktevergabe häufig zu der schnellen Einigung auf den Vorschlag des Chairs kommt. Die Rednerpunkte deswegen gleich gänzlich abzuschaffen, finde ich trotzdem ein bisschen drastisch.
Trotzdem scheint mir, dass Christians Vorschlag zwei weitere Probleme adressiert, die ich durchaus im Status Quo sehe:
1. Die Bindung der Rednersumme an die Reihenfolge der Platzierung erlaubt tatsächlich nur eine eingeschränkte Differenzierung der Rednerleistung in einem sehr heterogenen Team. Wenn einer der Redner sehr gut ist, der andere aber drastische Fehler macht, die dazu führen, dass das Team weiter hinten landet und er auch generell “nicht gut” redet, habe ich es schon öfter erlebt, dass “Kompromisse” gemacht werden, wie dies noch angemessen in der Bepunktung dargestellt werden kann. Eine krasse Abwertung des “schwächeren” Redners in diesem Team kann schnell zu einer Benachteiligung gegenüber einem anderen Team im Raum führen, das solide gearbeitet hat, aber dafür dennoch keine allzu hohen Rednerpunkte erhält und daher objektiv nicht *so* viel besser war als der zu bepunktende schwächere Redner. Die Verknüpfung des absoluten Maßstabs für eine Einzelleistung mit der maßgeblichen relativen Platzierung nach der durchschnittlichen Teamleistung kann hier tatsächlich zu Problemen führen.
2. Mir scheint, dass der Vorschlag einen besseren Ausgleich für “hochgezogene” Teams schafft: Sie haben zwar etwas schlechtere Chancen, zu gewinnen, erhalten aber immerhin einen klar bestimmbaren “Bonus” über diese Buchholz-Wertung. Dies finde ich deshalb eine Verbesserung, weil ich den Eindruck habe, dass es aktuell eine Art “inoffizielle” Form dieses Bonusses gibt, der aber jurorabhängig ist. Erfahrungsgemäß sind Rednerpunkte in besseren Räumen höher als in mittleren. Im Regelfall ist dies natürlich (hoffentlich) darin begründet, dass die Debatte besser verlief. Man müsste aber vielleicht einmal untersuchen, ob es nicht tatsächlich etwas wie die u.a. aus der Verhaltensökonomie bekannten “Ankereffekte” in der Jurierung gibt. Ein solcher Ankereffekt würde sich so auswirken, dass es insgesamt im Raum zu besseren Ergebnissen führt, wenn durch den Chair für das beste Team bereits hohe Punkte (im Sinne einer 79-82+) vorgeschlagen wurden. Das z.B. drittplatzierte Team könnte hierdurch insgesamt bessere Punkte bekommen als es für die identische Leistung in einem Raum bekommen hätte, wo der obere “Anker” niedriger war. Dies würde dann auch zumindest teilweise gegen das von Willy vorgebrachte Argument sprechen, da nicht gesichert wäre, dass die Punkte in der objektiv vlt besseren Debatte im mittleren Raum über das Turnier hinweg auch zu besseren Punkten als im Topraum führen.
Insgesamt spricht daher aus meiner Sicht wenig dagegen, das System vielleicht einfach mal parallel auszuprobieren und zu schauen, ob es zu Abweichungen gegenüber der Reihenfolge nach den Rednerpunkten kommt. Wenn die Rednerpunktevergabe tatsächlich so objektiv und absolut funktioniert, wie sie gedacht ist, dürfte das im Mittel über das Turnier ja eigentlich nicht passieren. Falls doch, könnte sich diese Buchholz-Wertung tatsächlich als fairerer “Tie-Break” darstellen. Rednerpunkte könnte ja trotzdem noch vergeben werden, z.B. zur Kürung des Top of the Tab, und zudem als “Tie-Break” dritter Ordnung gelten, falls es nach Teampunkten und Buchholz-Wertung immer noch zu einem Gleichstand kommt. 🙂
Und @Christian (ich sollte echt nicht Kommentare schreiben, weggehen, und dann ohne Aktualisierung abschicken): Es gibt massig Gründe, warum die Leistung eines Teams nicht konstant sein muss. Das kann Kater sein, das kann Frust sein (ein Team fährt mit dem Anspruch zu breaken hin, hat darauf nach den offenen Runden keine wirklich Chance mehr und schenkt die ausstehenden Runden her) usw.
@Christian: was meinst du konkret mit “Zum einen unterscheidet sich das Niveau der Jurierung deutlich stärker als bei OPD”?
Ein Artikel im Monash Debate Review zu dem Thema: http://mdr.monashdebaters.com/volume-11-2013/abolish-speaker-tabs/
@ Philip: Ich meine, dass wenn die gleiche Rede in unterschiedlichen Räumen von unterschiedlichen Juroren bewertet werden würde, die Unterschiede bei den BPS-Rednerpunkten größer wären.
@ Konrad, danke für den Artikel!
Sehr guter Artikel und volle Zustimmung zu dem vorgeschlagenen System. Jeder der regelmäßig BP juriert weiß wie Rednerpunkte im Normalfall gemacht werden. Der Chair schlägt in den letzten Minuten Punkte für das erste Team vor, man einigt sich und dann geht man nach unten runter. Und zwar zwangsläufig weil die Team und Rednerpunkte ja zusammenpassen müssen. Wieso landen die meisten ersten Teams zwischen 77-79? Ganz einfach, Bei dieser Punkthöhe tut man niemandem weh, hat nach unten Spielraum und ist sich als Chair auch sicher dass man das Tab nicht verzerrt. Da man die Speaks ja auch nicht erklären muss und sie zumeist unter Zeitdruck ohne klare Kriterien zustande kommen ist man als Juror bei dieser Punkthöhe fein raus. Niemand kann sich beschweren und man kann auch zweitem und drittem Team noch nette Punkte geben. Will ich als Juror jedoch dich Doppel-81 geben kann ich mich auf anstrengende Diskussionen mit den Co-Juroren einstellen, Selbiges gilt übrigens zumeist auch für die Doppel-65… Und da ja allgemein bekannt ist dass Speaks nicht so richtig relevant sind und man nicht viel Zeit hat gibt es hier ein klares Incentive für Juroren in diesem sehr eng zusammenliegenden Bereich zu bleiben. Und die Rechtfertigung muss man wenn überhaupt erst auf der Party geben wenn überhaupt jemand kommt um spezifisch nach den Speaks aus VR3 oder so zu fragen. Sprich ein systemische Anreiz für schlechtes Jurieren in Form von unreflektierter unangemessener Punktevergabe. Daher bin ich ausserordentlich erfreut über diesen Vorschlag weil er es schafft den relativen Ansatz von BP zu komplettieren.
Sehr spannender Ansatz. Gefällt mir gut. Die Springerproblematik müsste man aber tatsächlich lösen und so ganz trivial erscheint mir das aktuell nicht. Trotzdem könnte das System der bessere “Breakentscheider” sein.
Was man sich fragen muss ist, ob man nicht gerne ein Einzelrednertab haben möchte. Mir gefällt daher Barbaras Gedanke gar nicht schlecht, einfach alles zu machen. Alternativ, als spontaner undurchdachter Gedankenerguss: Rednerpunkte in jedem Raum auch relativ vergeben (0P.-7P.). Problem: Es gibt kein Rednerpowerpairing, daher wird das was dabei rauskommt Unfug sein. Eventuelle Lösung: Die Buchholzwertung für jeden Raum als Gewichtungsfaktor an die jeweilige Punktzahl multiplizieren. Nur so ne Idee…
Also ich hab mir einfach mal kurz den Wikipedia Artikel zur Buchholz-Wertung gegeben, da stehen übrigens noch ein paar mehr Nachteile drin, als hier in dem Artikel genannt, aber egal.
1. Wenn ich das richtig sehe zählen in die Werte nur die Punkte rein, die die Teams im Raum am Ende des Raumes haben. Wieso nimmt man nicht die Punkte am Ende des Turniers? Das sollte wesentlich zuverlässiger sein, weil sich die Varianz über die Anzahl der Runden eher rausmittelt.
2. Man könnte, wie im Schach, die beiden Teams mit den wenigsten Punkten rausnehmen. Dadurch lässt sich z.B. der Effekt, dass man in der ersten Runde zufällig mit zwei grottenschlechten Teams im Raum ist, während ein anderer zwei schlechte Teams im Raum hat minimieren.
Grundsätzlich könnten die Vorteile die Nachteile überwiegen, wenn du voraussetzt, dass grundsätzlich höherpunktige Räume schwerer zu gewinnen sind. Ich glaube aber, dass das eine Fiktion ist. Vor allem auf Turnieren mit wenigen Räumen werden z.B. durch PowerPairing Teams hochgespült die eigentlich nicht in eine höher bepunktete Debatte “gehören”. Alternativ kann aufgrund eines schweren Themas die Debatte im Vorraum ziemlich messy geworden sein oder ein Team hatte in einer Runde einen Aussetzer.
Die Speaker Points messen eben genau die Leistung der Teams in der einzelnen Debatte. D.h. es wird ein leistungsbezogener Unterschied bezogen auf die Leistung des einzelnen Teams gemacht.
Bei der Buchholz Wertung hingegen werden Teams dafür belohnt, dass ihre Gegner im Turnierverlauf viele Punkte gesammelt haben.
Ich finde, wenn man den Juroren zutraut einigermaßen (über den Daumen gepeilt) die Qualität der Debatte einzuschätzen, dann ist der auf die Leistung des einzelnen Debattenteams bezogene Unterschied der Bessere.
Wäre aber interessant mal die Buchholz Wertung zusätzlich auf der nächsten ZD zu testen, wenn wir ein Tab haben, dass zeigt, was sich in der Realität ändern würde gewinnt die Debatte mit Sicherheit wesentlich mehr Realitätsnähe.
Spannendes Thema! Kurze Frage: Was spricht dagegen es an vergangenen Turnieren durchzurechnen (bzw im Idealfall automatisiert zu lassen)? Wenn man es (parallel) anwenden will wäre sowohl der Aufwand als auch der Erkenntnisgewinn der gleiche ohne die Einschränkung der Wartezeit und der begrenzten Datenmenge
Im Übrigen stimme ich der Analyse zu, dass BP-Punkte – gerade wenn man noch nicht so vor Erfahrung strotz – schwerer zu vergeben sind. Ein glaube ich noch nicht genannter Punkt ist, dass zumindest meiner Erfahrung nach bei Clubdebatten oft keine Speaks vergeben werden, sprich ich komme damit mehr oder weniger zum ersten Mal auf einem Turnier in Berührung und habe auch danach quantitativ deutlich weniger Möglichkeiten einen Erfshrungsschatz zum Abgleich aufzubauen.
@Benedikt: Solange jemand die Daten noch hat sollte das kein Problem sein. Im Tab findeste ja die einzelnen Rundenergebnisse nicht. Also muss da der ein oder andere Tabmaster mal ran.
@Jonas: Siehe meine Antwort auf Willys Frage. Es sollen, wie von dir vorgeschlagen, die Punkte am Ende der Vorrunde. In der Theorie können Rednerpunkte tatsächlich die individuelle Leistung besser widerspiegeln. In der Praxis ist das aber aus verschiedenen Gründen nicht der Fall. Mir erscheint es daher am sinnvollsten diesen Versuch erst gar nicht zu unternehmen und die Teams nur relativ zueinander zu bewerten.
@ Benedikt: Daran, dass nachträglich auszurechnen habe ich auch schon gedacht. Wenn man Daten hat, wer in welchem Raum war, sollte das recht fix gehen.
Ich finde den Vorschlag, die Speakerpoints abzuschaffen sehr gut. Deren Schwächen wurden hier bereits deutlich gemacht. Gleichzeitig finde ich auch Christians Alternativvorschlag sehr gelungen, denn er passt nach meinem Gefühl her deutlich besser zum BPS-System der relativen Bewertung.
Einziger Nachteil wäre der Verlust der Einzelrednerwertung, wobei ich mir da nicht mal sicher wäre, ob das ein so großer Nachteil wäre. Klar, für die DDL-Wertung wäre es irgendwie doof, aber sonst gibt es aus meiner Sicht nicht wirklich einen besonderen Nachteil…und immerin würde dadurch der Teamgedanke gestärkt, das wäre doch auch was schönes 😉 Und wenn man wirklich unbedingt eine Einzelrednerwertung braucht, könnte man ja wirklich mal die Idee von Peter mit der relativen Raumbepunktung in Kombination mit der Buchholzwertung ausprobieren. Der Weisheit letzter Schluss wird auch das nicht sein, aber so ein relatives Modell kommt dem Gedanken von BPS meiner Ansicht nach näher als das aktuelle Punktesystem. Oder man vergibt eben doch für die Einzelrednerwertung die Speaks, das nimmt aktuell ja selten mehr als eine Minute innerhalb der Jurierzeit ein (was schon einiges über den Wert sagt). Mir ist die Einzelwertung echt egal, aber für die Teamwertung halte ich Christians Vorschlag für sehr gut!
Eins noch zur Überprüfung: ich bin nicht ganz sicher, was uns eine Überprüfung bringt, ob bei den verschiedenen Varianten unterschiedliche Ergebnisse heraus kommen. Wenn es aufs gleiche heraus kommt, wissen wir nicht, welches System das bessere ist (um heraus zu finden, ob das gleiche Ergebnis ein einmaliger Zufall ist, müsste man wohl sehr viele Turniere testen). Wenn es Unterschiede gibt, wissen wir auch nicht welches System das bessere ist, denn dann haben wir einfach erst mal unterschiedliche Ergebnisse. Oder kann mir hier jemand weiter helfen, der mehr Ahnung von Statistik und Empirie hat als ein diesbezüglich unwissender Jurist wie ich?
Nicolas, bei der BP-Bepunktung sollte natürlich nicht unbedingt mit dem ersten Team begonnen und dann heruntergegangen werden, und man sollte dabei weder einbeziehen, wem man mit seinen Punkten möglicherweise wehtut, noch ob man das Tab verzerrt. Wenn das die Gründe sind, weshalb auf deutschsprachigen BP-Turnieren meist nur so knauserige Punkte <80 vergeben werden, erschreckt mich das, aber dann sind das immerhin Ansätze, die Lage zu verbessern. Denn gute deutschsprachige Redner*innen sind nicht alle schlechter als britische Studierende im zweiten Jahr, die schon mal 80+ kriegen. Bessere Punkte und eine größere Spanne schaffen auch mehr Differenzierung und können sehr motivierend wirken. Also mehr Mut zu höheren (und tieferen) BP-Punkten!
Eine kurze Frage: wie würde in einem solchen Fall mit der DDL-Einzelrednerbepunktung umgegangen werden? Gibt es dazu schon Ideen?
@Sabrina: entweder die Speaks trotzdem vergeben, allein für die Einzelwertung, oder man probiert dazu mal den Vorschlag von Peter aus (s. Post 18)
@Christian: Ich bin auch davon ausgegangen, es an mehr als einem Turnier zu testen. Man würde halt erstens schonmal erkennen, ob die Abweichungen groß oder klein sind. Damit würde einhergehen, dass bei kleinen Abweichungen das “Risiko” bei einer Änderung gering ist. Bei großen Abweichungen wäre es zum Beispiel ein Indikator, dass die oben beschriebenen Effekte zutreffen: Sind die Speaks wirklich recht willkürlich, müsste es bei Einfüjring eines Systems ja Änderungen geben.
Ob man noch weitere Muster erkennt (Aufwertung der ersten Runde etc.) hängt dann vermutlich stark von der Datenmenge und wie viel Aufwand man in Analyse stecken will.
Nun ja, wenn wir große Unterschiede zwischen dem Speakssystem und der anderen Variante fest stellen, heißt das ja noch nicht, dass die Speaks willkürlich vergeben waren etc. Ich denke, das wären dann einfach unterschiedliche Ergebnisse und wir stünden wieder am Anfang, welche Variante wir besser finden. Denn nur weil die Ergebnisse unterschiedlich sind, wissen wir ja noch nicht, welches System das bessere oder gerechtere ist. Ich denke, es ist wirklich eher eine Philosophiefrage: rein relative Bewertung nach Christians Vorschlag oder Beibehaltung der Kombination von relativen und absoluten Maßstäben im SQ.
So wie du, Benedikt, es in deinem Post formulierst, klingt es so, als sei bereits klar, dass Christians Variante gerechte Ergebnisse produziert, während wir das bei den Speaks erst nachmessen müssten. Denn sonst wäre ein Abweichen der Speaks von der neuen Methode ja kein Indikator für willkürliche Jurierung. Wenn wir aber davon ausgehen, dass Christians Variante in jedem Fall gerecht ist, während das bei der Speaksvariante nur möglicherweise (!) der Fall ist, spricht in meinen Augen alles dafür, Christians Vorschlag zu folgen und die Speaks als Kriterium für den Break zu streichen. Aber wie gesagt, ich bin Jurist und kein Statistikexperte 😉
Mir hat sich der Nutzen eines BP-Einzelrednertabs bisher noch nicht erschlossen. Die jeweiligen Teams wissen, wer welchen Beitrag zur eigenen Teamleistung erbracht hat. Alle anderen Teilnehmer können durch das Einzelrednertab in Bezug auf andere Teams vielleicht ihre Neugierde befriedigen, das war es dann aber auch schon mit dem Mehrwert.
Wenn man nun unbedingt ein Hilfsmittel benötigt, um bei Punktgleichheit knappe Breakentscheidungen fällen zu können, könnte man auch auschließlich Teamrednerpunkte vergeben nach dem Muster: Berlin A (154), Jena B (149), ohne auf die differenzierte Leistungen der einzelnen Redner einzugehen.
Mein Alternativvorschlag ohne irgendwelche Einzel- oder Gesamtteampunkte:
Ein objektives Verfahren bestünde darin, bei knappen Breakentscheidungen die Anzahl der Pull-Ups bzw. Pull-Downs der jeweiligen Teams heranzuziehen. Die Anzahl der Pull-Ups wird schon jetzt im Tab angezeigt. So hat Berlin A beispielsweise im Turnierverlauf drei Pull-Ups, Jena B nur zwei. Also musste Berlin A häufiger in den sauren Apfel des stärkeren Raums beißen, weswegen sie breaken dürfen.
Für den Fall von gleichvielen Pull-Ups kann man z.B. noch die Anzahl der gewonnenen Debatten heranziehen. Oder man lost.
(Nach welchen Kriterien das Tab-Programm bisher Pull-Ups zuweist entzieht sich meiner Kenntnis. Sofern dies aufgrund der Gesamtteampunkte erfolgt, könnte man versuchen, ein anderes Kriterium zu finden.)
Außerdem müssten sich alle bei der Tab-Ausgabe nur noch um einen Zettel prügeln. Das spart plattgetretene Füße und Papier.
Ein empirischer Vergleich der Systeme ergibt keinen Sinn. Um das Buchholz-System zu bewerten, muss man abschätzen, wie gut die Endpunktzahl eines Teams als Schätzer für die Stärke dieses Teams in einer bestimmten Vorrunde funktioniert. Um das System der Einzelredner*innenpunkte zu bewerten, muss man abschätzen, wie aussagekräftig die Einzelredner*innenpunkte sind. Zeigt sich, dass Buchholz und Speax ähnliche oder unähnliche Ergebnisse liefern, sagt das über beide Fragen nichts aus.
Eine Frage ist bei mir noch offen: Beim Schweizer System wird, anders als beim Power Pairing, das zweimalige Aufeinandertreffen der Gegner verhindert. Kann ein mehrmaliges Aufeinandertreffen zu Verzerrungen führen, wenn man die Buchholz als Feinwertung in BP verwendet?
Und noch etwas: Die Buchholz-Wertung dient ja im Schweizer System vor Allem dazu, Gegner*innen zu vergleichen, die gleiche Punktzahl haben, aber nie gegeneinander angetreten sind. Ich nehme an, dass das bei normalgroßen Turnieren im Power Pairing nicht vorkommt. Stimmt das?
Ich durchschaue aber noch nicht ganz alle Implikationen dieser Unterschiede zwischen Schweizer System und Power Pairing – vielleicht gibt es auch keine.
Naja als Physiker würde ich sagen, dass man das Experiment auch machen sollte, wenn man der Meinung ist, man weiß was rauskommt – so wurden schon viele Entdeckungen gemacht 😉
Bei Abweichungen wäre zum Beispiel die Frage, ob sie rein zufällig erscheinen (womit ich wieder bei obiger Theorie wäre) oder ob man ein bestimmtes System erkennt. Sei es, dass bestimmte Runden mit besonders “schweren” Themen anders abgebildet werden, weil bei diesen z.B. durch Einzelrednerpunkte besser das Niveau einer einzelnen Debatte abgebildet werden kann. Sei es, dass auffällt, dass die Abweichung besonders groß sind bei Teams mit inhomogenen Speaks. Das lässt sich jetzt natürlich schwer vorhersagen, was man finden könnte, und bedüfte dann zugebenermaßen einer recht großen Datenmenge und Analyse so etwas festzustellen.
Davon abgesehen stimmt es natürlich, dass ich oben davon ausgegangen bin, dass das Buchholzsystem zumindest im gewissen Maße funktioniert. Intuitiv hätte ich jetzt sowieso keinen riesigen Unterschiede vermutet – dann wäre es tatsächlich mehr eine Frage der Philosophie und vor allem der Praktikabilität als Kriterium. Signifikante Unterschiede würden zumindest zeigen, dass es Wert ist, diese Debatte zu führen. Bei (fast) keinen Abweichungen muss man einsehen, dass diese Diskussion zwar theoretisch interessant ist, aber keinen Impact hat und damit – gerade wenn es um BP geht – die Redezeit nicht wert ist (als Debattierer/ meiner Erfahrung nach vielleicht nicht immer leicht) bzw die Praktikablität wichtiger ist als das Prinzip (ebenfalls oft schwer einzusehen).
Und um die Empirie noch etwas weitergehender zu verteidigen: Der Auslöser dieser Diskusion war ja (im Wesentlichen) die Beobachtung, dass es in der Praxis Probleme mit dem Status Quo gibt.
Selbst wenn man nur das Gefühl hätte, dieses System wäre objektiver, würde man Diskussionen a´ la “Wir sind nur nicht gebreackt weil Juror X uns in Runde Y so wenig Speaks gegeben hat” vermeiden.
Ich habe nochmal über den Fall von signifikanten Abweichungen, jedoch ohne erkennbare Tendenzen (sprich es mag bei einzelnen Turnieren durchaus einen Einfluss haben aber es ist nicht klar, weil nicht vergleichbar, ob es sich über mehrere Turniere rausmitteln würde oder Zusammenhänge gibt), nachgedacht. Mir ist bewusst, dass bei empirischen Daten die Interpetation der Flaschenhals ist und das sind auch noch ein paar Gedankengänge:
In diesem Fall wäre es natürlich noch möglich, dass beide System auf ihre Art und Weise, jedoch sehr unterschiedlich, funktionieren. Folgendes halte ich jedoch für wahrscheinlicher:
Wenn man keine Zusammenhänge feststellen kann, liegt es oft daran, dass es andere Variablen gibt, die stärker schwanken. Die eigentliche Messung geht sozusagen im “Rauschen” / der Unsicherheit unter.
Ich habe schon öfter darüber nachgedacht, warum es in BP deutlich häufiger als in OPD vorkommt, dass Teams unerwartet breaken, sprich dass erfahrene Teams weiter hinten im Tab landen als man denkt. Dafür mag es verschiedene Gründe geben: Dass die letzte Runde (oder vllt die letzten beiden) im Wesentlichen das Turnier entscheiden, zumindest wenn man keine übergroße Zahl an Runden hat. Dass es bei BP stärker auf die Argumente bei einem einzelnen Thema ankommt und man damit auch mal gute Teams schlagen kann, wenn man sich auskennt. Diese können dann nicht auf ihre gewohnten Punkte von links bauen. Dass man Glück / Pech haben kann, ob man – insbesondere in den letzten Runden – hinter einem (in dieser Runde) starken / schwachen Teams gesetzt wird.
Letztlich ist die genaue Begründung auch egal, das Ziel meiner Argumentation ist folgendes: BP ist sowieso deutlich stärker abhängig von anderen Schwankungen. Akzeptiert man dies, wäre der Break nach Rednerpunkten letztlich sowieso weniger aussagekräftig im Sinne, dass er eben nur neben diese gegebenen Schwankungen einen kleinen Einfluss hat (und man halt irgendwie eine Entscheidung treffen muss).
Damit hätten wir einen Indikator, dass wir letztlich mehr Zufall in der Realität akzeptieren müssten (der sich über viele Turnier natürlich wieder rausmittelt und deshalb akzeptabel klingt) und man sich darauf konzentrieten könnte, was die angenehmste und praktikabelste Lösung wäre. Dies wäre in erster Linie vermutlich Losen. Da dies bei Leuten jedoch das Gefühl von Willkür verstärken würde, wäre die Bucholzmethode ein guter Kompromis. Implementiert in das Tabprogramm ist sie überhaupt kein Aufwand, erspart Diskussionen, erleichtert neuen Juroren den Einstieg (man hätte z.B. auch Zeit die Jurorendiskussion auszudehnen) und hat immer noch den Versuch gewahrt, zumindest so viel Objektivität wie möglich rein zu bringen.
Problematisch wäre dann natürlich das fehlende Einzelrednertab, außerdem ist mir bewusst, dass das erstmal Spekulationen waren 😉
Die Idee der Buchholz-Wertung ist letzendlich Teams dafür zu belohnen, dass sie gegen stärkere Teams angetreten sind. Dabei wird für die Bewertung der Durchschnitt der Gesamtpunkte der gegnerischen Teams berechnet. Damit diese Idee sinnvoll ist, muss angenommen werden, dass die Stärke eines Teams über alle Debatten einigermaßen gleich bleibt. Jeder, der mal müde, verkatert oder schlecht gelaunt debattiert hat oder in der falschen Fraktion bei einem “lastigen” Thema war weiß, dass dies nicht unbedingt wahr ist. Die Lotterie des Anfangs, die Toni schon angesprochen hat, lässt sich zusätzlich nur durch eine höhere Anzahl an Vorrunden ausgleichen.
Dass man die Stärke eines Raumes erst im Nachhinein mit den Gesamtpunkten misst, finde ich allerdings seltsam. Warum quantifiziert man nicht die Stärke eines Raumes mit den Teampunkten vor Beginn der Debatte? Teams, die sich bis dahin als stark erwiesen haben, kontribuieren zu einer höheren Wertung; wenn sie aber danach nur Mist bauen, werden ihre Gegner der vorherigen Runden nicht dafür bestraft. Vor Runde 1 haben alle Teams 0 Punkte, es macht also keinen Unterschied, ob man gegen Oxford, Tel Aviv oder Binroomshausen verliert.
In Christians Beispiel hätte Team A eine Wertung von 1,16=0+0+0+2+3+2, welche sich aus der Bepunktung von Teams B, C und D vor Runde 1 und B, E, F vor Runde 2 ergibt. Team B hätte 1,33, Team E 1,16 und Team G 0,16. Wir haben immernoch höhere Wertungen für die Topraum-Teams, aber ohne die Anfangslotterie. Falls Team A vor Runde 3 jede Menge Glühwein schluckt, müssen sich B und E nicht ärgern, weil ihre Wertung nicht mehr darunter leidet.
Wenn man so eine Wertung als Pattbrecher einführt kann man auch gerne die Rednerpunkte behalten, das Tabbing während des Turniers wird dadurch praktisch nicht beeinflusst. Das Programm müsste aber etwas geändert werden.
“Just my two cents”
Problematisch an der Buchholz-Wertung scheint mir, dass es zumindest theoretisch die Möglichkeit für Absprachen zum strategischen Verlieren gibt: Team 1 sieht seinen Break durch Team 2 gefährdet und bittet Team 3 (vielleicht vom gleichen Club oder Bekannte), das zuvor gegen Team 2 verloren hat und sowieso nicht breaken wird, in den nächsten Runden absichtlich zu verlieren. Damit sinkt die Buchholz-Wertung von Team 2 und Team 1 kann sich eventuell einen Vorteil verschaffen.
Lieber Christian,
herzlichen Dank für Deinen hervorragenden Artikel. Die Idee, die Du vorträgst scheint mir eines der Kernprobleme im Turniergebrauch von BPS zu lösen.
Zur Erinnerung für diejenigen, die mit der ursprünglichen OPD-BPS-Argumentation nicht mehr vertraut sind: Das BPS-Powerpairing-Problem war einer der Hauptauslöser, warum wir uns in den Gründungsjahren für ein streng absolutes Bewertungssystem für OPD entschieden haben. Das Problem wie wir (Ansgar, Bernd und ich) es sahen (und das – soweit ich es sagen kann – im gleichen Maße fortbesteht), ist das folgende: Powerpairing in BPS führt dazu, dass die natürliche und zu erwartende Korrelation zwischen durchschnittlicher Teamstärke und Turniererfolg maßgeblich reduziert wird. Aber wie misst man so etwas? Natürlich waren wir uns bewusst, dass der Eindruck, dass insbesondere das Powerpairing der letzten Runden auf BPS-Turnieren ein Favoritenkiller ist (genzugenommen kein Favoritenkiller, sondern ein 3./4. und 8.-besten-Killer, aber das macht es nicht besser) zunächst einmal nur ein subjektiv-anekdotischer sein könnte. Deshalb haben wir uns 2001 mal einige – sehr nerdige – Nachmittage um die Ohren geschlagen und ein umfangreiches elektronisches Experiment programmiert. In Kürze die Daten dafür: Wir haben eine Gruppe von einigen dutzend hypothetischer Turnierteams programmiert und diesen eine hypothetische Durchschnittsstärke zugeschrieben. Um die in den Kommentaren bereits mehrfach richtigerweise genannte Turniervarianz (verkatert, keine Ahnung vom Thema, Liebeskummer, schlechter Tag) zu berücksichtigen, haben wir jedes Team dann mit einer Zufallsabweichung von zwischen +/-10% und +/-20% versehen. Dann haben wir die Teams nach geltenden BPS-Break-Regeln in 150.000 Turnieren unterschiedlicher Größe, unterschiedlicher Varianz und unterschiedlicher Rundenzahl gegeneinander antreten lassen (Bernd’s State of the Art Rechner von 2001 hat dafür einen Nachmittag gebraucht! Bernd war im übrigen auch die treibende Kompetenz in Excel-Programmierung, die wir dafür gebraucht haben). Das Ergebnis (und wir haben das Experiment in unterschiedlichen Varianten wiederholt und verifiziert) hat uns in einer Hinsicht bestätigt und in der anderen überrascht. Die Bestätigung kam in Form der erwarteten statistisch signifikanten Abweichung von Teamstärke (inkl. Tagesform) und Turniererfolg – zwischen 15% und 30% (!), der Teams, die nach ihrer durchschnittlichen Turnierstärke hätten breaken sollen, haben das in unseren 150.000 Turnieren nicht getan. Die Überraschung kam in Form der mangelnden Korrelation zwischen Abweichung und Rundenzahl: Während größere Turniere erwartungsgemäß eine geringere (aber immer noch signifikante) Abweichung vom Idealergebnis hatten, war dies für Turnieren mit einer erhöhten Rundenzahl nicht der Fall. Wie dieses Phänomen zu erklären ist, ist mir bis heute nicht klar (aber so ist es eben machmal mit Experimenten).
Um das ganz klar zu machen: Die 15-30% Abweichung entsteht zusätzlich (!) zu Jurorenvarianzen (dieses Problem teilen absolute und relative Bewertungssysteme in einer relativen Disziplin wie Debatte und Rhetorik) nur durch das Tab-System. Mit dem absoluten Bewertungssystem konnten wir diesen Fehler beheben (auf die Frage, wer innerhalb der verbleibenden Herausforderungen wie Jurenschulung, -eichung, -setzung etc etc zwischen BPS und OPD die Nase vorn hat, will ich hier nicht eingehen – wenngleich ich da offensichtlich einen persönlichen Verdacht habe). Wenn BPS nun innerhalb des relativen Systems auf die Schachwertung umschwenken würde, scheint mir das ein riesiges Potenzial zur Behebung dieses Problems zu haben – was ein großer Fortschritt im deutschsprachigen Turnierwesen wäre. Das wäre hervorragend!
(NB: Damit würde OPD in einer Hinsicht ein gewichtiges Argument in der Welches-Format-ist-besser-Debatte verlieren – aber das scheint mir ein sehr kleiner Verlust in Anbetracht der Verbesserung der Turnierszene und in Kenntnis der vielen anderen Argumente die noch verbleiben – und ausserdem sind die “Formatkriege” ja nun auch schon viele Jahre vorbei! 😉 )
Zwei Anmerkungen jedoch noch dazu:
1) Für die, die sich fragen, wie man denn nun errechnen könnte, was das bessere System ist: Ja, natürlich, die Abweichung zwischen Einzelrednerpunkten und Schachbewertung ist für sich betrachtet wertlos. Spannend wäre hingegen eine Neuauflagen unserer 2001 Experimente mit der riesigen Datenmenge vergangener Turniere und unter Einbeziehung der beiden Alternativen (Buchholtz-Tiebreak und Einzelrednerpunkte-Tiebreak). Das Ergebnis dieser Rechnung wäre tatsächlich signifikant (und falls es jemand macht, wäre ich sehr auf das Ergebnis gespannt)!
2) Der beiden Alternativen? Vielleicht sollten wir eher von drei Alternativen ausgehen, von denen die dritte (soweit ich sehen kann – 36 Kommentare sind eine Menge Lesestoff) m.E. noch nicht erwähnt ist. Christian, Du präsentierst die Buchholtzwertung nur als Alternative zum Tiebreak – wäre es nicht noch konsequenter einen Rundenmultiplikator der Buchholtzwertung als lexikographisches Erstkriterium zu verwenden, d.h. das Teams sich auf Grund ihrer Teampunkte in Relation zur Turnierstärke ihrer Gegner nicht nur gegenüber Teams mit der gleichen Anzahl von Teampunkten, sondern unter bestimmten Konstellation auch gegenüber Teams mit mehr Teampunkten durchsetzen könnten. Mir fehlt im Moment die Zeit, um die daraus entstehenden Ergebnisse detaillierter zu bewerten, aber mir scheint es zu Mindest als Alternative bedenkenswert. (Und wie erwähnt, es scheint mir eine Möglichkeit zu geben, die daraus resultierenden Turnierergebnisse objektiv zu bewerten)
Noch eine kleine Nebenbemerkung zur Eric’s Sorge (Kommentar 36): Gegen diese Art von Stallorder ist kein System gefeit – im bestehenden BPS-System könnte ein Team aus dem gleichen Club oder Freundeskreis den die Debatte im gleichen Raum verzerren und selbst in OPD könnte man sich gezielt Argumente oder freundliche Fragen zuschieben. Aber ich glaube nicht, dass wir uns in unserer Szene ersthaft gegen derartig geplante Verzerrungen wappnen müssen – und wenn sie tatsächlich einmal vorkommen sollten, kann ein großen Turnier und eine faire Szene sie glaube ich problemlos abfedern.
In Summe: Tolle Idee – ich hoffe, Ihr probiert sie bald einmal aus!
Michael
Hier noch ein paar Antworten zu ein paar eurer Beiträge. Freut mich, dass es bei einigen von euch so gut ankommt!
@ Sabrina (Beitrag 26): Man könnte am Anfang die Rednerpunkte parallel laufen lassen. Ich befürchte allerdings, dass wenn die Rednerpunkte für die Reihenfolge der Teams egal ist, die Juroren (zurecht) noch weniger Zeit und Mühe hineinstecken. Ein Vorteil wäre dann allerdings, dass man die Rednerpunkte beim Feedback verkünden kann.
@ Jonathan (31): Ich sehe keine Probleme damit, dass beim Powerpairing Teams mehrmals gegeneinander antreten. Die jeweiligen Teampunkte werden dann einfach auch mehrmals in die Buchholz-Zahl eingerechnet. Ich glaube nicht, dass beim Schach die Buchholz-Wertung vor allem für den Vergleich von Spielern gedacht ist, die nie gegeneinander gespielt haben. Es zählt immer zuerst die Anzahl der Punkte und die Buchholz-Wertung ist die Feinwertung – unabhängig, ob die Spieler gegeneinander angetreten sind. Ich habe aber selbst noch nie im Verein Schach gespielt – bin also auch kein Experte.
@ Leonardo (35): Dein Vorschlag, nicht die Teampunkte am Ende, sondern die “aktuellen” Teampunkte zu nehmen, unterstellt, dass ein “höherer” Raum immer besser ist als ein “niedrigerer”. Zu dieser Problematik haben Willy und Jonas schon etwas geschrieben. Ich denke die Teampunkte am Ende sind deutlich aussagekräftiger und spiegeln die durchschnittliche Stärke eines Teams gut wider.
@Eric (36): Das ist theoretisch tatsächlich möglich, aber ich denke ohne praktische Relevanz. Die Teams wissen erstens nicht, ob sie am Ende wirklich auf einen Tie-Break angewiesen sind, und sie wissen zweitens noch weniger, welche Teams gleich viele Punkte haben werden. Die relevantere Möglichkeit zu betrügen ist, wie Michael beschreibt, wenn zwei Teams des gleichen Clubs in einer Debatte sind. Dies geht schon im SQ und wird soweit ich weiß vom Tabprogramm nicht versucht zu umgehen.
@Michael: Schön, dass dich dieser Vorschlag für BPS so begeistert! Ich habe es tatsächlich immer als einen Vorteil von BPS empfunden, dass man auch als junges Team bis zum Ende Chancen auf den Break hat. Das sollte auch nicht abgeschafft werden, aber bei Punktegleichstand finde ich es fair dem Team den Vorzug zu geben, das gegen durchschnittlich stärkere Teams angetreten ist.
Ich finde den Vorschlag der Buchholz-Wertung sehr spannend und begrüßenswert!
Ich möchte allerdings darauf hinweisen, dass Rednerpunkte in BP die individuelle Rednerleistung im Sinne des inhaltlichen Beitrags für die Debatte widerspiegeln. Somit sind Speaks IMMER kohärent zum Teamranking. Zwei Redner die schön geredet haben, aber von einem anderen Team geschlagen werden, können somit offensichtlich nicht besser bewertet werden, als das höher gerankte Team. Ergo kann diese Leistung dann auch nicht soo gut gewesen sein, sonst hätte das Team ja einen besseren Platz erreicht. 🙂
Eine gemeinsame Redner-Skala gibt es übrigens schon länger. Sie findet sich hier http://idebate.org/node/16440 und war auf der letzten BP-DDM bereits offizieller Maßstab.
@ anonymous debater:
1. Warum anonym? Das verstößt hier gegen die Regeln.
2. Das Problem ist der Vergleich der Speax über die Räume hinweg.
3. Die Speax bewerten auch nicht völlig konsisten den Beitrag der einzelnen Redner*innen zur Debatte. Ich habe schon oft erlebt, dass der tatsächliche inhaltliche Beitrag zur Debatte in den bewerteten Reden gar nicht sichtbar wurde, weil er in der Vorbereitungszeit lag. Das führte schon mal dazu, dass meine Teampartnerin mir in der Vorbereitungszeit 14 Minuten lang erklärt hat, was wir sagen werden, mein einminütiger Redeanteil aus Verständnisfragen bestand, ich am Ende einfach das gemacht habe, was mir gesagt wurde, und damit bester Redner im Raum – wohlgemerkt vor meiner Teampartnerin (!) geworden bin. Aber dieser Punkt ist nur ein Randpunkt, wichtiger ist 2.
Hallo zusammen,
der Vorschlag klingt sehr interessant, auch vor dem Hintergrund, dass es bei WUDC und EUDC schon länger Unmut über die Rednerpunkte gibt. Um mal ein paar Zahlen reinzubringen, habe ich mal das Tab der DDM 2014 nach Buchholz-Punkten aufgestellt: https://docs.google.com/spreadsheets/d/1sXVGq3-3HmD_uc5XHETb7W8O75NTujtNydveIUH8yVg/edit?usp=sharing
Kurz zum Inhalt: Ich habe die Buchholz-Punkte anders berechnet als im Artikel oben. Ich habe für jeden Raum die Summe der (finalen) Teampunkte ausgerechnet und dann für jedes Team die Summe seiner Raumpunkte genommen. Mein Buchholz-Ranking zählt also die eigenen Teampunkte mit und bildet keinen Durchschnitt – das führt aber zum selben Ranking.
Das ist jetzt nur ein Turnier, aber durchaus schonmal instruktiv:
– Der Break wäre der gleiche gewesen 🙂
– Am oberen und unteren Ende des Tabs sind die Verschiebungen meist nicht so groß, meist im Rahmen von +- 2 Plätzen. Es gibt aber auch Ausreißer: ein Team aus Münster mit 13 Teampunkten wäre mit Buchholz-Wertung 4 Plätze weiter vorne gelandet. Die geringe Varianz an den Enden des Tabs ist plausibel, da hier die Gruppen mit gleichen Teampunkten eher klein sind (hier z.B. 4 Teams mit 14 Teampunkten).
– In der Mitte des Tabs gibt es z.T. riesige Verschiebungen. Den größten Satz hätte hier ein Hamburger Team mit 9 Punkten gemacht, nämlich um 11 Plätze nach vorne.
Ich würde es noch interessant finden, ob die Buchholz-Wertung häufig Punktgleichheit produziert, vor allem in den Regionen, wo der Break liegt. Dafür müsste man eine Simulationsstudie machen, ähnlich wie von Michael beschrieben. Wer hat Lust und kann mit R umgehen?
PS: Das Buchholz-Tab ist nur eine Illustration und ich habe sie nicht so sorgfältig kontrolliert wie ein Chefjuror das tun würde. Wenn ihr Fehler findet, lasst es mich wissen.
Hallo miteinander,
ich habe mal einige Simulationen laufen lassen, um zu sehen, wie gut die Buchholz-Punkte wohl in der Praxis funktionieren würden. Erstmal meine Einsichten, unten mehr zum Modell:
– Wie man es dreht und wendet, bei etwa 6% der Turniere wäre der Cut-Off des Breaks zwischen zwei Teams, die sowohl nach Teampunkten als auch nach Buchholz-Punkten gleich wären. Das gilt für Turniere mit DDM-Größe. Bei kleineren Turnieren mit 40 Teams, 5 Runden und Break ins Viertelfinale käme es wohl seltener vor (2,2%), bei Turnieren der WUDC-Größe wären es knapp 8% der Turniere (bei Break ins Achtelfinale). Das würde also durchaus manchmal passieren, wenn auch nicht übermäßig häufig. Ich weiß nicht, ob das mit Speaker-Points häufiger oder seltener vorkommt.
– Die theoretische Trennschärfe der Buchholz-Punkte alleine ist besser als das avisierte Ranking aus (Teampunkte, Buchholz-Punkte). Ziemlich sicher sind Buchholz-Punkte alleine auch besser als Teampunkte + Speaks. Trennschärfe beschreibt dabei, wie gut das Turniertab die Teamstärke abbildet (die in meinem Modell eine explizite Zahl ist). Der Grund dürfte in den Misch-Eigenschaften von Power-Pairing liegen, so wie Michael das weiter oben schon beschrieben hat. Die Kreditrisikomodelle von Banken haben jedenfalls eine bessere Trennschärfe 😉
– Trotzdem: unter Verwendung von Buchholz-Punkten als Tiebreaker würden die Top-Teams in aller Regel alle den Break schaffen. Mit Top-Teams meine ich hier die stärksten 4 Teams bei einem Break von 8, die stärksten 8 Teams bei einem Break von 16 usw. Das System würde also im weitesten Sinne leisten, was wir wollen.
Zum Modell:
Um BPS-Turniere zu modellieren braucht man ein paar Annahmen. In meinem Fall habe ich jedem Team zufällig eine absolute Stärke zugeordnet, normalverteilt um 150 herum (kein Zufall, denn das ist die durchschnittliche Speaker-Punktzahl). In einer Debatte nehme ich an, das jedes Team eine zufällige “Leistung” erbringt, normalverteilt um seine Teamstärke herum. Sortiert nach den Leistungen ergibt sich das Ranking pro Raum. Der Rest ist straight-forward simulation.
Das Modell habe ich ein bisschen anhand der DDM 2014 kalibriert, um normalen Turnierverhältnissen zu entsprechen (zu kalibrieren sind die Standardabweichungen der Normalverteilungen). Da ich nicht viele historische Daten von Turnieren zur Hand hatte, habe ich das Modell nicht sonderlich intensiv gegen die Realität getestet. Mein Gefühl ist allerdings, dass es in sich plausibel ist, plausible Ergebnisse liefert, und dass die meisten Modellveränderungen (z.B. andere Verteilungen als die Normalverteilung) sehr ähnliche Erbgebnisse liefern würden.
Ich kenne kein anderes Modell von BPS-Turnieren außer dem, das Michael angesprochen hat. Von daher dürfte es noch für viele andere Zwecke interessant sein. Es lässt sich damit z.B. zuverlässig klären, wieviele Runden nötig sind, damit sich ein einigermaßen stabiles Ranking herauskristallisiert. Ich habe den Code (geschrieben in R) öffentlich gemacht unter https://github.com/blaubner/tournament-simulation
Gibt es statistische Erkenntnisse zu der Frage, ob die Speaks in höheren Räumen im Schnitt höher sind? Falls nein: Hat jemand Lust, die verdienstvolle Aufgabe zu übernehmen, das zu ermitteln?