Frage: Wie haben sich denn die Punktausschläge nach unten entwickelt? Gab es auch Durchschnittspunktzahlen im Bereich 20-30 Punkte oder sogar darunter?
Das nicht, aber es gab durchaus einige Leute im Schnittbereich 30-40. Die niedrigst bepunktete Rede lad bei 28 Punkten. Ich denke das deckt sich mit der Vermutung, dass die meisten Leute zumindest präsentativ meist nicht stark unterdurchschnittlich abschneiden. Ob das allerdings tatsächlich so ist, kann ich aus dem Tab natürlich nicht ablesen. 😉
Die Auswertung ist sehr spannend, danke dafür! Könnte man die auch zu den Teampunkten machen? Dort sollte schließlich auch nach Schulnoten bewertet werden. Interessant wäre dabei, ob die Neudifferenzierung bei den Teampunkten mit denen der Einzelrednerpunkte vergleichbar ist oder ob die neue Eichung zu einer Verschiebung der Gewichtung von Einzelrednerkategorien und Teamoinktekategorien führt.
Ich habe selbst überlegt eine statistische Auswertung zu machen, daher ein paar Worte dazu.
Bei dieser Analyse sollte man mit den Ergebnissen äußerst vorsichtig umgehen und zwar aus mehreren Gründen. Erstens sind die Stichproben nicht besonders groß. Während wir bei der DDM zumindest 7 Vorrunden in einer großen Anzahl von Räumen hatten, ist der SKC bei nur 3 VR mit 7 Räumen, wenn ich mich richtig erinnere schon sehr klein für eine repräsentative Stichprobe.
Dazu muss man die Frage stellen, wie repräsentativ dieser SKC gewesen ist. Wenn man sich das Teilnehmerfeld anguckt, dann wird man feststellen, dass wir im Spitzensegment nun doch einige Leute finden, die seit längerem nicht aktiv debattiert haben und vermeindlich ganz gut sind, was bei den meisten anderen Turnieren so nicht vorkommt.
Beim Histogramm auf der DDL-Seite könnte das zum Beispiel die kleinen Ausreißer im oberen Punktesegment erklären. Auch scheint die Verteilung zumindest beim ersten Eyeballing eine gewisse Rechtsschiefe aufzuweisen (vielleicht könnte Alex nochmal das dritte Moment berechenen um zu gucken, wie groß dieser Effekt tatsächlich ist). Das würde sehr gut zu Nicolas Frage passen, nämlich wie prävalent Abweichungen vom Mittel nach unten waren.
Der DDL-Blog erwähnt das schon sehr schön, daher bitte nicht vergessen: Mit einer Auswertung auf so kleiner Stichprobenbasis sehr vorsichtig umgehen!
Während eine Verbreiterung der Kurve ja explizit gewünscht ist (höhere Standardabweichung), sprechen die höheren Fehler auf die Verteilung / Parameter schon dafür (wobei man hier in der Tat wohl bei mehr Daten stärkere Gewissheit hätte), dass die “Eichung” noch nicht ganz perfekt war und es deshalb etwas weniger gaußförmig wird, d.h. die Vergleichbarkeit vermutlich etwas geringer ist.
Falls ihr die Daten noch hättet: Interessant wäre der Chi^2-Wert, der ja auch die Abweichung vom Modell beschreibt.
Wobei sich dies wohl genau wie bei der alten Skala durch die Zeit anpassen würde.
Zudem möchte ich auch anmerken, dass eine durchschnittliche Rede nicht gleichzusetzen ist mit Durchschnitt, die auf einem Turnier erreicht werden sollte. Ich glaube hier liegt ein großes Missverständnis vor und habe das schon mit vielen Leuten persönlich besprochen. Das Ziel der OPD-Skala ist nicht, dass am Ende die Durchschnittspunktzahl eines Turnieres bei round about 40 Punkten liegt, das glauben aber viele und ist auch einer der Gründe warum die Eichung sich so verschoben hat, wie sie jetzt ist. Punkte in OPD sind ein externalisierter Maßstab, der immer angwendet werden soll und niemals relativ zu verstehen ist. Wir sind jedoch mal mehr mal weniger geschulte Rhetoriker*innen. Das die Punktzahl auf einem Turnier allem anderen als einer Normalverteilung entspricht kann möglich sein und ist per se nicht abzulehnen. Es sollte zwar nicht unser Ziel sein aber soweit ich weiß wurden auf der ersten OPD-DDM mehrfach im Finale über 90 Punkte vergeben. Das möchte ich auch nicht, erklärt aber vielleicht ein bisschen die Konzeption des Formats. Ein Turnier, dass in OPD mal eine Durchschnittspunktzahl von ca. 30 oder ca. 50 erreicht ist damit nicht gleich schlecht juriert worden. Gleiches gilt für Verschiebung der Normalverteilung.
Das Problem, dass eine “durchschnittliche” Rede nicht dem Durchschnitt entspricht, ist mir gerade bei Erklärungen an Anfänger auch aufgefallen – das war aber sowohl vor als auch nach der Neueichung so und wurde glaube ich hier so wie ich das sehe auch nie versucht zu beheben.
@Jan: Der Vergleich mit der DDM 2015 zeigt ja sehr gut, dass wir – sollten wir die dortige Jurierung mal als einigermaßen verlässlich ansehen – wohl von einer Normalverteilung ausgehen können.
Zu deiner Anmkerung bzgl. der Stichpunktengröße: Deshalb skaliert ja normalerweise der Messfehler, sollte man keine anderen Fehlerquellen haben, mit Wurzel n, d.h. der relative Fehler wird bei kleinen Datensätzen größer.
Der (reduzierte) Chi^2-Wert misst nun die Abweichung vom Modell gegeben der Fehler, d.h. er berücksichtigt schon automatisch verschiedene Probengrößen.
Die Anmerkung, dass der SK-Cup nicht repräsentativ ist, ist natürlich auch wichtig. Geht man davon aus, dass dies über die Jahre ähnlich ist, sollte das aber auch schon in der ja mitgelieferten Analyse von 2016 zu sehen sein, die nicht unbedingt rechtslastig war. Zwecks Verlässlichkeit kann man das natürlich auf Vorjahre ausdehnen.
Problem ist folgendes: Wir gucken uns gerade nur die Bepunktung an nicht aber die “wahre” Verteilung der Rednerleistung. Wenn nun eines der Probleme der “alten” Skala ist/war, dass sie gerade normalverteilte Punkte ausgegeben hat, wo die wahre Rednerleistung nicht normalverteilt war, wäre das ein Problem, dass man adressieren müsste. Es gibt ja durchaus theoretische Gründe davon auszugehen, dass die wahre Rednerleistung auf Turnieren eigentlich nicht normalverteilt ist.
Was die Stichprobengröße angeht: Klar wird sie bei der Standartfehlerermittlung miteinbezogen, dass erlöst uns allerdings nicht von allen statistischen Problemen kleiner Stichproben. Wenn wir allgemeine Aussagen treffen wollen, sollten CLT und LLN schon anwendbar sein. Und da wäre ich bei der derzeitigen Stichprobengröße sehr vorsichtig
Ich selbst habe auf dem SK-Cup juriert und empfand das als deutlich gerechter. Hier konnte ich deutlich mehr differenzieren.
Das wird zum einen der Leistung der Redner*innen gerechter.
Zum anderen ist es auch von der Bepunktung gerechter: Früher hatte ich oft das Gefühl, dass eine Leistung irgendwo zwischen zwei Punkten lag. Wenn ich mich dann für eine der beiden Punkte entscheide, macht das einen relativ großen Unterschied, wenn die Gesamtspanne insgesamt nicht so groß ist. Wenn jetzt die Punktespanne deutlich größer ist, fällt die Entscheidung zwischen zwei Punkten nicht so stark ins Gewicht, was das Ergebnis weniger zufällig macht.
Als notorischer “Hochpunkter” (ich sehe mich selber ja eher als Spektrumspunkter, aber Leistungen, die 3 Punkte in einer Kategorie verdienen sind eben seltener als Leistungen, die 12 Punkte verdienen…) und langjähriger Verfechter der Meinung, dass die Kategorien “Nationale bzw. Internationale Spitzenleistung” aufgrund ihrer unklaren Abgrenzung – was ist besser als sehr gut plus? – abgeschafft gehören, begrüße ich diese Art der Neueichung vollumfänglich. Wenn es zu differenzierterem Jurieren führen sollte: umso besser!
Wir als Regelkommission würden uns natürlich auch über kritisches Feedback freuen, damit wir wissen, wo man evtl. noch weitere Verbersserungen vornehmen kann 🙂
Ich bin nach wie vor der Meinung, dass die Neueichung keine wesentlichen Effekte, weder positive noch negative, haben wird; außerdem stimme ich mit einigen spezifischen Aussagen dieses Artikels nicht überein. Im Einzelnen:
1. Zur stärkeren Differenzierung der Rednerleistungen[*]: Natürlich können theoretisch bei höherer Auflösung der Skala (d.h. mehr unterschiedlichen Punktestufen, z.B. 35–45 statt 38–42 für eine ‘durchschnittliche’ Rede) mehr Nuancen abgebildet werden. Die Frage ist, wie von Jonathan Scholbach bereits unter dem letzten Artikel zu diesem Thema ausgeführt, ob dadurch mehr ‘Gerechtigkeit’ zustande kommt.
1.1. Dazu müssten Juroren in der Lage sein, zu begründen, warum sie im neuen System eine 41 statt einer 40 geben, und zwar mit dem Anspruch einer intersubjektiven Vermittlung der Richtigkeit dieser Punktzahl. Ich halte das für illusorisch und würde schon im status quo sagen, dass kaum jemand mir stringent erklären kann, was beispielsweise eine 10 in Sprachkraft (oder auch Sachverstand) von einer 9 unterscheidet.
1.1.1. Zur Illustration: Derzeit werden regelmäßig Unterschiede von 4 Punkten, in Ausscheidungsrunden auch deutlich mehr, ohne Diskussion gemittelt, d.h. es wird davon ausgegangen, dass man beispielsweise eine 44 und 48 für die gleiche Rede vertreten kann.
1.2. Selbst wenn einzelne sehr gute Juroren durch die neuen Differenzierungsmöglichkeiten ihre Punktevergabe noch minimal optimieren, wird dieser Effekt mit Sicherheit dominiert von Zufallsfaktoren, die heute bereits sehr großen Einfluss haben
1.2.1. Beispiele: Welche Juroren trifft man im Laufe des Turniers? (Hoch-/Niedrig-/Varianzpunkter; rhetorische und inhaltliche Vorlieben; Ausbildungsgrad der Nebenjuroren; Spezialwissen zum Thema; etc.) Wie unausgeglichen sind die Themen und auf welcher Seite landet man? In welchen Runden und Räumen ist man als FFR unterwegs?
1.3. Somit sind auch klarere Breaks ein Scheinvorteil der Neuregelung: Sind künftig zwei Teams auf 900 (A) und 901 (B) Punkten (wären also im alten System beide auf der gleichen Punktzahl gewesen), so würde ich nicht annehmen, dass Team A in was auch immer für einer Metrik besser ist. Es ist vielmehr davon auszugehen, dass beide ungefähr gleich gut sind, und dass nur die Rolle des Münzwurfs im alten Bewertungssystem durch andere Zufallsfaktoren (s. 1.2.1.) im neuen übernommen wird.
2. Zur Verwendung von Schulnoten: Ich erwarte einen leicht positiven Effekt in der Ausbildung davon, dass die neue Skala an einen bestehenden Bewertungsmaßstab anknüpft. Allerdings gebe ich zu bedenken:
2.1. Die Notenschnitte sind in den verschiedenen Bundesländern, und vermutlich mehr noch zwischen einzelnen Lehrkräften, deutlich unterschiedlich (2016: 2,18 bis 2,58[1]). Dadurch wird ein unterschiedliches Bild davon vermittelt, was der ‘Wert’ einer 2.0 ist.
2.2. Auch wenn die Abiturnoten insgesamt erstaunlich schön normalverteilt sind[2], vermute ich, dass die Kurve in der Gruppe der Debattanten sehr deutlich zur 1.0 hin verschoben ist. Dadurch ist es wahrscheinlich, dass bereits eine 2.0 (obwohl deutlich überdurchschnittlich) als wenig schmeichelhaft wahrgenommen wird.
2.3. Wie im Artikel auch angesprochen, sind die Verbalisierungen der Noten viel zu abstrakt, als dass sie deutliche Rückschlüsse auf eine adäquate Bepunktung zuließen — was bedeutet “gut minus” in Sprachkraft? Dadurch wird für mich sehr fraglich, wie viel Intuition sich aus dem Schulkontext ins Debattieren übertragen lässt. (Zumal dort genau das gleiche Problem auftritt: Wann ist eine 2.0 für eine Texterörterung gerechtfertigt?)
3. Zur relativen Gewichtung von Redner- und Teampunkten: Als jemand, der auch in den Teamkategorien immer von 8 aus hoch- und runtergegangen ist (und dann umgerechnet hat), wundert mich die Verschiebung, die ihr feststellt. Die Punkteverteilungen in beiden Bereichen wären hierzu interessant zu wissen.
4. Der Abschnitt ab “Gleichzeitig werden allerdings auch Schlechtleistungen” ist mir etwas rätselhaft. Auch wenn die absoluten Punktzahlen extremer werden, bleiben doch die Relationen idealerweise gleich. Dadurch sollte beispielsweise die Varianz im Inhalt verglichen mit allen anderen Punktzahlen kein höheres Gewicht bekommen.
5. Zu der Aussage “Im neuen System ist es allerdings leichter bemerkbar, da sich unerfahrene Juroren nicht einfach hinter 8 oder 9 Punkten, die zuvor schon irgendwie hinkamen, verstecken können”: Ich sehe nicht, wie die Reform hier zu einer Änderung führen sollte. Diskutierte man vorher ab 4 Punkten Differenz, so müsste man jetzt ab 6 oder 8 anfangen, um gleiche Effizienz bei der Jurierung zu erreichen, da größere Unterschiede erwartbar sind. Die entscheidende Variable ist in diesem Bereich die zur Jurierung verfügbare Zeit, die die Genauigkeit der Abstimmung zwischen den Juroren bestimmt; nicht die Auflösung der Skala.
Ich stimme Jannis was seine Kritik an der Orientierung am Schulkontext angeht zu, und möchte ein weiteres – vielleicht quantitativ nicht sehr bedeutendes – Problem hinzufügen: es waren nicht alle auf einer deutschen Schule mit einer derartigen Bewertungsskala, d.h. nicht alle können sich an ihren Erfahrungen oder ihrem Gefühl orientieren, was klarere Beschreibungen für die jeweiligen Noten notwendig macht.
Zustimmung zu Jannis in allen Punkten.
Noch ein kleiner Zusatz zu 2:
Ob das jetzt Schulnoten, Oberstufenbepunktung (0-15p.), UIAA-Skala zur Bewertung der Schwierigkeitsgrade im Klettern oder sonstwas ist, ist mMn. völlig egal und bleibt ohne Effekt. Warum? Es ist doch völlig irrelevant, ob ich die Zahlen- oder Buchstabenreihenfolge der Skala kenne und womit sie sonst so verknüpft ist, wenn ich nicht weiß was die “Güteklassen” der möglichen, erwartbaren, usw. usw. Redeleistungen sind!
Extrembeispiel: Nur weil jemand in der Lage ist, Steine seiner Größe nach in Kategorien von 1-6 einzusortieren, heißt das nicht, dass er/sie/es auch Reden bewerten kann. Völlig egal, ob er/sie/es bisher “auch immer mit der bekannten Skala 1-6” gearbeitet hat oder nicht. Und angenommen dieser jemand kann die Qualität von Reden grundsätzlich bewerten, so passiert das (Jaaa, liebe OPDler, zu denen auch ich mich gerne zähle) IMMER relativ zu seinem Erfahrungshorizont! Geben wir der Person also nun bspw. die Aufgabe Steine nach ihrem Gewicht in Kategorien von 1-6 einzusortieren, dann kann er/sie/es das sehr wohl relativ zu einander, aber ohne, dass er die gängigen Normen der “Steinenachgewichtsortiererszene” kennt, ist es ihm völlig unmöglich zu entscheiden, ob es sich beim leichtesten Stein um eine 1 und beim schwersten um eine 6 handelt, oder vielleicht alle eine 6 sind und er/sie/es einfach einen (für die “Szene”) sehr schweren (und sehr ähnlichen) Satz Steine zum Sortieren bekommen hat.
TL;DR: Kenntnis von Schulnoten nützt zum Bewerten von Debatten ähnlich wenig wie zum Bewerten von Steinen, wenn unbekannt ist, was ein “sehr guter Stein” ist.
Ich kann euch, Jannis und Peter, leider nicht zustimmen.
Ja, die von euch genannten Punkte sind nicht falsch.
Zu 1. Es gibt nicht plötzlich eine perfekte, objektive Bewertung, das stimmt. Zufallsfaktoren dominieren, wie kaum irgendwo anders, weiterhin die Wertung.
Aber da es keinen Grund gibt, anzunehmen, dass der Einfluss der zufälligen Faktoren größer wird, während gleichzeitig die Möglichkeit zu differenzieren zunimmt, bleibt netto zumindest eine präzisere Bewertung.
Oder um es statistisch zu sagen: auch bei großem systematischen Fehler habe ich lieber eine hohe als eine niedrige Präzision, jede Fehlerreduktion ist gut.
Das ist zwar nur Flickschusterei an der wenig perfekten Realität, aber immerhin besser als nichts.
Zu 2. Auch hier sind alle deine Punkte, Jannis, bedenkenswert. Aber es gilt dasselbe: lieber eine schlechte Referenz als gar keine, die ist nämlich im Zweifellsfall noch ungenauer. Aber das hast du ja letztlich selber auch so gesehen (“einen leicht positiven Effekt in der Ausbildung”).
Am Ende muss man sagen, das größte Problem, der systematische Fehler, bleibt. Aber damit müssen wir wohl leben und vielleicht sollten wir der Bewertung auch einfach etwas weniger Relevanz beimessen. Denn am Ende geht es bei der ganzen Bepunktung ja doch nur um unsere Egos, da die aber groß genug sind, können es die meisten von uns auch einfach hinnehmen mal “falsch” bepunktet zu werden.
Kurzantwort:
1. Auch bei systematischen Fehlern (die ich aber hier bezweifeln würde, egal), nützt es nichts die Skala zu vergrößern, damit vergrößert man die Fehler stumpf mit. Ist schließlich ne Skalierung.
2. Jeder der grundsätzlich weiß was eine “Bewertung” ist kann das eins zu eins adaptieren, während der Nutzen aus einer bekannten Skala Null ist, wenn die Skala “dafür” nicht bekannt ist. Ich würde mich bspw. nicht in der Lage sehen, Synchronschwimmerinnen zu bewerten. Weder von 1-6 noch von wie auch immer die bewertet werden (1-10?). Sehr wohl könnte ich aber statt OPD-Punkten auch Schulnoten oder das Alphabet verteilen (Umrechnungsmaßstab vorausgesetzt). Die “Bewertung” des Jurors, ob etwas als gut, schlecht oder dazwischen erkannt wird, findet doch im intuitiven Maßstab des Jurorengeistes statt, während die “Benennung” in Punkten erst hinterher erfolgt, nach welcher Skala auch immer. “Fehler” sind da aber bereits vor der Benennung passiert.
Es bleibt: Sofern die Differenzierungsmöglichkeiten über der Differenzierungsfähigkeit des Jurors liegen ist alles gut, liegen sie drunter wird’s schlechter, aber durch mitteln immer noch teilweise aufgefangen, liegen sie deutlich drunter (Skala = 1) isses halt doof. Siehe Punkt 1 von Jannis.
Zur Individualität von Bewertungen: Was eine 10 von einer 9 unterscheidet ist erschreckend simpel: Es war eine im Schnitt bessere Leistung. Konkrete Unterschiede können korrekterweise nicht allgemein formuliert werden, da Leistungen in OPD stets situativ Wirkungen, nicht aber Handlungen bewerten. Die gleiche Geste kann je nach Situation vollkommen unterschiedlich ankommen und ist deswegen nicht per se als “so und so gut” oder “so und so schlecht” bewertbar. Wenn ich aber zwei konkrete Reden juriere und einer 9 und einer 10 Punkte in auftreten gebe, kann ich dir auch erklären, was an der einen nun besser war als an der anderen.
Weiterhin ist das System der OPD-Jurierung intersubjektiv, weswegen einzelne Juroren problemlos 4 oder in seltenen Fällen auch über 10 Punkte Abstand haben können. Dies legt sich durch die Mittelung verschiedener Eindrücke – daher ist es auch im Interesse aller, viele Juroren pro Raum zu haben. 😉
Zu Unterschieden und Extrempunktern: Wenn ein Team morgen 901 und eines 900 Punkte hat, mag da etwas Glück im Spiel gewesen sein. Heute wäre bei gleichen Punkten dabei aber weitaus mehr Glück im Spiel gewesen, da sich aktuell “Extrempunkter” stärker von der Norm unterscheiden, da sie sich trauen, gute Leistungen auch zu belohnen und schlechte zu strafen – deshalb ist es übrigens auch nicht bloß eine Neuskalierung gedacht und umgesetzt worden, wie von Peter vermutet, sondern tatsächlich auch eine “Neuanwendung”. Morgen sind hoffentlich alle entsprechend differenziert, womit Unterschiede stärker zutrage treten, aber eben auch zurecht. Beim 901:900-Beispiel ist also das neue System aufgrund ausgeglicheneren Juroreneinflusses fairer. Realistischerweise sind es morgen dann aber eben auch viel häufiger (fiktive Zahlen voraus) 920:900 Punkten wo es vorher 801:800 waren.
Im Wesentlichen würde ich also René zustimmen: Das System an sich mag nicht jedermanns Sache sein, intern wird es aber durch eine größere Differenzierung nur besser. Lara hat, wie auch Peter, im Bezug auf Schulnoten an sich natürlich auch recht: Nicht jeder kann mit Schulnoten etwas anfangen. Aber wer es nicht kann muss wie heute auch schon ein ganzes System neu lernen, alle anderen haben zumindest schonmal den Hauch einer Idee. Schlechter wird es also nicht, für manche aber einfacher. Der einzige vermutete Verlust sind also Umstellungsschwierigkeiten bei bereits geeichten Juroren – weswegen wir vor der DDM auch auf keinen Fall eine Umstellung nahelegen wollen. Die Umstellungsschwierigkeiten an sich hielten sich, zumindest im Rahmen des Experiments, wie oben ausgeführt im ersten Eindruck in Grenzen.
Das Problem bei einer größeren Punktespanne ist, dass die einzelnen Juroren diese vermutlich nicht gleich groß ausdifferenzieren. Bedeutet: im alten Status quo wichen Extrempunkter unter den Juroren vllt mal um 7-8 Punkte vom Szeneschnitt für eine gute Rede ab (angenommen Szeneschnitt 50, Extrempunkter gibt 57). Diese 7 Punkte Überschuss bei Extrempunktern, konnte man noch über mehrere Runden auffangen, so dass Teams oder Rede mit solchen Glückszuordnungen von Extrempunktern nicht allzu große Vorteile bekamen. Wenn jetzt allerdings die mögliche Varianz größer wird, so hängt das Breakglück noch viel stärker davon ab, ob man einen Extrempunkter als Juror bekommt, oder nicht. Daher besteht hier die Gefahr, dass Extrempunkter das Feld signifikant verzerren.
Wie unter 7.e kommentiert ist die Neueichung tatsächlich nicht als bloße Skalierung zu verstehen, sondern als Anreiz zur stärkeren Differenzierung. In dem Sinne werden also schlicht alle zu “Extrempunktern”, womit der Einfluss pro Juror sich angleicht. Der Rest liegt bei den Clubs, wenn pro Raum drei Juroren anwesend sind ist das auch intersubjektiv unproblematisch.
Frage: Wie haben sich denn die Punktausschläge nach unten entwickelt? Gab es auch Durchschnittspunktzahlen im Bereich 20-30 Punkte oder sogar darunter?
Das nicht, aber es gab durchaus einige Leute im Schnittbereich 30-40. Die niedrigst bepunktete Rede lad bei 28 Punkten. Ich denke das deckt sich mit der Vermutung, dass die meisten Leute zumindest präsentativ meist nicht stark unterdurchschnittlich abschneiden. Ob das allerdings tatsächlich so ist, kann ich aus dem Tab natürlich nicht ablesen. 😉
Kleiner Werbeblock: Im DDL-Bericht zum Streitkultur-Cup gibt es auch eine etwas quantitativere Auswertung zur Ausnutzung des Punktespektrums und dem neuen und alten Mittelwert.
Einzusehen unter http://freie-debattierliga.blogspot.de/2017/02/von-geschwistern-und-umeichungen-der.html
Die Auswertung ist sehr spannend, danke dafür! Könnte man die auch zu den Teampunkten machen? Dort sollte schließlich auch nach Schulnoten bewertet werden. Interessant wäre dabei, ob die Neudifferenzierung bei den Teampunkten mit denen der Einzelrednerpunkte vergleichbar ist oder ob die neue Eichung zu einer Verschiebung der Gewichtung von Einzelrednerkategorien und Teamoinktekategorien führt.
Ich habe selbst überlegt eine statistische Auswertung zu machen, daher ein paar Worte dazu.
Bei dieser Analyse sollte man mit den Ergebnissen äußerst vorsichtig umgehen und zwar aus mehreren Gründen. Erstens sind die Stichproben nicht besonders groß. Während wir bei der DDM zumindest 7 Vorrunden in einer großen Anzahl von Räumen hatten, ist der SKC bei nur 3 VR mit 7 Räumen, wenn ich mich richtig erinnere schon sehr klein für eine repräsentative Stichprobe.
Dazu muss man die Frage stellen, wie repräsentativ dieser SKC gewesen ist. Wenn man sich das Teilnehmerfeld anguckt, dann wird man feststellen, dass wir im Spitzensegment nun doch einige Leute finden, die seit längerem nicht aktiv debattiert haben und vermeindlich ganz gut sind, was bei den meisten anderen Turnieren so nicht vorkommt.
Beim Histogramm auf der DDL-Seite könnte das zum Beispiel die kleinen Ausreißer im oberen Punktesegment erklären. Auch scheint die Verteilung zumindest beim ersten Eyeballing eine gewisse Rechtsschiefe aufzuweisen (vielleicht könnte Alex nochmal das dritte Moment berechenen um zu gucken, wie groß dieser Effekt tatsächlich ist). Das würde sehr gut zu Nicolas Frage passen, nämlich wie prävalent Abweichungen vom Mittel nach unten waren.
Der DDL-Blog erwähnt das schon sehr schön, daher bitte nicht vergessen: Mit einer Auswertung auf so kleiner Stichprobenbasis sehr vorsichtig umgehen!
Finde tatsächlich die statistische DDL-Analyse sehr interessant:
http://freie-debattierliga.blogspot.de/2017/02/von-geschwistern-und-umeichungen-der.html
Während eine Verbreiterung der Kurve ja explizit gewünscht ist (höhere Standardabweichung), sprechen die höheren Fehler auf die Verteilung / Parameter schon dafür (wobei man hier in der Tat wohl bei mehr Daten stärkere Gewissheit hätte), dass die “Eichung” noch nicht ganz perfekt war und es deshalb etwas weniger gaußförmig wird, d.h. die Vergleichbarkeit vermutlich etwas geringer ist.
Falls ihr die Daten noch hättet: Interessant wäre der Chi^2-Wert, der ja auch die Abweichung vom Modell beschreibt.
Wobei sich dies wohl genau wie bei der alten Skala durch die Zeit anpassen würde.
Vorsicht, die tatsächliche Verteilung muss keine Normalverteilung sein!
Zudem möchte ich auch anmerken, dass eine durchschnittliche Rede nicht gleichzusetzen ist mit Durchschnitt, die auf einem Turnier erreicht werden sollte. Ich glaube hier liegt ein großes Missverständnis vor und habe das schon mit vielen Leuten persönlich besprochen. Das Ziel der OPD-Skala ist nicht, dass am Ende die Durchschnittspunktzahl eines Turnieres bei round about 40 Punkten liegt, das glauben aber viele und ist auch einer der Gründe warum die Eichung sich so verschoben hat, wie sie jetzt ist. Punkte in OPD sind ein externalisierter Maßstab, der immer angwendet werden soll und niemals relativ zu verstehen ist. Wir sind jedoch mal mehr mal weniger geschulte Rhetoriker*innen. Das die Punktzahl auf einem Turnier allem anderen als einer Normalverteilung entspricht kann möglich sein und ist per se nicht abzulehnen. Es sollte zwar nicht unser Ziel sein aber soweit ich weiß wurden auf der ersten OPD-DDM mehrfach im Finale über 90 Punkte vergeben. Das möchte ich auch nicht, erklärt aber vielleicht ein bisschen die Konzeption des Formats. Ein Turnier, dass in OPD mal eine Durchschnittspunktzahl von ca. 30 oder ca. 50 erreicht ist damit nicht gleich schlecht juriert worden. Gleiches gilt für Verschiebung der Normalverteilung.
Das Problem, dass eine “durchschnittliche” Rede nicht dem Durchschnitt entspricht, ist mir gerade bei Erklärungen an Anfänger auch aufgefallen – das war aber sowohl vor als auch nach der Neueichung so und wurde glaube ich hier so wie ich das sehe auch nie versucht zu beheben.
@Jan: Der Vergleich mit der DDM 2015 zeigt ja sehr gut, dass wir – sollten wir die dortige Jurierung mal als einigermaßen verlässlich ansehen – wohl von einer Normalverteilung ausgehen können.
Zu deiner Anmkerung bzgl. der Stichpunktengröße: Deshalb skaliert ja normalerweise der Messfehler, sollte man keine anderen Fehlerquellen haben, mit Wurzel n, d.h. der relative Fehler wird bei kleinen Datensätzen größer.
Der (reduzierte) Chi^2-Wert misst nun die Abweichung vom Modell gegeben der Fehler, d.h. er berücksichtigt schon automatisch verschiedene Probengrößen.
Die Anmerkung, dass der SK-Cup nicht repräsentativ ist, ist natürlich auch wichtig. Geht man davon aus, dass dies über die Jahre ähnlich ist, sollte das aber auch schon in der ja mitgelieferten Analyse von 2016 zu sehen sein, die nicht unbedingt rechtslastig war. Zwecks Verlässlichkeit kann man das natürlich auf Vorjahre ausdehnen.
Problem ist folgendes: Wir gucken uns gerade nur die Bepunktung an nicht aber die “wahre” Verteilung der Rednerleistung. Wenn nun eines der Probleme der “alten” Skala ist/war, dass sie gerade normalverteilte Punkte ausgegeben hat, wo die wahre Rednerleistung nicht normalverteilt war, wäre das ein Problem, dass man adressieren müsste. Es gibt ja durchaus theoretische Gründe davon auszugehen, dass die wahre Rednerleistung auf Turnieren eigentlich nicht normalverteilt ist.
Was die Stichprobengröße angeht: Klar wird sie bei der Standartfehlerermittlung miteinbezogen, dass erlöst uns allerdings nicht von allen statistischen Problemen kleiner Stichproben. Wenn wir allgemeine Aussagen treffen wollen, sollten CLT und LLN schon anwendbar sein. Und da wäre ich bei der derzeitigen Stichprobengröße sehr vorsichtig
Volle Zustimmung!
Ich selbst habe auf dem SK-Cup juriert und empfand das als deutlich gerechter. Hier konnte ich deutlich mehr differenzieren.
Das wird zum einen der Leistung der Redner*innen gerechter.
Zum anderen ist es auch von der Bepunktung gerechter: Früher hatte ich oft das Gefühl, dass eine Leistung irgendwo zwischen zwei Punkten lag. Wenn ich mich dann für eine der beiden Punkte entscheide, macht das einen relativ großen Unterschied, wenn die Gesamtspanne insgesamt nicht so groß ist. Wenn jetzt die Punktespanne deutlich größer ist, fällt die Entscheidung zwischen zwei Punkten nicht so stark ins Gewicht, was das Ergebnis weniger zufällig macht.
Als notorischer “Hochpunkter” (ich sehe mich selber ja eher als Spektrumspunkter, aber Leistungen, die 3 Punkte in einer Kategorie verdienen sind eben seltener als Leistungen, die 12 Punkte verdienen…) und langjähriger Verfechter der Meinung, dass die Kategorien “Nationale bzw. Internationale Spitzenleistung” aufgrund ihrer unklaren Abgrenzung – was ist besser als sehr gut plus? – abgeschafft gehören, begrüße ich diese Art der Neueichung vollumfänglich. Wenn es zu differenzierterem Jurieren führen sollte: umso besser!
Wir als Regelkommission würden uns natürlich auch über kritisches Feedback freuen, damit wir wissen, wo man evtl. noch weitere Verbersserungen vornehmen kann 🙂
Ich bin nach wie vor der Meinung, dass die Neueichung keine wesentlichen Effekte, weder positive noch negative, haben wird; außerdem stimme ich mit einigen spezifischen Aussagen dieses Artikels nicht überein. Im Einzelnen:
1. Zur stärkeren Differenzierung der Rednerleistungen[*]: Natürlich können theoretisch bei höherer Auflösung der Skala (d.h. mehr unterschiedlichen Punktestufen, z.B. 35–45 statt 38–42 für eine ‘durchschnittliche’ Rede) mehr Nuancen abgebildet werden. Die Frage ist, wie von Jonathan Scholbach bereits unter dem letzten Artikel zu diesem Thema ausgeführt, ob dadurch mehr ‘Gerechtigkeit’ zustande kommt.
1.1. Dazu müssten Juroren in der Lage sein, zu begründen, warum sie im neuen System eine 41 statt einer 40 geben, und zwar mit dem Anspruch einer intersubjektiven Vermittlung der Richtigkeit dieser Punktzahl. Ich halte das für illusorisch und würde schon im status quo sagen, dass kaum jemand mir stringent erklären kann, was beispielsweise eine 10 in Sprachkraft (oder auch Sachverstand) von einer 9 unterscheidet.
1.1.1. Zur Illustration: Derzeit werden regelmäßig Unterschiede von 4 Punkten, in Ausscheidungsrunden auch deutlich mehr, ohne Diskussion gemittelt, d.h. es wird davon ausgegangen, dass man beispielsweise eine 44 und 48 für die gleiche Rede vertreten kann.
1.2. Selbst wenn einzelne sehr gute Juroren durch die neuen Differenzierungsmöglichkeiten ihre Punktevergabe noch minimal optimieren, wird dieser Effekt mit Sicherheit dominiert von Zufallsfaktoren, die heute bereits sehr großen Einfluss haben
1.2.1. Beispiele: Welche Juroren trifft man im Laufe des Turniers? (Hoch-/Niedrig-/Varianzpunkter; rhetorische und inhaltliche Vorlieben; Ausbildungsgrad der Nebenjuroren; Spezialwissen zum Thema; etc.) Wie unausgeglichen sind die Themen und auf welcher Seite landet man? In welchen Runden und Räumen ist man als FFR unterwegs?
1.3. Somit sind auch klarere Breaks ein Scheinvorteil der Neuregelung: Sind künftig zwei Teams auf 900 (A) und 901 (B) Punkten (wären also im alten System beide auf der gleichen Punktzahl gewesen), so würde ich nicht annehmen, dass Team A in was auch immer für einer Metrik besser ist. Es ist vielmehr davon auszugehen, dass beide ungefähr gleich gut sind, und dass nur die Rolle des Münzwurfs im alten Bewertungssystem durch andere Zufallsfaktoren (s. 1.2.1.) im neuen übernommen wird.
2. Zur Verwendung von Schulnoten: Ich erwarte einen leicht positiven Effekt in der Ausbildung davon, dass die neue Skala an einen bestehenden Bewertungsmaßstab anknüpft. Allerdings gebe ich zu bedenken:
2.1. Die Notenschnitte sind in den verschiedenen Bundesländern, und vermutlich mehr noch zwischen einzelnen Lehrkräften, deutlich unterschiedlich (2016: 2,18 bis 2,58[1]). Dadurch wird ein unterschiedliches Bild davon vermittelt, was der ‘Wert’ einer 2.0 ist.
2.2. Auch wenn die Abiturnoten insgesamt erstaunlich schön normalverteilt sind[2], vermute ich, dass die Kurve in der Gruppe der Debattanten sehr deutlich zur 1.0 hin verschoben ist. Dadurch ist es wahrscheinlich, dass bereits eine 2.0 (obwohl deutlich überdurchschnittlich) als wenig schmeichelhaft wahrgenommen wird.
2.3. Wie im Artikel auch angesprochen, sind die Verbalisierungen der Noten viel zu abstrakt, als dass sie deutliche Rückschlüsse auf eine adäquate Bepunktung zuließen — was bedeutet “gut minus” in Sprachkraft? Dadurch wird für mich sehr fraglich, wie viel Intuition sich aus dem Schulkontext ins Debattieren übertragen lässt. (Zumal dort genau das gleiche Problem auftritt: Wann ist eine 2.0 für eine Texterörterung gerechtfertigt?)
3. Zur relativen Gewichtung von Redner- und Teampunkten: Als jemand, der auch in den Teamkategorien immer von 8 aus hoch- und runtergegangen ist (und dann umgerechnet hat), wundert mich die Verschiebung, die ihr feststellt. Die Punkteverteilungen in beiden Bereichen wären hierzu interessant zu wissen.
4. Der Abschnitt ab “Gleichzeitig werden allerdings auch Schlechtleistungen” ist mir etwas rätselhaft. Auch wenn die absoluten Punktzahlen extremer werden, bleiben doch die Relationen idealerweise gleich. Dadurch sollte beispielsweise die Varianz im Inhalt verglichen mit allen anderen Punktzahlen kein höheres Gewicht bekommen.
5. Zu der Aussage “Im neuen System ist es allerdings leichter bemerkbar, da sich unerfahrene Juroren nicht einfach hinter 8 oder 9 Punkten, die zuvor schon irgendwie hinkamen, verstecken können”: Ich sehe nicht, wie die Reform hier zu einer Änderung führen sollte. Diskutierte man vorher ab 4 Punkten Differenz, so müsste man jetzt ab 6 oder 8 anfangen, um gleiche Effizienz bei der Jurierung zu erreichen, da größere Unterschiede erwartbar sind. Die entscheidende Variable ist in diesem Bereich die zur Jurierung verfügbare Zeit, die die Genauigkeit der Abstimmung zwischen den Juroren bestimmt; nicht die Auflösung der Skala.
[1] http://www.shz.de/deutschland-welt/politik/so-ungerecht-sind-die-abi-noten-im-bundesvergleich-id14398191.html
[2] http://www.statistik.baden-wuerttemberg.de/Presse/Pressemitteilungen/2016087
[*] Weibliche Form mitgemeint. Sorry, es ist spät und Gendern umständlich.
Ich stimme Jannis was seine Kritik an der Orientierung am Schulkontext angeht zu, und möchte ein weiteres – vielleicht quantitativ nicht sehr bedeutendes – Problem hinzufügen: es waren nicht alle auf einer deutschen Schule mit einer derartigen Bewertungsskala, d.h. nicht alle können sich an ihren Erfahrungen oder ihrem Gefühl orientieren, was klarere Beschreibungen für die jeweiligen Noten notwendig macht.
Zustimmung zu Jannis in allen Punkten.
Noch ein kleiner Zusatz zu 2:
Ob das jetzt Schulnoten, Oberstufenbepunktung (0-15p.), UIAA-Skala zur Bewertung der Schwierigkeitsgrade im Klettern oder sonstwas ist, ist mMn. völlig egal und bleibt ohne Effekt. Warum? Es ist doch völlig irrelevant, ob ich die Zahlen- oder Buchstabenreihenfolge der Skala kenne und womit sie sonst so verknüpft ist, wenn ich nicht weiß was die “Güteklassen” der möglichen, erwartbaren, usw. usw. Redeleistungen sind!
Extrembeispiel: Nur weil jemand in der Lage ist, Steine seiner Größe nach in Kategorien von 1-6 einzusortieren, heißt das nicht, dass er/sie/es auch Reden bewerten kann. Völlig egal, ob er/sie/es bisher “auch immer mit der bekannten Skala 1-6” gearbeitet hat oder nicht. Und angenommen dieser jemand kann die Qualität von Reden grundsätzlich bewerten, so passiert das (Jaaa, liebe OPDler, zu denen auch ich mich gerne zähle) IMMER relativ zu seinem Erfahrungshorizont! Geben wir der Person also nun bspw. die Aufgabe Steine nach ihrem Gewicht in Kategorien von 1-6 einzusortieren, dann kann er/sie/es das sehr wohl relativ zu einander, aber ohne, dass er die gängigen Normen der “Steinenachgewichtsortiererszene” kennt, ist es ihm völlig unmöglich zu entscheiden, ob es sich beim leichtesten Stein um eine 1 und beim schwersten um eine 6 handelt, oder vielleicht alle eine 6 sind und er/sie/es einfach einen (für die “Szene”) sehr schweren (und sehr ähnlichen) Satz Steine zum Sortieren bekommen hat.
TL;DR: Kenntnis von Schulnoten nützt zum Bewerten von Debatten ähnlich wenig wie zum Bewerten von Steinen, wenn unbekannt ist, was ein “sehr guter Stein” ist.
Ich kann euch, Jannis und Peter, leider nicht zustimmen.
Ja, die von euch genannten Punkte sind nicht falsch.
Zu 1. Es gibt nicht plötzlich eine perfekte, objektive Bewertung, das stimmt. Zufallsfaktoren dominieren, wie kaum irgendwo anders, weiterhin die Wertung.
Aber da es keinen Grund gibt, anzunehmen, dass der Einfluss der zufälligen Faktoren größer wird, während gleichzeitig die Möglichkeit zu differenzieren zunimmt, bleibt netto zumindest eine präzisere Bewertung.
Oder um es statistisch zu sagen: auch bei großem systematischen Fehler habe ich lieber eine hohe als eine niedrige Präzision, jede Fehlerreduktion ist gut.
Das ist zwar nur Flickschusterei an der wenig perfekten Realität, aber immerhin besser als nichts.
Zu 2. Auch hier sind alle deine Punkte, Jannis, bedenkenswert. Aber es gilt dasselbe: lieber eine schlechte Referenz als gar keine, die ist nämlich im Zweifellsfall noch ungenauer. Aber das hast du ja letztlich selber auch so gesehen (“einen leicht positiven Effekt in der Ausbildung”).
Am Ende muss man sagen, das größte Problem, der systematische Fehler, bleibt. Aber damit müssen wir wohl leben und vielleicht sollten wir der Bewertung auch einfach etwas weniger Relevanz beimessen. Denn am Ende geht es bei der ganzen Bepunktung ja doch nur um unsere Egos, da die aber groß genug sind, können es die meisten von uns auch einfach hinnehmen mal “falsch” bepunktet zu werden.
Kurzantwort:
1. Auch bei systematischen Fehlern (die ich aber hier bezweifeln würde, egal), nützt es nichts die Skala zu vergrößern, damit vergrößert man die Fehler stumpf mit. Ist schließlich ne Skalierung.
2. Jeder der grundsätzlich weiß was eine “Bewertung” ist kann das eins zu eins adaptieren, während der Nutzen aus einer bekannten Skala Null ist, wenn die Skala “dafür” nicht bekannt ist. Ich würde mich bspw. nicht in der Lage sehen, Synchronschwimmerinnen zu bewerten. Weder von 1-6 noch von wie auch immer die bewertet werden (1-10?). Sehr wohl könnte ich aber statt OPD-Punkten auch Schulnoten oder das Alphabet verteilen (Umrechnungsmaßstab vorausgesetzt). Die “Bewertung” des Jurors, ob etwas als gut, schlecht oder dazwischen erkannt wird, findet doch im intuitiven Maßstab des Jurorengeistes statt, während die “Benennung” in Punkten erst hinterher erfolgt, nach welcher Skala auch immer. “Fehler” sind da aber bereits vor der Benennung passiert.
Es bleibt: Sofern die Differenzierungsmöglichkeiten über der Differenzierungsfähigkeit des Jurors liegen ist alles gut, liegen sie drunter wird’s schlechter, aber durch mitteln immer noch teilweise aufgefangen, liegen sie deutlich drunter (Skala = 1) isses halt doof. Siehe Punkt 1 von Jannis.
Zur Individualität von Bewertungen: Was eine 10 von einer 9 unterscheidet ist erschreckend simpel: Es war eine im Schnitt bessere Leistung. Konkrete Unterschiede können korrekterweise nicht allgemein formuliert werden, da Leistungen in OPD stets situativ Wirkungen, nicht aber Handlungen bewerten. Die gleiche Geste kann je nach Situation vollkommen unterschiedlich ankommen und ist deswegen nicht per se als “so und so gut” oder “so und so schlecht” bewertbar. Wenn ich aber zwei konkrete Reden juriere und einer 9 und einer 10 Punkte in auftreten gebe, kann ich dir auch erklären, was an der einen nun besser war als an der anderen.
Weiterhin ist das System der OPD-Jurierung intersubjektiv, weswegen einzelne Juroren problemlos 4 oder in seltenen Fällen auch über 10 Punkte Abstand haben können. Dies legt sich durch die Mittelung verschiedener Eindrücke – daher ist es auch im Interesse aller, viele Juroren pro Raum zu haben. 😉
Zu Unterschieden und Extrempunktern: Wenn ein Team morgen 901 und eines 900 Punkte hat, mag da etwas Glück im Spiel gewesen sein. Heute wäre bei gleichen Punkten dabei aber weitaus mehr Glück im Spiel gewesen, da sich aktuell “Extrempunkter” stärker von der Norm unterscheiden, da sie sich trauen, gute Leistungen auch zu belohnen und schlechte zu strafen – deshalb ist es übrigens auch nicht bloß eine Neuskalierung gedacht und umgesetzt worden, wie von Peter vermutet, sondern tatsächlich auch eine “Neuanwendung”. Morgen sind hoffentlich alle entsprechend differenziert, womit Unterschiede stärker zutrage treten, aber eben auch zurecht. Beim 901:900-Beispiel ist also das neue System aufgrund ausgeglicheneren Juroreneinflusses fairer. Realistischerweise sind es morgen dann aber eben auch viel häufiger (fiktive Zahlen voraus) 920:900 Punkten wo es vorher 801:800 waren.
Im Wesentlichen würde ich also René zustimmen: Das System an sich mag nicht jedermanns Sache sein, intern wird es aber durch eine größere Differenzierung nur besser. Lara hat, wie auch Peter, im Bezug auf Schulnoten an sich natürlich auch recht: Nicht jeder kann mit Schulnoten etwas anfangen. Aber wer es nicht kann muss wie heute auch schon ein ganzes System neu lernen, alle anderen haben zumindest schonmal den Hauch einer Idee. Schlechter wird es also nicht, für manche aber einfacher. Der einzige vermutete Verlust sind also Umstellungsschwierigkeiten bei bereits geeichten Juroren – weswegen wir vor der DDM auch auf keinen Fall eine Umstellung nahelegen wollen. Die Umstellungsschwierigkeiten an sich hielten sich, zumindest im Rahmen des Experiments, wie oben ausgeführt im ersten Eindruck in Grenzen.
Ich hoffe, damit etwas
Das Problem bei einer größeren Punktespanne ist, dass die einzelnen Juroren diese vermutlich nicht gleich groß ausdifferenzieren. Bedeutet: im alten Status quo wichen Extrempunkter unter den Juroren vllt mal um 7-8 Punkte vom Szeneschnitt für eine gute Rede ab (angenommen Szeneschnitt 50, Extrempunkter gibt 57). Diese 7 Punkte Überschuss bei Extrempunktern, konnte man noch über mehrere Runden auffangen, so dass Teams oder Rede mit solchen Glückszuordnungen von Extrempunktern nicht allzu große Vorteile bekamen. Wenn jetzt allerdings die mögliche Varianz größer wird, so hängt das Breakglück noch viel stärker davon ab, ob man einen Extrempunkter als Juror bekommt, oder nicht. Daher besteht hier die Gefahr, dass Extrempunkter das Feld signifikant verzerren.
Wie unter 7.e kommentiert ist die Neueichung tatsächlich nicht als bloße Skalierung zu verstehen, sondern als Anreiz zur stärkeren Differenzierung. In dem Sinne werden also schlicht alle zu “Extrempunktern”, womit der Einfluss pro Juror sich angleicht. Der Rest liegt bei den Clubs, wenn pro Raum drei Juroren anwesend sind ist das auch intersubjektiv unproblematisch.