Es dauert immer länger als gedacht!

Ein Vergleich relativer Schätzungen und der effektiv benötigten Zeit.

Warum?

Ist euch auch schon aufgefallen, dass es immer mehr zutun gibt als Zeit und Geld es erlauben?

…hmm, woran könnte das liegen?

Ein Grund dafür: Unsere Schätzungen sind eher zu optimistisch. Das liegt daran, dass sie keiner Normalverteilung unterliegen und sich über die Zeit nicht ausgleichen.

Ein kurzer Ausflug in die Stochastik: Würden die Schätzungen einer Normalverteilung unterliegen, also keine Präferenz für Unter- oder Überschätzung aufweisen, würden sie sich über die Zeit ausgleichen. Demnach würden wir Aufwände immer noch unter- und überschätzen, aber auf Dauer hätte es keinen Einfluss, da wir genau gleich viel Aufwände unter- wie überschätzt hätten.

In agilen Projekten werden Aufgaben häufig in kleinere, leichter umzusetzende Stücke herunter gebrochen und an Hand einer User Story formuliert. Ich verwende hier den Ausdruck Story als Synonym für Arbeitsaufwand. Weiter werden Storys häufig nicht absolut (z.B. in Manntagen oder Stunden) sondern relativ zueinander in einer fiktiven Größe (z.B. Story Points oder T-Shirt Größen) geschätzt. Eine relative Schätzung wird erst in Verbindung mit einem Team, welches in der Lage ist Stories umzusetzen, zu einer Zeit.

Ich habe ein Jahr lang die relativ geschätzten Stories eines Teams aufgezeichnet und mit den effektiv benötigten Zeiten verglichen. Die am häufigsten benötigte Umsetzungszeit für eine relative Story derselben Größe entspricht dabei dem Faktor 1. Bei allen anderen Zeiten habe ich ermittelt, wie vielmal sie von diesem Faktor abweichen. Folgendes Bild ist dabei entstanden:

Schätzgenauigkeit über 1 Jahr

Wenn wir uns die beiden Extreme anschauen: Laut den Messungen hatten wir in diesem Jahr drei Stories um den Faktor 4 überschätzt (wir haben also 4x weniger Zeit benötigt als geschätzt). Auf der anderen Seite hatten wir eine Story um den Faktor 13 unterschätzt (die Story umzusetzen dauerte 13x länger als geschätzt). Den Messungen nach zu urteilen werden die unterschätzen Stories nicht durch überschätzte Stories kompensiert, die Anzahl der Unterschätzungen und deren Faktor übertrifft die der Überschätzungen und so ergibt sich klar eine Präferenz zur Unterschätzung hin.

Wie sieht es aber bei den verschiedenen Story-Größen aus. Verschätzt man sich bei einer großen Story, dürfte das stärker ins Gewicht fallen als bei einer Kleinen.

Schätzgenauigkeit über 1 Jahr nach Grössen

Die Messungen zeigen, dass die kleinen Aufwände im geringeren Ausmasse von extremen Unterschätzungen betroffen sind als mittlere und große Aufwände.

Gewichtet man die relativen Schätzungen mit den am häufigsten benötigten Zeiten der jeweiligen Größe, erhält man eine geschätzte Idealdauer. Im Falle einer Normalverteilung würde diese geschätzte Idealdauer ungefähr der effektiv benötigen Gesamtdauer entsprechen. Bei meinen Messungen entspricht die geschätzte Idealdauer gerade mal einem Drittel der effektiv benötigten Zeit.

Bemerkenswert ist, dass die gossen Stories anzahlmässig mit 26% die kleinste Gruppe bilden (Mittlere 39% und kleine 35%), jedoch 50% der Differenz zwischen geschätzter und effektiv benötigter Zeit ausmachen (Mittlere 33% und kleine 17%). Also stimmt die Vermutung, dass unterschätze große Stories stärker ins Gewicht fallen.

Obwohl wir bei dieser Messung nur gerade ein Team anschauen, habe ich das Gefühl, dass es sich bei anderen Teams ähnlich verhalten hat.

Mein Fazit:

  • Eine Schätzung ist und bleibt eine Schätzung!

  • Es existiert eine Präferenz in Richtung Unterschätzung.

  • Kleiner geschnittene Stories wirken der Präferenz zur Unterschätzung entgegen.