DoE #66 – Wenn das Rauschen lauter ist als der Effekt

Neulich meldete sich einer meiner Kursteilnehmer – nennen wir ihn Heinz.

Heinz hatte einen DOE durchgeführt. Drei Faktoren, vollfaktorielles Design, fünf randomisierte Wiederholungen je Versuchspunkt – denn er wusste: Zugprüfungen streuen. Alles richtig gemacht. Sein Overview Plot sah ordentlich aus. Die Mittelwerte lagen im Zielbereich, die Amplitude zeigte den größten Effekt, die Kennzahlen wirkten solide.

Und trotzdem zweifelte er.

„Die Wiederholbarkeit macht mir Sorgen“, schrieb er mir. „Kannst Du mal drüberschauen?“

Genau das haben wir getan. Was wir dabei gefunden haben, ist lehrreich – nicht nur für Heinz.

Was Heinz untersucht hat

Das Ziel war klar: Welche Parameter der Ultraschallverschweißung beeinflussen die Zugfestigkeit eines Kunststoffbauteils?

Drei Faktoren, zwei Levels:

Amplitude – von 20 bis 40 µm
Schweißdruck – von 2,0 bis 4,0 bar
Triggerdruck – von 0,5 bis 1,5 bar

Design: 2³ vollfaktoriell, drei Centerpoints, elf Versuchspunkte gesamt. Jede Einstellung wurde fünfmal wiederholt – randomisiert, nicht nacheinander. Das schützt vor systematischen Fehlern, die entstehen, wenn Maschine, Material oder Umgebung sich schleichend verändern.

Soweit ein solider Ansatz.

Das erste leise Signal – die Centerpoints

Heinz hatte die Mittelwerte je Versuchspunkt berechnet und daraus ein Modell abgeleitet. Die Amplitude dominierte den Effekt, die Kennzahlen stimmten, der Observed-vs.-Predicted-Plot zeigte die Punkte nahe der Diagonalen.

[Abbildung 1: Overview Plot ZugPrf_MW – MLR-Modell auf Basis der Mittelwerte. Modde 13.1]

Wer diesen Plot sieht, denkt: Das funktioniert.

Aber Heinz hatte genau hingeschaut. Die drei Centerpoints – identische Einstellungen, dreimal wiederholt – lieferten Zugfestigkeiten von 281 N, 271 N und 258 N. Eine Spanne von 23 N bei exakt gleichen Parametern.

Das ist kein Ausreißer. Das ist ein Signal.

Ein Prozess, der bei identischer Einstellung um 23 N schwankt, trägt eine Streuquelle in sich, die nicht in den Faktoren steckt. Heinz hatte das gespürt – aber noch nicht einordnen können. Deshalb hatte er mich kontaktiert.

Warum Mittelwerte in der Regression trügen

Wiederholungsversuche sind richtig und wichtig. Heinz hatte das instinktiv verstanden – er wusste, dass Zugprüfungen streuen, und hatte deshalb jeden Versuchspunkt fünfmal randomisiert wiederholt.

Der nächste Schritt war der entscheidende Fehler – und er ist häufiger als man denkt.

Heinz berechnete aus den fünf Wiederholungen einen Mittelwert je Versuchspunkt. Dann verwendete er diese elf Mittelwerte als Basis für seine Regression. Das Ergebnis: ein Modell, das auf geglätteten Daten trainiert wurde.

Die echte, prozessimmanente Streuung war damit aus den Daten verschwunden. Das Modell kannte sie nicht. Es hatte sie nie gesehen. Und ein Modell, das die Streuung nicht kennt, beschreibt eine Welt, die es so nicht gibt.

Der Blick hinter die Mittelwerte

„Hast Du auch die Einzelwerte dabei?“, fragte ich.

Heinz hatte sie. Alle fünf Wiederholungen je Versuchspunkt – 55 Messwerte insgesamt. Wir luden sie gemeinsam in Modde – und ergänzten die Auswertung um drei Darstellungen in Excel.

[Abbildung 2: Einzelergebnisse Zugfestigkeit (Scatter), Versuchsmittelwerte und Boxplot je Versuchspunkt – Excel]

Der Scatter Plot zeigt die 55 Einzelwerte – ohne Struktur, ohne erkennbare Trennung zwischen den Versuchen. Der Mittelwertplot daneben zeigt dieselben Daten geglättet: ordentlich, fast beruhigend. Und der Boxplot zeigt, was dahintersteckt: breite Verteilungen, die sich von Versuch zu Versuch stark überschneiden.

Wer nur den Mittelwertplot sieht, sieht eine Ordnung, die in den Rohdaten nicht existiert.

Was dann erschien, war ein anderes Bild.

[Abbildung 3: Overview Plot ZugPrf_EW – PLS-Modell auf Basis der Einzelwerte. Modde 13.1]

Die Ergebniswolken im Replicates-Plot der einzelnen Versuchspunkte überschnitten sich stark. Wer Low und High der Amplitude vergleichen wollte, fand keine klare Trennung – sondern zwei breite Verteilungen, die weit ineinander ragten.

Und der Koeffizientenplot bestätigte diesen Eindruck: Die Konfidenzintervalle von Amplitude, Schweißdruck und Triggerdruck überschnitten sich deutlich mit der Nulllinie. Kein Faktor war statistisch sicher vom Rauschen zu trennen.

Ein Effekt, der im Rauschen versinkt, ist kein messbarer Effekt.

Und dann der Summary of Fit: Q² – das Maß für die Vorhersagekraft des Modells – war negativ.

Das ist keine schlechte Note. Das ist eine Disqualifikation!

Ein negatives Q² bedeutet: Das Modell trifft schlechtere Vorhersagen als der bloße Gesamtmittelwert aller Messwerte. Es wäre besser, einfach immer denselben Durchschnittswert zu tippen – als diesem Modell zu vertrauen. Sinnvolle Vorhersagen oder Optimierungsaussagen lassen sich daraus nicht ableiten.

Heinz schaute auf den Plot. Dann sagte er: „Das sieht nicht gut aus.“

Ich nickte: „Nein. Aber es ist ehrlich.“

Die Mittelwerte hatten eine ordentliche, beruhigende Geschichte erzählt. Die Einzelwerte erzählten die Wahrheit.

Warum ist das so? Drei mögliche Erklärungs-Versuche

Das Rauschen kommt selten aus einer einzigen Quelle. Bei Heinz waren vermutlich alle drei der folgenden Ursachen beteiligt – in unterschiedlichem Ausmaß.

Erklärungsversuch 1 – Das Variationsfenster war zu klein

Die Amplitude wurde von 20 auf 40 µm variiert. Der mittlere Effekt auf die Zugfestigkeit betrug rund 25–30 N. Die Streuung innerhalb eines einzelnen Versuchspunkts lag bei 30–45 N.

Das Signal war real – aber leiser als das Rauschen. Wenn der Effekt kleiner ist als die natürliche Streuung des Systems, kann kein Modell ihn sauber herausarbeiten. Ein erweitertes Variationsfenster – vorsichtig, kontrolliert – könnte hier Klarheit schaffen.

Erklärungsversuch 2 – Das Variationsfenster war zu groß

Der umgekehrte Fall ist ebenso tückisch. Zu weite Variation kann gleich zwei Probleme erzeugen.

Erstens: Proben oder Bauteile lassen sich an den Extrempunkten nicht mehr mit gleicher Qualität herstellen oder messen. Die Streuung steigt dann nicht wegen des Prozesses – sondern wegen der Messung selbst.

Zweitens: Ein zu großes Fenster kann dazu führen, dass der Effekt eines Faktors im gewählten Bereich nicht mehr linear verläuft. Das lineare Regressionsmodell setzt jedoch genau das voraus. Tritt eine Krümmung auf, versucht das Modell, eine Kurve mit einer Geraden zu beschreiben – und scheitert. Der Effekt ist real, aber das Modell kann ihn nicht abbilden. Er erscheint als Rauschen.

Ein zu großes Fenster produziert manchmal mehr Rauschen als Erkenntnis – und mehr Fragen als Antworten.

Erklärungsversuch 3 – Störgrößen außerhalb der Kontrolle

Das ist die häufigste – und oft unangenehmste – Erklärung. Der Prozess streut nicht wegen der variierten Faktoren, sondern wegen Einflüssen, die gar nicht im Versuchsplan stehen.

Bei Zugprüfungen sind solche Quellen gut bekannt:

Einspannungsdifferenzen – minimale Abweichungen in der Probenausrichtung erzeugen Normalspannungsanteile, die die gemessene Zugfestigkeit verfälschen
Materialchargenschwankungen – unterschiedliche Kunststoffchargen bringen unterschiedliche Ausgangseigenschaften mit
Schweißgeometrie – kleinste Abweichungen in der Bauteilpositionierung beeinflussen die Energieeinleitung
Umgebungseinflüsse – Temperatur, Luftfeuchte, Maschinenzustand zum Zeitpunkt der Messung

Diese Quellen streuen unabhängig davon, welche Faktoreinstellung gerade getestet wird. Sie überlagern die eigentlichen Effekte – und machen das Modell blind für das, was es eigentlich sehen soll.

Ein Ergebnis ist ein Ergebnis

Heinz hatte nichts falsch gemacht. Sein DOE hatte geliefert – nur nicht das, was er erwartet hatte. Er hatte geliefert, was er konnte: eine ehrliche Bestandsaufnahme.

Ein Ergebnis ist kein Urteil. Es ist kein Scheitern und kein Erfolg. Es ist eine Aussage über den Zustand, wie er ist – zum Zeitpunkt der Messung, mit den gewählten Faktoren, unter den herrschenden Bedingungen.

Wer das versteht, hört auf, Ergebnisse schönzureden. Und fängt an, sie zu lesen.

Für Heinz bedeutete das drei konkrete nächste Schritte:

Variationsfenster prüfen – ist der Bereich groß genug, damit der Effekt das Rauschen übersteigt?
Messsystem analysieren – wie reproduzierbar ist die Zugprüfung allein, ohne Schweißprozess?
Störgrößen suchen – strukturiert, mit Ishikawa-Diagramm oder Brainwriting im Team, bevor der nächste Versuchsplan startet

Denn das Beste, was ein DOE-Ergebnis leisten kann, ist manchmal nicht die Antwort. Sondern die richtige Folgefrage.

Haben Sie ähnliche Erfahrungen gemacht – mit Ergebnissen, die erst auf den zweiten Blick ihren wahren Wert zeigten? Ich freue mich auf Ihre Gedanken in unserer DoE-Community: https://lnkd.in/d8t4gt74

Merksatz zum Mitnehmen

Wenn ein Modell auf Basis der Mittelwerte gut aussieht, die Einzelwerte aber breite, überlappende Wolken zeigen – dann nicht sofort optimieren. Erst klären, ob das Modell einen echten Prozess beschreibt. Oder nur dessen geglättetes Abbild.

Highlight zum Schluss

Heinz hat mit seiner Frage etwas angestoßen, das viele kennen – aber selten laut aussprechen. Genau für solche Diskussionen gibt es unsere DoE-LinkedIn-Gruppe. Dort findest Du alle bisherigen Beiträge gebündelt, kannst neue Themen anregen und Dich mit anderen DoE-Interessierten austauschen.

Hast Du ähnliche Erfahrungen gemacht – mit Ergebnissen, die erst auf den zweiten Blick ihren wahren Wert zeigten? Oder mit Modellen, die gut aussahen und trotzdem nicht hielten, was sie versprachen? Gib gern gezielt Likes und Kommentare: So sehe ich, welche Themen für die Gruppe am wichtigsten sind – und kann die nächsten Beiträge entsprechend ausrichten.

👉 Alle 1–2 Wochen kommt ein frischer Beitrag dazu. Ich freue mich auf Deine Fragen, Erfahrungen und Diskussionen! Hier geht’s zur Gruppe: https://lnkd.in/d8t4gt74

Und natürlich: Alle Blogs wie gewohnt auch auf meiner Website – inkl. Videos, Tipps & mehr.

Und ein kleines Highlight zum Schluss

https://lnkd.in/d8t4gt74

Alle bisherigen DoE-Beiträge gibt’s jetzt gebündelt in unserer neuen LinkedIn-Gruppe. Dort findest du ältere Inhalte schneller wieder, kannst neue Themen anregen – und dich mit anderen DoE-Interessierten austauschen. Gib gern gezielt Likes und Kommentare: So sehe ich, welche Beiträge und Fragen für die Gruppe am wichtigsten sind, und kann die nächsten Themen entsprechend priorisieren.

👉 Alle 1–2 Wochen kommt ein frischer Blogpost dazu. Ich freue mich auf deine Fragen, Erfahrungen und Diskussionen! Hier geht’s zur Gruppe: https://lnkd.in/d8t4gt74

Und natürlich: Alle Blogs wie gewohnt auch auf meiner Website – inkl. Videos, Tipps & mehr.

Mehr aus Deinen Prozessen herausholen?

Du weißt nicht weiter – oder willst einfach mal gemeinsam auf Deine Daten schauen? Dann meld Dich. Kollegial, unverbindlich, auf Augenhöhe.

Ob DOE-Einstieg oder knifflige Spezialthemen wie Screening, Robustheit, Mischungen oder Troubleshooting – ich begleite Dich praxisnah: mit Trainings, Beratung und methodischer Unterstützung – vom ersten Workshop bis zur Umsetzung.

Auch bei MVDA, DFSS oder QFD stehe ich gern an Ihrer Seite.

🌐 Mehr unter: www.stefan-moser.com

🔗 Zur DoE-Community auf LinkedIn: https://lnkd.in/d8t4gt74