DoEHappen Blog #065 - Stefan Moser

DoE – Happen #065 – Teil 7/17

Warum ein starkes Gesamtmodell manchmal die falsche Sicherheit gibt

Im regelmäßigen Qualitätsmeeting stellte die R&D die aktuellen Ergebnisse aus einer Beschichtungsentwicklung vor. Es ging um die Haftfestigkeit einer funktionalen Schicht auf einem technischen Bauteil.

Ziel war dabei nicht einfach „maximale Haftung“. Die Haftfestigkeit sollte in einem definierten Bereich liegen: hoch genug, damit die Schicht im Prozess stabil bleibt, aber niedrig genug, damit spätere Funktionen oder Ablöseschritte nicht beeinträchtigt werden.

Die Aufgabe klang zunächst überschaubar. Variiert wurden typische Stellgrößen wie Temperatur, Behandlungszeit, Additivmenge und Primer. Zusätzlich liefen zwei Trocknungsprogramme im Vergleich mit. Beide waren aus Prozesssicht grundsätzlich möglich, und zunächst ging man davon aus, dass ihr Einfluss eher überschaubar sein würde. Deshalb wurde je ein Versuchssatz inklusive Wiederholungen mit jedem Programm innerhalb der DoE gefahren. Das Trocknungsprogramm war damit als qualitativer Faktor im Datensatz enthalten.

Auf dem Papier war das ein sauberer Ansatz: strukturierter Versuchsplan, klare Zielgröße, bewusst eingeplante Wiederholungen und eine erste Modellierung, die ordentlich aussah.

Im Meeting richtete sich der Blick deshalb schnell auf die geplanten Stellgrößen.

Und genau darin lag die spätere Überraschung.

Grafik 0: Meeting-Szene mit Männchen und Sprechblasen

Das Modell wirkte zunächst so, wie man es sich in einem Projekt wünscht: stabil genug, vorhersagefähig genug und ohne offensichtlichen Hinweis darauf, dass die Wiederholungen völlig aus dem Ruder laufen.

Man hätte an dieser Stelle leicht sagen können: „Passt doch. Lass uns auf die wichtigsten Faktoren schauen.“

Und tatsächlich zeigte auch der Koeffizientenplot mehrere Einflussgrößen, mit denen man fachlich etwas anfangen konnte. Das Trocknungsprogramm tauchte ebenfalls auf – deutlicher, als man es ursprünglich erwartet hatte. Genau deshalb lohnte sich der zweite Blick.

Grafik 1: Gesamtmodell der Beschichtungsversuche – auf den ersten Blick wirkt die Auswertung überzeugend. Erst die Diagnoseplots zeigen, dass die Geschichte nicht ganz so einfach ist.

Im Gesamtmodell sah vieles zunächst brauchbar aus. Der Summary Plot vermittelte ein beruhigendes Bild, und auch der Observed-vs.-Predicted Plot sah nicht so aus, als würde das Modell völlig an der Realität vorbeirechnen.

Beim längeren Hinsehen zeigte sich aber eine Struktur, die nicht ganz zu einer homogenen Datenwolke passte. Die Versuchsergebnisse wirkten teilweise so, als würden sie sich in zwei Bereiche aufteilen.

Noch deutlicher wurde es im Replicate Plot. Dort lagen die Messwerte nicht einfach zufällig verteilt. Sie sortierten sich eher auf zwei Niveaus: ein Teil der Ergebnisse nahe am gewünschten Bereich, ein anderer Teil deutlich darüber.

Das Histogramm passte zu diesem Eindruck. Auch dort sah es nicht nach einer einzigen, gemeinsamen Prozesspopulation aus, sondern eher nach zwei überlagerten Datenwelten.

Kurz gesagt: Das Gesamtmodell sah brauchbar aus. Aber die Rohdaten erzählten schon eine andere Geschichte.

Die Gruppen waren nicht sauber mit dem Lineal getrennt. Aber sie waren klar genug zu erkennen, um die Diskussion zu drehen.

Plötzlich ging es nicht mehr nur um die Frage, welcher Beschichtungsparameter am stärksten wirkt.

Sondern um etwas Grundsätzlicheres:

Beschreiben wir hier wirklich einen Prozess – oder vermischen wir gerade zwei Prozesswelten?

Grafik 2: Nach der Einfärbung nach Trocknungsprogramm wird sichtbar: Die Messwerte sind nicht zufällig über den gesamten Bereich verteilt. Die beiden Programme erzeugen unterschiedliche Niveaus – mit einer Übergangszone, in der sich die Ergebnisse teilweise überschneiden.

Mit der Einfärbung nach Trocknungsprogramm wurde der Verdacht konkreter. Die beiden Gruppen lagen nicht vollständig getrennt, und genau das ist in realen Prozessen auch selten der Fall. Trotzdem zeigte sich ein klares Muster: Ein Programm führte überwiegend zu niedrigeren Haftfestigkeiten, das andere überwiegend zu höheren Werten.

Gerade die leichte Überschneidung war wichtig. Sie zeigte, dass die geplanten Stellgrößen und die normale Prozessstreuung weiterhin eine Rolle spielten. Aber über allem lag ein deutlicher Niveauunterschied, der mit dem Trocknungsprogramm zusammenhing.

Damit war die Frage nicht mehr nur, ob das Modell gut aussieht. Die Frage war:

Wie viel von der Modellgüte kommt wirklich aus Temperatur, Behandlungszeit, Additivmenge und Primer – und wie viel aus dem Unterschied zwischen den beiden Programmen?

Beschreiben wir hier wirklich ein gemeinsames Beschichtungsmodell – oder beschreibt das Modell vor allem den Unterschied zwischen zwei Trocknungsprogrammen?

Das ist ein wichtiger Unterschied. Denn wenn ein Trocknungsprogramm das Niveau der Haftfestigkeit sichtbar verschiebt, kann das Gesamtmodell diesen Unterschied natürlich nutzen. Es wirkt dann schnell stark und überzeugend.

Aber daraus folgt noch nicht automatisch, dass die eigentlichen Stellgrößen innerhalb beider Trocknungsprogramme gleich gut verstanden sind.

Grafik 3: Links wirkt das Histogramm der Gesamtdaten nicht wie eine homogene Prozesspopulation, sondern eher wie zwei überlagerte Datenwelten. Rechts wird durch die Einfärbung nach Trocknungsprogramm sichtbar, woher diese Struktur kommt.

Links wirkt das Histogramm der Gesamtdaten nicht wie eine homogene Prozesspopulation, sondern eher wie zwei überlagerte Datenwelten. Rechts wird durch die Einfärbung nach Trocknungsprogramm sichtbar, woher diese Struktur kommt.

Das Histogramm brachte denselben Punkt noch einmal auf eine andere Art auf den Tisch. In der Gesamtdarstellung wirkte die Verteilung nicht wie eine einzige saubere Datenwolke, sondern eher wie zwei überlagerte Bereiche.

Mit der Einfärbung nach Trocknungsprogramm wurde klarer, woher dieser Eindruck kam. Die beiden Programme hatten sichtbar unterschiedliche Schwerpunkte, auch wenn sie sich nicht vollständig voneinander trennten.

Damit war die Streuung nicht mehr einfach nur „viel Streuung“. Sie bekam eine Richtung.

An diesem Punkt hätte man leicht in die nächste Modellrunde springen können: vielleicht fehlt noch ein Term, vielleicht eine Wechselwirkung, vielleicht braucht es eine andere Modellvariante.

Manchmal ist genau das richtig. ….. Hier lag der entscheidende Hinweis aber nicht in der nächsten Rechenrunde, sondern in der Versuchshistorie. Die beiden Trocknungsprogramme waren zwar bewusst innerhalb der DoE mitgelaufen, in der ersten Diskussion aber eher als praktischer Prozessvergleich betrachtet worden – nicht als Einfluss, der die Auswertung dominieren würde.

Für die Software war es zunächst ein gemeinsamer Datensatz. — Fachlich waren es zwei Prozesszustände.

Und genau damit wurde verständlich, warum das Gesamtmodell so überzeugend wirkte. Das Trocknungsprogramm verschob das Haftungsniveau deutlich. Diesen Unterschied konnte das Modell nutzen – es fand also Struktur in den Daten, vor allem über den Hebel des Trocknungsprogramms.

Nur war jetzt die entscheidende Frage: War das die Struktur, die wir eigentlich verstehen wollten?

Denn das Ziel war nicht nur zu zeigen, dass Programm 0 und Programm 1 auf unterschiedlichen Niveaus liegen. Im Gesamtmodell beschreiben viele Informationen zunächst vor allem diesen Abstand zwischen den beiden Gruppen.

Wenn wir aber den Beschichtungsprozess verstehen wollen, müssen wir eine Ebene tiefer schauen: Welche Rolle spielen Temperatur, Behandlungszeit, Additivmenge und Primer innerhalb eines Trocknungsprogramms?

Genau das wird erst durch das Trennen der Gruppen möglich. Dann erklärt das Modell nicht mehr hauptsächlich den Unterschied zwischen zwei Programmen, sondern muss zeigen, welche Zusammenhänge innerhalb der jeweiligen Prozesswelt wirklich tragen.

Deshalb wurden die Daten anschließend getrennt betrachtet – einmal je Trocknungsprogramm.

Und dadurch wurde das Bild ehrlicher.

Grafik 4: Getrennt nach Trocknungsprogramm verschwindet die auffällige Zweiteilung im Histogramm. Gleichzeitig wird im Replicate Plot deutlicher, wie stark sich die Messwerte innerhalb der einzelnen Programme überlagern.

In den getrennten Darstellungen passierte etwas Entscheidendes: Die auffällige Zweiteilung aus dem Gesamtdatensatz wurde herausgenommen. Die jeweiligen Gruppen-Histogramme wirkten nun eher wie Daten aus jeweils einem Prozesszustand – nicht mehr wie zwei übereinandergelegte Prozesswelten.

Das war erst einmal beruhigend. Gleichzeitig wurde die Auswertung dadurch ehrlicher, denn die Einzelmodelle konnten sich nicht mehr auf den großen Niveauunterschied zwischen den Trocknungsprogrammen stützen.

Das Modell musste nun innerhalb des jeweiligen Programms zeigen, welche Rolle Temperatur, Behandlungszeit, Additivmenge und Primer tatsächlich spielen. Genau dadurch trat im Replicate Plot etwas stärker hervor, das im Gesamtmodell leicht überdeckt wird: Innerhalb der einzelnen Programme überlagerten sich immer noch viele Messwerte deutlich.

Die Wiederholstreuung, die normale Prozessvariation und die Unsicherheit einzelner Trends wurden sichtbarer.

Einige Zusammenhänge blieben in beiden Einzelmodellen erkennbar, andere wurden schwächer oder verschoben sich leicht. Auch die Modellstruktur war zwischen den beiden Programmen nicht vollständig identisch. Genau das ist fachlich wichtig: Ein Effekt, der im Gesamtmodell sichtbar wird, ist noch kein belastbarer Prozesszusammenhang. Entscheidend ist, ob er auch innerhalb der jeweiligen Prozesswelt stabil genug bleibt, um daraus eine sinnvolle Interpretation oder Empfehlung abzuleiten.

Das ist der zentrale Unterschied:

Das Gesamtmodell konnte zwischen den Programmen unterscheiden. Die Einzelmodelle mussten innerhalb der Programme erklären.

Genau deshalb war diese Betrachtung so wertvoll. Sie nahm dem Modell die einfache Erklärung über das Trocknungsprogramm weg und zeigte, was innerhalb der beiden Prozesszustände wirklich übrig blieb.

Reflexion: Was im Gesamtmodell leicht verborgen bleibt

Damit war die Geschichte im Grunde erzählt: Das Gesamtmodell war nicht wertlos. Im Gegenteil. Es hatte einen wichtigen Hinweis geliefert. Es zeigte sehr deutlich, dass die beiden Trocknungsprogramme nicht einfach nur eine kleine Randbedingung waren, sondern das Niveau der Haftfestigkeit spürbar mitprägten.

Gefährlich wäre nur gewesen, dieses starke Gesamtmodell vorschnell als vollständiges Prozessverständnis zu lesen.

Denn ein Modell, das zwei Gruppen gut auseinanderhält, beantwortet zunächst vor allem diese eine Frage: Welche Gruppe liegt wo? Für die praktische Optimierung reicht das in der Regel aber nicht. Dort geht es um die nächste Ebene: Was passiert innerhalb der jeweiligen Gruppe?

Genau deshalb war die getrennte Betrachtung so wichtig. Sie zeigte, dass einige Effekte weiterhin erkennbar waren, andere aber weniger stabil wirkten oder sich zwischen den Programmen leicht unterschieden. Damit wurde aus einer scheinbar klaren Gesamtstory eine differenziertere, aber deutlich belastbarere Prozesssicht.

Der Kern ist also nicht: Das Gesamtmodell war schlecht.

Der Kern ist: Das Modell hat eine Struktur gefunden – aber wir mussten erst verstehen, welche Struktur das war.

Und genau das ist gute DoE-Auswertung: nicht nur Kennzahlen abhaken, sondern die Daten wieder mit der Prozessrealität verbinden.

Was heißt das für die Praxis? Wenn ein Modell gut aussieht, die Rohdaten aber zwei Niveaus zeigen, sollte man nicht sofort in die nächste Modellvariante springen. Oft ist die bessere erste Frage:

Welche Prozesszustände stecken in meinen Daten?

Das können Programme sein, Chargen, Lagerzeiten, Prüfbedingungen, Schichten oder andere Rahmenbedingungen, die im Alltag selbstverständlich wirken – in der Auswertung aber zunächst nur am Rand stehen.

Solche Informationen verschwinden nicht, nur weil sie nicht im Zentrum des Versuchsplans stehen. Sie wirken trotzdem. Und wenn sie stark genug sind, können sie die Interpretation deutlich verschieben.

Ein gutes Modell beantwortet immer nur die Frage, die in den Daten sauber gestellt wurde. Wenn zwei Prozesszustände vermischt sind, kann die Antwort zunächst sehr überzeugend aussehen – aber trotzdem an der eigentlichen Frage vorbeigehen.

Merksatz zum Mitnehmen

Wenn ein Modell sehr gut aussieht, aber die Daten zwei Niveaus zeigen, dann nicht sofort optimieren. Erst klären, ob wirklich ein Prozess beschrieben wird – oder zwei.

Highlight zum Schluss

Alle bisherigen DoE-Beiträge gibt’s jetzt gebündelt in unserer neuen LinkedIn-Gruppe. Dort findest du ältere Inhalte schneller wieder, kannst neue Themen anregen – und dich mit anderen DoE-Interessierten austauschen. Gib gern gezielt Likes und Kommentare: So sehe ich, welche Beiträge und Fragen für die Gruppe am wichtigsten sind, und kann die nächsten Themen entsprechend priorisieren.

👉 Alle 1–2 Wochen kommt ein frischer Blogpost dazu. Ich freue mich auf deine Fragen, Erfahrungen und Diskussionen! Hier geht’s zur Gruppe: https://lnkd.in/d8t4gt74

Und natürlich: Alle Blogs wie gewohnt auch auf meiner Website – inkl. Videos, Tipps & mehr.

Und ein kleines Highlight zum Schluss

https://lnkd.in/d8t4gt74

👉 Alle 1–2 Wochen kommt ein frischer Blogpost dazu. Ich freue mich auf deine Fragen, Erfahrungen und Diskussionen! Hier geht’s zur Gruppe: https://lnkd.in/d8t4gt74

Und natürlich: Alle Blogs wie gewohnt auch auf meiner Website – inkl. Videos, Tipps & mehr.

Mehr aus Ihren Prozessen rausholen?

Ob DoE-Grundlagen oder Spezialthemen wie Troubleshooting, Screening, Optimierung, Mischungsdesigns oder Robustheit – ich unterstütze Sie mit praxisnahen DoE-Trainings, gezielter Beratung und methodischer Begleitung. Auch bei MVDA, DFSS und QFD bin ich an Ihrer Seite – vom ersten Workshop bis zur robusten Umsetzung.