 Probability rules Most of probability theory was laid down by theologians: Blaise PASCAL (1623-1662) who gave it the axiomatization that we accept today; and Thomas BAYES (1702-1761) who expressed one of its most important and widely-applied propositions relating conditional probabilities.

 Clearly, in case A and B are independent events, they are not conditionalised on each other and so p(A|B) = p(A) and p(B|A) = p(B)

Sum Rule: If event A is conditionalised on a number of other events B, then the total probability of A is the sum of its joint probabilities with all B:
p(A) = X B p(A, B) = X B p(A|B)p(B)

 y have the disease given that you tested positive for it, is much smaller than you may have thought: p(H|D) = p(D|H)p(H) p(D) = (.95)(.001) (.051) = 0.019 (less than 2%).

2. Entropies defined, and why they are measures of information. I Marginal entropy, joint entropy, conditional entropies, and the Chain Rule
The information measure I of a single event or message is defined as the base-2 logarithm of its probability p of occuring: I = log 2 p

More concepts and notation We use capital letters X and Y to name random variables, and we use lower case letters x and y for instances of their respective outcomes. These are drawn from particular sets A and B: x ∈ {a 1 , a 2 , ...a J }, and y ∈ {b 1 , b 2 , ...b K }. The probability of any particular outcome p(x = a i ) is denoted p i , for 0 ≤ p i ≤ 1 and with P i p i = 1. An ensemble is just a random variable X . A joint ensemble ‘XY ’ is an ensemble whose outcomes are ordered pairs x, y with x ∈ {a 1 , a 2 , ...a J } and y ∈ {b 1 , b 2 , ...b K }. The joint ensemble XY defines a probability distribution p(x, y ) over all the JK possible joint outcomes x, y. Marginal probability: From the Sum Rule, we can see that the probability of X taking on any particular value x = a i equals the sum of the joint probabilities of this outcome for X and all possible outcomes for Y : p(x = a i ) = X y p(x = a i , y). We usually simplify this notation for the marginal probabilities to: p(x) = X y p(x, y) and p(y ) = X x p(x, y)
#### Annotation 6304501992716

 It is now possible to define various entropy measures for joint ensembles. The key thing to notice about all of them is that they are instances of the basic H = − P i p i log p i concept except that the p i will now be instea

WHY

Welcher Prozess liegt Diagnostik zugrunde? (Purpose/Ziel)
Psychologische Diagnostik als Informationsgewinnungsprozess • z.B. Informationen über das Verhalten/Erleben von Individuen • „Psychologisch“, weil Methoden der Psychologie verwendet werden (z.B. Fragebögen, Interviews, Beobachtungen, physiologische Maße)

status measured difficulty not learned 37% [default] 0

Evaluationsdefinitionen
Unterschiedliche Evaluationsdefinitionen vorhanden, z.B. • Evaluation als diagnostisches Ziel - Bewerten (lat. valuere), beurteilen, prüfen etc. • Evaluation als Prozess (Planung …. Kommunikation der Ergebnisse) - Bewertung von Maßnahmen/Interventionen, Politiken, Einrichtungen/Organisationen, Techniken, Produkten und Personen

status measured difficulty not learned 37% [default] 0

Abgrenzung Diagnostik vs Evaluation

status measured difficulty not learned 37% [default] 0

Diagnostik & Evaluation als Prozess

Diagnostik als Prozess

status measured difficulty not learned 37% [default] 0

#### pdf

Evaluation als Prozess

status measured difficulty not learned 37% [default] 0

#### pdf

Wissenschaftliche Evaluation
Spezialfall: Wissenschaftliche Evaluation
•Wissenschaftliche Methoden werden bei der Erhebung oder Auswertung verwendet (z.B. psychologische Tests)

Professionalisierung der Evaluationsforschung

• Fachgesellschaften und ihre Richtlinien (American Evaluation Association, DeGEval)
• Zahlreiche Lehrbücher und Fachzeitschriften (Evaluation Review, Zeitschrift für Evaluation)

• Agenturen (ZEvA, Univation, evalag)

Evaluationskultur
Evaluation hat in vielen westlichen Ländern einen hohen Stellenwert

Aufträge: Berufsfelder und Fragestellungen

status measured difficulty not learned 37% [default] 0

#### pdf

Diagnostisches Dreieck

status measured difficulty not learned 37% [default] 0

#### pdf

Die Aufträge (Aufgaben etc.) können sich im Hinblick auf mehrere
Dimensionen unterscheiden, z.B.
• Gegenstand
• Interessengruppen
• Ressourcen
• Ziele
• Parteilichkeit
• „Herkunft“ der Diagnostiker/ Evaluatoren
• Summatives vs. formatives Vorgehen
• Fokus der Maßnahmenevaluation
• Kulturelle Rahmenbedingungen

Aufträge: Differenzierungsdimensionen: Gegenstand

Gegenstand der Diagnostik/Evaluation

• Individuen

• Teams

• Einrichtungen bzw. Organisationen

• Produkte

• Maßnahmen, Projekte, Programme etc.

Aufträge: Differenzierungsdimensionen: Interessengruppen

• Entscheidungsträger (z.B. Politiker, Auftraggeber)
• Diagnostiker/ Evaluatoren
• Klienten/Kunden/Rezipienten/Patienten
• Manager
• Mitarbeiter
• Familienangehörige
• Öffentlichkeit
• Presse
• Wissenschaftler
• etc…

Bsp. Aggressives Kind (Diagnostik)
• Das untersuchte Kind, seine Mitschüler,
Lehrer, Eltern, Nachbarn usw. haben
unterschiedliche Einstellungen gegenüber
der Diagnostik und den möglichen
Konsequenzen
• Welche Interessen sollen durch
DiagnostikerInnen berücksichtigt werden?

Aufträge: Differenzierungsdimensionen: Ressourcen

• Finanzierung

• Zeit

• Personal (z.B. Assistenten)

• Dokumentation

Aufträge: Differenzierungsdimensionen: Hauptziele

• Beschreibung

• Erklärung

• Vorhersage

• Dokumentation

• Modifikation (z.B. Personen, Bedingungen, Maßnahmen)

• Entscheidungsoptimierung (z.B. Personalauswahl, Weiterführung der Ausnahme)

• Feedback

• Bewertung

• Motivation (z.B. Defizite Handlungsbedarf)

Aufträge: Differenzierungsdimensionen: Verdeckte Ziele

• Diagnostik/Evaluation als Entscheidungsverzögerung (z.B. Strafprozesse, teure Reformen)

• Minimierung eigener Verantwortung bei der Entscheidungsfindung (Verantwortungsdelegation)

• Legitimierung der getroffenen Entscheidungen • Positive Selbstdarstellung der Auftraggeber (Transparenz etc.)

• Compliance (z.B. Diagnostik/Evaluation wird nur wegen des äußeren Drucks durchgeführt)

Aufträge: Differenzierungsdimensionen: Parteilichkeit

• Parteiliche Diagnostik/Evaluation
- Sicht der Auftraggeber entscheidend
- Sicht der Betroffenen entscheidend (empowerment)

• Partizipatorische Diagnostik/Evaluation
- Verschiedene Perspektiven werden berücksichtigt (Kompromiss)

• Pluralistische Diagnostik/Evaluation
- Durchführung der Diagnostik/Evaluation aus jeder Perspektive

Aufträge: Differenzierungsdimensionen: Herkunft der Evaluatoren

• Intern: z.B. eigene Diagnostiker, „Selbstevaluation“
- Vorteile: Vertrautheit mit dem Thema, geringere Kosten
- Nachteile: geringere Neutralität?

• Extern: Aufträge oder Ausschreibungen für Diagnostiker/Evaluatoren

Aufträge: Differenzierungsdimensionen: Summatives vs formatives Vorgehen

• Summative Diagnostik/Evaluation als abschließende Bewertung
- z.B. Produkte, Wirksamkeit der Maßnahme, Leistung von Personen
- Globale Bewertung vs. analytische Bewertung (einzelne Aspekte)

• Formative Diagnostik/Evaluation als kontinuierliche Bewertung
- Entwicklungsbegleitend (formativ = formend) - Feedbackfunktion
- Schnelle Identifizierung der Stärken und Schwächen möglich - Optimierung oder Modifikation notwendig?
- Ggf. Anpassung der Ziele der Diagnostik/Evaluation

• Kombination möglich, z.B. - Pilotphase = formativ - Modifizierte Maßnahme = summativ

Aufträge: Differenzierungsdimensionen: Fokus der Maßnahmenevaluation
Bewertung der Maßnahme im Hinblick auf
- Zielsetzung und Planung (input evaluation)
- Durchführung/Implementierung (process evaluation)
- Wirksamkeit, Kosten, Effizienz (output evaluation)

Aufträge: Differenzierungsdimensionen: Kulturelle Rahmenbedingungen

Intervention nach dem Prinzip one size fits all nicht immer möglich/sinnvoll.

Bsp. Weibliche IS-Opfer (Vergewaltigung)
• Fehlende Therapiebereitschaft wegen der Gefahr, dass man aus der Gemeinschaft ausgeschlossen wird (Vergewaltigung als Sex mit Vertretern anderer Religionen)
• Untypische Symptome (z.B. Angst vor Wasser)

Ethische Rahmenbedingungen

Zusätzlich zu rechtlichen Rahmenbedingungen müssen auch ethische Prinzipien berücksichtigt werden
Beispiele für Fragestellungen, die ethisch problematisch sein können:
- Stressinduktion
- Therapievergleiche
- Beobachtungsstudien
--> Erlaubnis der Ethikkommission wird immer häufiger verlangt (Journals)

Diagnostiker müssen rechtliche und ethische Rahmenbedingungen beachten
• Z.B. keinen dauerhaften Schaden bei der Verfolgung diagnostischer Ziele zufügen

Länderunterschiede sind z.T. sehr groß
 Bsp. 1 „Lügendetektor“: USA (erlaubt), Deutschland (nur freiwillig und entlastend), Schweiz (verboten)
 Bsp. 2 Cut off Werte bei der Eignungsdiagnostik: USA (verboten), Deutschland (erlaubt)

Diagnostik und das Grundgesetz

Artikel 1

• (1) Die Würde des Menschen ist unantastbar. Sie zu achten und zu schützen ist Verpflichtung aller staatlichen Gewalt

Artikel 2

• (1) Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit, soweit er nicht die Rechte anderer verletzt...
• (2) Jeder hat das Recht auf Leben und körperliche Unversehrtheit. Die Freiheit der Person ist unverletzlich...

Konsequenzen für Diagnostik/Evaluation: Respektvolles Verhalten, Aufklärung, nur in seltenen Fällen (z.B. Beziehen von Sozialleistungen, Psychisch-Kranken-Gesetz) entstehen Nachteile bei Nicht-Teilnahme

Ethische bzw. rechtliche Rahmenbedingungen: Notwendige Gewährleistungen der Diagnostiker

Aufklärung notwendig
• Erfasste Informationen: z.B. demografische Angaben, Videos, Ton
• Hinweis auf Anonymisierung/Pseudonymisierung, Speicherung der Daten, potentielle Veröffentlichung der Daten (Open Science)

Einwilligung notwendig
• Vorlagen für die Einverständniserklärungen: Schönbrodt et al. (2017)

Auf Wunsch müssen personenbezogene Daten (z.B. E-Mail-Adresse, Matrikelnummer) gelöscht werden. Andere Informationen (z.B. Fragebogenantworten) sind davon nicht betroffen

Datenschutz-Grundverordnung der EU beachten (DSGVO, 05.2018)
• Bsp. Datenspeicherung außerhalb der EU (z.B. USA) problematisch (vgl. Online-Umfragen)

Tags
Question
Schweigepflicht

StGB: § 203 Verletzung von Privatgeheimnissen
• "Wer unbefugt ein fremdes Geheimnis, namentlich ein zum persönlichen Lebensbereich gehörendes Geheimnis oder ein Betriebs‐ oder Geschäftsgeheimnis, offenbart, das ihm als Berufspsychologen mit staatlich anerkannter wissenschaftlicher Abschlussprüfung anvertraut worden oder sonst bekannt geworden ist, wird mit Freiheitsstrafe bis zu einem Jahr oder mit Geldstrafe bestraft.“

status measured difficulty not learned 37% [default] 0

Ethische bzw. rechtliche Rahmenbedingungen: Übersicht
- Grundgesetz
- Schweigepflicht
- Zeugnisverweigerungsrecht
- Allgemeines Gleichbehandlungsgesetz (AGG)
- Online-Therapie
- DIN 33430
- Titelführung

Zeugnisverweigerungsrecht

Strafprozessordnung: § 53 Zeugnisverweigerungsrecht der Berufsgeheimnisträger

Manche Berufsgruppen haben ein Zeugnisverweigerungsrecht
• Z.B. Geistliche, Anwälte, Ärzte
• In Strafprozessen können Aussagen über Klienten verweigert werden
- Gilt nicht nach der Entbindung von der Schweigepflicht

Nur manche Psychologen haben dieses beruflich bedingte Zeugnisverweigerungsrecht:
• Psychotherapeuten, Mitarbeiter von staatlich anerkannten Beratungsstellen (Sucht, Schwangerschaftskonflikt)

Wichtig: In Zivilprozessen haben alle Psychologen ein Zeugnisverweigerungsrecht, wenn der Bruch der Schweigepflicht dadurch vermieden werden kann

Allgemeines Gleichbehandlungsgesetz (AGG)

= „Antidiskriminierungsgesetz“

• Diskriminierung als systematische Benachteiligung aufgrund bestimmter Merkmale
- ethnische Herkunft, Geschlecht, Religion/Weltanschauung, Behinderung, Alter, sexuelle Identität
- Benachteiligung aufgrund der Merkmale, die im AGG nicht erwähnt werden, ist irrelevant (z.B. sozialer Status)

• Relevanz für Psychologie: Auswahlverfahren, Arbeitsbedingungen

„Die Entschädigung darf bei einer Nichteinstellung drei Monatsgehälter nicht übersteigen“ (AGG, § 15 Entschädigung und Schadensersatz)

Da die genannten Merkmale (z.B. Alter) keine Rolle im Rahmen von Personalauswahlverfahren spielen sollen, sind solche Angaben in Bewerbungsunterlagen nicht notwendig
 Aus unterschiedlichen Gründen (z.B. fehlendes Vorwissen, Angst vor automatischer Ablehnung, keine Lust auf juristische Auseinandersetzungen) machen viele Bewerber weiterhin solche Angaben
 Potentielle Arbeitgeber weisen selten darauf hin, dass solche Angaben nicht notwendig sind
• Beispiel für eine Ausnahme (Auszug aus einer Stellenausschreibung): "Wir wertschätzen Vielfalt und begrüßen daher alle Bewerbungen - unabhängig von Geschlecht, Behinderung, Nationalität oder ethnischer und sozialer Herkunft. Bitte machen Sie bei der Bewerbung KEIN Angabe zu Ihrem Alter, Geburtsdatum, Geburtsort, Familienstand oder Kindern und fügen Sie der Bewerbung KEIN Foto bei."

Rechtliche Rahmenbedingungen: Bsp Online-Therapie

Rechtliche Rahmenbedingungen können sich u.U. ändern

Bsp. Online-Therapie
• Laut Evidenz ist computerbasierte Therapie oder Selbsttherapie unter Anleitung bei manchen Störungen wirksam (Andrews et al., 2010; Cuijpers et al., 2011; Löbner et al., 2018). Manchmal sogar genauso wirksam wie Face- to-Face Therapie (Cuijpers et al., 2010).
• Vorteile: Reduktion der Wartezeiten, Ortsunabhängigkeit (vgl. Hautzinger & Fuhr, 2018)
• Nachteile: Wahrnehmung nonverbaler Signale erschwert, u.U. weniger attraktiv für Patienten (vgl. Noack & Weidner, 2018)
• Online-Psychotherapie in Deutschland
- Seit einigen Jahren bei Forschungsprojekten oder in begründeten Ausnahmefällen erlaubt
- Erster Termin (Diagnose, Aufklärung etc.) meistens nicht digital
- Unterschiedliche Ordnungen je nach Bundesland
- Kostenerstattung nicht bei allen Krankenkassen möglich
- Nur für ausgewählte Störungen verfügbar (v.a. Depression)

Digitale Versorgung Gesetz

Das Gesetz soll die Digitalisierung im Gesundheitswesen fördern

• Konsequenzen für Psychotherapeuten
- Video-Sprechstunde möglich
- Verordnung von Gesundheitsanwendungen (vgl. DiGA-Verzeichnis) Bsp. Velibra (Angststörungen)
--> Es werden Informationen zu Ziel-Patientengruppe gemacht
--> Es werden Ausschluskriterien genannt
--> Zugang zB über Freischaltcode nach Prüfung von der Krankenkasse

DIN 33430 Übersicht

DIN 33430 (DIN = Deutsches Institut für Normierung) als Prozessnorm für berufsbezogene Eignungsbeurteilung
• Z.B. Planung, Durchführung, Qualitätssicherung • Es handelt sich um Empfehlungen
- Bsp. 1: Nur relevante Verfahren nutzen (Jobanforderungen beachten)
- Bsp. 2: Keine klinischen Instrumente einsetzen - Die Empfehlungen sind juristisch relevant und werden in Urteilen zitiert

DIN 33430 - Lizenzerwerb

Kategorien der Personenlizenzen:
- EignungsdiagnostikerInnen
- BeobachterInnen (mündliche Befragungen)
- BeobachterInnen (Verhaltensbeobachtungen und –beurteilungen)

• Kosten: ca. 244-477 € (je nach Lizenzkategorie)
- Für Studierende: 156-286 €

Buch "Personalauswahl kompetent gestalten" als Prüfungsgrundlage
- Einführung in die DIN 33430
- Anforderungsprofil, Verhaltensbeobachtung und Verhaltensbeurteilung
- Eignungsinterviews/direkte mündliche Befragungen
- Anforderungsanalyse, Verfahren der Eignungsbeurteilung sowie rechtliche Rahmenbedingungen
- Statistisch methodische Grundlagen der Eignungsbeurteilung
- Evaluation der Eignungsbeurteilung

Berufsethische Empfehlungen: Titelführung

BDP und DGPs haben berufsethische Empfehlungen formuliert
• Z.B. Behandlung der Klienten, Durchführung von Studien
• Z.T. Orientierung an den APA Richtlinien

Viele Empfehlungen sind gesetzlich begründet (z.B. Schweigepflicht)

Manche Empfehlungen sind umstritten, z.B. Titelführung (Psychologe)
• Psychologen laut BDP/DPGs:
- Psychologischer Bachelor und Masterabschluss muss vorliegen
- Diplom Psychologen
- NICHT: Psychologie als Nebenfach; Nur psych. Bachelorabschluss; Nur psych. Masterabschluss

•Aber: Zum Teil widersprüchliche Urteile

Notwendigkeit von kritischem Denken
Kritische Auseinandersetzung mit den Theorien notwendig
• “all models are wrong, but some are useful” (George Box)
• Haben sich die gewählten Theorien/Modelle bewährt?
- Replikationsstudien vorhanden? Verifikation? Falsifikation? Paradigmenwechsel notwendig?
o Z.B. Behaviorismus --> Kognitivismus
- Pseudowissenschaftliche Modelle vermeiden
o Orgontheorie (Wilhelm Reich)
o Blutgruppendeutung (Persönlichkeit)
o Präkognition usw.

Zielpopulation

Bestimmung der Zielpopulation (Merkmalsträger, Grundgesamtheit)

• Für welche Population sollen die Ergebnisse der Diagnostik/Evaluation gelten?
- Ein bestimmtes Individuum/Team/Produkt oder eine bestimmte Einrichtung/Organisation
- Mehrere Individuen, Teams etc.

• Einschluss- bzw. Ausschlusskriterien festlegen, z.B.
- Nur Erwachsene mit einer Depression
- Kinder (9-12 J.) in asiatischen Schulen
- Frauen in Führungspositionen
- Deutsche Firmen
- Häftlinge in Europa
- Ganze Menschheit

Vollerhebung vs. Teilerhebung

Im Rahmen der Untersuchungsplanung muss man festlegen, ob alle Elemente der Zielpopulation untersucht werden können/müssen

• Vollerhebung: Alle Elemente der Zielpopulation werden untersucht (Erhebungspopulation = Zielpopulation)
- Eher bei kleinen Aufträgen, z.B. Aussagen über einen bestimmten Patienten (Individualdiagnostik)
--> alle Mitarbeiter der Firma X, Psychologiestudierende der Universität Osnabrück im 1. Bachelorsemester, Volkszählung

• Teilerhebung: Stichprobenziehung (sampling) notwendig (Erhebungspopulation ≠ Zielpopulation)
- Üblicherweise versucht man die Ergebnisse auf andere Elemente der Zielpopulation zu generalisieren (vgl. Inferenzstatistik)
--> Prävalenz von Störungen (weltweit), alle Firmen innerhalb der EU, Psychologiestudierende in Deutschland etc.

Methoden der Stichprobenziehung: Übersicht

Nicht-Zufallsstichproben (non-probability samples)
• Gelegenheitsstichprobe (sample of convenience)
• Schneeballstichprobe (snowball sample)
• Fallstudie (case study)
• Quotenstichprobe (quota sample)

Zufallsstichproben (random samples)
• Einfache Zufallsstichprobe (simple random sample)
• Geschichtete Zufallsstichprobe (stratified sample)
• Klumpenstichprobe (cluster sample)
• Mehrstufige Zufallsstichprobe (multistage sample)

Methoden der Stichprobenziehung: Nicht Zufallsstichproben vs. Zufallsstichproben: Fazit

Meistens werden Nicht-Zufallsstichproben verwendet
• Generalisierung der Ergebnisse auf andere Elemente der Zielpopulation oft nicht möglich
• Bei Quotenstichproben wird manchmal von lokaler Repräsentativität gesprochen
- Die Stichprobe sei im Hinblick auf die Quotierungsvariablen (Alter, Geschlecht usw.) repräsentativ
- Möglicherweise wurden wichtige Variablen nicht berücksichtigt (z.B. Bildung), sodass Generalisierung auf andere Gruppen (Teams, Städte, Kulturen etc.) immer noch problematisch ist
- Ggfs. eine kleinere Zielpopulation wählen, um die Plausibilität der Generalisierbarkeit zu erhöhen z.B. Anstatt "Ganze Menschheit" --> "Gut gebildete Personen im frühen Erwachsenenalter in Deutschland"

Zufallsstichproben
• Im Gegensatz zu Nicht Zufallsstichproben sind Generalisierungen meistens möglich (können aber zB bei kleinem n schief gehen)
• Nachteile:
- Aufwand
- Kosten
- Liste mit den Elementen der Zielpopulation muss vorhanden sein
 Klumpenauswahl oder mehrstufige Zufallsauswahl nutzen, wenn nur die Listen für obere Ebenen (Schulen, Firmen, Teams etc.) verfügbar sind
--> Problem: In der Regel größere Ergebnisverzerrungen als bei den anderen Zufallsstichproben

Stichprobenziehung: Poststratifizierung: Überblick

Die Plausibilität der Generalisierbarkeit von Ergebnissen kann sowohl bei Nicht-Zufallsstichproben als auch bei Zufallsstichproben nachträglich durch Poststratifizierung erhöht werden. Nach der Erhebung (post) werden Schichten in der Stichprobe erstellt (Stratifizierung). Die Schichten werden üblicherweise anhand von demografischen Variablen gebildet, z.B. Alter und Geschlecht.

Realität: Die Stichprobe unterscheidet sich oft von der Population im Hinblick auf die relative Größe der Schichten (z.B. höherer Frauenanteil in der Stichprobe als in der Population)
 Poststratifizierung ermöglicht eine Angleichung an die Population
 Datenquellen für die Populationsanteile, z.B.
• Statistisches Bundesamt
• Eurostat
• Spezifische Berichte oder Fachzeitschriftenartikel

Die Wahl der Schichten wird durch die Verfügbarkeit der Populationsstatistiken bestimmt, z.B.
• Nur für manche Kombinationen (z.B. Alter Geschlecht) liegen die Anteile der Allgemeinbevölkerung vor
• Für spezifische Populationen (z.B. Schizophrene) oder ungewöhnliche Schichtungsvariablen (z.B. Drogenkonsum Religiosität Intelligenz) sind die Anteile manchmal nicht bekannt oder eine extensive Literaturrecherche ist notwendig (z.B. Suche nach Berichten)
• Bei manchen Datenquellen für die Populationsanteile wird willkürliche Schichtung verwendet (z.B. Frauen im Alter 18 25 J.). Die Schichten der Stichprobe müssen mit den Schichten der Population übereinstimmen
--> Variablen wie Alter und Geschlecht werden oft als Proxyvariablen für nicht verfügbare Schichtungsvariablen genutzt (z.B. Einkommen, Gesundheit)

Stichprobenziehung: Poststratifizierung: Vorgehen

• Relevante Schichtungsvariablen (z.B. Geschlecht, Alter) werden im Rahmen der Untersuchung erfasst (z.B. Wie alt sind Sie?)
• Bildung der Schichten (z.B. Frauen < 18 J.) in der Stichprobe und ggfs. in der Population (z.B. Zusammenfassung mehrerer Alterskategorien)
• Durchführung der Auswertung mit den Daten der Stichprobe (Die Ergebnisse der Stichprobe werden genutzt, um die durchschnittliche Ausprägung der abhängigen Variable (Offenheit) separat für jede gewählte Kombination der Schichten zu erhalten = "Estimate")
• Die Ergebnisse werden mit der relativen Größe der Populationsschichten prop_total gewichtet , um eine möglichst repräsentative Schätzung zu erhalten --> Schätzung der Populationsausprägung (z.B. Depressionsprävalenz) mit den gewichteten Ergebnissen der Stichprobe

Stichprobenziehung: Poststratifizierung: MRP
MRP bzw. Mister P
• Poststratifizierung kann mit Mehrebenenmodellierung kombiniert werden (Multilevel Regression and Poststratification)
• Die Syntax für das Offenheitsbeispiel basiert auf diesem Ansatz
• Vorteil: Die Abweichung zwischen den Schätzungen (z.B. Offenheit) einzelner Schichten wird verkleinert (Shrinkage), um den Einfluss von Ausreißerwerten zu reduzieren. Je stärker der Wert einer Schicht von den anderen Schichten abweicht, desto stärker wird dieser Wert angepasst
• Problem: Fehlermeldungen bei kleinen Stichproben oder extremen Prävalenzraten möglich. Alternativ kann Bayessche Modellierung verwendet werden (vgl. R-Skript)

Stichprobenziehung: Poststratifizierung: Zusammenfassung
Anwendung z.B. bei der Prävalenzschätzung (Bsp. Depressionsprävalenz) oder bei politischen Wahlumfragen
Durch die nachträgliche Gewichtung der Ergebnisse kann u.U. die externe Validität der Untersuchung erhöht werden, aber….
• Poststratifizierung ersetzt nicht die Suche nach adäquaten Stichproben
• Falls bestimmte Gruppen gar nicht untersucht wurden (z.B. inter/divers älter als 60 J.), dann ist eine Generalisierung nicht möglich

Optimale Stichprobengröße: Externe Kriterien

Externe Kriterien, z.B.
• Vorgaben/Empfehlungen der Auftraggeber
• Daumenregeln
• Frühere bzw. ähnliche Untersuchungen

--> Kritische Bewertung der Empfehlungen notwendig

Bestimmung der optimalen Stichprobengröße: Übersicht
• Externe Kriterien
• A priori Poweranalysen
• Theoretische Sättigung
• Qualitativer Stichprobenplan
Stichprobengröße: A priori Poweranalysen: Überblick

- Dilemma: Underpowered study vs. Overpowered study

Unterschiedliche Analyseverfahren (z.B. r, ANOVA) innerhalb einer Untersuchung unterschiedliche N-Optima. Welches N soll man wählen?
Abwägen notwendig:
o Underpowered study = (Fast) nichts ist statist. signifikant
o Overpowered study = (Fast) alles ist statist. signifikant

- Bei komplexen Analysen schwierig, z.B. Viele Prädiktoren, Voraussetzungsverletzungen, Viele Interaktionen, Mehrebenenmodelle

- Annahmen über erwartete Effekte häufig zu optimistisch
o In psychologischen Studien sind die Effekte häufig kleiner (Bosco et al., 2015; Gignac & Szodorai, 2016)
o Vermutlich braucht man eine größere Stichprobe als das berechnete N

Zu optimistische Angaben bei der Poweranalyse
 Es ist von Anfang an klar, dass man keine statistisch signifikanten Ergebnisse haben wird

Erhöhung der Power durch
o Messwiederholung
o Stärkere Manipulation (z.B. besonders intensive Therapie)
o Überrepräsentation leicht erreichbarer Gruppen (z.B. Kontrollgruppe)

Um optimistische Effektannahmen zu vermeiden, soll man versuchen den kleinsten relevanten Effekt zu spezifizieren, z.B.
o Mindestanforderungen bei anerkannten Interventionen
o Kosten Nutzen Rechnung

Stichprobengröße: A priori Poweranalyse: Kleinster relevanter Effekt (anhand des Beispiels BDI)

Bsp. Gesprächstherapie vs. Kontrollgruppe
 Depression wird mit dem Beck Depressionsinventar (0-63) erfasst
 Im BDI Testmanual wird 8 als Cut off Wert verwendet (0-8 Keine Depression; 9-63 minimale bis schwere Depression)
 Personen , die einen höheren Wert haben, seien auffällig

Wie stark müsste sich der BDI Skalenwert zwischen den Gruppen (z.B. Gesprächstherapie vs. Kontrollgruppe) nach der Therapie unterscheiden, um die Intervention zu empfehlen?
Welcher Gruppenunterschied wäre praktisch relevant?
o 20 (z.B. 28-8) oder 5 (z.B. 28-23)?
 Hilfreiche Informationen
o Wertebereich (0-63)
o Cut off Wert für Gesunde (8)

Aufgrund von früheren Untersuchungen nehmen wir an, dass die Streuung der BDI Werte in beiden Gruppen 10 beträgt
 Wenn der kleinste relevante Effekt sehr groß ist (z.B. 28-8 = 20), dann wäre die Power selbst bei 10 Personen pro Gruppe enorm (.988)
 Mehr Personen müssen untersucht werden, um kleinere Effekte aufdecken zu können (z.B. 143 statt 10 pro Gruppe, um dieselbe Power wie bei hohen Erwartungen zu erreichen)
 Der kleinste relevante Effekt (z.B. die Mindestanforderungen) kann z.B. aus den bisherigen Interventionen (z.B. Verhaltenstherapie) abgeleitet werden, damit die Erwartungen realistisch bleiben

In manchen Situationen wird nur eine kleine Stichprobe benötigt, um sehr gute Power zu erreichen, aber kleine Stichproben haben gewisse Nachteile

• Vorteile:
- Vermeidung der Ressourcenverschwendung (Zeit, Entlohnung)
- Vermeidung von overpowered studies, bei denen sehr kleine Effekte statistisch signifikant sind

• Potentielle Probleme:
- Fehlende Werte und Dropout können die endgültige Stichprobengröße dramatisch beeinflussen
- Unreliable Instrumente + kleines N = Instabile Schätzung der Effekte (Überschätzung/Unterschätzung möglich)
- Nicht-Zufallsstichprobe + kleines N = Enorme Verzerrungsgefahr
- Bei Zufallsstichproben muss man mit einer bedeutsamen unsystematischen Verzerrung rechnen, wenn das N sehr klein ist

Stichprobengröße: A priori Poweranalyse: Angestrebtes N

Aufgrund der genannten potentiellen Probleme soll das angestrebte N größer als das Ergebnis von Poweranalysen sein

• Overpowered studies gibt es nicht, wenn man Bayessche Statistik (vgl. Foliensatz Auswertung) statt p-Werte verwendet
• Falls man Bayessche Statistik nicht verwenden möchte, dann kann man zusätzlich zu den p-Werten Effektstärken berücksichtigen
- Ist der Effekt praktisch bedeutsam?
• Diagnostische und evaluative Entscheidungen sollen nicht ausschließlich auf p-Werten, sondern auf Kosten-Nutzen-Überlegungen basieren
- Psychische, körperliche und monetäre Aspekte
- Beabsichtigte und unbeabsichtigte Effekte (incl. Nebenwirkungen)

Stichprobengröße: Theoretische Sättigung

- Ziel : Theoriebildung im Rahmen von qualitativen Studien
- Zwischenergebnisse werden genutzt, um über die Fortführung der Erhebungen zu entscheiden
 Sind weitere Erhebungen notwendig? Ist Erkenntnisgewinn möglich oder wurde eine theoretische Sättigung (saturation) erreicht?

Problem: Häufig werden „glatte Zahlen“ berichtet N = 10, 20 etc ). Bei echter Sättigung müssten andere Zahlen genauso häufig vorkommen (z.B. 9, 17,

Stichprobengröße: Qualitativer Stichprobenplan
- Im Gegensatz zu theoretischer Sättigung wird die benötigte Stichprobengröße vorab festgelegt
- Relevante Merkmale werden vorab definiert z.B. Sozioökonomischer Status, Geschlecht, Land, Schwere der Erkrankung
- Voraussetzung: Vorwissen
- Bei größeren qualitativen Studien sind Quotenpläne möglich Z.B. Personen mit allgemeiner Hochschulreife = 30%, Fachhochschulreife = 15% ...

Stichprobengröße: Ausfälle: Non Response: Überblick

Sowohl bei Nicht-Zufallsstichproben als auch bei Zufallsstichproben kann es vorkommen, dass die zu untersuchenden Elemente nicht verfügbar sind
• Z.B. telefonisch nicht erreichbar, Umzug, Teilnahmeverweigerung

• Dieses Non-Response-Problem führt zur N-Reduktion
- Underpowered study? Nacherhebungen möglich?

• Solche Ausfälle können u.U. zur systematischen Verzerrung der Ergebnisse führen

Unit non-response: Ganze Einheiten (Personen, Teams etc.) nicht verfügbar
• Teilnahmeverweigerung, Nichterreichbarkeit, Krankheit, Sprachbarriere
• Spezialfall: Dropout in Längsschnittstudien (Personen nehmen nicht an allen Erhebungen teil)

Item non-response: Bestimmte Fragen werden nicht beantwortet
• Z.B. Flüchtigkeitsfehler, Anonymitätssorgen bei sensitiven Themen (Einkommen, Sexualität, Krankheiten), fehlendes Vorwissen

Stichprobengröße: Ausfälle: Non Response: Systematische Verzerrung

• Wenn sich die Nicht-Teilnehmenden systematisch von den Teilnehmenden im Hinblick auf das untersuchte Merkmal unterscheiden, dann können die Ergebnisse der Diagnostik/Evaluation systematisch verzerrt werden

Bsp. 1: Drogenkonsum in der Bevölkerung (Prävalenzrate)
• Personen, die Drogen konsumieren, lehnen die Umfrageeinladung häufiger ab (z.B. Anonymitätssorgen, Polizeifalle?) Die Prävalenzrate in der Bevölkerung (z.B. Kokainkonsum) wird unterschätzt

Bsp. 2: Online-Umfrage zur Offenheit für neue Technologien
• Ältere Personen, die nicht technikaffin sind, nehmen an der Online- Umfrage nicht teil Überschätzung der Offenheit für neue Technologien bei älteren Personen

• Das Ausmaß der Verzerrung ist fast nie bekannt
• Manchmal ist sogar die Richtung der Verzerrung nicht bekannt
• Interpretation der Befunde schwierig

Mögliche Ausfälle müssen bei der Stichprobenplanung berücksichtigt werden
- Größere Stichproben ziehen (hilft nicht gegen systematische Verzerrung)
- Prävention bzw. Minimierung der Ausfälle
- Umgang mit den Ausfällen: Non Response Korrekturen (z.B.Imputation fehlender Daten)

Stichprobengröße: Ausfälle: Non-Response: Prävention

status measured difficulty not learned 37% [default] 0

Stichprobengröße: Ausfälle: Unbrauchbare Daten

Non-response ist nicht die einzige Ursache für fehlende Daten. In manchen Fällen müssen Daten vor der Auswertung entfernt werden, weil sie unbrauchbar sind

Bsp. Online-Studien
• Trolling
• Bots
• Personen, die möglichst schnell die Umfrage beenden wollen (zufälliges Antworten usw.), um die Belohnung zu erhalten Schutzmaßnahmen (vgl. Ahler et al., 2020)
• Geografische Einschränkungen (z.B. nur Personen aus Deutschland dürfen teilnehmen)
• Kontrollfragen bzw. Aufmerksamkeitschecks (Personen, die die Instruktionen nicht aufmerksam lesen, werden automatisch ausgeschlossen (Abbruch) oder sie erhalten eine kleinere Belohnung als andere Personen)

