
Datenaufbereitung
Sie befinden sich hier:
Die Datenaufbereitung
Die Datenaufbereitung ist der Schritt nach der Datenerfassung. Es ist der Prozess der Reinigung und Umwandlung der gesammelten Rohdaten. Auf diese Weise wird die Analyse und Modellierung der Daten wesentlich erleichtert. Dies beinhaltet u.A. folgende Punkte:
- Festlegung der genutzten Variablen
- Definition von Ausreißern, Festlegung des Umgangs mit Ausreißern. Hier handelt es sich vor allem um die Definition von ernsthaften bzw. nicht-ernsthaften Testteilnahmen
- fehlende Werte
- Feature-Kodierung (Umwandlung von Textvariablen in Zahlen - z.B. der Ausgabe- oder Zielvariablen)
- Umgang mit ungleicher Datenverteilung (z.B. Anzal der Studierend pro Semester oder Fakultät)
- Anonymisierung der Datensätze: Die Datensätze für dieses Forschungsprojekt enthalten keine personenbezogenen Daten wie Name, Matrikelnummer, E-Mail-Adresse. Die zur Analyse übermittelten Daten sind anonymisiert.
Die nicht ernsthaften Testteilnahmen
Die Teilnahme am PTM ist bei den meisten Fakultäten verpflichtend. Allerdings muss der Test nicht vollständig bearbeitet werden. Studierende können i.d.R. so viele oder so wenige Fragen beantworten, wie sie möchten. Das Feedback wird besser, umso mehr Fragen beantwortet sind, da mehr Information über den Wissensstand vorhanden ist. Die "nicht ernsthaften Testteilnahmen" erschweren die Auswertung, die verzerren die Vergleichsgruppen. Aus diesem Grund werden diese Teilnahmen aus den Datensätzen entfernt.
Es gibt diverse Ansätze und Kriterien, die zur Feststellung der mangelnden Ernsthaftigkeit herangezogen wurden. Wir möchten Algorithmen anwenden, um insbesondere die Musterkreuzer:innen mathematisch zu erkennen.