Natürliche Sprachverarbeitung und maschinelles Lernen in Educational Assessments

Dr. Fabian Zehner➚, ZIB-assoziierter wissenschaftlicher Mitarbeiter DIPF

Assessments, wie etwa Tests, können komplexe Daten produzieren. So müssen etwa offene (Text-)Antworten ausgewertet oder umfangreiche Log-Daten, die Interaktionen der Testpersonen mit computerbasierten Testumgebungen aufzeichnen, verarbeitet werden. Bei diesen Aufgaben kann der Computer den Menschen unterstützen. Dafür kann etwa maschinelles Lernen und, im Falle sprachlicher Daten, natürliche Sprachverarbeitung eingesetzt werden. Das Habilitationsvorhaben wendet diese Methodik im Kontext des Educational Assessments an, wovon vor allem Large-Scale Assessments wie etwa PISA profitieren können.

Assessments der Bildungsforschung und Bildungspraxis beinhalten häufig natürliche Sprache. Einerseits enthalten Erhebungsinstrumente etwa sprachliche Reize wie Instruktionen oder Fragen, auf die Testpersonen und Befragte antworten sollen. Andererseits können auch diese beobachteten Antworten selbst natürliche Sprache beinhalten, etwa in Form von Kurztextantworten oder auch Aufsätzen. Solche natürlichsprachlichen Beobachtungen bringen die Schwierigkeit mit sich, dass sich ihre Auswertung als komplex darstellt. Eine ähnliche Komplexität resultiert auch aus sogenannten Log-Daten, also wenn ein computerbasiertes Assessment Verhaltensdaten aufzeichnet (wie etwa Klicks auf Objekte, Tastatureingaben, Scrollen, u. Ä.). Dadurch können auch komplexere Assessmentsituationen geschaffen werden (etwa für das sogenannte Embedded oder Stealth Assessment), wovon vor allem das Messen sogenannter 21st Century Skills profitieren kann (z. B. kollaboratives Problemlösen).

In beiden Fällen komplexer Datenlagen ermöglichen Methoden des Maschinenlernens, Muster zu erkennen, die helfen verschiedene Fragestellungen bearbeiten zu können. In dem Fall, dass Textantworten verarbeitet werden sollen, werden zusätzlich noch Techniken der natürlichen Sprachverarbeitung eingesetzt. Zum Beispiel versetzen diese den Computer in die Lage, automatisch zu bewerten, ob Textantworten richtig oder falsch sind. Oder ob die Antwort eher auf den einen Argumentationsstrang abzielt oder einen anderen. Bei den Log-Daten kann durch die Anwendung von Maschinenlernen etwa die Schätzung des interessierenden latenten Merkmals (wie etwa Fähigkeit) verbessert werden oder relevante Merkmale abseits des zu messenden Konstrukts können erkannt werden (etwa ob eine Testperson engagiert ist).

Im Habilitationsvorhaben werden sowohl natürliche Sprachverarbeitung als auch maschinelles Lernen eingesetzt, um forschungsrelevante Fragestellungen zu beantworten oder praxisrelevante Anwendungen zu ermöglichen. Ein Schwerpunkt liegt dabei auf der automatischen Auswertung von Textantworten durch eine im selben Projektkontext entwickelte und programmierte Software: ReCo.

Das Vorhaben …

  1. verfolgt etwa die Entwicklung einer grafischen Oberfläche, damit das automatische Auswerten von Textdaten der Forschung niederschwellig zur Verfügung steht (Zehner & Andersen, 2020),
  2. zeigt, wie sich PISAs Administrationsmodus (Papier- vs. Computertest) auf das Antworten der Schülerinnen und Schüler ausgewirkt hat (Zehner, Goldhammer, Lubaway & Sälzer, 2019; Zehner, Kroehne, Hahnel & Goldhammer, 2020),
  3. entwickelt ein theoretisches Rahmenwerk, um kausale Bedingungen in Textantworten identifizieren zu können, die Antworten etwa zu einer richtigen Antwort machen,
  4. soll Methodik entwickeln, mit der Antworten aus verschiedenen Sprachen direkt verglichen und
  5. offene Textantworten in computer-adaptiven Tests verwendet werden können, und
  6. demonstriert wie sich unengagiertes Testverhalten mittels Maschinenlernen und theoriegetriebener Merkmalsextraktion aus Log-Daten (moderat) vorhersagen lässt (Zehner, Harrison et al., 2020).

Diese Beispiele stellen lediglich exemplarische Ausschnitte verschiedener Forschungsstränge des Vorhabens dar.

Zehner, F. & Andersen, N. (2020). ReCo: Textantworten automatisch auswerten (Methodenworkshop). Zeitschrift für Soziologie der Erziehung und Sozialisation, 40(3), 334–340.

Zehner, F., Goldhammer, F., Lubaway, E. & Sälzer, C. (2019). Unattended consequences: How text responses alter alongside PISA's mode change from 2012 to 2015. Education Inquiry, 10(1), 34–55. doi: 10.1080/20004508.2018.1518080➚

Zehner, F., Harrison, S., Eichmann, B., Deribo, T., Bengs, D., Andersen, N. & Hahnel, C. (2020). The NAEP Data Mining Competition: On the value of theory-driven psychometrics and machine learning for predictions based on log data. In A. N. Rafferty, J. Whitehill, C. Romero, & V. Cavalli-Sforza (Hrsg.), Proceedings of the Thirteenth International Conference on Educational Data Mining (EDM 2020), S. 302–312, Morocco. [online verfügbar➚]

Zehner, F., Kroehne, U., Hahnel, C. & Goldhammer, F. (2020). PISA Reading: Mode Effects Unveiled in Text Responses. Psychological Test and Assessment Modeling, 62, 55–75. [online verfügbar➚]

 

Mentor: Prof. Dr. Frank Goldhammer➚

© 2012 Zentrum für internationale Bildungsvergleichsstudien

» Webdesign