Bewertungen sind ein integraler Bestandteil des Bildungssystems und erfordern ihrer Natur nach häufig einen hohen Zeitaufwand, da Genauigkeit und Konsistenz erwartet werden. Diese Studie untersucht, inwieweit große Sprachmodelle (LLMs) die Leistungsbewertung im Bereich des Fremdsprachenunterrichts unterstützen können. Grundlage sind mehrere Deutsch-Prüfungen, die sowohl von Lehrkräften als auch von LLMs bewertet wurden. Ziel ist es, KI-gestützte Bewertungen mit traditionellen Bewertungen qualitativ zu vergleichen.
Die Analyse konzentriert sich auf Aspekte wie Genauigkeit, Effizienz und Konsistenz und berücksichtigt zudem die Komplexität der Aufgaben sowie die Art der Antworten. Darüber hinaus bietet die Studie eine differenzierte Betrachtung darüber, in welchen Bereichen KI-Leistungen die Arbeitsbelastung von Lehrkräften verringern kann, ohne die pädagogische Qualität der Bewertung zu beeinträchtigen. Abschließend werden praxisnahe Empfehlungen gegeben, wie KI sinnvoll und nachhaltig in den Unterricht integriert werden kann.
Durch den Vergleich von KI-durchgeführten Bewertungen mit Menschlichen, identifiziert die Studie zentrale Bereiche, in denen große Sprachmodelle (LLMs) entweder erfolgreich sind oder nicht. Die technischen und ethischen Grenzen des Einsatzes von KI als eigenständiges Bewertungssystem werden auch thematisiert. Durch die vielsichtige Darstellung sowohl des revolutionären Potenzials von KI als auch der damit verbundenen Risiken leistet diese Studie einen Beitrag zur zunehmend kontrovers geführten Debatte über die Integration von LLMs in die pädagogische Praxis.
Benotungsautomatisierung Bewertung Deutsch als Fremdsprache KI in der Lehre Sprachmodelle
Assessments function as part of the fabric of education, and by their very nature, are often time-intensive because of the expectation of accuracy and consistency. This study aims to explore how large language models (LLMs) can mediate assessment in the space of a foreign language based on several German exam papers that were graded and assessed by both LLMs and teachers, while ultimately comparing AI assessments to traditional assessments using a qualitative approach.
The analyses focused on aspects of accuracy, efficiency and consistency, while also noting the 'complexity' of the tasks and response types. In addition, the study provides a detailed overview of how AI could help reduce teacher workload without compromising the pedagogical quality of assessment and offers practical suggestions for the meaningful and sustainable integration of AI into the classroom.
By comparing AI-output to human judgment, the research determines principal areas of LLM failure or success. The technical and moral boundaries of using AI as a standalone assessor are also covered, especially where subtle or linguistically advanced judgments are required. By adding a balanced viewpoint that emphasizes both the potentially revolutionary ability of AI and the wariness in its application, this study adds to the increasingly heated debate regarding the incorporation of LLMs into pedagogic practice.
: Assessment automation evaluation German as a Foreign Language AI in teaching language models
| Birincil Dil | Almanca |
|---|---|
| Konular | Dil Çalışmaları (Diğer), Alman Dili, Edebiyatı ve Kültürü |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Yayımlanma Tarihi | 30 Kasım 2025 |
| Gönderilme Tarihi | 11 Ağustos 2025 |
| Kabul Tarihi | 1 Ekim 2025 |
| Yayımlandığı Sayı | Yıl 2025 Sayı: Sonderausgabe: Germanistik im 21. Jahrhundert- Band I |
www.gerder.org.tr/diyalog