Problem Durumu: 1970’lerde
ortaya konan kavram haritaları, bilginin hiyerarşik bir düzen içerisinde
şematize edilerek görselleştirilmesini sağlayan grafiksel araçlardır.Kavram
haritaları eğitimde bir konudaki kavramlar arasındaki ilişkinin daha açık,
anlamlı öğrenilmesini sağlamaya yardımcı olabilecek araçlardır. Novak (2001),
kavram haritalarının öğretim amaçlı kullanılabildiği gibi değerlendirme amaçlı
da kullanılabileceğini, çoktan seçmeli testlerin kullanılmasının bir zorunluluk
olmadığını ve hatta zamanla ulusal başarı sınavlarında bu araçların etkili bir
değerlendirme aracı olarak kullanılabileceğini belirtmiştir (Akt: Kaya ve
Kılıç, 2004). Kavram haritalarının eğitimde değerlendirme amaçlı olarak
kullanılması, öğrencilerin konuyu anlayıp anlamadıklarını göstermesi ve öğrenme
ile ilgili eksiklerini ortaya çıkarması açısından çok önemlidir. Kavram
haritaları, öğrencinin bilgi yapısını, konuyla ilgili yanılgılarını ve yanlış
anlamalarını belirlemede oldukça fonksiyonel bir işleve sahiptir (Şahin, 2002).
Kavram haritalarının değerlendirme aracı olarak kullanılması bunların
puanlanması konusunu gündeme getirmiştir. Bu yöntemin değerlendirme amaçlı
olarak kullanılabilmesi için öğretmenler tarafından puanlama yöntemlerinin çok
iyi bilinmesi gerekmektedir. Farklı şekilde oluşturulan ve kullanılan haritalar
farklı yöntemlerle puanlanabilmektedir. Bu yöntemlerden iki tanesi bütüncül ve
ilişkisel puanlama metotlarıdır. Bütüncül
puanlama yönteminde kavram haritaları bir bütün olarak ele alınır, öğrencilerin
kavramlarla ilgili öğrenmelerini haritaya yansıtabilmeleri ve ilgili
kavramların haritada yer alması göz önünde tutularak 1-10 arasında bir puanla
değerlendirilir. İlişkisel puanlama yöntemi önermelerin ayrı ayrı puanlanması
temeline dayanmaktadır. Önerme iki kavram arasındaki ilişkinin etiketlenmiş bir
ok aracılığıyla gösterilmesi olarak tanımlanır. Haritanın toplam puanı, ayrı
önermelerin her birine verilen puanların toplanmasıyla bulunmaktadır ve her bir
önerme doğru olup olmadıklarına göre 0-3 arasında bir puan almaktadır (McClure,
Sonak ve Suen,1999). Kavram haritası,
değerlendirme aracı olarak kullanıldığında teknik özellikleri kritik hale
gelmesine rağmen, elde edilen puanların güvenirlik ve geçerliliğinin nasıl
değerlendirileceği her zaman net değildir (Yin ve Shavelson, 2008).
Genellenebilirlik (G) kuramı, temeli varyans analizine (ANOVA) dayanan
güvenirliğin değerlendirilmesini sağlayan, Cronbach ve arkadaşları (1972)
tarafından geliştirilen, güvenirlik kavramına farklı bir bakış açısı getiren
istatistiksel bir kuramdır (Shavelson ve Webb, 1991 Akt; Deliceoğlu, 2009). Öğrencilerden birinin aldığı puan kavram haritası
puanlarının evreninden bir örnek olarak düşünülürse (değişen bütün koşullar
altında örneğin; görev, cevap formatı ve puanlama metotları vb.) kavram
haritalarının puanlanması G kuramı kapsamında incelenebilir. Ruiz-Primo ve
Shavelson, (1996) kavram haritası puanlamasının; kavramlar, önermeler, görev
tipi, cevaplama formatları, durumlar, puanlayıcılar ve puanlama yöntemleri gibi
farklı hata kaynakları içerdiğinden, bu tür araştırmalarda G kuramının
kullanılmasının bilhassa uygun olduğunu belirtmiştir (Akt: Yin ve Shavelson,
2008).
Araştırmanın
Amacı: Bu çalışmada, farklı öğretmenler
tarafından puanlaması yapılan öğrencilerin oluşturduğu kavram haritalarının
puanlarının güvenirlikleri G kuramı açısından ele alınacaktır. Bu araştırma
kapsamında kavram haritası puanlama yöntemlerinden ikisi kullanılmıştır.
Bunlar; bütünsel (holistik) puanlama ve ilişkisel puanlama yöntemleridir.
Kavram haritalarının puanlanmasında sadece bu iki yöntemin kullanılabilmiş
olması araştırmanın sınırlılıklarından biri olarak görülebilir.
Araştırmanın
Yöntemi: Araştırma, Osmaniye ili Merkez
Atatürk İlköğretim okulunda 7.sınıfta öğrenim görmekte olan 15’i kız, 21’i
erkek olmak üzere 36 öğrenci ile gerçekleştirilmiştir. Araştırma 2010-2011
eğitim-öğretim yılı güz dönemi Aralık-Ocak ayları içerisinde
gerçekleştirilmiştir. Araştırma kapsamında öğrencilerin yapmış olduğu kavram
haritalarını üç farklı öğretmen puanlamışlardır. Veriler, veri toplama aracı
olarak kullanılan dört farklı kavram haritasından elde edilmiştir. Bu çalışmada
kullanılan haritalar Kuvvet ve Hareket ünitesiyle ilgilidir.
Araştırmanın Bulguları: Çalışmada
36 öğrencinin dört kavram haritası oluşturabilme düzeyleri iki farklı puanlama
yöntemiyle üç puanlayıcı tarafından puanlanmıştır. Her bir puanlama yöntemine
göre elde edilen puanlar G kuramına göre ayrı ayrı analiz edilmiş ve elde
edilen sonuçlar yorumlanmıştır.
Bütünsel puanlamada, çalışmada yer alan öğrenciler (s)
ölçmenin objesi olup, diğer değişkenlik kaynakları olan kavram haritaları
görevleri (t) ve puanlayıcılar (r) da çalışmanın yüzey (facet)lerini
oluşturmaktadır. Bu çalışmada tüm öğrenciler tüm kavram haritalarını
oluşturmakla sorumlu olduklarından ve tüm puanlayıcılar tarafından bütünsel
puanlama yöntemiyle puanlandıkları için çalışma tümüyle çaprazlanmış (s x t x
r) desenden oluşmaktadır. Genellenebilirlik analiziyle elde edilen varyans
bileşenlerine ilişkin sonuçlara göre,en büyük değişkenlik kaynaklarından
birinin öğrenciler olduğu görülmüştür (gerçek varyans). Diğer ana etkiler olan
görev, toplam varyansı açıklayan en büyük bileşenlerden biri olurken (yaklaşık
%14), puanlayıcı bileşeni toplam varyansın açıklanmasına nerdeyse hiç bir
katkıda bulunmamaktadır (%001). Etkileşimlere baktığımızda öğrenci-görev
bileşeni toplam varyansın yaklaşık %35’ini açıklarken, görev-puanlayıcı etkileşimi toplam varyansın
çok küçük bir kısmını açıklamaktadır (%034). Üçlü etkileşimin, bir başka deyişle
artık etkisinin, toplam varyansdaki payı
ise %24’tür. G kuramına göre, artık etkisine ilişkin varyans değerinin
olabildiğince küçük olması istenir. Bu değer, puanlardaki değişimin çalışmada
yer almayan farklı değişkenlik kaynaklarına bağlı ortaya çıkmış olabileceğinin
sinyalini vermektedir. G kuramında, klasik test kuramındaki güvenirlik
katsayısına karşılık gelebilecek G katsayısı hesaplanmaktadır. G kuramında,
klasik test kuramından farklı olarak bir de mutlak değerlendirmenin söz konusu
olduğu durumlar için ayrıca Phi katsayısı (reliability coefficient) da
hesaplanabilmektedir. Yukarıdaki eşitliklere dayalı olarak, çalışmada yer alan
dört görev ve üç puanlayıcı üzerinden hesaplanan G ve Φ katsayısıları sırasıyla
.63 ve .57 olarak bulunmuştur.
İlişkisel puanlama yönteminde de aynı desen kullanılmış
ve yine en büyük değişkenlik kaynaklarından birinin öğrenciler olduğu
görülmüştür (%10). Görev ana etki bileşeni, toplam varyansı açıklayan en büyük
bileşen olurken (yaklaşık %56), puanlayıcı bileşenin toplam varyansın
açıklanmada bir payı bulunmamaktadır (%000). Diğer taraftan ikili etkileşimlere
bakıldığında öğrenci-görev,
öğrenci-puanlayıcı ve görev-puanlayıcı etkileşimleri sırasıyla yaklaşık
%20, %0 ve %03 olarak elde edilmiştir. Buradan anlaşılacağı üzere, kavram
haritalarında yer alan görevlerin zorluk düzeyleri öğrenciler için farklılık
gösterirken, öğrencilerin ve görevlerin puanlanması puanlayıcıdan puanlayıcıya
farklılık göstermemektedir. Üçlü etkileşimler artık etki olarak isimlendirilir
ve eğer çalışmada, ölçme sonuçları güvenilir ise artıklara ait olan bu değerin
olabildiğince küçük olması istenir. İlişkisel puanlama yönteminin kullanılarak
elde edilen puanlar üzerinden bulunan artık etki varyansı toplam varyansın
%10’unu açıklamaktadır. Elde edilen bu
varyans değeri, puanlardaki değişimin çalışmada yer almayan farklı değişkenlik
kaynaklarına bağlı ortaya çıkmış olabileceğinin sinyalini vermektedir. Çalışmada
yer alan dört görev ve üç puanlayıcı üzerinden ilişkisel puanlama yöntemi için
hesaplanan G ve Φ katsayısıları sırasıyla .63
ve .34 olarak bulunmuştur.
Araştırmanın
Sonuç ve Önerileri: Elde edilen sonuçlara göre, her ik
puanlama yöntemi için G katsayısı aynı bulunmuşken, Phi katsayısı bütünsel
puanlama yönteminin kullanıldığı kavram haritası çalışmasında daha yüksek bir
değere sahiptir. Bu sonuçlara dayanarak mutlak kararkların alınması amaçalanan
kavram haritası çalışmalarında, bütünsel puanlama yöntemini kullanmak
önerilebilir. İlişkisel puanlama yönteminin kullanılacağı durumlarda ise
öğrencilerin kavram haritalarını oluşturmada daha fazla pratik yapması ve
puanlayıcılara puanlama konusunda daha fazla açıklama yapılması ve puanlama
ölçütlerinin daha ayrıntılı verilmesi önerilebilir. Ayrıca, her iki puanlama
yöntemiyle elde edilen sonuçlara göre, artık varyansın yüksek çıkmasına dayalı
olarak, öğrencilerin kavram haritası oluşturulmasında hata kaynağı olabilecek
diğer dış etkenlerin (ortam, ölçme aracı vb.) de dikkatlice kontrol altına
alınması gerektiği önerilmektedir.
Genellenebilirlik kuramı puanlayıcı etkisi kavram haritalarının puanlanması puanlama yöntemleri.
Problem Statement:
In addition to
being teaching
tools, concept maps can
be used as effective assessment tools. The use of concept maps for assessment
has raised the issue of scoring them. Concept maps generated and used in
different ways can be scored via various methods. Holistic and relational scoring methods are two of them.
Purpose of the Study:
In this study, the reliability of the
concept map scores, which were made by the students and which were
scored by different teachers using different scoring methods (holistic and
relational), will be discussed in terms of G theory.
Methods: The research was performed during the fall semester of the 2010-2011
academic year, between December and January.
Concept maps created by thirty-six students were scored by three
different teachers who played roles as raters. Data were obtained from four
different concept maps that were generated by each student.
Findings and Results:
In focusing on the size of the variance estimates according to holistic scoring
methods, while the student component (objects of measurement) accounts for one
of the largest percentages of the variance (20%), the main effects of the task
and the raters account for about 14% and
almost 0% of the total variance, respectively. The difficulty level of tasks
did not differ so much from student to student, and there is a scoring
agreement among raters. Using the holistic scoring method,
respectively, depending upon the four tasks and three raters. In terms of relational scoring, the student component (object of measurement) accounts for
10% of the variance, the main effect of the task accounts for a very
significant percentage of the variance (56%), and the main effect of the raters
does not demonstrate any variance. G and Φ coefficients calculated over the
four tasks and three raters in the study were .63 and .34, respectively.
Conclusions and Recommendations: According to the results of this study, Phi
coefficient was higher in the concept map study in which the holistic scoring
method was used. In this study, tasks represented a significant variance
component for both scoring methods. This may be interpreted to mean that the
levels of difficulty for the tasks differed according to the students using
both methods. In each of the scoring methods, the variance related to the
raters was found to be zero, which may result in the interpretation that raters
scored the maps consistently.
Generalizability theory rater effect scoring concept maps scoring methods.
Birincil Dil | İngilizce |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 15 Aralık 2016 |
Yayımlandığı Sayı | Yıl 2016 Cilt: 16 Sayı: 66 |