Cluster analysis is often used to determine housing submarkets. However, commonly used methods cannot handle mixed-mode data when variables of different types and units are combined. We propose new similarity measures that handle both continuous and categorical variables using normalization and discretization steps and partial match criteria. These measures are used in agglomerative hierarchical clustering with a formulation where the optimal number of clusters is automatically determined without a priori information regarding the number of submarkets. The experiments using housing sales data show that the proposed measures perform better than the commonly used standardized Euclidean distance in identifying submarkets.
National Science Foundation Grant
DEB-0410336
Kümeleme analizi, konutların bir dizi değişkene dayalı olarak benzerliklerine göre gruplandırıldığı alt pazarları belirlemek için kullanılan popüler bir yöntemdir. Ancak, yaygın olarak kullanılan yöntemler, farklı tür ve birimlerdeki değişkenlerin bir arada kullanıldığı verileri doğrudan işleyemez. Bu çalışmada, düzgeleme ve ayrıklaştırma adımlarını ve kısmî eşleşme kriterlerini kullanarak hem sürekli hem de kategorik değişkenleri aynı çerçevede ele alabilen yeni benzerlik ölçümleri öneriyoruz. Bu ölçümler, alt pazarların sayısına ilişkin ön bilgi olmadan optimum küme sayısının otomatik olarak belirlendiği bir formülasyon ile aglomeratif hiyerarşik kümelemede kullanılmaktadır. Konut satış verilerini kullanan deneylerde, önerilen benzerlik ölçümleri, alt pazarların belirlenmesinde yaygın olarak kullanılan standartlaştırılmış Öklid mesafesinden daha iyi performans göstermektedir.
DEB-0410336
Primary Language | English |
---|---|
Subjects | Economics |
Journal Section | Articles |
Authors | |
Project Number | DEB-0410336 |
Publication Date | July 30, 2021 |
Submission Date | January 7, 2021 |
Published in Issue | Year 2021 |