Bilim insanları, araştırmacılar, mühendisler vb. verilerle çalışan hemen hemen herkesin yolu bir noktada Pandas kütüphanesi ile kesişmektedir. Pandas, verilerin kolay, hızlı ve verimli bir şekilde işlenmesine izin veren çok güçlü bir kütüphanedir. Temsil ettiği verileri çeşitli dosya türlerine dönüştürebilme kabiliyetine sahiptir. Bu dosya türleri arasından, aynı Pandas verisini diske en küçük boyutta kaydeden dosya türünün tespiti günümüz verisinin bolluğu göz önüne alındığında önemli bir konudur. Bu çalışmada, Pandas verilerini minimum boyutta kaydedebilen dosya türleri deneysel olarak çeşitli açılardan incelenmiştir. Bu doğrultuda deneylerde CSV, HDF, JSON, Excel ve Pickle dosya türleri incelemeye alınmıştır. Bu dosyaların boyutları, verilerin tamlığı veya eksikliği ile verilerde bulunan değişkenlerin türü gibi çeşitli koşullar altında karşılaştırılmıştır. Ayrıca veriler arttıkça dosya boyutlarının nasıl değiştiği de bu çalışma kapsamında incelenmiştir.
Scientists, researchers, engineers, etc. almost everyone who works with data crosses paths with Pandas at some point. It is so powerful library that allows for easy, rapid and efficient manipulation of data. It can convert data it represent into various file types. Among these file types, the determination of the one which records the same Pandas data with the smallest size on the disk is an important issue considering the abundance of today's data. In this study, the file types that can save Pandas data with minimum size has been experimentally investigated from various perspectives. In this respect, the CSV, HDF, JSON, Excel and Pickle file types are involved in the experiments. The sizes of these files were benchmarked under several conditions such as the completeness or lack of data and type of variables that are contained in data. In addition, it was also examined that how file sizes vary as data increases.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | May 31, 2022 |
Published in Issue | Year 2022 |