Research Article
BibTex RIS Cite

Bazı Dosya Türlerinin Pandas Verisini Kaydetmedeki Performansları

Year 2022, Issue: 36, 55 - 60, 31.05.2022
https://doi.org/10.31590/ejosat.1103499

Abstract

Bilim insanları, araştırmacılar, mühendisler vb. verilerle çalışan hemen hemen herkesin yolu bir noktada Pandas kütüphanesi ile kesişmektedir. Pandas, verilerin kolay, hızlı ve verimli bir şekilde işlenmesine izin veren çok güçlü bir kütüphanedir. Temsil ettiği verileri çeşitli dosya türlerine dönüştürebilme kabiliyetine sahiptir. Bu dosya türleri arasından, aynı Pandas verisini diske en küçük boyutta kaydeden dosya türünün tespiti günümüz verisinin bolluğu göz önüne alındığında önemli bir konudur. Bu çalışmada, Pandas verilerini minimum boyutta kaydedebilen dosya türleri deneysel olarak çeşitli açılardan incelenmiştir. Bu doğrultuda deneylerde CSV, HDF, JSON, Excel ve Pickle dosya türleri incelemeye alınmıştır. Bu dosyaların boyutları, verilerin tamlığı veya eksikliği ile verilerde bulunan değişkenlerin türü gibi çeşitli koşullar altında karşılaştırılmıştır. Ayrıca veriler arttıkça dosya boyutlarının nasıl değiştiği de bu çalışma kapsamında incelenmiştir.

References

  • Abeykoon, V., Perera, N., Widanage, C., Kamburugamuve, S., Kanewala, T. A., Maithree, H., … Fox, G. (2020). Data Engineering for HPC with Python. In 2020 IEEE/ACM 9th Workshop on Python for High-Performance and Scientific Computing (PyHPC) (pp. 13–21). https://doi.org/10.1109/PyHPC51966.2020.00007
  • Fortner, B. (1998). HDF: The hierarchical data format. Dr Dobb’s J Software Tools Prof Program, 23(5), 42.
  • Hoyer, S., & Hamman, J. (2017). xarray: ND labeled arrays and datasets in Python. Journal of Open Research Software, 5(1).
  • Kişisel Verilerin Korunması Kanunu. (n.d.). Retrieved from https://www.mevzuat.gov.tr/mevzuatmetin/1.5.6698.pdf
  • Pezoa, F., Reutter, J. L., Suarez, F., Ugarte, M., & Vrgoč, D. (2016). Foundations of JSON schema. In Proceedings of the 25th International Conference on World Wide Web (pp. 263–273).
  • Reback, J., McKinney, W., jbrockmendel, den Bossche, J. Van, Augspurger, T., Cloud, P., … Mehyar, M. (2020). pandas-dev/pandas: Pandas 1.0.3. Zenodo. https://doi.org/10.5281/zenodo.3715232
  • Van Rossum, G. (2020). The Python Library Reference, release 3.8.2. Python Software Foundation.
  • Van Rossum, G., & Drake, F. L. (2003). An introduction to Python. Network Theory Ltd. Bristol.
  • Virtanen, P., Gommers, R., Oliphant, T. E., Haberland, M., Reddy, T., Cournapeau, D., … SciPy 1.0 Contributors. (2020). {SciPy} 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17, 261–272. https://doi.org/10.1038/s41592-019-0686-2

Recording Performances of Some File Types for Pandas Data

Year 2022, Issue: 36, 55 - 60, 31.05.2022
https://doi.org/10.31590/ejosat.1103499

Abstract

Scientists, researchers, engineers, etc. almost everyone who works with data crosses paths with Pandas at some point. It is so powerful library that allows for easy, rapid and efficient manipulation of data. It can convert data it represent into various file types. Among these file types, the determination of the one which records the same Pandas data with the smallest size on the disk is an important issue considering the abundance of today's data. In this study, the file types that can save Pandas data with minimum size has been experimentally investigated from various perspectives. In this respect, the CSV, HDF, JSON, Excel and Pickle file types are involved in the experiments. The sizes of these files were benchmarked under several conditions such as the completeness or lack of data and type of variables that are contained in data. In addition, it was also examined that how file sizes vary as data increases.

References

  • Abeykoon, V., Perera, N., Widanage, C., Kamburugamuve, S., Kanewala, T. A., Maithree, H., … Fox, G. (2020). Data Engineering for HPC with Python. In 2020 IEEE/ACM 9th Workshop on Python for High-Performance and Scientific Computing (PyHPC) (pp. 13–21). https://doi.org/10.1109/PyHPC51966.2020.00007
  • Fortner, B. (1998). HDF: The hierarchical data format. Dr Dobb’s J Software Tools Prof Program, 23(5), 42.
  • Hoyer, S., & Hamman, J. (2017). xarray: ND labeled arrays and datasets in Python. Journal of Open Research Software, 5(1).
  • Kişisel Verilerin Korunması Kanunu. (n.d.). Retrieved from https://www.mevzuat.gov.tr/mevzuatmetin/1.5.6698.pdf
  • Pezoa, F., Reutter, J. L., Suarez, F., Ugarte, M., & Vrgoč, D. (2016). Foundations of JSON schema. In Proceedings of the 25th International Conference on World Wide Web (pp. 263–273).
  • Reback, J., McKinney, W., jbrockmendel, den Bossche, J. Van, Augspurger, T., Cloud, P., … Mehyar, M. (2020). pandas-dev/pandas: Pandas 1.0.3. Zenodo. https://doi.org/10.5281/zenodo.3715232
  • Van Rossum, G. (2020). The Python Library Reference, release 3.8.2. Python Software Foundation.
  • Van Rossum, G., & Drake, F. L. (2003). An introduction to Python. Network Theory Ltd. Bristol.
  • Virtanen, P., Gommers, R., Oliphant, T. E., Haberland, M., Reddy, T., Cournapeau, D., … SciPy 1.0 Contributors. (2020). {SciPy} 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17, 261–272. https://doi.org/10.1038/s41592-019-0686-2
There are 9 citations in total.

Details

Primary Language English
Subjects Engineering
Journal Section Articles
Authors

Hakan Temiz 0000-0002-1351-7565

Early Pub Date April 11, 2022
Publication Date May 31, 2022
Published in Issue Year 2022 Issue: 36

Cite

APA Temiz, H. (2022). Recording Performances of Some File Types for Pandas Data. Avrupa Bilim Ve Teknoloji Dergisi(36), 55-60. https://doi.org/10.31590/ejosat.1103499