Data compression is the set of operations performed to enable digital data to occupy less space than it does in memory. These operations are carried out by utilizing more or less repeated data chunks depending on the file type. In this way, compression operations allow for a more efficient use of the memory and data communication bus. Compression techniques are divided into two groups: lossless and lossy compression. Lossless compression includes dictionary-based coding and statistical coding methods. Statistical coding represents the most frequently occurring characters in the data with shorter codewords, while less common characters are represented by longer codewords. Although the frequency of character use is at the heart of statistical coding methods, the processing steps differ depending on the method used. In this study, the performances of the Huffman, Shannon-Fano, and Arithmetic coding methods, which use statistical coding for compression, were compared on English and Turkish texts. Text-based files within the Calgary corpus for English and compilations of newspaper columns for Turkish are used in the study. The comparisons are made based on savings rate, compression-decompression times, Bit per character (BPC), and entropy metrics. The results show performance differences in savings rate, BPC, and entropy metrics between statistical coding methods for English and Turkish texts.
Veri sıkıştırma, dijital ortamda bulunan verilerin hafızada olduğundan daha az yer kaplayabilmesi için yapılan işlem adımları bütünüdür. Bu işlemler dosya türlerine göre değişen az ya da çok tekrar eden veri öbeklerinden yararlanarak gerçekleştirilir. Böylece sıkıştırma işlemleri hafızanın ve veri iletişim hattının taşıma kapasitesini daha verimli kullanımına olanak sağlamaktadır. Sıkıştırma teknikleri kayıplı ve kayıpsız olarak iki gruba ayrılmaktadırlar. Kayıpsız sıkıştırma, sözlük tabanlı kodlama ve istatistiksel kodlama yöntemlerini içermektedir. İstatiksel kodlama, veri içindeki sık görülen karakterleri daha kısa kod kelimesiyle temsil ederken, daha az görülen karakterleri daha uzun kod kelimesiyle temsil edilmesi mantığına dayanmaktadır. İstatiksel kodlama yöntemlerinin temelinde karakter kullanım sıklıkları yer alsa da işlem basamakları yöntemlere bağlı olarak farklılık göstermektedir. Bu çalışmada sıkıştırma için istatiksel kodlamayı kullanan Huffman, Shannon-Fano ve Aritmetik kodlama yöntemlerinin İngilizce ve Türkçe metinler üzerindeki başarımları karşılaştırılmıştır. Çalışmada kullanılmak üzere İngilizce için Calgary külliyatı içerisinde bulunan metin tabanlı dosyalar, Türkçe için gazetelerde yayımlanmış köşe yazılarından derlemeler yapılmıştır. Karşılaştırmalar tasarruf oranı, sıkıştırma-açma süreleri, BPC (Bit per character) ve entropi metrikleri üzerinden sağlanmıştır. Sonuçlar istatiksel kodlama yöntemlerinin İngilizce ve Türkçe metinler arasında tasarruf oranı, BPC ve entropi ölçütlerinde başarım farklılıkları olduğunu ortaya koymaktadır.
Primary Language | Turkish |
---|---|
Subjects | Electrical Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2023 |
Submission Date | May 9, 2023 |
Published in Issue | Year 2023 Volume: 15 Issue: 3 |
All Rights Reserved. Kırıkkale University, Faculty of Engineering and Natural Science.