<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20241031//EN"
        "https://jats.nlm.nih.gov/publishing/1.4/JATS-journalpublishing1-4.dtd">
<article  article-type="research-article"        dtd-version="1.4">
            <front>

                <journal-meta>
                                                                <journal-id>ijerad</journal-id>
            <journal-title-group>
                                                                                    <journal-title>International Journal of Engineering Research and Development</journal-title>
            </journal-title-group>
                            <issn pub-type="ppub">1308-5506</issn>
                                        <issn pub-type="epub">1308-5514</issn>
                                                                                            <publisher>
                    <publisher-name>Kirikkale University</publisher-name>
                </publisher>
                    </journal-meta>
                <article-meta>
                                        <article-id pub-id-type="doi">10.29137/umagd.1294273</article-id>
                                                                <article-categories>
                                            <subj-group  xml:lang="en">
                                                            <subject>Electrical Engineering</subject>
                                                    </subj-group>
                                            <subj-group  xml:lang="tr">
                                                            <subject>Elektrik Mühendisliği</subject>
                                                    </subj-group>
                                    </article-categories>
                                                                                                                                                        <title-group>
                                                                                                                        <trans-title-group xml:lang="en">
                                    <trans-title>A Comparison of Text Compression Performance of Statistical Coding Methods in Turkish and English</trans-title>
                                </trans-title-group>
                                                                                                                                                                                                <article-title>İstatiksel Kodlama Yöntemlerinin Türkçe ve İngilizce Metinlerde Sıkıştırma Başarımı Karşılaştırma Örneği</article-title>
                                                                                                    </title-group>
            
                                                    <contrib-group content-type="authors">
                                                                        <contrib contrib-type="author">
                                                                    <contrib-id contrib-id-type="orcid">
                                        https://orcid.org/0000-0003-3149-0527</contrib-id>
                                                                <name>
                                    <surname>Ozturk</surname>
                                    <given-names>Ibrahim</given-names>
                                </name>
                                                                    <aff>OSMANIYE KORKUT ATA UNIVERSITY</aff>
                                                            </contrib>
                                                    <contrib contrib-type="author">
                                                                    <contrib-id contrib-id-type="orcid">
                                        https://orcid.org/0009-0007-4535-3650</contrib-id>
                                                                <name>
                                    <surname>Kaya</surname>
                                    <given-names>Hakan Celil</given-names>
                                </name>
                                                                    <aff>OSMANIYE KORKUT ATA UNIVERSITY</aff>
                                                            </contrib>
                                                                                </contrib-group>
                        
                                        <pub-date pub-type="pub" iso-8601-date="20231231">
                    <day>12</day>
                    <month>31</month>
                    <year>2023</year>
                </pub-date>
                                        <volume>15</volume>
                                        <issue>3</issue>
                                        <fpage>16</fpage>
                                        <lpage>27</lpage>
                        
                        <history>
                                    <date date-type="received" iso-8601-date="20230509">
                        <day>05</day>
                        <month>09</month>
                        <year>2023</year>
                    </date>
                                                    <date date-type="accepted" iso-8601-date="20230712">
                        <day>07</day>
                        <month>12</month>
                        <year>2023</year>
                    </date>
                            </history>
                                        <permissions>
                    <copyright-statement>Copyright © 2009, International Journal of Engineering Research and Development</copyright-statement>
                    <copyright-year>2009</copyright-year>
                    <copyright-holder>International Journal of Engineering Research and Development</copyright-holder>
                </permissions>
            
                                                                                                <trans-abstract xml:lang="en">
                            <p>Data compression is the set of operations performed to enable digital data to occupy less space than it does in memory. These operations are carried out by utilizing more or less repeated data chunks depending on the file type. In this way, compression operations allow for a more efficient use of the memory and data communication bus. Compression techniques are divided into two groups: lossless and lossy compression. Lossless compression includes dictionary-based coding and statistical coding methods. Statistical coding represents the most frequently occurring characters in the data with shorter codewords, while less common characters are represented by longer codewords. Although the frequency of character use is at the heart of statistical coding methods, the processing steps differ depending on the method used. In this study, the performances of the Huffman, Shannon-Fano, and Arithmetic coding methods, which use statistical coding for compression, were compared on English and Turkish texts. Text-based files within the Calgary corpus for English and compilations of newspaper columns for Turkish are used in the study. The comparisons are made based on savings rate, compression-decompression times, Bit per character (BPC), and entropy metrics. The results show performance differences in savings rate, BPC, and entropy metrics between statistical coding methods for English and Turkish texts.</p></trans-abstract>
                                                                                                                                    <abstract><p>Veri sıkıştırma, dijital ortamda bulunan verilerin hafızada olduğundan daha az yer kaplayabilmesi için yapılan işlem adımları bütünüdür. Bu işlemler dosya türlerine göre değişen az ya da çok tekrar eden veri öbeklerinden yararlanarak gerçekleştirilir. Böylece sıkıştırma işlemleri hafızanın ve veri iletişim hattının taşıma kapasitesini daha verimli kullanımına olanak sağlamaktadır. Sıkıştırma teknikleri kayıplı ve kayıpsız olarak iki gruba ayrılmaktadırlar. Kayıpsız sıkıştırma, sözlük tabanlı kodlama ve istatistiksel kodlama yöntemlerini içermektedir. İstatiksel kodlama, veri içindeki sık görülen karakterleri daha kısa kod kelimesiyle temsil ederken, daha az görülen karakterleri daha uzun kod kelimesiyle temsil edilmesi mantığına dayanmaktadır. İstatiksel kodlama yöntemlerinin temelinde karakter kullanım sıklıkları yer alsa da işlem basamakları yöntemlere bağlı olarak farklılık göstermektedir. Bu çalışmada sıkıştırma için istatiksel kodlamayı kullanan Huffman, Shannon-Fano ve Aritmetik kodlama yöntemlerinin İngilizce ve Türkçe metinler üzerindeki başarımları karşılaştırılmıştır. Çalışmada kullanılmak üzere İngilizce için Calgary külliyatı içerisinde bulunan metin tabanlı dosyalar, Türkçe için gazetelerde yayımlanmış köşe yazılarından derlemeler yapılmıştır. Karşılaştırmalar tasarruf oranı, sıkıştırma-açma süreleri, BPC (Bit per character) ve entropi metrikleri üzerinden sağlanmıştır. Sonuçlar istatiksel kodlama yöntemlerinin İngilizce ve Türkçe metinler arasında tasarruf oranı, BPC ve entropi ölçütlerinde başarım farklılıkları olduğunu ortaya koymaktadır.</p></abstract>
                                                            
            
                                                                                        <kwd-group>
                                                    <kwd>Veri Sıkıştırma</kwd>
                                                    <kwd>  İstatiksel Kodlama</kwd>
                                                    <kwd>  Huffman Kodlama</kwd>
                                                    <kwd>  Shannon-Fano Kodlama</kwd>
                                                    <kwd>  Aritmetik Kodlama</kwd>
                                            </kwd-group>
                            
                                                <kwd-group xml:lang="en">
                                                    <kwd>Data Compression</kwd>
                                                    <kwd>  Statistical Coding</kwd>
                                                    <kwd>  Huffman Coding</kwd>
                                                    <kwd>  Shannon-Fano Coding</kwd>
                                                    <kwd>  Arithmetic Coding</kwd>
                                            </kwd-group>
                                                                                                                                        </article-meta>
    </front>
    <back>
                            <ref-list>
                                    <ref id="ref1">
                        <label>1</label>
                        <mixed-citation publication-type="journal">Abramson, N. (1963). Information theory and coding.</mixed-citation>
                    </ref>
                                    <ref id="ref2">
                        <label>2</label>
                        <mixed-citation publication-type="journal">Aktaner, A. (1995). Entropi Kodlama ile EKG Veri Sıkıştırma İstanbul Teknik Üniversitesi]. Fen Bilimleri Enstitüsü.</mixed-citation>
                    </ref>
                                    <ref id="ref3">
                        <label>3</label>
                        <mixed-citation publication-type="journal">Bell, T., Witten, I. H., &amp; Cleary, J. G. (1989). Modeling for text compression. ACM Comput. Surv., 21(4), 557–591. https://doi.org/10.1145/76894.76896</mixed-citation>
                    </ref>
                                    <ref id="ref4">
                        <label>4</label>
                        <mixed-citation publication-type="journal">Bulut, F. (2016). Huffman Algoritmasıyla Kayıpsız Hızlı Metin Sıkıştırma. El-Cezerî Fen ve Mühendislik Dergisi, 3(2), 0-0. https://doi.org/10.31202/ecjse.264192</mixed-citation>
                    </ref>
                                    <ref id="ref5">
                        <label>5</label>
                        <mixed-citation publication-type="journal">Bulut, F. (2017). Bilgi Kuramındaki Entropi Kavramıyla İlgili Farklı Matematiksel Modeller. Bilge International Journal of Science and Technology Research, 1(2), 167-174.</mixed-citation>
                    </ref>
                                    <ref id="ref6">
                        <label>6</label>
                        <mixed-citation publication-type="journal">Çelikel Çankaya, E., Palaniappan, V., &amp; Latifi, S. (2010). Fazlalıktan Yararlanarak Kayıplı Metin Sıkıştırma Gerçekleştirimi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 16(3), 235 - 245.</mixed-citation>
                    </ref>
                                    <ref id="ref7">
                        <label>7</label>
                        <mixed-citation publication-type="journal">Çölkesen, T. F. (2021). Veri Yapıları ve Algoritmalar. Papatya Yayınları.</mixed-citation>
                    </ref>
                                    <ref id="ref8">
                        <label>8</label>
                        <mixed-citation publication-type="journal">Diri, B. (1999). Türkçe&#039;nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi Yıldız Teknik Üniversitesi]. Fen Bilimleri Enstitüsü</mixed-citation>
                    </ref>
                                    <ref id="ref9">
                        <label>9</label>
                        <mixed-citation publication-type="journal">Gilbert, H., &amp; Handschuh, H. (2004). Security Analysis of SHA-256 and Sisters. In M. Matsui &amp; R. J. Zuccherato, Selected Areas in Cryptography Berlin, Heidelberg.</mixed-citation>
                    </ref>
                                    <ref id="ref10">
                        <label>10</label>
                        <mixed-citation publication-type="journal">Github. (2023).  https://github.com/hckaya/stcc</mixed-citation>
                    </ref>
                                    <ref id="ref11">
                        <label>11</label>
                        <mixed-citation publication-type="journal">Güneş, F., &amp; Işık, A. D. (2018). Türkçede Sık Kullanılan Harfler ve Öğretilmesi. Sınırsız Eğitim ve Araştırma Dergisi, 3(1), 1-26.</mixed-citation>
                    </ref>
                                    <ref id="ref12">
                        <label>12</label>
                        <mixed-citation publication-type="journal">Güzeldereli, E. A. (2012). Veri Gizlemede Sıkıştırma Algoritması Kullanımı ve Uygulaması Sakarya Üniversitesi]. Fen Bilimleri Enstitüsü.</mixed-citation>
                    </ref>
                                    <ref id="ref13">
                        <label>13</label>
                        <mixed-citation publication-type="journal">Huffman, D. A. (1952). A Method for the Construction of Minimum-Redundancy Codes. Proceedings of the IRE, 40(9), 1098-1101. https://doi.org/10.1109/JRPROC.1952.273898</mixed-citation>
                    </ref>
                                    <ref id="ref14">
                        <label>14</label>
                        <mixed-citation publication-type="journal">Ince, I. F., Bulut, F., Kilic, I., Yildirim, M. E., &amp; Ince, O. F. (2022). Low dynamic range discrete cosine transform (LDR-DCT) for high-performance JPEG image compression. The Visual Computer, 38(5), 1845-1870. https://doi.org/10.1007/s00371-022-02418-0</mixed-citation>
                    </ref>
                                    <ref id="ref15">
                        <label>15</label>
                        <mixed-citation publication-type="journal">Koşan, M. A., Coşkun, A., &amp; Karacan, H. (2019). Yapay Zekâ Yöntemlerinde Entropi Journal of Information Systems and Management Research, 1(1), 15-22.</mixed-citation>
                    </ref>
                                    <ref id="ref16">
                        <label>16</label>
                        <mixed-citation publication-type="journal">Mantoro, T., Ayu, M. A., &amp; Anggraini, Y. (2017, 23-25 Nov. 2017). The performance of text file compression using Shannon-Fano and Huffman on small mobile devices. 2017 International Conference on Computing, Engineering, and Design (ICCED),</mixed-citation>
                    </ref>
                                    <ref id="ref17">
                        <label>17</label>
                        <mixed-citation publication-type="journal">Mesut, A. (2006). Veri Sıkıştrmada Yeni Yöntemler Trakya Üniversitesi ]. Fen Bilimleri Enstitüsü.</mixed-citation>
                    </ref>
                                    <ref id="ref18">
                        <label>18</label>
                        <mixed-citation publication-type="journal">Oral, M., &amp; Aşşık, M. M. (2019). Kanonik Huffman Benzeri Kodlama için Kod Sözcüklerinin Uzunluklarını Cebirsel Olarak Hesaplayan Bir Algoritma. Çukurova Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 34(4), 9-20. https://doi.org/10.21605/cukurova mmfd.702021</mixed-citation>
                    </ref>
                                    <ref id="ref19">
                        <label>19</label>
                        <mixed-citation publication-type="journal">Öztürk, E., &amp; Mesut, A. (2021). Kısa Metinlerin Sıkıştırılması için BERT Tabanlı bir Yöntem. Avrupa Bilim ve Teknoloji Dergisi(32), 177-182. https://doi.org/10.31590/ejosat.1039450</mixed-citation>
                    </ref>
                                    <ref id="ref20">
                        <label>20</label>
                        <mixed-citation publication-type="journal">Rahman, M. A., &amp; Hamada, M. (2019). Lossless Image Compression Techniques: A State-of-the-Art Survey. Symmetry, 11(10), 1274. https://www.mdpi.com/2073-8994/11/10/1274</mixed-citation>
                    </ref>
                                    <ref id="ref21">
                        <label>21</label>
                        <mixed-citation publication-type="journal">Sayood, K. (2006). Introduction to Data Compression. Elsevier Science. https://books.google.com.tr/books?id=044wLaqZ8twC</mixed-citation>
                    </ref>
                                    <ref id="ref22">
                        <label>22</label>
                        <mixed-citation publication-type="journal">Shanmugasundaram, S., &amp; Lourdusamy, R. (2011). A Comparative Study Of Text Compression Algorithms. International Journal of Wisdom Based Computing, 2(4), 68-76. https://doi.org/10.21917/ijct.2011.0062</mixed-citation>
                    </ref>
                                    <ref id="ref23">
                        <label>23</label>
                        <mixed-citation publication-type="journal">Shannon, C. E. (1948). A mathematical theory of communication. The Bell System Technical Journal, 27(3), 379-423. https://doi.org/10.1002/j.1538-7305.1948.tb01338.x</mixed-citation>
                    </ref>
                                    <ref id="ref24">
                        <label>24</label>
                        <mixed-citation publication-type="journal">Stecuła, B., Stecuła, K., &amp; Kapczyński, A. (2022). Compression of Text in Selected Languages-Efficiency, Volume, and Time Comparison. Sensors, 22(17), 6393. https://www.mdpi.com/1424-8220/22/17/6393</mixed-citation>
                    </ref>
                                    <ref id="ref25">
                        <label>25</label>
                        <mixed-citation publication-type="journal">Storer, J. A., &amp; Szymanski, T. G. (1982). Data compression via textual substitution. J. ACM, 29(4), 928–951. https://doi.org/10.1145/322344.322346</mixed-citation>
                    </ref>
                                    <ref id="ref26">
                        <label>26</label>
                        <mixed-citation publication-type="journal">Welch, T. A. (1984). A Technique for High-Performance Data Compression. Computer, 17(6), 8-19. https://doi.org/10.1109/MC.1984.1659158</mixed-citation>
                    </ref>
                                    <ref id="ref27">
                        <label>27</label>
                        <mixed-citation publication-type="journal">Witten, I. H., Neal, R. M., &amp; Cleary, J. G. (1987). Arithmetic coding for data compression. Commun. ACM, 30(6), 520–540. https://doi.org/10.1145/214762.214771</mixed-citation>
                    </ref>
                                    <ref id="ref28">
                        <label>28</label>
                        <mixed-citation publication-type="journal">Ziv, J., &amp; Lempel, A. (1977). A universal algorithm for sequential data compression. IEEE Transactions on Information Theory, 23(3), 337-343. https://doi.org/10.1109/TIT.1977.1055714</mixed-citation>
                    </ref>
                                    <ref id="ref29">
                        <label>29</label>
                        <mixed-citation publication-type="journal">Ziv, J., &amp; Lempel, A. (1978). Compression of individual sequences via variable-rate coding. IEEE Transactions on Information Theory, 24(5), 530-536. https://doi.org/10.1109/TIT.1978.1055934</mixed-citation>
                    </ref>
                            </ref-list>
                    </back>
    </article>
