Effective Steganography Detection Based On Data Compression

Reading time: 4 minute
...

📝 Original Info

  • Title: Effective Steganography Detection Based On Data Compression
  • ArXiv ID: 1110.3466
  • Date: 2010-01-01
  • Authors: : - Nekt A.I.

📝 Abstract

This article describes novel text steganalysis method. The archiver "Bzip2" used for detection stegotext generated by Texto stegosystem. Experiments show that proposed approach gets better performance than typical existing methods. The detection accuracy exceeds 99.98% for text segments with size 400 bytes.

💡 Deep Analysis

Figure 1

📄 Full Content

Necht a I. Effective steganography detection based on data compression // Vestnik SIBSUTIS 2010 №1. P. 50 -55. (The main idea: The compression used for stegotext detection. It is known that an embedding message breaks statistical structure of the container, increasing its entropy. Consequently, the full container will compress worse than empty. Let us consider the example: A, B -empty and full container respectively. 50 20 It could be asserted that container C is statistically depend with B, which ensures good compression. This principle used in attack on Texto. The detection accuracy exceeds 99.98% when text size is larger than 400 bytes.) See th is article bel ow :

Задача стеганографии состоит в организации обмена секретными сообщениями между участниками так, чтобы сам факт обмена оставался скрытым от стороннего наблюдателя. Для этого в обычное сообщение, называемое контейнером, встраивают секретное сообщение с помощью специальных алгоритмов. Контейнер подбирается таким образом, чтобы содержание и сам факт его передачи не вызывал ни каких подозрений у стороннего наблюдателя. На сегодняшний день в сети Интернет передается большое число файлов различных типов, например, цифровые фотографии, видео, текст или музыка. Следовательно, такие файлы могут выступать в качестве контейнера. В данной статье речь пойдет об одном из направлений стеганографии, которое использует в качестве контейнера текстовые файлы.

Существующие методы «встраивания» секретных сообщений в текстовые данные, можно разделить на три группы: Синтаксические методы. К таким методам можно отнести, например предложенный в работе [1], использующий дополнительные пробелы между словами. Один пробел соответствует нулю, два -единице. Данный метод может широко применяться в файлах формата HTML (интернет страниц), поскольку наличие пробелов никак не влияет на отображение страницы. Недостатком можно считать лёгкую обнаруживаемость, т.к. обычно при написании текста дополнительные пробелы не используются. Существует возможность использовать специальные символы вместо пробелов, не отображающиеся в часто используемых текстовых редакторах.

Еще один метод, предложенный в работе [1], использует синтаксические ошибки при написании слов, например: “This is the end” “This iz the end” Во втором варианте допущена опечатка. Наличие опечатки в определенных словах (в частности “iz”) означает, что бит передаваемой информации равен нулю, а отсутствиеединице. Таким образом, происходит передача информации в тексте. Данный метод не является легко обнаруживаемым, т.к. в обычном тексте ошибки также могут встречаться.

Семантические методы. К этой группе относят Tyrannosaurus Lex, опубликованный в работе [2], использующий замену слов в предложении на их синонимы, например: Tobolsk is a excellent city (0)decent (1)fine (0)metropolis (1) little town В зависимости от выбранного синонима кодируется передаваемое сообщение. Предложение “Tobolsk is a decent little town” содержит стегосообщение -“01”. Данный метод требует наличия большого словаря синонимов. К недостатку таких методов относят возможное нарушение стиля написания текста. Например, (0) . . . and make it still better, and say nothing of the bad-belongs to you alone. (1) . . . and make it still better, and say nada of the bad-belongs to you alone. Слово “nada” является не типичным для использования некоторыми авторами, в частности, Jane Austen. Также существует метод, опубликованный в работе [3], преобразующий обычный текст в стеготекст путем перефразирования предложений. Например, (0) The caller identified the bomber as Yussef Attala, 20, from the Balata refugee camp near Nablus. (1) The caller named the bomber as 20-year old Yussef Attala from the Balata refugee camp near Nablus. Данный метод обладает высокой степенью скрытности.

Методы, генерирующие текст, подобный естественному. Рассмотрим метод, предложенный в работе [4], использующий контекстно-свободные грамматики для генерации естественно подобного текста. Правила:

C → milk (0) | apples (1) В зависимости от бита передаваемого сообщения выбираем правило раскрытия нетерминального символа. Соответственно если необходимо закодировать сообщение “101” получится: “He likes apples”. На сегодняшний день наиболее популярными стегосистемами являются Nicetext [5], Texto[6] и Markov-Chain-Based[7], т.к. имеют высокое соотношение размера входного сообщения к размеру генерируемого текста, и получающийся текст, максимально похож на естественный. Стоит отметить, что стеготекст, как правило, является бессмысленным.

Существует обратная стеганографии задача -стегоанализ. Его целью является выявление факта наличия встроенного секретного сообщения в контейнере. В качестве критерия оценки эффективности методов стегоанализа используют вероятность обнаружения секретного сообщения в контейнере или вероятность возникновения ошибки. Существует два рода ошибок:

-ошибка 1-го рода -случай, когда метод принимает пустой контейнер (без секретного сообщения) за заполненный (с секретным сообщени

📸 Image Gallery

cover.png

Reference

This content is AI-processed based on open access ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut