Изобретение относится к сжатию данных. Техническим результатом является уменьшение объема памяти, требуемой для хранения данных, и уменьшение времени восстановления сжатых данных. В способе распознавания текста сначала генерируют множество терминов, используемых в текстовой строке, и вычисляют множество хеш значений из множества генерированных терминов. Для каждого хеш значения может быть создан хеш сегмент, в котором может поддерживаться ассоциированный счет происшествий. Хеш сегменты могут быть сортированы счетом происшествия и несколько наивысших сегментов могут храниться. Как только упомянутые наивысшие сегменты известны, второй проход может пройти текстовую строку, сгенерировать термины, вычислить хеш значение для каждого термина. Если хеш значения для терминов подходят хеш значениям тех, которые хранятся в сегменте, тогда термин может считаться частым термином. Следовательно, термин может быть добавлен в словарь вместе с соответствующим счетом частоты. Затем словарь может быть проверен для удаления терминов, которые могут быть не частыми, но появились в виду хеш противоречий. 3 н. и 17 з.п. ф-лы, 6 ил.