Сколько «весит» языковая информация

В ходе совместного исследования учёных из Университета Рочестера и Калифорнийского университета было обнаружено, что объём всех данных, необходимых для хранения и использования английского языка в головном мозге, составляет примерно 1,5 мегабайта. В своей статье, опубликованной в журнале Royal Society Open Science, Фрэнсис Моллика (Francis Mollica) и Стивен Пиантадоси (Steven Piantadosi) описывают применение теории информации, с помощью которой они «оцифровали» английский язык и замерили, сколько места он занимает.

Иллюстрация словаря английского языка

В младенчестве люди начинают приобретать и говорить на языке окружающих — как это происходит, до сих пор остается загадкой, но учёные знают, что это влечёт за собой гораздо больше, чем простое словарное хранение слов и их определений. Например, для языковой речи и мышления свойственны ассоциативные подсказки к словам — слово «полёт» может ассоциироваться с птицей или крылом самолёта и т. д. Существует также информация, которая сообщает мозгу, как произносить то или иное слово, как его можно и нельзя использовать с другими словами, а также звуки, из которых состоит слово при произнесении.

В своём исследовании учёные предприняли попытку преобразовать в цифровой объём данных все способы, которыми наш мозг может хранить информацию о языке. Для этого они использовали теорию информации — раздел математики, фокусирующийся на том, как информация кодируется с помощью последовательностей символов.

Чтобы сделать свои расчеты, исследователи присвоили количественные оценки размера для различных аспектов английского языка. Они начали с присвоения фонем, звуков, которые складываются в произнесенные слова. Учёные отметили, что люди в англоязычных странах используют приблизительно 50 фонем и для хранения каждой из них потребуется около 15 бит. Затем перешли к словарю, оценивая, что в среднем человек знает около 40 000 слов — вместе взятые, по оценкам, это будет составлять приблизительно 400 000 бит. Далее в списке была семантика для этих 40 000 слов, составившая примерно 12 миллионов битов. Также измерена частота употребления того или иного слова, что добавило ещё 80000 бит. Дополнительные 700 бит требуется для хранения правил синтаксиса.

Таким образом, сложив полученные данные, получилось примерно в 1,56 мегабайта — почти столько же, сколько нужно для хранения одной цифровой картинки на компьютере.

Источник: MedicalXpress

Министерство здравоохранения РФ
Федеральная служба по надзору в сфере здравоохранения
Федеральная служба по надзору в сфере защиты прав потребителей и благополучия человека
Министерство здравоохранения УР
Анкета для оценки качества оказания услуг медицинскими организациями
Электронный портал государственных услуг