Новый метод атрибуции текстов на основе статистики числительных

НОВЫЙ МЕТОД АТРИБУЦИИ ТЕКСТОВ НА ОСНОВЕ СТАТИСТИКИ ЧИСЛИТЕЛЬНЫХ

Зенков Андрей Вячеславович

канд. физ.-мат. наук, доцент Уральского федерального университета, Екатеринбург

zenkow@mail.ru

 

Проблематика нашего исследования относится к стилометрии (статистическому изучению текстов для поиска индивидуальных особенностей авторского стиля – в частности, для атрибуции текстов). Обычно для этого анализируют длину предложений, длину слов, частоты употребления служебных слов и знаменательных частей речи и даже частоты буквосочетаний. К сожалению, разные методы не всегда приводят к согласующимся выводам.

Нами предложена идея изучения числительных, встречающихся в тексте, как средства характеризации авторского стиля  . Анализ числительных имеет немало достоинств. Его результаты допускают непосредственную лингвистическую трактовку. Использование числительных в тексте напрямую связано с его авторством, стилем и жанром. Наша методология уже применена к художественным текстам на русском, английском, чешском, латинском языках.

Разрабатываемый нами подход к задачам стилометрии имеет две разновидности. Во-первых, изучалось частотное распределение первых значащих цифр числительных. Идея находится в русле исследований, связанных с законом Бенфорда – загадочным, не до конца понятым проявлением закона Больших Чисел, согласно которому в больших массивах числовых данных, описывающих разнообразные объекты и явления, числа, начинающиеся с единицы (их доля по закону Бенфорда равна 30,1%), встречаются чаще, чем начинающиеся с двойки, а последние, в свою очередь, чаще, чем числа, начинающиеся с тройки и т.д. Согласно нашим исследованиям, первые значащие цифры числительных в связных текстах распределены ещё более неравномерно, чем это предписывается законом Бенфорда: доля числительных, начинающихся с единицы, может достигать 50%. Обычно частотное распределение первых значащих цифр числительных характерно для каждого автора и проявляется во всех достаточно больших его произведениях. Иногда это позволяет проверить авторство текстов: если для двух произведений распределение первых значащих цифр существенно различно, то принадлежность этих текстов одному автору сомнительна. 

Вторая разновидность нашего метода состоит в анализе самих числительных, встречающихся в тексте (а не их первых значащих цифр). Частотное распределение числительных тоже, в значительной степени, является специфичным для автора. 

Рассмотрим пример. Литературное творчество И. Ильфа и Е. Петрова неоднократно становилось предметом дискуссии. Романы «Двенадцать стульев» и «Золотой телёнок» пронизаны литературными аллюзиями; в них усматривают тематическое и стилистическое родство с текстами В. Катаева, М. Булгакова, Ю. Олеши и др. Ничего сопоставимого с этими произведениями в литературном наследии Ильфа и Петрова нет. Согласно радикальной точке зрения   Ильф и Петров являются подставными авторами «Двенадцати стульев» и «Золотого телёнка», а фактическим автором называется М. Булгаков. 

Мы применили нашу методологию к сравнительному анализу литературных текстов Ильфа и Петрова. Попутно изучались тексты Катаева «Повелитель железа» (1924) и «Растратчики» (1926), современные «Двенадцати стульям» (1928) и «Золотому телёнку» (1931), а также «Мастер и Маргарита» Булгакова. На Рис. 1 представлено частотное распределение числительных в «Двенадцати стульях» и «Золотом телёнке» Ильфа и Петрова, а также «Мастере и Маргарите» Булгакова, «Растратчиках» и «Повелителе железа» Катаева. Ради удобообозримости мы ограничили график диапазоном [1; 50] по горизонтальной оси; сформулированные ниже выводы справедливы для всего множества числительных:

1. Во всех текстах наблюдаются всплески встречаемости у «круглых» чисел 10, 20, …, 100, 200, …

2. В текстах Ильфа и Петрова, а также в «Мастере и Маргарите» Булгакова числительное 1 имеет наибольшую частоту (что согласуется с законом Бенфорда), но в текстах Катаева лидирует число 2.

3. Между «Двенадцатью стульями» и «Золотым телёнком» имеется большое визуальное сходство в частотах числительных.

4. Этим двум текстам свойственно наибольшее разнообразие числительных.

5. Наоборот, тексты Катаева отличаются наименьшим разнообразием числительных.

6. По разнообразию числительных «Мастер и Маргарита» занимают среднее положение, но частоты этих числительных (после начальных высокочастотных единицы и двойки) обычно оказываются ниже, чем в других текстах. Многие числительные встречаются фактически однократно.

 

 

 

Рис. 1. Частоты встречаемости числительных в текстах Ильфа и Петрова, Булгакова, Катаева

 

На Рис. 2 представлены результаты кластерного анализа встречаемости числительных в «Двенадцати стульях» (№1) и «Золотом телёнке» (№2) Ильфа и Петрова, в «Растратчиках» (№3) и «Повелителе железа» (№4) Катаева, «Мастере и Маргарите» (№5) Булгакова. Кластеризация прошла в соответствии с общепринятым авторством текстов. Расстояние между кластерами 1–2 и 3–4, не говоря уже о высоте присоединения №5 – столь велики, что ставят под сомнение гипотезу о написании «Двенадцати стульев» и «Золотого телёнка» Булгаковым или Катаевым. Итак, анализ употребления числительных в текстах может использоваться для проверки гипотез об авторстве текстов.

 

 

Рис. 2. Результаты иерархического кластерного анализа на основе встречаемости числительных в текстах Ильфа и Петрова (№№1, 2), Катаева (№№3, 4), Булгакова (№5). На горизонтальной шкале в условных единицах отмечается «расстояние» между кластерами – чем оно больше, тем выше различия между объектами

 

 _________

[1] Зенков А.В. Новый метод стилеметрии на основе статистики числительных // Комп. исслед. и моделир. 2017. Т. 9. №5. С. 837–850.

Zenkov A.V. A Method of Text Attribution Based on the Statistics of Numerals // Journal of Quantitative Linguistics. 2018, Vol. 25, Issue 3, p. 256–270.

Zenkov A.V., Místecký M. The Romantic Clash: Influence of Karel Sabina over Mácha’s Cikáni from the Perspective of the Numerals Usage Statistics // Glottometrics. 2019, Vol. 46, p. 12–28.

[1] Амлински И. 12 стульев от Михаила Булгакова. – Berlin: Kirschner Verlag, 2013. – 328 с.

 

 

245
0
Наверх