ТРЯМ-11
Ратникова Д.
Лингвостатистический метод и методы социолингвистики
Для современного лингвистического исследования актуальным остается философское положение о том, что предмет, не отраженный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.
Категория количества в языке связана с установлением количественных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода количественных изменений в качественные служит важнейшим условием выявления в нем его закономерностей. В связи с этим основной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.
Возможность применения лингвостатистического метода в нашей науке обусловлена природой и сущностью языка.
1.Язык как система представляет собой совокупность взаимосвязанных дискретных (членимых) единиц, обладающих количественными характеристиками. Этот фактор в скрытом виде признается всеми языковедами, традиционно использующими такие количественные понятия, как «часто», «редко», «многочисленные», «наиболее употребительные», «редко употребляемые» и т.п.
2. Количественные характеристики языковых единиц (и их элементов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами образует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.
3. Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.
Речь, как известно, — область реализации языковой системы. Применение к ее исследованию лингвостатистического метода предопределяется: а) множественностью языковых единиц, б) их повторяемостью в речи и в) избирательностью языковых единиц (элементов) из ряда однородных (возможностью выбора соответствующей замыслу высказывания единицы).
Итак, Лингвостатистический метод применим для изучения как языка, так и речи. Однако следует помнить, что количественные характеристики в системе языка не тождественны их количественным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно.
Количественные и качественные методы должны дополнять друг друга. Следовательно, лингвостатистический метод, как и математизация языкознания, «не отменяет и не умаляет значимости качественных методов».
Шире всего количественные методики используются при описании лексического уровня языковой системы. Лингвисты убеждены, что лексемный ярус системен, но его системность особого рода. В лексике целостность и устойчивость системы сочетается с автономностью частей (подсистем). В ней заметна массовость и случайность и одновременно господствует необходимость. Всё это характерно для вероятностных систем.
Единицами и уровнями квантитативного анализа являются словоформы, лексема и словоупотребление [Тулдава 1987]. Практическим результатом статистического изучения лексики являются частотные словари, отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются в них не только в алфавитном порядке, но и в порядке убывающей частотности. В первом случае это будет алфавитный частотный словарь, а во втором — ранговый частотный словарь. Частотные словари характеризуются следующими параметрами: объём текста (число словоупотреблений), объём словаря словоформ, объём словаря лексем. Первым частотным словарём был словарь Кединга (1898). За девяносто лет XX столетия было составлено несколько сот частотных словарей и частотных списков для нескольких десятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был составлен Э. Штейнфельд (1963). Интересны материалы к частотному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. За-сориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная проза, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тыс. слов. Самое частотное слово — предлог в (во) далее идут служебные слова и местоимения (и, не, на, я, быть, что, он, с, а, как, это}. Самое частотное существительное — год. В 90-х гг. XX в. в Швеции вышел в свет «Частотный словарь современного русского языка» (Уппсала, 1993). Идея частотных словарей возникла из практической потребности решения ряда вопросов: 1) создание рациональной методики изучения родного и иностранного языков; 2) усовершенствование различных кодовых систем; 3) выявление специфики разных стилей литературных памятников или языка отдельных авторов. Вслед за частотными списками слов появляются словари, отражающие частоты морфем и грамматических форм. Частотные словари позволили обнаружить целый ряд количественных закономерностей в лексическом составе языка. Первые 1500 слов частотного словаря для любого языка составляют примерно 80% всех словоупотреблений. Причём 12 самых частотных слов — артикли и предлоги — из 20 тыс. слов (словарь Эсту) составляют примерно 40% всех словоупотреблений. По Г. Йоссельсону, в русском языке наречия, предлоги, союзы, частицы составляют 13,9% всего текста. Сделан общий вывод, что первые 50 слов охватывают грамматический словарь любого языка. Нет сомнения, что частотные словари окажутся мощным инструментом теоретического и практического языкознания. Они могут дать корректные в научном смысле выводы о структуре общенародной лексики и количественном соотношении её различных пластов, помогут решить проблему языковой нормы и строго определить понятие функционального стиля.
Частотные словари задали новые стимулы для развития лингвистической типологии.
Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количественными параметрами обладают такие явления, как ритм и рифма. С применением статистики увеличивается надежность типологических разысканий. С помощью статистических методов устанавливается мера генетической близости между славянскими языками, сохраняемой, по данным праславянской лексики, каждым из них [Журавлев 1994].
С помощью формально-количественных методов изучается авторский идиостиль, под которым В.П. Григорьев понимает взаимосвязь между языковыми средствами и особенностями творческой позиции писателя, его взгляда на мир, на окружающую действительность [Баранов 1998: 121]. Замечено, например, что частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия». В первом романе значительно чаще встречается частица разве, значение которой предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В «Белой гвардии» чаще исп&льзуется частица неужели, которая указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, почему оно имеет место. Исследователь видит пассивное «изумление», «удивление» автора в «Белой гвардии» и активное восприятие в «Мастере и Маргарите» [Баранов 1998: 121].
Количественная методика стала более эффективной с появлением вычислительной техники. Определение авторства с помощью формально-количественных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения авторства» (М., 1994). В многолетний спор по поводу того, кто является истинным автором романа «Тихий Дон», в свое время включились скандинавские ученые, норвежско-шведский коллектив под руководством Г. Хьетсо. Они взяли тексты, бесспорно принадлежащие М. Шолохову, и тексты донского писателя Ф. Крюкова, которому приписывалось авторство великого романа, и проанализировали их, выявляя особенности писательской манеры каждого. Учёные сравнили длину предложений, распределения длины предложений по количеству слов, распределение частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложений, лексические спектры, повторяемость словарного запаса по богатству. Естественно, сделать это оказалось возможным только с помощью мощной вычислительной техники. Математическая статистика при контрольной выборке на ЭВМ 12 тыс. фраз при 164 637 словах представлена в 250 таблицах, формулах и графиках [Книжное обозрение. — 1999. № 18—19. С. б]. Вывод однозначен: из двух претендентов на авторство «Тихого Дона» Крюков явно обладает наименьшим правом. «...Применение математической статистики позволяет нам исключить возможность того, что роман написан Крюковым, тогда как авторство Шолохова исключить невозможно».
В Эдинбурге (Англия) разработан аналитический метод, основывающийся на учёте зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм». С его помощью установлено, что каждому человеку свойствен прочно укоренившийся, неизменный стиль, который не поддаётся имитации. Например, стиль Т. Харди в «Руке Этельберты» (1876) убедительно совпадает со стилем «Джуда Неизвестного». Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его речи и нарушил двигательные способности.
Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль.
Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем и программ для машинного реферирования текстов), а также в методике преподавания языков.
Основные понятия лингвостатистики
Согласно философской категории всеобщей связи, между явлениями языка и речи существуют определенные связи и зависимости. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует другое определенное явление. Такого рода зависимость присуща многим физическим явлениям. Повышение температуры - жидкое состояние воды; понижение температуры — ее кристаллизация. функциональные зависимости дают точные определения установленным закономерностям, т.е. могут быть сформулированы как закон. В нашем случае он имеет всем известную формулу: «Вода при температуре ниже О'С превращается в лед». При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Так, уже можно считать аксиомой: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависимость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова (М.В. Арапов). Такие нестрогие соответствия между качественной и количественной характеристикой языкового явления получили название корреляций.
Термин корреляция имеет два значения: 1) общенаучное — «соотношение, соответствие, взаимосвязь, взаимозависимость явлений» и 2) в лингвистической статистике — «такая связь между языковыми явлениями, при которой одно из явлений входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления».
В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопровождается возрастанием или убыванием значений другого признака. В такой линейной корреляции могут находиться, например, лексико-семантические варианты слова и частота встречаемости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливается так называемая положительная корреляция. Если же при возрастании значений одного признака значения другого признака убывают, то налицо отрицательная корреляция. Число, показывающее степень тесноты корреляции, называйся коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за-^ючается от нуля до единицы со знаком «плюс» или «минус»: ~1 +1. Если между исследуемыми признаками нет никакой статистической эависимосги, величина коэффициента будет равна нулю.
Для описания и исследования лингвистических фактов привлекаются различные разделы математики: алгебра, теория множеств, математическая логика, теория информации, теория вероятностей и математическая статистика.
В силу этого математическая лингвистика стала развиваться в нескольких направлениях — алгебраическая лингвистика, комбинаторная лингвистика, которая опирается на разделы «неколичественной» математики (теория множеств, математическая логика, теория алгоритмов), и квантитативная лингвистика, которая изучает лингвистические явления с помощью «количественной» математики (математическая статистика, теория вероятностей, теория информации и др.). Квантитативная лингвистика отличается от математической лингвистики большим вниманием к языковой специфике, которая стоит за количественными отношениями. Главная её задача — поиск связи между количественными и качественными сторонами языка: между употребительностью и возрастом слов, длиной слова и его употребительностью, полисемией и употребительностью; делается попытка выявить объективный критерий таких лингвистических категорий, как продуктивность классов слов, однородность и регулярность отношений между единицами словаря.
Пока наиболее перспективным представляется исследование сущностных характеристик языка при помощи аппарата теории вероятностей и математической статистики — квантитативная лингвистика. Собственно говоря, связь математики с языкознанием началась с попыток установить статистические свойства речи, поскольку языку присущи объективные количественные характеристики. Благодаря вероятностной природе языковой структуры, она легко поддается изучению математическим аппаратом теории вероятностей и математической статистики, Основа тому — регулярность, упорядоченность языковых явлений. Уже существует большая специальная литература, отразившая результаты применения статистических методик в исследовании различных ярусов языковой системы. Статистически исследуется фонетика, закладываются основы статистического изучения морфемного состава слова и морфологических категорий. В частности, установлена связь между числом фонем и средней длиной морфемы, стало известно, что количество фонем отражается на качестве морфем и слов, а количество морфем на качестве слов. Интересна попытка количественно выразить степень силы управления. Намечается статистическая классификация синтаксических конструкций, обследуются закономерности связи размера предложения с характером текста. Выявлено, что с XI до XX в. вероятность использования предлогов увеличилась с 0,096 (XI—XIII вв.) до 0,123 (XX в.), а союзов уменьшилась с 0,126 (XI—XIII вв.) до 0,085 (XX в.).
Математические методы обладают следующими возможностями:
делают точными суждения, основанные на количественно-частотных соображениях;
указывают на такие обстоятельства функционирования языка или диалекта, которые иными способами не обнаруживаются;
позволяют глубже и всесторонне понять причины и результаты языковой эволюции, длительность эволюционных процессов и их хронологию, и даже прогнозировать будущее языковое развитие;
расширяют сферу прикладного использования языкознания.
Методы социолингвистики
Связь истории языка с историей общества находит свое отражение уже в работах В. фон Гумбольдта, И. А. Бодуэна де Куртенэ, Ф. И Буслаева, Ф. де Соссюра и многих других языковедов. Почву для современной социолингвистики подготовили также труды французской социологической школы (А. Мейе, Ж. Вандриес, Э. Бенвенист и др.), женевской школы (Ш. Балли, А. Сеше), пражской лингвистической школы (В. Матезиус, Б. Гавранек и др.), работы американских этнолингвистов (Э. Сепир и др.), лингвосоциологические исследования Л. П. Якубинского, В. В. Виноградова, Б. А. Ларина, В.М. Жирмунского, Е. Д. Поливанова и других ученых.
Социолингвистика представляет собой научную дисциплину, возникшую на стыке языкознания, социологии, социальной психологии и этнографии. Она изучает широкий комплекс проблем, связанных социальной природой языка, его общественными функциями, с той ролью, которую играет язык в жизни общества, поэтому методы социолингвистики представляют собой синтез социологических и лингвистических процедур. Социолингвистические методы изучения языка подразделяют на методы
полевого исследования и методы социолингвистического анализа языкового материала.
Методы полевого исследования включают в себя анкетирование, интервьюирование, непосредственное наблюдение. При анкетировании используются опросники в виде заранее подготовленных анкет с определенным характером и числом вопросов, определяемых задачей анкетирования – получить сведения о самих информантах и тех или иных особенностях их речи. При интервьюировании большое внимание уделяется предварительному составлению программы и разработке техники интервью. С целью получения достоверных данных о влиянии ситуативных параметров на речь информантов при полевом исследовании тщательно контролируют речевую ситуацию, стимулируя либо естественно-непринужденную речь, либо сознательную ориентацию на престижный эталон. Наблюдения над речью информантов строятся таким образом, чтобы свести до минимума или исключить влияние наблюдателя на их речевое поведение. Иногда проводится так называемое включенное наблюдение, при котором наблюдатель выступает не в роли интервьюера, а в качестве участника коммуникативного акта.
Обработка данных полевых наблюдений производится с помощью разновидностей корреляционного анализа. Классификации социальных вариантов языка производятся с точки зрения его стратификационной, ситуативной и коммуникативной вариантности.
При стратификационной классификации исходят из соотношения вариантов языка с определенными социальными группами: выделяют профессиональные варианты, жаргоны, социальные диалекты, варианты игрового характера и т.д.
Ситуативная классификация определяет варианты языка в зависимости от конкретных социальных ситуаций его употребления: обстановки и места речевого события (университетская аудитория, выступление в суде, официальные переговоры, семейная беседа и т.д.).
Коммуникативная классификация предполагает характеристику вариативности языка в зависимости от структуры и форм речи: диалог или монолог, устная или письменная речь, жанр и стиль речи и т.д.
Социолингвистике свойственны корреляции, в которых в качестве независимых переменных выступают те или иные социальные параметры: социальный статус говорящего или слушающего, аудитория, обстановка и т.д., а в качестве зависимых от них – языковые явления. По каждому отдельному социальному параметру функциональная зависимость языковых явлений может быть как полной, так и частичной. Зависимости описываются отдельно по каждому выделенному социальному параметру и подвергаются содержательной интерпретации, часто для этого используются таблицы или графики зависимостей.
Одним из ключевых в социолингвистике выступает понятие языковой ситуации. Под языковой ситуацией понимают функциональную общность языков и их вариантов, обслуживающих некоторый социум: этническую общность, государство, политико-территориальное объединение. Характер языковой ситуации в том или ином социуме определяется, прежде всего, официальным статусом языков, а также их ролью в жизни языкового приводит к попыткам создания функциональной классификации языков.