Подготовка частотных словарей и конкордансов на компьютере



Сторінка1/4
Дата конвертації23.01.2018
Розмір0.61 Mb.
ТипИсследование
  1   2   3   4

Подготовка частотных словарей и конкордансов на компьютере

(пособие для филологов)


Общие рассуждения

Это пособие может быть полезно тем лингвистам, которые занимаются исследованием текста и дозрели до осознания того факта, что на дворе конец двадцатого века и что компьютеры - это не механические чудовища, подвластные только говорящим на непонятном языке шаманам - программистам, а полезный инструмент, несколько сложнее, конечно, стиральной или вязальной машины с программным управлением, но и дающий человеку неизмеримо больше возможностей. Не надо бояться компьютера. Некоторые усилия, которые требуются для овладения компьютерной грамотностью, окупятся стократно при дальнейшей работе. Сейчас, когда компьютеры становятся все более доступными для гуманитариев, просто преступно не воспользоваться ими при обработке больших корпусов текстов.

Каковы бы ни были цели исследования, очень часто в начале работы бывает полезно получить самые первые и самые "дешевые" (речь идет о текстах на машинных носителях) сведения о тексте: частотный словник, словоуказатель, конкорданс. Статистические сведения нужны в типологических и исторических исследованиях, при изучении функциональных и авторских стилей, создании лингвистического обеспечения информационно-поисковых систем и систем автоматического перевода, для подготовки учебных словарей. Словоуказатели, в которых для каждого слова указаны адреса появления этого слова в тексте, могут оказать существенную помощь в создании и пополнении словарной картотеки, при изучении древних памятников письменности и в других областях языкознания и литературоведения. Конкордансы, где приведены не только адреса, но и сами отрывки текста, в которых встретилось слово, помогают вести исследования в области стилистики, служат основой для работ, связанных с изучением семантики слова, его морфологических свойств и синтаксических связей. Конкордансы необходимы для коррекции значений слов в толковых словарях, при разработке алгоритмов разрешения многозначности в системах автоматической обработки текстов. (Библиографию по этому поводу можно найти в [3], с. 6-7.)

Здесь, пожалуй, стоит сделать только одно замечание, предназначенное для филологов, впервые начинающих осваивать компьютерную премудрость. Им надо четко усвоить одну простую истину: компьютер не может создавать новую информацию из ничего, он может только перерабатывать имеющиеся данные, опираясь на формальные параметры - зато может делать это быстро, не утомляясь от монотонной и кропотливой работы. Он может легко и безошибочно проделывать скрупулезные и сложные манипуляции, утомительные, а порой и невозможные (при больших объемах материала) для человека, может проанализировать имеющуюся информацию и даже сделать какой-то вывод (опираясь при этом только на формальные признаки), но он не может воспользоваться той информацией, которую вы ему не сообщили, даже если она и кажется вам совершенно очевидной. Если он может осуществить простейший морфологический анализ и преобразовать словоформу в каноническую, словарную форму (лемму), то это только потому, что существует соответствующая программа и соответствующий словарь, в которых тем или иным способом записаны необходимые для этого сведения. Иначе говоря, для компьютера все тексты - это "глокая куздра", он ничего не знает про те слова, которых нет в словаре. Казалось бы, чего проще - определить конец предложения: точка (или другой знак конца предложения) и далее слово с большой буквы. Но такой, например, фрагмент текста, как"им. Октябрьской революции", можно проинтерпретировать по-разному, а как именно - может решить разве что синтаксический анализ. Компьютер никогда не заменит вам голову, но может здорово помочь вам, освободив от рутинной работы, а иногда сделает и то, на что вы не отважились бы при ручной обработке большого текста.

Вернемся, однако, к проблеме, заявленной в названии. Итак, вы решились: словари из текстов - только на компьютере. (Здесь не лишне будет напомнить, что еще в 1969 году в Scholary Publishing появилась статья под символическим названием: The Death of the Handmade Concordance. Автор - J. Raben.). Что для этого нужно? Первое - компьютер. Второе - система (программное обеспечение), которая приспособлена для этого (не вам же этим заниматься – это не ваша стихия). Третье - сами тексты, которые каким-то способом должны оказаться в компьютере.

Начнем с первого - какой должен быть компьютер. Филологу всегда нужен компьютер с большой памятью на жестком магнитном диске (на компьютерном жаргоне называемом "винчестер"). Чем больше ваш текст, тем больше вам надо места на винчестере. Для сколько-нибудь серьезной работы совершенно не приемлемы компьютеры без жесткого диска. Надо учитывать и то, что время обработки тоже зависит от объема текста: чем больше объем, тем дольше обработка. Зато чем выше скорость (тактовая частота) компьютера, тем, естественно, быстрее обработка. Но этот параметр все же не такой критический, как емкость винчестера. К сожалению, филологу чаще всего приходится довольствоваться тем, что осталось от "старшего брата" - естественника, и особенно привередничать не приходится, но запомните, что без достаточного пространства на жестком диске работа будет или затруднена, или совсем невозможна.

Второе - программное обеспечение для обработки текста. Там, где рядом с филологом работает программист, первый может сказать второму: "Слушай, друг, у меня есть текст, устроенный так-то и так-то. Мне из него надо получить то-то и то-то. Можешь это сделать?" Если филолог сможет описать все достаточно формально и не будет требовать невозможного, а программист будет хотя бы немного знаком с лингвистической терминологией и доброжелательно расположен к филологу (или же получит на это задание приказ начальника), то в результате появится программа или комплекс программ, который обработает данный текст и выдаст то, что нужно. Но если ваши входные данные (текст) хоть немного изменятся или вам потребуются другие результаты, то вам опять придется идти на поклон к программисту, а ему - вносить изменения в программы или писать новые. Кроме того, этими программами вряд ли сможет воспользоваться ваш коллега, у которого будут другие запросы. Однако такая ситуация - не столь частое явление. К тому же создано достаточно много универсальных систем обработки текстов, допускающих варьирование (в определенных границах, разумеется) форматов как входных текстов, так и выходных результатов. Очень коротко становимся на некоторых из них.

OCP - Oxford Concordance Program. Созданная в 1980 году, эта система широко использовалась для подготовки конкордансов литературных произведений. Ее достоинством является большой набор возможностей, предоставляемых пользователям для описания формата и структуры обрабатываемых текстов, параметров обработки и форм выдачи результатов. В тексте могут быть выделены внетекстовые включения (способ выделения задает пользователь). Предусмотрена возможность отбирать для обработки определенные порции исходного текста. В описание текста можно включить задание алфавита и знаков препинания, если они отличаются от стандарта (для английского языка). Результатами обработки являются: статистика текста, частотный словник, словоуказатель, конкорданс. Критерием отбора слов в словник может быть длина слова, частота, список слов (возможно, маскированных, т.е. заданных фрагментарно). Так же задаются и те слова, которые исключаются из словника. По заданию пользователя словники будут отсортированы по алфавиту, по частоте, по длине слова. Отсортировать можно и контексты: по левой (до ключевого слова) или по правой (после него) его части, по адресам. Размер контекста задается в словах, символах или граничных маркерах. Система ориентирована в большой степени на выдачу результата в печатном виде, для чего в ней предусмотрено множество параметров, задающих формат печати. Некоторым неудобством можно считать то, что для получения частотного словника, словоуказателя или конкорданса по другому запросу всю обработку исходного текста надо производить заново (существуют другие решения этого вопроса).

Во многом похожа на OCP другая система - TEXTPACK, разработанная в Маннгейме в 1986 году. Существенными для пользователя особенностями этой системы по сравнению с первой являются: первое - весьма ограниченные возможности задания длины контекста для конкорданса (что минус), второе - наличие программы сравнения словников двух текстов, которая выдает общий список с указанием разности частот одинаковых слов (что плюс).

Разработанная в Московском государственном университете в 1987 году Тексто-ориентированная компонента Автоматизированной лексикографической системы УНИЛЕКС (ТО-компонента АЛС УНИЛЕКС) выгодно отличалась от упомянутых выше возможностью обрабатывать не только одноязычные, но и параллельные тексты, а также наличием программы лемматизации (приведения словоформ к словарному виду) для русского языка. Кроме того конкорданс можно было получать не только в пакетном режиме, но и в диалоге (Автоматический конкорданс). Уступала же эта система двум предыдущим отсутствием красивой печати результата. Мы говорим о ней в прошедшем времени, потому что функционировала она на так называемых "больших машинах" типа ЕС ЭВМ, которые к настоящему времени почти полностью "вымерли". Поэтому всю систему пришлось создавать заново на персональных компьютерах, но об этом ниже. Однако она успела славно потрудиться. С ее помощью были созданы частотные словари и конкордансы по русской разговорной речи, русскому фольклору, нескольким драмам М.Горького, стихам Б.Пастернака, селькупско-русским параллельным текстам, литературоведческим текстам, некоторым текстам А.Платонова ([3], с.16-21).

Еще один замечательный пакет программ - ETC - предназначен для подготовки и использования автоматических конкордансов на персональных компьютерах. И хотя в нем есть возможность выдавать результаты на печать, но основная его функция - работа в диалоге.Как и во всех других системах, там есть возможность делать запрос в виде слова, сочетания слова, частей слова, отличие от системы OCP в том, что текст обрабатывается однажды, а далее все операции производятся над словником, содержащим ссылки на текст. Впрочем, так же делается и в большинстве остальных систем. Выигрыш в данном случае - время. Но за все приходится платить: словники с адресами занимают место на диске, причем, больше, чем исходный текст. Еще одно отличие пакета ETC - возможность создавать в нем словарные статьи, т.е. приписывать словам из словника какую-либо информацию, и формировать тезаурус - группировать элементы словника по вашему усмотрению и работать с группами слов.

В Институте русского языка РАН создана система УНИЛЕКС-Т, ставшая преемницей ТО-компоненты АЛС УНИЛЕКС. Вследствие этого она сохранила характерные функции предшественницы: наличие программы лемматизации и режима работы с параллельными текстами. В то же время возможности персонального компьютера позволили существенно улучшить и обогатить диалог с пользователем: запрос по словам, частям речи, частоте, адресам; удобный, как в ETC, способ листания словника. Главным недостатком этой системы мы считаем слишком расточительное ее отношение к дисковой памяти (дурное наследие больших машин): получаемые в результате обработки данные могут занимать в 20 раз больше памяти, чем исходный текст. Это извинительно для экспериментальной разработки, но при использования системы для реальной работы с большими текстами это создает определенные трудности. Ниже мы приведем подробное описание этой системы, а пока обратимся к текстам.



Относительно текстов вам надо будет решить главный вопрос: как их заставить очутиться в компьютере. Если вы хотите заняться текстом, который уже опубликован, то перед вами открываются такие возможности. Первое: обратиться в Машинный фонд русского языка, находящийся в Институте русского языка РАН. Там имеется небольшой, но постоянно пополняющийся, архив текстов на машинных носителях (дискетах и магнитных лентах) произведений, написанных на русском языке. Это русская классика, современные писатели и поэты, публицистика и литературоведение. Есть там и кое-какие неопубликованные материалы: тексты русской разговорной речи шестидесятых годов, тексты диалогов справочной службы 09. Каталог архива опубликован в первом выпуске Бюллетеня Машинного фонда русского языка ([2],с.45-65). Если в архиве Машинного фонда текста нет, то вам придется пойти по одному из тех путей, который прошли тексты, попавшие в архив: попытаться найти магнитную копию текста в какой-либо типографии или издательстве; прочитать текст сканером; ввести его руками. В типографии или издательстве можно обнаружить интересующий вас текст только в том случае, если он издавался недавно и с применением компьютерного или фотонабора, так что этот путь имеет весьма ограниченные возможности. И конечно, за копию текста на машинных носителях вам придется заплатить. Свои ограничения имеет и сканирование: качество бумаги и печати, однородность текста - но для ввода большинства текстов, изданных типографским способом, этот путь приемлем, и вам остается только найти доступный для вас сканер. И, наконец, у вас в запасе всегда есть последний вариант: ввести текст руками. В том же случае, если ваш текст существует только в рукописном варианте, то это и единственный путь. Вы можете, конечно, и не сами вводить его, а нанять кого-то или использовать дармовую силу в лице студентов, проходящих практику. Наш собственный опыт относительно ручного ввода говорит о том, что лучше всего эту работу может сделать только тот человек, который сам заинтересован в качестве результата, то есть вы сами. Если вы печатаете на пишущей машинке, то вы убедитесь, что работа за компьютером похожа на печатание на машинке, но гораздо легче и приятнее, а поэтому и быстрее. К тому же вас должна будет согревать мысль о том, что благодаря вам текст становится доступным и для ваших коллег (как российских, так и зарубежных), которые смогут исследовать его с различных точек зрения и в разных аспектах.

Теперь несколько слов о результатах: частотных словниках, словоуказателях и конкордансах. Любая компьютерная система данного типа может выдать частотный словник в различной упорядоченности: по алфавиту прямой и обратный, по частоте, в некоторых системах - по длине слова, при осуществлении лемматизации - по частям речи. Что касается словоуказателей и конкордансов, то здесь при получении результата в виде готового словаря возникают некоторые проблемы. При компьютерной подготовке традиционных словоуказателей и конкордансов трудно, а порой и невозможно преодолеть противоречие между стремлением к полноте охвата материала и требованием его обозримости и практической доступности. Например, когда перед составителем словаря встает вопрос, включать в него все адреса и контексты на служебные слова, составляющие обычно примерно третью часть объема словоуказателя или конкорданса, он решается либо в пользу полноты, либо в пользу обозримости. Первое решение подразумевает включение в словарь всех слов со всеми адресами и всеми контекстами, второе - разной степени урезание служебных слов: от полного их исключения из словника до представления полного словника, но с неполными перечнями адресов и/или контекстов. И то, и другое решение имеет свои недостатки: в первом случае со словарем трудно работать тем исследователям, которых интересуют только полнозначные слова, второй же вариант совершенно не устраивает специалистов, занимающихся служебными словами. Еще один принципиальный вопрос должны решить авторы, приступающие к работе по созданию конкорданса в законченном виде, - вопрос о представлении контекста. Для стихотворных произведений за основу обычно берется строка, то есть в качестве контекста выступает одна или несколько слов. Более сложной задачей является определение контекста для прозаических текстов. Здесь возможны разные подходы к решению этой проблемы, одни из которых опираются на лингвистические принципы, другие - на формальные. Выделение контекста по лингвистически осмысленным признакам – предложение или другой синтаксически законченный отрезок текста – оказывается неудовлетворительным по нескольким причинам. Во-первых, само понятие синтаксической законченности не является достаточно определенным; во-вторых, выделение предложения или другого синтаксически законченного фрагмента текста требует наличия программ автоматического синтаксического анализа и соответствующего словаря, поскольку недостаточно ориентироваться при этом только на знаки препинания; в-третьих, даже если мы выделим в качестве контекста хотя бы настоящее предложение, то оно далеко не всегда может удовлетворить каждого пользователя этого конкорданса. Трудности реализации лингвистического подхода приводят к тому, что на практике при составлении конкорданса с помощью компьютера контекст выделяется по формальным признакам: фиксированное число знаков или слов влево и вправо от ключевого слова. К формальным можно отнести и метод выделения контекста по предложениям - в тех случаях, когда в тексте явно заданы их формальные границы. Важно при этом отметить то, что в любом из этих случаев размер контекста жестко фиксирован и одинаков для всех слов словаря. Этих недостатков лишены те системы, в которых имеется диалоговый режим, позволяющий каждому конкретному пользователю просматривать те слова, которые его интересуют в данный момент, а выдаваемые на экран контексты - увеличивать или уменьшать по своему усмотрению. В этом случае весь конкорданс как бы утоплен внутри базы данных, а на поверхность выдаются контексты такого размера и на такие слова, которые необходимы данному пользователю в данный момент. Достигается это за счет того, что весь текст хранится в компьютере целиком, и каждый раз из него вырезается нужный фрагмент. Такой способ функционирования конкорданса на компьютере мы называем Автоматическим конкордансом.

Тексто-лексикографическая система УНИЛЕКС-Т


Общие сведения

Основная задача этого пособия - рассказать о конкретнойсистеме, созданной в Институте русского языка РАН и предназначенной для обработки текстов с целью получения частотных словников, словоуказателей и конкордансов. Выше мы дали краткие сведения и о некоторых других подобных системах. Во многом их функции схожи, но в каждой есть какой-то нюанс, отсутствующий в других системах. Главное отличие нашей системы - ее ориентация на русский язык, наличие в ней программы лемматизации и возможность работы с параллельными текстами. Для российского пользователя это, по-видимому, одна из самых доступных систем. Конечно, она имеет свои ограничения как по исходным текстам, так и по набору функций, но система продолжает развиваться и совершенствоваться с учетом реальных пожеланий реальных пользователей.

Итак, система УНИЛЕКС-Т предназначена как для получения традиционных частотных словарей, словоуказателей и конкордансов, так и для формирования базы данных, позволяющей работать со словником и текстами в режиме "запрос - ответ", то есть в режиме Автоматического конкорданса. В системе не предусмотрено задание параметров для красивой (полиграфической) печати, поскольку основные пользователи системы - филологи-исследователи, для которых частотные словари, словоуказатели и конкордансы являются не конечным продуктом, предназначенным для издания, а промежуточными рабочими материалами. В частности, результаты обработки текста могут быть использованы в качестве заготовок словарных статей или как картотека при создании, пополнении или коррекции словаря, причем вход в картотеку возможен по разным параметрам: по словоформе, частоте словоформы, а при осуществлении лемматизации - дополнительно по лемме, частоте леммы и части речи. Надо сказать, что система все же более ориентирована именно на конкордансы, поэтому она может показаться несколько сложноватой для тех, кого интересуют только частотные словники, но нет никаких принципиальных препятствий, которые мешали бы использовать ее только для получения частотных словарей.

Работу системы можно разделить на несколько этапов. Первый - первичная обработка текста, которая заключается в составлении словника по тексту, причем каждому слову приписываются адреса и ссылки на исходный текст. После этого можно либо осуществить лемматизацию, которая припишет словоформам леммы (словарные формы) и части речи, либо обойтись без нее, то есть остаться только со словоформами. Следующий шаг - сортировка словника по алфавиту и подсчет частот для словоформ и, если они есть, для лемм. Если пользователю не нужен диалоговый режим (автоматический конкорданс), то этим можно и ограничиться, разве что

воспользоваться еще возможностью отсортировать словник по

разным параметрам: по алфавиту (прямой и обратный словарь), по

частоте, а если есть леммы и части речи, то по ним. Для

получения словоуказателя или конкорданса по некоторому списку

слов пользователь должен составить запрос по определенным

правилам (если по всему словнику, то запрос не нужен).

Элементами запроса могут быть словоформы, леммы, части речи,

адреса. Размер контекста задается или числом символов, или

числом фрагментов (если текст фрагментирован). Так же можно

получить и выборку из частотного словаря, при этом подсчитывается

вторая относительная частота - относительно общего объема

выборки. Мы, однако, рекомендуем загрузить словник в базу

данных - это позволит работать в наиболее удобном для

пользователя режиме: просматривать словник и контексты на

экране и только то, что ему нужно, отправлять в отдельный

список - файл. (Мы долго пытались избегать слова "файл", но

все же без него не обойтись, поскольку это одно из базовых и

наиболее употребительных понятий для всех, кто имеет дело с

компьютерами. По формальному определению файл - это

поименованная область на накопителе внешней памяти.

Ограничиваясь использованием этого термина относительно только

персональных компьютеров, можно сказать, что все, что

записывается на жестком или гибком диске, записывается в виде

файла, имеющего имя, по которому пользователь или программа (с

помощью операционной системы) легко может найти нужные

данные.)


Далее мы постараемся подробнейшим образом изложить

инструкцию по использованию системы УНИЛЕКС-Т. Предполагается,

что пользователь уже имеет хотя бы начальные навыки работы с

компьютером. Если это не так, то можно воспользоваться

какими-нибудь пособиями для начинающих (например, популярной

книжкой В.Э.Фигурнова "IBM PC для пользователя", но имеется и

масса других пособий). Итак, переходим к инструкции.
Подготовка исходного текста

Поскольку данная система является частью Лингвистического

программно-источникового пакета УНИЛЕКС+, который в свою очередь

входит в состав Машинного фонда русского языка, в требованиях к

формату исходного текста мы следовали концепции разметки для

источников в Машинном фонде русского языка, изложенной в [1]

(с.144-164).

Будем исходить из предположения, что текст, которым вы

собираетесь заниматься, уже находится на дискетах или в

компьютере. Если вы хотите получить качественный и достоверный

результат, постарайтесь прежде всего вычитать текст. Если это

типографская копия, которую до этого никто не правил, то вам

придется немало повозиться с ней, чтобы привести ее в приемлемый

вид. При вводе текста через сканер тоже возможны ошибки, чаще

всего однотипные. И даже текст, введенный руками, может содержать

чудовищное количество ошибок, если его вводили полуграмотные и

безответственные люди.

Некоторые требования к тексту в целом таковы. Первое - в нем

не должно быть переносов. Если вам достался текст с переносами,

не отчаивайтесь: многие редакторы (например, Лексикон) могут

автоматически переформатировать текст так, что переносы уберутся

(а целостность слов, конечно, сохранится). Второе - длину строки

надо сделать не более 70 знаков (включая, естественно, пробелы,

знаки препинания и прочие символы). Изменить длину строки, если

она слишком большая, также можно в редакторе. И третье -

внимательно проследите, как в тексте представлены тире. Они

обязательно должны быть окружены пробелами (иначе тире

воспримется как дефис, и два слова сольются в одно - с дефисом).



Поділіться з Вашими друзьями:
  1   2   3   4


База даних захищена авторським правом ©wishenko.org 2017
звернутися до адміністрації

    Головна сторінка