|
|
|
15.05.2007 Национальный корпус нации
На вопрос о том, что такое Национальный корпус языка, без промедления ответит, пожалуй, только языковед. Между тем создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в нашей стране во весь рост встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме. Так, что же собой представляет Национальный корпус языка, зачем он нужен? Об этом в интервью нашей газете рассказывает председатель Комитета по языкам Министерства культуры и информации, академик ряда отечественных и зарубежных академий, доктор филологических наук, профессор Ерден Кажыбек. Известный ученый-тюрколог начал с истории вопроса. — Эта идея зародилась еще в советское время. В 1988 году на внеочередном заседании пленума Всесоюзного комитета тюркологов в Москве была выдвинута и поддержана идея создания Международного машинного фонда тюркских языков (МФТЯ). В итоге в состав образованной рабочей группы вошли известные ученые из Санкт-Петербурга и Москвы, Новосибирска, Баку, Ташкента, Бишкека, Казани, Ашхабада, Уфы, Нальчика, Чебоксар и Алма-Аты. Пленум принял соответствующее постановление. Суть фонда заключалась в создании глобальной всемирной сети соединенных воедино серверных баз с единой программой ввода лингвистических данных по всем живым и мертвым тюркским языкам. Предполагалось, что машина должна выдавать, согласно запросу, любые морфологические, синтаксические, фонетико-фонологические или лексико-семантические данные синхронного или диахронического содержания, будь то учебник или словарь конкретного языка или языка его родственной группы, и так далее. Иначе говоря, ставилась амбициозная задача, приближенная к созданию искусственного интеллекта, когда техника, пусть и умная, должна была «чувствовать» и «узнавать» языки… Примечательно, что возглавить эту работу было поручено казахстанским лингвистам. — Интересно, с чем был связан такой выбор, ведь решение принималось в бытность Советского Союза, когда и управленческие, и финансовые рычаги были сконцентрированы в Москве? — Инициатива исходила от известных ученых из Ленинграда и столицы, а также из других регионов СССР. К тому времени в Алма-Аты под руководством академика А. Кайдарова была создана мощная тюркологическая школа с подразделениями по математической лингвистике, исторической лексикологии и реконструкции древних языков. Ученики его работали практически во всех крупных тюркских регионах мира. Развал Союза, к сожалению, помешал осуществиться нашим планам. — Теперь мы возвращаемся к этой проблеме. Что сделано или планируется осуществить для создания национального корпуса государственного языка нашей страны? Для начала прошу вас пояснить его принципиальные характеристики. — Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Обычно корпус объединяет несколько сотен миллионов словоупотреблений. Например, Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса — в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка — это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам. Иначе говоря, это качественно новый, более высокий уровень языкознания, последнее слово науки и техники, которое позволяет хранить ценности языка, отслеживать его развитие во времени и помогать ориентироваться в этом богатстве даже людям, далеким от филологии, но изучающим язык. Понимаете, как это актуально для нашей страны? — Не хотите ли вы этим сказать, что национальный корпус государственного языка будет создан в Казахстане уже в ближайшие годы? — Мы вплотную приступаем к решению этой важнейшей проблемы. Благодаря поддержке Правительства Комитет по языкам приступил к реализации трехлетней программы «Создание информационных систем поддержки и развития государственного языка Республики Казахстан». Планируется разработать комплекс компьютерных программ, иначе говоря, софт на казахском языке, широкомасштабную инфраструктуру, внедрить казахский язык в интернет-пространство, создать серии он-лайновых сервисов, целостную интегрированную систему развития государственного языка Казахстана с учетом опыта прошлых лет и современного развития информационных технологий. Важнейшим в нашей программе будет то, что, создавая уже в этом году ряд базовых сервисов по современной концепции «Web 2.0», мы делаем эти сервисы доступными для пополнения и модификации широкому кругу специалистов и энтузиастов, всем гражданам страны, любому, кто может внести свою лепту в развитие казахского языка. Задача в том, что мы должны максимально сократить сроки создания терминологической базы от «де-факто» до фиксации «де-юре». Мы сможем проводить электронные голосования и обмен мнениями он-лайн среди специалистов с правом доступа в определенные профессиональные «форумы». Широкий круг квалифицированных специалистов также будет «высвечен» в структуре языкового портала. Для итоговых «закрытых» обсуждений будет осуществляться сертификация профессиональных специалистов с правом голоса. Аутентификация пользователей уже в этом году будет возможна благодаря национальному удостоверяющему центру, который выдаст «ключи» всем желающим в соответствии с их квалификацией. — Сможет ли такое массированное внедрение интернет-технологий в языковую политику решить наболевшие проблемы становления казахского языка в статусе государственного? — Позитивный зарубежный опыт таких государств, как Малайзия, где совсем недавно ситуация в языковой сфере напоминала нашу, когда государственный малайский был во всех сферах общественной жизни вытеснен китайским языком, послужил примером интенсивного использования инновационных технологий. Внедрение малайского языка в «софт» позволило в рекордно короткие сроки, практически в течение нескольких лет, вывести малайский язык на передовые позиции во всех отношениях. Учитывая такой опыт, Комитет по языкам Министерства культуры и информации в тесном сотрудничестве с Агентством по информатизации и связи провел масштабную работу по разработке концепции создания целостной интегрированной системы с учетом развития информационных технологий в области лингвистики. Суть ее сводится к предоставлению комплексных сервисов (услуг) как государственным органам, так и всем гражданам Казахстана, зарубежным диаспорам в любой точке планеты посредством Интернета. Сегодняшнее развитие Интернета в республике, а также ближайшие планы государства по его развитию, ликвидации цифрового неравенства позволяют с уверенностью говорить о том, что повсеместное внедрение языковых технологий во Всемирную паутину будет являться гарантией массовости и доступности всего комплекса услуг государства в области языкового строительства. — Ерден Задаулы, не могли бы вы подробнее остановиться на главной идее концепции создания информационной системы, призванной помогать развитию государственного языка? — В Комитете по языкам будет создан аппаратно-программный комплекс на базе современной промышленной интеграционной платформы, на основе которого предполагается создать мощный единый республиканский центр, призванный обеспечить для пользователей принцип «единой точки входа» по предоставлению широкого ряда услуг или сервисов по поддержке как государственного языка, так и других языков народов Казахстана. Назову основные направления деятельности комитета в этой области. Первое. Создание системы анализа современного состояния государственного языка на базе создания национального корпуса казахского языка. Второе. Организация коллективной работы специалистов-языковедов, переводчиков для повышения эффективности работы по созданию терминологического и ономастического лексического фонда современного казахского языка. Интернет-технологии являются единственным способом разрешения целого клубка противоречивых и сложнейших вопросов в области организации совместной лексикологической работы. Третье. Разработка и размещение на портале для общего бесплатного доступа он-лайновых отраслевых, одно-, дву- и многоязычных толковых, диалектологических, этимологических, фразеологических, семантических и иных разнообразных словарей и справочников массового использования. Четвертое. Формирование и внедрение системы регулярного автоматизированного мониторинга и оценки языковой ситуации по всей территории Казахстана. Пятое. Создание полноценного корпуса параллельных текстов и переводов. Сегодня наиболее успешные мировые системы машинного перевода работают на основе компьютерной обработки огромных объемов параллельных текстов. Электронная база переводов и параллельных текстов послужит серьезным подспорьем для профессиональных переводчиков в самых различных отраслях. Шестое. Создание он-лайновой тестирующей системы, которая будет использоваться как для обучения языку, так и для оценки своих знаний всеми пользователями системы, а также для сертифицированного тестирования, организации центров тестирования практически в любом месте, в любом регионе страны — при акиматах, госучреждениях, управлениях и департаментах по развитию языков и так далее. Седьмое. Он-лайновые обучающие сервисы. Одна из приоритетных задач Комитета по языкам — поиск и разработка наиболее эффективных методик обучения казахскому языку государственных служащих и взрослого населения. В этом году мы включаем в комплексную систему ряд обучающих сервисов. Однако создаваемая нами интеграционная платформа также позволит интегрировать на базе новой сервис-ориентированной архитектуры различные обучающие сервисы всех внешних провайдеров, например центров обучения государственному языку при ведущих вузах, нацкомпаниях, частных структурах. Восьмое. Мультимедийные сервисы. Предоставление звуковых и видеоматериалов также является важным составляющим звеном обучения и развития языка. Сегодня подкасты (виртуальные радиопрограммы), видеосервисы, аудиокниги, анимационные клипы являются неотъемлемой частью услуг, представляемых в Интернете. Ряд таких сервисов мы также включаем в нашу программу на этот год. — Прямо дух захватывает! Разрешите пожелать вам больших успехов на этом пути. — Спасибо.
Саида УСМАНОВА
Доступ к документам и консультации
от ведущих специалистов |