Байки из локализаторской: краткая история машинного перевода, часть 1

Автор: Анна Киселёва

Вместо вступления
На прошедшем в конце июня 2015-го Форуме переводчиков России произошел любопытный эпизод. Один из участников дискуссии о программных средствах контроля качества, представительный пожилой мужчина, начал агрессивно высказываться о бесполезности и ущербности «всех этих программ», а потом и обвинять ведущих в том, что они не гуманитарии и поэтому никогда не поймут, что программа по самой сути своей несет переводу гибель. В аудитории нашелся еще один гуманитарий, и страсти начали закипать. Положение спасла я, взяв микрофон и высказав свое мнение, что программные средства контроля качества никогда не заменят редактора, да и не предназначены для этого.

Потом ко мне подошел один из участников дискуссии и процитировал меня так, как услышал. Оказывается, я «сказала», что машинный перевод никогда не заменит человека.

Неожиданно.

Пришествия машинного перевода с нетерпением ожидают корпоративные заказчики и панически боятся коллеги. Но насколько обоснованы эти надежды и страхи? Быть может, нас действительно ждет уродливое будущее, где бессмертные строки Чехова будут переводиться машиной на уровне «вся ваша база принадлежать нам», а специалисты с мировым именем отправятся просить милостыню? Или же действительно можно будет одним нажатием кнопки точно и красиво переводить гигабайты, не тратя ни гроша? Что нас ждет? И главное — когда?

Джорджтаунский эксперимент: «Через три года у нас будет машинный перевод!»

Надо сказать, этому напряженному ожиданию уже не один год и даже не один десяток лет. Машинный перевод — это «праздник, которого ждут со дня на день»… аж с 1954 года. Именно тогда состоялся знаменитый Джорджтаунский эксперимент — первая в истории демонстрация работающего машинного переводчика. Эксперимент имел оглушительный успех, был широко разрекламирован IBM и наполнил карманы исследователей бессчетными деньгами, а их сердца — бешеным энтузиазмом. Казалось, на горизонте появились очертания новой «Энигмы».

Перфокарта с Джорджтаунского эксперимента.

Чтобы понять заразительность этого энтузиазма, обратимся к личности одного из главных участников событий — профессора Джорджтаунского университета Леона Достерта. Лингвист по образованию, личный переводчик Эйзенхауэра, после войны он был назначен ответственным за переводческую деятельность на Нюрнбергском процессе. На этом посту Достерт создал первую в мире крупномасштабную систему синхронного перевода, которую на следующий год внедрил в ООН. Оборудование для обеих систем предоставила IBM, с чьим президентом Томасом Уотсоном Достерт дружил с середины 30-х годов.

Именно опыт работы с электронным оборудованием в переводческой индустрии и привел Достерта — к тому времени директора Института языков и лингвистики при Джорджтаунском университете — на первый конгресс по машинному переводу, состоявшийся в Массачусетском технологическом летом 1952 г.

А тут машинистка пробивает перфокарту.

Поначалу Достерт отнесся к идее автоматизации перевода скептически, но к концу конференции резко изменил свое мнение, окрыленный новыми возможностями. Будучи по натуре практиком, он решил не ждать, когда наконец теория сделает все необходимые шаги, а немедленно поставить маленький, но настоящий эксперимент, который подтвердит или опровергнет жизнеспособность машинного перевода. За содействием он, естественно, обратился в IBM.

И вот 8 января 1954 г. Томас Уотсон и Леон Достерт явили миру первый в истории машинный переводчик. Вычислительная машина IBM 701 перевела с русского на английский шестьдесят предложений по общей тематике и органической химии. Словарь автопереводчика составлял 250 слов, использовалось шесть грамматических правил. Русские тексты в латинской транскрипции вводились в компьютер на перфокартах, которые прямо при зрителях пробивала машинистка.

В последующие дни в Штатах не было ни одной уважающей себя газеты, которая не процитировала бы слова Достерта: «Хотя сейчас еще нельзя вложить в приемный лоток книгу на русском и получить на выходе книгу на английском, через 3-5 лет мы получим работающий машинный перевод на нескольких языках, пригодный для важных областей человеческой деятельности».

Сейчас многие считают, что Джорджтаунский эксперимент принес больше вреда, чем пользы, резко завысив ожидания публики. И когда прошло целое десятилетие гигантских финансовых вливаний, а машинный переводчик так и не заработал, маятник качнулся в обратную сторону. Да так, что мало не показалось никому.

Перфоратор для электронно-вычислительных машин. Я такие еще застала на школьном УПК, но они уже выглядели пережитками прошлого… зато на перфокартах было так удобно делать заметки!

Великое Закрытие и итоги первого бума

К 1960-м годам обнаружились фундаментальные проблемы машинного перевода.

Например, ученые недооценили многозначность слов и важность контекста. Для перевода машине требовалось знать, о чем вообще речь, иначе появлялись совершенно идиотские ошибки. Общеизвестным примером стал перевод на русский и обратно фразы «the spirit is willing but the flesh is weak» («дух крепок, но плоть слаба»), превратившейся в результате в «the vodka is good but the meat is rotten» («водка хорошая, но мясо протухло»).

Кислородное голодание

Машине был неведом ни здравый смысл, ни история человечества, ни контекстная связь между словами. В одной из управленческих теорий подобные вещи носят меткое название «кислород»: очевидное условие, забытое именно по причине очевидности.
Время шло, деньги текли, а обещанного результата так и не было, и в какой-то момент случилось то, что всегда случается в такое время — проверка.

Устав ждать результатов, правительство США в 1964 г. сформировало комиссию по изучению перспектив машинного перевода, известную как комиссия ALPAC. Перед ней поставили задачу — оценить результаты работ и дать рекомендации по дальнейшему финансированию. Комиссия проработала два года, изучила гору материала, провела десятки экспериментов и в итоге опубликовала разгромный отчет (попутно разработав одну из первых методологий оценки качества перевода).

ЭВМ IBM 701, однотипная с той, на которой проводили Джорджтаунский эксперимент, и будущий президент США Рональд Рейган (тогда снимался в телерекламе General Electric).

Вердикт был неутешителен: машинный перевод оказался дороже, хуже и медленнее ручного, а машинный перевод без последующего редактирования (именно тогда и прозвучало хорошо знакомое нам сейчас слово «постредактура») — вообще никуда не годным.

Авторы отчета не смягчали выражений: «Хотя перевод текстов общенаучной тематики с помощью компьютера и существует, полезного машинного перевода нет. Мало того, нет и немедленных или хотя бы предсказуемых перспектив его появления».

Один из выводов отчета ALPAC заключался в том, что дальнейшее развитие машинного перевода тормозится прежде всего состоянием лингвистики. Комиссия рекомендовала забросить машинный перевод и спонсировать: а) лингвистику как таковую, причем не как прикладные исследования, а как науку — т.е. не требуя от нее немедленной отдачи, и б) усовершенствование процесса перевода и разработку практических методов оценки его качества.

Отчет ALPAC многие критиковали как однобокий и близорукий, но так или иначе, правительство вняло его рекомендациям — и закрыло проект, в который к тому моменту успело вложить 20 миллионов долларов (130 млн. в ценах 2015 г.), без какой-либо надежды получить эти деньги обратно. Примеру США последовали и другие западные страны, за редкими исключениями. Ситуацию усугубила начавшаяся в 1970-е годы глобальная «зима ИИ», когда закрылось финансирование и по другим направлениям, связанным с искусственным интеллектом.

Не всё впустую

Деньги правительство в конце концов вернуло: один из множества разнообразных проектов по ИИ и МП, которые правительство США когда-то финансировало, оказался успешным и уже в 90-е годы окупил все остальные.
…Но действительно ли все эти миллионы были выброшены на ветер?

«Отец современной лингвистики», профессор MIT Ноам Хомский в 1968 г.

Уже в 1956 г. активный участник работ по машинному переводу в МИТе Ноам Хомский разработал иерархию формальных языков, а через год выпустил свою знаменитую книгу «Синтаксические структуры», осуществившую переворот в лингвистике. Иерархия Хомского положила начало идее алгоритмических языков и сейчас известна каждому программисту.

В 1964 г. был запущен машинный переводчик GAT (Georgetown’s Automatic Translator). Он был установлен в МАГАТЭ и в Европейской комиссии по атомной энергии (EURATOM), где кое-как проработал до 1976 года, переводя научную литературу с русского.

GATкое качество

По отзывам, «качество перевода было отвратительным по сравнению с ручным, но для наших целей — быстро просканировать документы и определить их содержание и уровень интереса — система GAT была вне конкуренции по сравнению с единственно возможными другими вариантами: дорогой и медленный ручной перевод или вообще никакого».

Философ, по-прежнему профессор MIT Ноам Хомский среди участников митинга «Захвати Уолл-Стрит» (2011 г.). Хомского шатало изрядно, правда, он еще до того, как стать гением лингвистики, был юным анархистом.

В 1968 г. Питер Тома, участник проекта GAT, разработал еще один машинный переводчик — SYSTRAN, доживший до наших дней и регулярно обновляемый. В 1973 г. он использовался для переводов с английского на русский в рамках проекта «Союз-Аполлон», а в 1976 г. был приобретен Еврокомиссией. В 2010 г. SYSTRAN стал первым движком машинного перевода, реализовавшим гибридный подход.

Уже во время «зимы ИИ» появился TAUM-METEO — специальный машинный переводчик для прогнозов погоды. Он был запущен в 1977 г. и проработал до 2001 г., переводя около 80 тысяч слов в день, или 30 млн слов в год.

Кроме того, в рамках проектов по машинному переводу велись работы и по оптическому распознаванию текста (чтобы обойтись без машинистки), и по распознаванию речи, тоже попавшие под каток. Результаты тех работ широко используются в нынешних сканерах и системах голосового управления.