Автор: Анна Киселёва
Вторая волна: середина восьмидесятых и позже
Следующий подъем интереса к машинному переводу пришелся на 80-е годы. На этот раз основным двигателем прогресса выступила Япония. Многочисленным хайтек-компаниям Страны восходящего солнца требовался перевод с английского и на английский, и практически все они начали разрабатывать собственные программные решения. Этим занимались и Panasonic, и Fujitsu, и Toshiba, и Mitsubishi, и многие другие.
В то же самое время зародились многие «классические» системы, основанные на синтаксическом анализе (так называемые rule-based machine translation, или RBMT-системы): коммерческие METAL и LMT, исследовательские проекты GETA-Ariane, Rosetta, Susy и другие. Однако большого коммерческого успеха они не имели, в первую очередь из-за плохой интеграции с другими системами. К тому же для работы такого переводчика требовался мэйнфрейм.
Положение резко изменилось на рубеже 90-х, с началом РС-бума и появлением статистического машинного перевода (SMT). Идея была проста, как все гениальное: раз никак не получается разобрать язык на кирпичики с помощью синтаксических правил (как в традиционном RBMT), давайте попробуем набрать как можно больше уже существующих переводов в надежде, что найдется достаточно похожий текст. Впервые эта идея была высказана японским учёным Макото Нагао в 1981 г., а всерьез ею заинтересовались после статьи IBM о статистическом машинном переводе в 1988 г. Поскольку для работы такого переводчика требовался как можно больший двуязычный корпус текстов, основное внимание исследователи уделяли его формированию и чистке.
К середине 90-х годов машинные переводчики стали портироваться на РС, а к концу десятилетия появились и интернет-переводчики, такие как бесплатный AltaVista — Systran или платный iTranslator.
Тот самый пресс-релиз IBM
В архиве пресс-релизов компании IBM можно отыскать полный текст анонса от 8 января 1954 года, когда компьютер впервые перевёл текст с русского языка на английский. Для пущей иронии можете перед прочтением пропустить его через Google Translate.
Появление ТМ-систем: «Вам больше не придется переводить одну и ту же фразу дважды»
После того, как идея SMT обрела популярность, рано или поздно кто-то должен был додуматься до ее использования без привязки к машинному переводчику. Что, если вместо машины предоставить этот двуязычный корпус текстов для справки переводчику-человеку? Если найдется достаточно похожий фрагмент, его надо будет лишь подставить в перевод и внести необходимые исправления. Так возникли системы памяти переводов, или Translation Memory (TM). И вот они произвели настоящую революцию в переводческом деле.
За считаные месяцы появились целых четыре (!) ТМ-системы. Три из них, основанные на разработках лаборатории IBM в Штутгарте и базирующиеся на пофразной сегментации — IBM Translation Manager, Trados Translator’s Workbench и Star Transit, — были с энтузиазмом приняты переводческим сообществом. Четвертая, французская Eurolang Optimizer, оказалась чересчур сложной и быстро исчезла с горизонта.
Влияние этого новшества на переводческую отрасль трудно переоценить. Достаточно сказать, что ценовая модель во всей индустрии в одночасье изменилась с постраничной на пословную.
Поскольку IBM TM работала только под OS/2, она не имела существенного распространения за пределами «Голубого гиганта». Остальные системы некоторое время конкурировали друг с другом, пока в 1997 году Microsoft не выбрала Trados для своих внутренних проектов локализации. К концу 90-х годов Trados стала бесспорным лидером индустрии, и свергнуть её с пьедестала конкурентам не удается до сих пор.
Вот так организована работа в SDL Trados Studio: программа находит похожие фразы в базе переводов и подставляет их переводчику для правки.
Нынешнее положение дел
Машинный перевод продолжает развиваться, появляются все новые и новые парадигмы, например интерлингвальный МТ, восходящий еще к идее Лейбница о создании универсального «языка смыслов», или гибридная модель, представляющая собой попытку объединения разных подходов в одно целое. Также большую популярность приобрела идея объединить парадигмы ТМ и SMT: для работы статистического переводчика нужен двуязычный корпус текстов максимально близкой тематики — так почему бы не использовать память переводов заказчика? На сегодняшний момент это одно из самых перспективных направлений развития МТ… или, если называть вещи своими именами, одно из немногих практически пригодных для работы.
Надо сказать, что с машинным переводом сейчас ситуация очень странная: все в один голос утверждают, что он никуда не годится — но все поголовно его используют! Amazon и eBay переводят машиной названия и описания товаров, слово «Гуглтранслейт» уже стало нарицательным, а Microsoft задействует машинный перевод для технических статей. Хотим мы этого или нет, машинный перевод стал свершившимся фактом.
Сейчас использование МТ происходит по двум основным сценариям:
«Непрофессиональный»: машинный перевод используется как есть, без каких-либо доработок.
Достоинства такой модели очевидны: скорость и дешевизна. Так переводятся чаты, маловостребованные инструкции, названия аукционных лотов и т. д. Для ситуаций, когда требуется просто узнать, что здесь вообще написано, или если текст станет неактуальным через пару минут, другого решения, пожалуй, в принципе не найти.
Достерт (в середине) и Уотсон (справа) смотрят на результаты работы железного переводчика.
Недостатки: сырой машинный перевод абсолютно бесполезен для чего бы то ни было, кроме общего представления о смысле текста. В руководстве Google для вебмастеров даже написано, что страницы сайта, переведенные машиной, лучше закрыть от индексации, чтобы поисковый робот не принял такой машинный перевод за спам.
«Профессиональный»: машинный перевод подается на вход переводчику в САТ-системе, подобно содержимому памяти переводов. Потом он дорабатывается (этот процесс называется постредактурой), отправляется редактору и далее по обычной цепочке.
Но надо понимать, что пока сырой машинный перевод остается таким же уродливым, как сейчас, большого роста производительности ждать от этой модели не стоит. В лучших пилотных проектах удается достичь увеличения скорости работы переводчика (т. е. постредактора) на 50-70%, но при этом общий рост скорости всего процесса не столь внушителен и держится в рамках 20-30%. Остальной выигрыш съедается необходимостью значительно более глубокой редактуры.
Итоги
В 1954-м нам обещали работающий машинный переводчик через три года. Прошло 60 с лишним лет, а воз и ныне там.
Но так ли это на самом деле?
Во-первых, мы не знаем и не можем знать, сколько этот «воз» уже проехал и сколько осталось до цели. Далеко не впервые в истории то, что наука обещала вот-вот, реализуется через десятки и даже сотни лет напряженной работы. Такова природа познания: мы не можем оценить, сколько еще предстоит сделать, чтобы достичь результата. Вспомним хотя бы теорему Ферма, наконец-то доказанную в 1994 году с использованием чуть ли не всех достижений математики за прошедшие 300 лет. А о том, сколько времени прошло от поисков философского камня до ядерного синтеза, даже и вспоминать неловко.
Во-вторых, за эти 60 лет мы получили немало того, что сейчас воспринимаем как должное: ТМ-системы, языки программирования, программы оптического распознавания текста и анализаторы речи. Мы даже не задумываемся, что эти ставшие уже привычными решения выросли из идеи машинного перевода.
Но все-таки, когда же появится машинный переводчик, который оставит всех нас без работы?
Как сотрудник переводческой индустрии я очень надеюсь, что не скоро. Но кто знает? И кто знает, какие открытия ждут нас на пути? Как они изменят нашу жизнь?