Что нужно учитывать при поиске вашего сайта
В этой статье я представлю обзор некоторых соображений при переводе или локализации вашего веб-сайта. Исходя из своего опыта переводчика и компьютерщика, я постараюсь уделить внимание не только различным лингвистическим соображениям, но и некоторым тонким практическим и техническим вопросам, которые следует иметь в виду.
Чем веб-сайт отличается от «обычного» переводческого проекта?
В самом простом случае перевод веб-сайта может незначительно отличаться от перевода обычных документов. Вы можете обнаружить, что можете предоставить переводчику статическую копию в файле Word, а затем извлечь и передать текст, когда получите его обратно в том же формате.
Однако многие веб-сайты не состоят из нескольких страниц статического текста, а это означает, что ваш проект перевода веб-сайта может потребовать особого внимания и дополнительных навыков со стороны переводчика:
- вы можете создавать страницы «на лету» из базы данных и не существовать в статических файлах;
- у вас может быть серверное приложение, например, для обработки данных из формы, которое само генерирует текст, видимый пользователю;
- С лингвистической точки зрения контент веб-сайта редко охватывает только одну область: некоторая ИТ-терминология почти наверняка проникнет внутрь.
По первым двум из этих причин ваш сайт нередко становится привлекательным. текст в различных форматах хранится в файле. У вас могут быть некоторые необработанные HTML-файлы или текстовые файлы, которые вы можете легко извлечь в текстовый файл или текстовый документ из вашей системы управления контентом, а также некоторые данные в базе данных, которые вам могут понадобиться для извлечения в файл CSV или дамп SQL, и некоторые файлы свойства, используемые внутренним сервером. На начальных этапах получения оценки проекта, сообщите переводчику, какой формат файла вам наиболее удобен на работу (и отправить образец) и спросить, могут ли они работать с этим форматом. (В моем случае, например, я видел, как клиенты тратили время, пытаясь преобразовать файлы CSV в текстовые документы и манипулируя текстом в процессе, когда я был бы вполне доволен работой с исходными файлами CSV.)
Языковые проблемы
Хотя большинство веб-сайтов на каком-то этапе будут содержать некоторую ИТ-терминологию, это, вероятно, не должно быть основной лингвистической проблемой при локализации веб-сайта. Причина этого в том, что с учетом технических соображений, которые мы обсудим ниже, я настоятельно рекомендую вам, чтобы ваши веб-страницы переводил переводчик, знакомый с ИТ.
Первоначальное лингвистическое решение, но такое, которое переводчик, скорее всего, сможет сделать за вас, относится к форма обращения: как вы, возможно, знаете, в разных языках используются разные формы глаголов для обращения к читателю/слушателю «неформально» или «формально» (например, здесь против вы на французском), а в некоторых языках даже проводится трехстороннее различие. Какая форма обращения подходит, будет зависеть от вашей целевой аудитории и привычек стран, на которые вы ориентируетесь; Поэтому переводчику может понадобиться проконсультироваться с вами о том, кто является вашей основной целевой группой и какое впечатление вы хотите произвести (вы хотите, чтобы ваш текст звучал «серьезно» или более «модно и модно»?).
Другие языковые проблемы связаны с переводом коротких элементов из базы данных или файла свойств, где контекст иногда отсутствует. Вы имеете в виду «проверить», «проверить» или «проверить»? Вы имеете в виду «вверх», как «более высокая цена» или как «идти наверх»? А для строк, которые могут иметь параметры (помеченные {0}, {1} и т. д. в файлах свойств на Java и других языках), какие разные значения могут иметь эти параметры (поскольку они могут влиять на перевод)?
Иногда для решения этих проблем потребуются ответы на прямые вопросы переводчика об интерпретации вашего текста. Но в качестве простой меры, которая может сэкономить вам время и вопросы, я рекомендую использовать несколько файлов свойств. Пусть у каждой основной области сайта/приложения будет свой файл свойств. В частности, пусть разделы вашего сервера/сайта, ориентированные на разных людей, имеют свой собственный файл свойств. Самое главное, если вы можете избежать этого, не смешивайте строки посетителей сайта и строки, которые являются частью вашей серверной системы администрирования, в одном и том же файле.
Практические и технические вопросы
Когда вы получите переведенный материал обратно от переводчика (желательно раньше!), вы можете рассмотреть одно или два практических соображения. Возможно, вы уже заметили различия в число слов что может происходить между одним языком и другим (как правило, текст на латинских языках, таких как французский и испанский, примерно на 20-30% длиннее, чем его английский аналог). Это может повлиять не только на макет страницы, но и на размеры полей базы данных. Точнее, количество символов в другом языке может быть таким же, но количество слов может значительно различаться, если в этом языке используется смешивание шире, чем английский (например, вы можете обнаружить, что в тексте, переведенном на финский, такое же количество символов, как и в английском, но вдвое меньше слов). Макет с узкими колонками, который работает на вашей англоязычной странице, может неожиданно выглядеть катастрофически применительно к немецкому или финскому переводу.
Если ваш сайт интерактивный, у вас есть дополнительная проблема с одобрением Вход какие пользователи смогут вводить в веб-формы и т. д. Это будет включать, например, возможность вводить символы с диакритическими знаками или более широкий диапазон символов, а также некоторые более тонкие изменения в проверке вашего сайта. В английском языке у вас могли быть недопустимые пробелы в поле «Фамилия». Но носители различных других языков обычно имеют несколько фамилий и ожидают, что смогут ввести пробел в этом поле.
Две другие, иногда связанные, проблемы кодировка символов а также сравнение. Первый по существу относится к тому, как символы хранятся/представляются компьютером (как символы преобразуются в байты). Второй относится к тому, как сравниваются и сортируются символы и строки: например, мне с острым ударением считаются равными без ударения для целей поиска и в каком порядке они появляются при сортировке. Эти проблемы обычно не возникают при работе только с английским языком, но их обычно необходимо учитывать при работе с текстом на другом языке.
Кодировка символов различается в зависимости от системы, с некоторыми общими стандартами, включая ISO-8859-1, UTF-8 и другие кодировки, такие как Mac OS Roman. В зависимости от вашего веб-сайта/приложения вам может потребоваться убедиться, что на разных слоях установлена правильная кодировка символов:
- при чтении переведенного файла;
- при чтении/записи в базу данных через JDBC или другой фреймворк прикладного уровня;
- при чтении пользовательского ввода через Servlet API и т. д.;
- в самих определениях полей базы данных, чтобы убедиться, что они могут хранить необходимый диапазон символов.
Как узнать, правильная ли у вас кодировка символов? Предупреждающим признаком неправильной кодировки символов в различных языках на основе латиницы, таких как французский и испанский, является то, что вы часто видите последовательности двух символов с диакритическими знаками рядом друг с другом, включая заглавную букву в середине слов. (Это происходит, когда файл в кодировке UTF-8 неправильно интерпретируется, как если бы он был в кодировке ISO-8859-1 или Mac OS.)
Вопрос сортировки (сортировки/сопоставления) можно рассмотреть на уровне базы данных (большинство систем БД позволяют настроить режимы сортировки для конкретного столбца/таблицы/базы данных). Или это может быть для уровня приложения (в Java посмотрите на класс Collator как на альтернативу или расширение необработанных методов Collections.sort() и String.equals()).
Заявление
Надеюсь, в этой статье я выделил некоторые основные проблемы с поиском веб-сайта и показал, что такие проблемы могут выходить далеко за рамки простого перевода. Работа с переводчиком, который знает об этих проблемах, может сэкономить ваше время и усилия, чтобы сделать ваш бизнес доступным для разных стран, на которые вы хотите ориентироваться.