Конвертер китайского письма
Конвертация между упрощённым и традиционным китайским письмом, поддержка стандартов Тайваня и Гонконга
Что такое конвертация китайского письма?
Конвертер китайского текста преобразует материалы между упрощенной и традиционной письменностью, учитывая не только форму отдельных иероглифов. Упрощенный китайский в основном используется в материковом Китае и Сингапуре, а традиционный — на Тайване, в Гонконге, Макао и многих зарубежных китайских сообществах.
Настоящая локализация требует внимания к региональной лексике, техническим терминам, именам, пунктуации и ожиданиям аудитории, а не только к посимвольной замене. Инструмент полезен для сайтов, документов, продуктовых текстов, субтитров и справочных статей, но юридические, медицинские, брендовые и публичные материалы должны проверяться носителями нужного региона.
Для формального использования нужно явно фиксировать исходную единицу, правило округления и требуемую точность.
Как использовать
Как использовать
- Вставьте или введите китайский текст в левое поле ввода
- Нажмите кнопку ниже, чтобы выбрать способ конвертации (упрощённый → традиционный, традиционный → упрощённый, тайваньский традиционный, гонконгский традиционный)
- Конвертированный текст автоматически появится в правом поле вывода
- Нажмите «Копировать», чтобы сохранить результат, или «Поменять местами», чтобы изменить направление
Советы по локализации
- Конвертация символов — это не то же самое, что полная локализация; региональная лексика, пунктуация и терминология продукта могут потребовать ручной проверки.
- Для юридических, медицинских, брендовых или публичных текстов попросите носителя языка из целевого региона проверить результат конвертации.
Применение
Технический принцип
Конвертация основана на словарных файлах OpenCC (Open Chinese Convert), а не на наивной посимвольной замене. OpenCC поставляет отдельные словари для каждого направления конвертации — s2t (упрощённое в традиционное), t2s (традиционное в упрощённое), s2tw (упрощённое в тайваньское), s2hk (упрощённое в гонконгское), s2twp (упрощённое в тайваньское с конвертацией словосочетаний), tw2sp (тайваньское в упрощённое с конвертацией словосочетаний) — и применяет их методом максимального прямого совпадения, выбирая самое длинное совпавшее словосочетание из предварительно скомпилированного бора. Именно поэтому один и тот же упрощённый иероглиф, например 后, может корректно разрешиться в 后 (императрица, сохраняется) или 後 (после, преобразуется) в зависимости от окружающего слова: 皇后 совпадает со словарём словосочетаний раньше, чем сработает словарь отдельных иероглифов. Данные иероглифов находятся в блоке CJK Unified Ideographs U+4E00-U+9FFF с расширениями A (U+3400-U+4DBF) и B (U+20000-U+2A6DF) для редких глифов. Строки JavaScript представлены в UTF-16, поэтому иероглиф из расширения B занимает суррогатную пару (два кодовых элемента), и конвертер должен итерировать по кодовым точкам, а не по индексам .charAt, чтобы не разбить суррогат. Региональные варианты обрабатываются цепочкой словарей: s2tw запускает базовое преобразование s2t, затем подстановку тайваньской лексики (например, 软件 → 軟體, 网络 → 網路, 内存 → 記憶體), а s2hk применяет гонконгскую таблицу, которая сохраняет 軟件 и предпочитает 視像 вместо 視頻. Таблицы словосочетаний отражают культурное расхождение, начавшееся после реформы упрощения 1956 года в КНР и продолжающееся в рекомендациях министерства образования Тайваня и списках управления образования Гонконга. Безобратная потеря не гарантирована: иероглиф 干 в упрощённом письме объединяет значения 干 (сухой, ствол), 乾 (сухой) и 幹 (делать, ствол), поэтому последовательность s2t, а затем t2s для предложения, содержащего 乾, может разрешиться обратно в 干, а затем расшириться иначе в новом контексте. Конвертация пунктуации (например, полуширинные 「」 в полноширинные кавычки, или разница между материковыми «» и тайваньскими «» с вложенностью) выполняется отдельным словарём, и не все движки включают её по умолчанию. Рассматривайте вывод OpenCC как качественный черновик для региональных текстов; названия брендов, имена собственные и недавно появившиеся термины всё ещё требуют проверки носителем языка на соответствие реальному употреблению в целевом регионе.
- Сегментация методом максимального прямого совпадения по предварительно скомпилированному бору словосочетаний, а не слепая посимвольная замена.
- Исходный диапазон CJK Unified Ideographs U+4E00-U+9FFF; расширение B (U+20000+) кодируется суррогатной парой UTF-16.
- Соответствия один-ко-многим (后/後/后, 干/乾/幹/榦, 发/發/髮) разрешаются контекстом словосочетания, а не отдельным иероглифом.
- Цепочки вариантов: s2t → TWVariants для s2tw, s2t → HKVariants для s2hk, с опциональными таблицами словосочетаний (s2twp).
- Конвертация не всегда обратима: двойной проход s2t и затем t2s может свести объединённые упрощённые иероглифы к другой традиционной форме.
- Итерация по кодовым точкам Unicode (for..of или Array.from), чтобы суррогатные пары не разбивались на половины.
- Конвертация пунктуации (например, стиль кавычек) находится в отдельном словаре и должна включаться явно.
Примеры
Упрощённое в традиционное (базовые слова)
Вход : 学习中文很有趣,我喜欢看电视和听音乐。
Выход : 學習中文很有趣,我喜歡看電視和聽音樂。
Заметки : Стандартное посимвольное соответствие через OpenCC s2t.Традиционное в упрощённое
Вход : 請打開電腦,然後啟動瀏覽器。
Выход : 请打开电脑,然后启动浏览器。
Заметки : Удобно для адаптации тайваньских/гонконгских статей под аудиторию КНР.Упрощённое в тайваньское традиционное (с локальной лексикой)
Вход : 这个软件的网络连接出现问题,请检查内存。
Выход : 這個軟體的網路連線出現問題,請檢查記憶體。
Заметки : 软件->軟體, 网络->網路, 连接->連線, 内存->記憶體 (тайваньские термины).Упрощённое в гонконгское традиционное (термины HK)
Вход : 这个软件支持视频通话和打印功能。
Выход : 這個軟件支援視像通話和打印功能。
Заметки : 软件->軟件 (в HK сохраняется 軟件), 视频->視像 (предпочитаемый термин в HK).Иероглиф с несколькими значениями: 后 и 後
Вход : 皇后走在皇帝的后面。
Выход : 皇后走在皇帝的後面。
Пояснение : 皇后 (императрица) сохраняется как 后, а 后面 (позади) преобразуется в 後面.Часто задаваемые вопросы
В чём разница между упрощённым и традиционным китайским?
Упрощённый китайский (简体) используется в материковом Китае и Сингапуре; иероглифы систематически упрощались начиная с 1950-х годов (например, 龍 → 龙). Традиционный китайский (繁體) используется на Тайване и в Гонконге, сохраняя более ранние формы иероглифов. Часть иероглифов в обоих вариантах выглядит одинаково.
Тайваньский и гонконгский традиционный — это одно и то же?
В основном да, но не всегда. На Тайване используется «Стандартная форма иероглифов государства» (國字標準字體), а в Гонконге — «Список графем общеупотребительных китайских иероглифов» (常用字字形表). Они различаются на нескольких сотнях иероглифов — 裡/裏, 麼/麽, 著/着 — поэтому правильный выбор региона важен для носителей языка.
Сохранятся ли при конвертации границы слов?
Посимвольная конвертация сохраняет исходные пробелы в точности. Также страница применяет словарь на уровне словосочетаний, чтобы 計算機 ↔ 計算機/电脑 и 软件 ↔ 軟體 корректно обрабатывались с учётом различий между регионами, а не только визуальной формы иероглифа.
Является ли конвертация без потерь?
Конвертация из упрощённого в традиционный иногда неоднозначна, потому что один упрощённый иероглиф может соответствовать нескольким традиционным формам — 后 соответствует 后 (императрица) или 後 (после). Страница использует контекстные эвристики, но не может гарантировать корректность каждого слова — проверяйте важный текст вручную.
Обрабатывается ли вертикальный текст или знаки пунктуации?
Знаки пунктуации конвертируются (, ↔ ,; 。 ↔ 。 одинаковые; некоторые кавычки 「」/“”/'' меняются в зависимости от региона). Вертикальная вёрстка — это вопрос отображения, а не конвертации: скопируйте результат и вставьте в контейнер с вертикальной вёрсткой.
Почему «телефон» иногда конвертируется как 電話, а иногда как 電話?
Это одна и та же строка. Некоторые приложения для визуально идентичных иероглифов используют немного разные кодовые точки (варианты совместимости). На выходе используется стандартная форма для выбранного региона; если другой инструмент помечает её как «неправильную», значит, он сравнивает её с нестандартным вариантом.
Загружается ли текст куда-либо?
Нет. Конвертация использует словарь в браузере и выполняется локально. Вставленный текст никогда не покидает ваше устройство.