Романизация текстов

      Комментарии к записи Романизация текстов отключены

Любой серьезный поиск профессионально ориентированной информации рано или поздно сталкивает пользователя с необходимостью прибегать к зарубежным поисковым системам. Далеко не все они позволяют формулировать запросы на русском языке. Очень часто, особенно при работе с онлайновыми каталогами зарубежных библиотек, необходимо просто ввести в систему фамилию автора или же название его труда на русском языке, но с записью текста запроса латинскими буквами. В зарубежной библиотечной практике такие тексты принято называть романизированными. Сам процесс такой записи называют транслитерацией. Романизация текстов — широко распространенный прием в практике работы не только с каталогами иностранных библиотек, но и со многими поисковыми системами. Раз уж речь зашла о них, стоит упомянуть о индексации сайта.

Представляется, что особых проблем здесь возникнуть не может. Скажем, если нам встретилась фамилия Юрьев, то ее можно записать, например, Jurev или Yur`ev. Особой разницы как будто бы нет. Любой человек, даже не очень хорошо знающий язык, поймет обе эти записи правильно. Однако компьютер не человек, и любое простейшее отклонение от нормы он воспримет как ошибку. Поэтому, если мы ищем в каталоге труды на указанную фамилию, то неожиданно можем получить отрицательный ответ. Нужный материал может быть и есть, но поисковая машина ответит, что его нет, так как запрос составлен неправильно. Таким образом, надо четко представлять правила транслитерации русских, точнее кириллических, текстов.

Проблема транслитерации важна и для других языков. Скажем в немецком языке есть буквы, которых нет в английском. Аналогичные буквы встречаются и в других языках. Запись этих букв в английском проста и однозначна. Несколько сложнее обстоит вопрос с другими языками, которые используют латиницу. Русский же язык может быть транслитерирован по-разному. Есть два пути транслитерации кириллических текстов: использование диакритических знаков (двоеточий над буквами, разных знаков над и под буквами и т. д.) и введение обозначений русской буквы, отсутствующей в латинице, двумя латинскими буквами.

Таким образом, начиная работать с новой системой (поисковом машиной, каталогом), нужно разобраться в том, как правильно романизировать тексты своих вопросов. Это не очень сложно. Нужно заранее приготовить 2-3 тестовых запроса. Они должны включать одну, максимум две буквы, которые по-разному транслитерируются в разных системах. Соответственно надо послать несколько разных запросов и посмотреть, где будет положительный ответ. Сложность такого тестирования состоит в том, что запрос должен включать в себя материал, который заведомо имеется в данном каталоге (библиотеке). Лучше всего для этой цели выбрать труды широко известных авторов, политиков, классиков литературы, или интернет бизнеса. Не следует думать, что подобная работа в практике повседневного поиска будет встречаться часто. Она характерна для начальных этапов работы, когда ищутся наиболее подходящие поисковые машины и библиотечные каталоги.