Uralistica

инструменты конвертирования в латиницу

Просмотров: 470

Ответы на эту тему форума

Расскожу об истории, которая ещё не закончилась; создание конвертора из кириллицы в фонетическую транскрипцию для удмуртского. Была поставлена задача: "на входе -- удмуртское слово, на выходе -- либо фонетическая транскрипция, либо сигнал о неправильности орфографии". "Сигнал о неправильности орфографии" -- это необходимость, так как сам алгоритм предполагает правильность входного слова, и поэтому слово сначала проверяется. Входные слова -- это последовательности символов удмуртского кириллического алфавита, кроме фхцщ. Последние исключил по причине неоднозначности и неопнятности (лично для меня). Всякие слова типа "календарь", "семья" и т.д. также исключались, то есть скрипт был простейшим (только слова удмуртского происхождения). Не поддерживались и слова с дефисом ("анай-атай" и др.). В качестве транскрипции использовались буквы аэиоӧуыбвгджӝзӟйклмнпрстчӵш и сочетания д'з'л'н'с'т'. Такая траснскрипция соответствует правилу 1 фонема = 1 символ и её можно конвертировать во что угодно. Вроде бы, система алафавита проста и думать особо нечего, но я всё же столкнулся с некоторыми трудностями. Точнее, я сделал первую версию скрипта и нашел там ошибки. (Кому интересно, могу скинуть этот скрипт.) Вопросы, в общей сложности, сейчас такие:

1) Твёрдый и мягкий знаки

По определению ясно, что они могут следовать только после согласных. После твёрдого знака может идти одна из букв еёюя (пример -- нылъёс), после мягкого -- одна из букв еёюя (пример -- сузьет), одна из букв ӧы (пример -- ньӧл), согласная буква (пример -- пиньёс) или конец слова (пример -- кузь). Но не всё так просто: после разных согласных букв ставятся разные знаки. После "всегда твёрдых" согласных бвгжӝкмпрӵш должен идти твёрдый знак для обозначения йотированности следующего гласного, после дзлнст -- мягкий знак для обозначения йотированности следующего гласного и мягкости (или просто мягкости), твёрдый знак -- для обозначения йотированности следующего гласного. После гласных ӟч должен (по логике) идти мягкий знак для обозначения йотированности следующего гласного (пример: кечьёс). Однако, некоторые источники показывает, что после ӝӟ знаки не упортебляются, а после ч пишется твёрдый (пример: кечъёс). Также практика показывает, что перед и знаки не употребляются (пример: пусйиз) Как быть, что верно, а что нет?

2) Ассимиляция

лыдӟыны -- это [лыӟӟыны] или [лыдӟыны] в тракнскрипции? С какими ещё буквами есть такие сочетания, где продисходит ассимиляция? Какой согласный может быть вторым, какой первым? Каков их полный список? (Сам припоминаю -тч- в кутчаны ещё)

3) Двойная мягкость

паллян -- [пал'л'ан]

Тот же вопрос: какой звук может быть первым, какой вторым? Какой полный список таких сочетаний?

....сочетания д'з'л'н'с'т'. Такая траснскрипция соответствует правилу 1 фонема = 1 символ и её можно конвертировать во что угодно....

- я бы выложил макрос, однако проблема: пишем со спецзначками или ориентируемся на "неубиваемый" (Numulunj) вариант? (тогда ö = ou) .  Я вот снова сегодня макросирил :)) . 

Например, так пишем, что лль = ljlj, ль =  lj, лъ = ll. Это только для дзлнст!  (под Ь имеются в виду и йотированные гласные): 

 

Konjy Tolja

Sjures usjtisjke mynisjly

(Povestjysj  ljukettjos)

Jagoshuryn

 

Vuizy kuartolezjlen berpumeti nunalljosyz.  Inkuazjlen ta dyre tuzhges shuldyr no txydontem vakytez.  Lolo shurlen jardurjosyz kuzjana budisj ljoumpuos purzjemyn  jug-jug sjasjkaosyn, pachylmemyn utxyoslen sajkyt txukez dannjasj kyrzjannjosynyzy. Shur vadjsy vouldisjkem bus shoryn sylisj ljoumpuos mu vyle vasjkem piljemjosly ukshalo.

Zjarde.

Nunal vordisjke.  <…>

Jagoshuryn otyn no tatyn estylo ini gurjosses. Estiz gurze Dokja no.  Lyzales-purysj txyn njuzhtisjke usjtem uknoeti no ouseti.  Lapegges no erkyn korkasj potysa, so kounja ke loussjasjke na muskyt mu vylti, myl potytek vyljljem dxutisjke inme.

Sajka jagoshur.

Njulesly matynges, bamalyn, daso korkaos.  Otysj odigaz korkan gurtlen touroez Baljan ule.  Dasolesj uno korkaos raden sylo na gurt vouzti kozhysa koshkisj Lolo shurlen metx jarduraz.  Shur sjuresse kutske Badzjym njules sjourysj pichiges ty dorysjen.  Soin ik njimazy no soe Lolo.  Byzje Lolo, nue vuze Vatka shure.

Korkaos ljipemyn pulen, kuren.  Njulesen shur kuspyn intyez erkyn ke no,  ýíjurttjoslen vissjossy badzjymesj ouvoul; ogzy bordy ogzy shymyrskysa vyljljem sylo.   jurttjos vouzy gudylemyn jouguos,  ju-tysj no muket sjion-juon vozjon guos.  Pudo-zhivotly puktylemyn giddjos.

Vylj nunal pyre Jagoshure.

Gurt sjouryn, njulesez sajkysa no solesj bervylze sutysa, kyldytemyn vouljy[1].  Vouljyos vanj muket intyosyn no.  Njuleslesj no gurtlesj palenynges, shurly kydjokyn ik ouvoul, adzjisjke kebit.  Kebityn guzhem ug kylisjky ni chekychlen zador kuaraez.  Durisj murt guzhem nosh ik koshke aslyz ruda utchany no dasjany.

Sjinmaz txyn pyremen, lesja, kebitly matyn korkasj, sjinnjosse txushylysa, potiz jyg-jyg mugoro, pasjkyt peljpumo vorgoron.  Solen badzjym tushez ymnyrze chik no peresj ug vozjmaty.  Vorgoronlen garamures derem ulysjtyz adzjisjke chyrtyjaz oshem azvesj grivnaez[2].  Pydaz -  kulesj vurem pydkutchan.  Erkyn toudjy deremez kuskytiz kerttemyn sjumys jeen.

Sjouraz ik byzjysa potiz das kuinj aressjem piez Edej.

dxuzhasj shundy pala berytskysa, vorgoron vousjasjkyny kutskiz:

-  O, Inmare, sjot shunytte no  jugytte!. 

-  O, Kyldysjine, sjot njanjde no muket sjion-juonde!

-  O, Kuazje, sjot shundyjo no pajdalyko nunalde!

Djadjaenyz txosh vousjasjkiz Edej no.



[1] Völjy.  busy.

[2] G r i v na.  azvesj jezlesj lesjtem eges.

 

 вариации письма: http://udm.i-iter.org/content/sjures-usjtisjke-mynisjly

 

Да интересно любой вариант (просто посмотреть все моменты). Интересен сам процесс преобразования из кириллицы в латиницу.

лыдӟыны - правильно, ибо - лыд (счет собирания) -- lydzjyny (ӟ и зь различаются лишь позиционно, это одна и та же фонема!)

kaljendar, tjeatr, ljitjeratura ... 

но такой "неубиваемый" в любых сетях абсолютно латинский вариант, думаю, практичнее татарского пути: не надо загружать новую клаву. У меня англ. международ ный расклад. Но люди и этого, похоже, не в состоянии сделать себе. Поэтому ö=ou. Можно даже oh, читается вполне. Может, остановимся на Этом?

andrewboltachev said:
Да интересно любой вариант (просто посмотреть все моменты). Интересен сам процесс преобразования из кириллицы в латиницу.
или нравится вариант со ссылки? Тут в сети Лена Рябина сейчас: Как, Лена, что более приятно читается?

Nimshur said:
но такой "неубиваемый" в любых сетях абсолютно латинский вариант, думаю, практичнее татарского пути: не надо загружать новую клаву. У меня англ. международ ный расклад. Но люди и этого, похоже, не в состоянии сделать себе. Поэтому ö=ou. Можно даже oh, читается вполне. Может, остановимся на Этом?

andrewboltachev said:
Да интересно любой вариант (просто посмотреть все моменты). Интересен сам процесс преобразования из кириллицы в латиницу.
Алексей проявился. Ждем реакции... Блиц-Конференц устроим?

RSS

© 2023   Created by Ortem.   При поддержке

Эмблемы  |  Сообщить о проблеме  |  Условия использования