Loading...
Error



деванагари OCR прога

Ответить на тему
 
Автор Сообщение

mezhuev

Стаж: 13 лет

Сообщений: 671

Украина

post 25-Сен-2010 17:42

Quote

Я не в первый раз сталкиваюсь с тем что не могу оцифровать санскрит. Есть какие то индийские программы, но либо недоступные бесплатно, либо плохие. Может кто сталкивался с чем то достойным?
Profile PM

admin

Стаж: 14 лет

Сообщений: 4825

Россия

post 25-Сен-2010 17:49 (спустя 7 минут)

Quote

Санскрит не распознают известные мне проги.
Profile PM

Kalki_das

Стаж: 13 лет

Сообщений: 54

Россия

post 26-Сен-2010 20:40 (спустя 1 день 2 часа)

Quote

Я однажды нарыл свободно распространяемую экспериментальную прогу по распознаванию деванагари, но мало того, что у неё интерфейс был из начала 90-х - совершенно недружественный, процент распознавания чётко отсканированной страницы составлял всего 25-30%. Того, кто привык пользоваться FineReader'ом, где процент распознавания чётко напечатанной страницы в достаточном разрешении приближается к 100%, а если есть проблемы (нечёткая печать, недостаточное разрешение, и т.п.) - всё равно процент разпознавания, обычно, в районе 80-90%, такой результат, естественно, не удвлетворит. Да и никого, наверное, не удовлетворит - если 3/4 текста всё равно приходится набивать по новой, а остальное - капитально править, то суммарный объём работы, скорее всего, превысит тот, который будет затрачен на набивание текста "с нуля". Если бы автору удалось кардинально доработать движок - чтобы процент распознавания поднялся хотя бы к 75-80% - я бы, тем не менее, пользовался бы той прогой, на безрыбье. К сожалению, тот проект, вроде, заглох... Хотя, я сейчас сделал быстрый поиск - вот здесь автор программы (Oliver Hellwig) пишет, что надеется к концу года выпустить новую версию, с процентом распознавания 99,5% на хороших документах. До конца года осталось совсем немного, поживём - увидим. Следите за сайтом, ссылку на который я дал выше - наверняка, новая версия появится там.
Profile PM

mezhuev

Стаж: 13 лет

Сообщений: 671

Украина

post 26-Сен-2010 20:58 (спустя 18 минут)

Quote

Спасибо! Вообще странно оно канешна. В Индии миллионов сто живут как в Европе предположим, и миллонов сто как в восточной Европе. Это огромный рынок! Так что оно как то не понятно. По всей Индии люди имеют дело с санскритскими и на хинди текстами, всюду брахманы учат санскрит, хренольён сколько людей говорит и пишет на хинди, во всём мире хренольён индуистов. Огромный рынок, ничуть не меньше российского. Так что там АВВУ могли бы сделать деванагари. Надо написать письмо хозяевам АВВУ :)
Profile PM

valera

Стаж: 13 лет

Сообщений: 3

Индия

post 02-Окт-2010 09:11 (спустя 5 дней)

Quote

Если бы это было выгодно коммерчески, давно бы уже сделали. Fine Reader уже иероглифы и тайское письмо поддерживает самое позднее с 2008 года. В 10-й версии деванагари обещали, но пока не выполнили. Я помню браминское чудо на джаве-экранная клавиатура и обведеное синим кваратиком слово в санскритском скане - супер OCR. Oliver Hellwig - единственный уже больше 5 лет кто серьезно занялся этим вопросом. Он ученый, а не коммерсант. Индусов много но им это не надо. Скорее европейцы это сделают. Проблема только в том, что гуманитариям, которым санскрит нужен, тяжело программирование освоить, а программистам не сильно интересен санскрит.
Profile PM

mezhuev

Стаж: 13 лет

Сообщений: 671

Украина

post 02-Окт-2010 11:20 (спустя 2 часа 9 минут)

Quote

Комерчески это выгодно, в Индии не только нищие живут, там сотни миллионов обеспеченных людей на миллиард нищих - рынок огромный. Плюс миллионы индуистов во всём мире и интеллектуалы санскритологи и ндологи. В Индии делают такие проги, но они сугубо комерческие, не доступные бесплатно. Есть ещё масса програмистов индийцев работающих где нибудь в селиконовой долине, боле чем странно что такого продукта нет.

У меня ещё такой вопрос, а как оцифровать транслитерацию санскрита? Все эти точечки над и под латинской буквой? То же видимо неразрешимая проблемма.
Profile PM

admin

Стаж: 14 лет

Сообщений: 4825

Россия

post 02-Окт-2010 11:40 (спустя 19 минут)

Quote

Всё верно, здравомыслящие индусы уезжают в силиконовые долины... Что нормальным людям в Индии делать - ума не приложу. ap

Для них отечественная общага - это номер люкс..., по сравнению с родными краями. ar
Profile PM

mezhuev

Стаж: 13 лет

Сообщений: 671

Украина

post 02-Окт-2010 12:21 (спустя 40 минут)

Quote

В Индии есть средний класс, есть богатые люди, потом Индия развивается и это предоставляет массу возможностей которых нет в стабильной и консервативной америке-европе-японии. Это родина вконце концов. Вот ни за что и ни на что не променяю свою засранку Украину, это мой дом, здесь всё родное и знакомое, разве что нужда заставит отправится в Европу на заработки. Кстати и наше жильё по сравнению с западным - трущобы, я вот живу в хрущёвке, в Европе и Америке в таких домах просто не живут.
Profile PM

valera

Стаж: 13 лет

Сообщений: 3

Индия

post 02-Окт-2010 13:56 (спустя 1 час 34 минуты)

Quote

mezhuev писал(а):

У меня ещё такой вопрос, а как оцифровать транслитерацию санскрита? Все эти точечки над и под латинской буквой? То же видимо неразрешимая проблемма.
В Fine Readerе давно есть режим работы с обучением. Вот, к примеру, ссылочка.
http://finereader.helpmax.net/ru/%d0%b4%d0%be%d0%bf...%b8%d0%b5%d0%bc/
Работать со сканами с текстом на транслите вполне реально в этом режиме.
Можно посчитать набор этих букв с точечками и черточками в текстовом редакторе проблемой, но это легко решается с помощью Itranslatora, к примеру.
Profile PM

valera

Стаж: 13 лет

Сообщений: 3

Индия

post 12-Окт-2011 16:35 (спустя 1 год)

Quote

Oliver Hellwig теперь коммерсант.
===> OCR programs for Hindi and Sanskrit are now available at ind.senz. <===
Но качество распознавания отличное, по демо-версии это можно определить.
Profile PM
Показать сообщения:    
Ответить на тему

Текущее время: 25-Апр 01:56

Часовой пояс: GMT - 2



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Добро пожаловать на наш трекер, который станет для вас незаменимым пособием по йоге, медитации и источником полезных советов на каждый день в разных жизненных ситуациях. Оставайтесь с нами, приглашайте друзей, делитесь ссылками на понравившиеся вам материалы. С уважением, Администрация сайта goloka.org.ua.

Традиционно, разные школы базируются на двух фундаментальных вопросах: 1) что есть мир, и 2) что\кто есть Я, иными словами чем есть всё то, что воспринимается, и кем есть тот, кто всё это воспринимает. Казалось бы уже у каждого есть ответы на данные вопросы, и потому они более не задаются. Йога базируется на том, что положенные в основу жизнедеятельности (жизни\бытия + деятельности) неверные ответы, на упомянутые выше вопросы, приводят к страданиям, впрочем верно и обратное – утвердившись в истине, достигается состояние противоположное страданиям (порой именуемое противоположным берегом сансары). ). С точки зрения теории - всё достаточно легко, а с точки зрения практики - не всё так просто (ответы, и всё что базировалось на них, повторялось длительное время, и как следствие обладают устойчивой тенденцией к дальнейшему повторению, которое ведет к дальнейшему страданию - теория не прекращает повторения всего того, что повторялось, но указывает на то, что должно прекратить повторяться. В свою очередь, администрация желает вам успехов в практике, которой мало кому хочется заниматься, в результате чего достигается только состояние 1) я знал как должно, 2) но делал как обычно, и 3) получил результат именно из второго пункта, искренне рассчитывая на результат из первого пункта :)

Великие изречения ведических писаний, которые указывают на суть:

1. Прагьянам брахма — «сознание есть Брахман» («Айтарея-упанишада» 3.3 «Ригведы»)
2. Аям атма брахма — «атман есть Брахман» («Мандукья-упанишад» 1.2 «Атхарваведы»)
3. Тат твам аси — «то ты еси» («Чхандогья-упанишада» 6.8.7 «Самаведы»)
4. Ахам брахмасми — «Я есмь Брахман» («Брихадараньяка-упанишада» 1.4.10 «Яджурведы»)