PCCar.ru - Ваш автомобильный компьютер

PCCar.ru - Ваш автомобильный компьютер (http://pccar.ru/index.php)
-   Разработка программ (http://pccar.ru/forumdisplay.php?f=27)
-   -   Голосовое управление машиной на русском языке (http://pccar.ru/showthread.php?t=18233)

Rai220 20.11.2012 13:37

Голосовое управление машиной на русском языке
 
Во многих машинах сегодня есть голосовое управление, но работает оно всегда ужасно.
Надо нажимать кнопочку, потом говорить определенную команду.
Распознавание не всегда срабатывает, списки команд запомнить сложно.

Я хочу управлять машиной более свободно, чтобы мочь сказать фразу в любой момент, без предварительной активации. И чтобы пассажир мог сказать. И чтобы команды не заучивать.

Казалось бы, это очень сложно? Но у меня есть домашний проект, который мог бы с этим справиться. Собственно, вот он.

Что хорошо: интернет не требуется, шума не боится. Язык команд может быть очень развитыми. Например, таким (тут другой движок распознавания речи, не тот, что в первом ролике - его я в машину ставить не хочу).
Что плохо: работает пока только под windows, x86 и прочие сопутствующие...

Собственно вопрос к сообществу: интересна ли такая технология в машине? Что бы вы сделали, будь у вас действительно качественная система голосового управления? Может быть только одного меня коробит, что мой автомобиль со мной не здоровается.

admin 21.11.2012 01:38

Можно про движек распознавания по подробнее?
Про Гугл не спрашиваю, так как Вы написали что интернет не используется.
Вы используете софт от компании Nuance Communications?
Или своя Нейронная сеть? Обучалась каким количеством дикторов?

Hamster 21.11.2012 02:07

Посмотрел первое видео и хотел уже автора банить :) Как-то не убедительно было.
После второго видео понял, что разработка реальная. Особенно после того как продукт добрался до инета и популярно объяснил, почему Путин краб :)

Rai220, давай подробности!

Phantom_spb 21.11.2012 02:23

интересно....подробности будут?

admin 21.11.2012 02:28

Я думаю что он ищет спонсора и обьявление все таки рекламное.
Посмотрим, может быть я ошибаюсь и автор появится

Hamster 21.11.2012 02:33

Цитата:

Сообщение от admin (Сообщение 237684)
Я думаю что он ищет спонсора и обьявление все таки рекламное.

Возможно. Я банить хотел за "враки" :)
По функционалу вторая ссылка соизмерима с Siri, но вот какова нагрузка на комп, если мы не используем кнопки активации и "волшебные слова" я не могу оценить.
Вообщем, будем поглядеть :)

admin 21.11.2012 02:48

У меня есть подобный проект, только я использую гугловскую распознавалку
ВИДЕО

Rai220 21.11.2012 12:53

Разработка не фейк, банить не надо :) Собственно, в англоязычном сегменте таким распознаванием никого не удивишь.

Распознавание речи использует решение от Microsoft. От меня к нему добавилась только правильная настройка и знание о том, как его готовить. Обучение компьютера не требуется, обучение человека в принципе тоже, но одни понимает идеально, других хуже. Вот ребенка моего (3.5г), понимает с десятого раза.

Требования к компьютеру умеренные. Думаю, заработает на любой машине, где можно поставить windows 7 и .net 4.5. На ARM, конечно, это никак не портировать, но в данный момент я как раз работаю над проектом, который будет иметь аналогичный функционал на Cortex A10.

А вот требования к микрофонам серьезные. Для дома нужен очень чувствительный микрофон с АРУ. Я использую контроллер Kinect c решеткой из 4-х микрофонов. В машине для водителя можно обойтись более дешевыми решениями. Но вот простого микрофона будет недостаточно совершенно точно. Нужно ориентироваться на цену 1500-2000 рублей в рознице.

Я не очень хочу выкладывать само решение в открытом виде, так как хочется привлечь под него деньги и сделать стартап - либо про умный дом, либо про умный автомобиль. Но инвесторы в очередь не выстраиваются, а сделать что-то хорошее хочется :)

Поэтому хочу написать бесплатный модуль для голосового управления чем-либо. Собственно, хочется оценить, применимо ли это к CarPC, насколько распространен на них windows (подойдет только win 7 и выше) и чем в машине хотелось бы управлять.

Цитата:

Сообщение от admin (Сообщение 237691)
У меня есть подобный проект, только я использую гугловскую распознавалку

Здорово! Занимаемся аналогичными проектами. Собственно, выше упомянуто видео про "путин - краб", там тоже гугловская распознавалка используется. А вы свой проект не думали на авто применять? Понимаю, что требования к интернету здесь критичны, но я, например, со своим гугл смартфоном вполне сносно могу поговорить череж 3g, сидя в пробке.

admin 21.11.2012 13:05

Система для управления умным домом уже есть и судя по их форуму она не не пользуется огромным спросом
http://www.youtube.com/watch?v=YFATn...layer_embedded

awtoap 21.11.2012 13:41

Читал про голосовое и умный дом в частности на форумах в ознакомительных целях и спросом действительно не пользуется. У людей очень разные понятие "что нужно для счастья" в доме. А ценники порой не адекватные. И нужно изначально закладывать инфраструктуру коммуникаций по дому (проводку), что означает порой полный ремонт дома. По видео выше видно, что это идеализированное представление, в реальности, думаю, работает хуже. И постоянно произносить кодовое слово (тоже Ева) задолбает. Даже в авторском варианте пауза для распознавания довольно большая и как сам пишет распознает одних нормально, а других с 10 раза, по этому скажем меня это точно бы вывело бы из себя после третьего повтора команды ))).

В авто тоже можно попробовать распознавалку, но я не вижу особого смысла в этом ибо не так много нужно совершать действий в авто, а тем более повторяющихся операций (я не беру в расчет дергание коробкой).

Конечно можете выложить библу в ознакомительных целях. Даже самому стало немного интересно. Скажем постановка на охрану(запуск двигла и тд) голосом у многих прохожих вызовет шок. А тем более чикса приятным голосом дублирует команды(правда её еще нужно записать) )))

Hamster 21.11.2012 13:50

Меня от умного дома остановило только одно - ремонт хороший, а для того, чтобы сделать все красиво необходимо дофига коммуникаций заново проложить :( А если на радиореле строить - без штанов останешься.
Поэтому остановился пока на банальной видеорегистрации с возможностью удаленного просмотра.

admin 21.11.2012 14:03

Цитата:

По видео выше видно, что это идеализированное представление, в реальности, думаю, работает хуже. И постоянно произносить кодовое слово (тоже Ева) задолбает.
Я сделал управление проще, можно слово триггер и команду произносить в одном предложении
например: "Ева, включи свет"
Мало того можно говорить что угодно, но главное произнести в предложении триггер и команду, например: "Евачка дура, давай включай быстрее свет" или так
"включай быстрее свет Евачка тупица"

Все это реализовал на роутере WR703N, но так как я с линуксом пока еще на Вы, то не могу разобраться с драйвером звуковой карты.
При ресемплировании тормозит, а без ресемплирования получается огромной длины фаил, что приводит к большим паузам между командой и ее выполнением
Как настроить драйвер Alsa что бы по дефолту частота была 8000Гц , а не 44000 Гц я не знаю.

awtoap 21.11.2012 14:09

Так вот и вопрос...нужно обучать систему на корневые составляющие слова или сама поймет? Типа включи, включай, вкличинах свет(освещение, люстру)?

И самое главное какая помехозащищенность в распознавание скажем при работающем телеки (радио и тд)?

admin 21.11.2012 14:32

Если говорить о собеседнике, то он сам поймет, если его этому обучали в процессе общения

Если рассматривать командный процессор , то нужно будет написать корни всех возможных команд и триггеров в конфиге

Цитата:

И самое главное какая помехозащищенность в распознавание скажем при работающем телеки (радио и тд)?
У системы можно настроить порог срабатывания.
При средней громкости телевизора работает нормально, ложные срабатывания где то 10%

Rai220 21.11.2012 14:54

Цитата:

Сообщение от awtoap (Сообщение 237735)
Читал про голосовое и умный дом в частности на форумах в ознакомительных целях и спросом действительно не пользуется.

Потому и не пользуется, что работает плохо. Я на форуме этого проекта выложил свое видео, там тоже возникло мнение, что это фейк :) Дескать мы уже много лет над распознаванием работаем, не мешай... :)

Цитата:

Сообщение от awtoap (Сообщение 237735)
даже в авторском варианте пауза для распознавания довольно большая

Нет, на видео тормозит как ни странно синтез. В другом моем проекте используется тот же механизм распознавания и железо мощнее, скорость ответа близка к живому человеку.

Цитата:

Сообщение от admin (Сообщение 237740)
Как настроить драйвер Alsa что бы по дефолту частота была 8000Гц , а не 44000 Гц я не знаю.

А нет смысла настраивать на 44000. Если используете google через нелегальный api от хрома, то его родная частота - 16кГц.

Гугл плохо подходит для умного дома как раз потому, что распознать что-либо на расстоянии с ним очень проблематично. Попробуйте записать голос с трех метров и распознать - ничего не получится.

Помехозащищенность конкретно в моем случае спорная. Простые шумы вроде, вроде звука вытяжки или даже пылесоса особо не мешают. Но вот если в одной комнате кто-то болтает, то отдать системе команду практически невозможно. Необходимо, чтобы за пару секунд до команды все остальные люди перестали громко говорить хотя бы в течении пары секунд. С телевизором скорее всего будет та же ерунда.

В машине с этим проще бороться, т.к. мы точно знаем, где сидит "командир" и можем навести на него микрофоны.

awtoap 21.11.2012 15:28

В том то и проблема, что в авто может находится не один человек...ну скажем дети на заднем сиденье и сказать что бы они замолкли, а то я буду заклинание произносить с первого раза вряд ли получиться ))).

По этому для продвижения на рынок в том виде, в котором оно сейчас есть мало перспективно...игрушка и не более. А в нашей стране люди хотят сегодня лимон вложить, но завтра (в буквальном смысле слова) уже получить десять и не о каких годах внедрения и речи быть не может!

Зы. В видяхе пылесос какой то медлительный )))

admin 21.11.2012 15:57

Цитата:

Гугл плохо подходит для умного дома как раз потому, что распознать что-либо на расстоянии с ним очень проблематично. Попробуйте записать голос с трех метров и распознать - ничего не получится.
У меня используется микрофон с АРУ и распознает отлично с 5 метров


Цитата:

А нет смысла настраивать на 44000. Если используете google через нелегальный api от хрома, то его родная частота - 16кГц.
Вот поэтому я и ищу решение, как настроить драйвер. Использовать постоянно включенный компьютер, тоже является серьезным тормозом развития этой технологии

Цитата:

Но вот если в одной комнате кто-то болтает, то отдать системе команду практически невозможно. Необходимо, чтобы за пару секунд до команды все остальные люди перестали громко говорить хотя бы в течении пары секунд. С телевизором скорее всего будет та же ерунда.
Если настроить чувствительность на повышенный тон, то все прекрасно работает

Цитата:

В машине с этим проще бороться, т.к. мы точно знаем, где сидит "командир" и можем навести на него микрофоны.
А вот в автомобиле эта технология не особо востребована, потому как мне проще нажать кнопку, благо они в автомобиле все рядом или на руле.

Rai220 24.11.2012 15:57

Я познакомился с разработчиками iCar DS и решил попробовать сделать плагин голосового управления для этой системы. Но прежде всего буду проводить "полевые испытания" того, как система себя чувствут в автомобиле с точки зрения её акустического комфорта.

Сегодня собрал "автомобильную" версию словаря, которая позволяет командовать светом. Вот она:

http://www.youtube.com/watch?v=v0_83xKzCco

Теперь вопросов к скорости реакции лично у меня нет. К "ключевым словам" вне контекста тоже очень устойчива.

В примере словарь описывает 1500 выражений, отличающихся по смыслу и около 10 000 различных выражений. Всякие окончания (два-две-двух) фильтруются как погрешность.

Осталось проверить на улице.

P.S. Вопрос не в тему, но хотелось бы подключить эту штуку, напрямую к авто. Машина toyota prius 3. Кто-нибудь знает, есть ли шанс управлять в ней чем-нибудь с помощью elm327, или эта штука только читает?

admin 24.11.2012 17:18

У Тойоты есть CAN и Avc-Lan

Rai220 03.12.2012 01:50

Первая проба подружить голос и CarDS в авто. Получается интересно, но точно есть, куда двигаться.

http://youtu.be/0U842AGUQBM

Hamster 03.12.2012 02:06

Очень жизненно :) Т.е. я имею ввиду, что в условиях машины система ведет себя очень адекватно и предсказуемо :) И хоть на мой взгляд фраза "Включить навигацию" не сильно круче нажатия кнопки Navi на торпеде - идея безусловно имеет право на реализацию, да что там - просто здорово :)
Большой плюс этой системы будет тогда, когда она позволит голосом проговаривать не простые команды (которые сейчас дублируются физическими кнопками в авто), а гораздо более сложные. Ну, к примеру:
- найти ближайшую заправку на маршруте и проложить маршрут через нее
- сообщить мне, если мы будем проезжать недалеко от отделения Альфабанка
Т.е. на сколько я понимаю - распознать голос тут будет не сложно, а вот заставить софт установленный в carpc сделать это будет весьма непросто.

З.Ы. И это, аккуратнее при съемках за рулем.... Мало ли что - и ночью такие дебилы на дорогах попадаются, мама не горюй...

wladkom1953 03.12.2012 02:33

Занятное видео,заманчивые перспективы для авто. Буду с интересом наблюдать за этой темой.

sirota 05.12.2012 09:56

Rai220

Когда можно будет затестить ''управление''?

Rai220 10.12.2012 01:30

Цитата:

Сообщение от sirota (Сообщение 239217)
Rai220
Когда можно будет затестить ''управление''?

Надеюсь, что на зимних праздниках у меня будет время все доделать и выпустить бета-версию. Но обещать не буду, т.к. проект любительский и делается от раза к разу, когда выдается свободная минутка.

Новости о ходе разработки буду выкладывать в этом топике.

Только что протестировал работу с направленными микрофонами. Стало лучше. Система хорошо меня понимает, даже если я включаю музыку на 50% громкости (сложно, конечно, объяснить, сколько это в дБ... у меня штатная тойотовская система на 8 колонок с усилком. 50% это довольно громко, просто так столько не включаю). Если по радио идет сплошная болтовня, то допустимая громкость снижается до 40%, что тоже неплохо.

Работа с микрофонами продолжается.

Вот видео, где система отвечает на вопросы о регионах (что за регион 197?).

admin 10.12.2012 01:40

А микрофон на webcam Logitech не тестил?

Rai220 10.12.2012 09:34

Цитата:

Сообщение от admin (Сообщение 239809)
А микрофон на webcam Logitech не тестил?

Нет, в машине логитеч пока не пробовал. Пробовал хорошую камеру Creative. Но с камерами проблема общая - они хорошо слышат все, а АРУ к тому же все звуки выводит на один уровень.

(Кстати, чуть оффтоп - у меня действительно получилось распознавать гуглом с пяти метров! Правда только в небольших комнатах с большим количеством мебели. Чуть места становится больше, реверберация начинает всё запарывать).

sirota 10.12.2012 10:18

Цитата:

Надеюсь, что на зимних праздниках у меня будет время все доделать и выпустить бета-версию.
Ждем с нетерпением.:yes4:
Думаю эта интересная феничка(безопастного управление компом, во время движения) многим понравится, и тем более у кого нет рулевых кнопок, и джостиков.

filinmd 10.12.2012 10:32

Цитата:

Сообщение от sirota (Сообщение 239821)
Ждем с нетерпением.:yes4:
Думаю эта интересная феничка(безопастного управление компом, во время движения) многим понравится, и тем более у кого нет рулевых кнопок, и джостиков.

+1!! Я хотел реализовать подобное на плате распознавания голоса , но по сравнению с этот системой , мой вариант нервно курит в сторонке :)

toyotik 10.12.2012 15:59

+1. Ох как хочется уже потестить)))

toyotik 12.12.2012 15:12

Rai220 у меня есть еще стимул для применения в своей сфере ( системы безопасности) Прикольно будет если охранник будет брать под охрану здание голосом)))

CyberSubaru 12.12.2012 16:29

Цитата:

Сообщение от Rai220 (Сообщение 237728)
Распознавание речи использует решение от Microsoft.

Так и подумал сразу - Микрософт Спич.

Тоже работаю с этим. Только синтезом.

CyberSubaru 12.12.2012 16:31

А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.

MiD_E34 12.12.2012 16:36

Цитата:

Сообщение от CyberSubaru (Сообщение 240068)
А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.

Ларингофоны )

CyberSubaru 12.12.2012 16:47

Цитата:

Сообщение от Hamster (Сообщение 238992)
Очень жизненно :) Т.е. я имею ввиду, что в условиях машины система ведет себя очень адекватно и предсказуемо :) И хоть на мой взгляд фраза "Включить навигацию" не сильно круче нажатия кнопки Navi на торпеде - идея безусловно имеет право на реализацию, да что там - просто здорово :)
Большой плюс этой системы будет тогда, когда она позволит голосом проговаривать не простые команды (которые сейчас дублируются физическими кнопками в авто), а гораздо более сложные. Ну, к примеру:
- найти ближайшую заправку на маршруте и проложить маршрут через нее
- сообщить мне, если мы будем проезжать недалеко от отделения Альфабанка
Т.е. на сколько я понимаю - распознать голос тут будет не сложно, а вот заставить софт установленный в carpc сделать это будет весьма непросто.

З.Ы. И это, аккуратнее при съемках за рулем.... Мало ли что - и ночью такие дебилы на дорогах попадаются, мама не горюй...


Не один ТС озадачен этим :-)

Rai220 12.12.2012 21:11

Цитата:

Сообщение от toyotik (Сообщение 240057)
Rai220 у меня есть еще стимул для применения в своей сфере ( системы безопасности) Прикольно будет если охранник будет брать под охрану здание голосом)))

Если есть коммерческое предложение, то можем обсудить :) Я, кстати, тоже в сфере безопасности работал в свое время. Писал ПО Lyrix.

Цитата:

Сообщение от CyberSubaru (Сообщение 240068)
А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.

Это решаемо. Во-первых нужен направленный микрофон (вернее решетка микрофонов с фокусировкой), во-вторых часть музыки можно убрать, с помощью вычитания эха, если сигнал проходит через CarPC.

admin 13.12.2012 02:05

Цитата:

Сообщение от CyberSubaru (Сообщение 240068)
А вообще распознание речи в машине - дело проблематичное.
Например у меня постоянно ОРЕТ музыка.
И что можно распознать на таком фоне?
И я не одинок.

У меня в автомобиле штатное распознавание установленно.
Так там все просто, нажал кнопку на руле, все что играло, сразу заткнулось и в ответ приятный женский голос предлагает, что бы я голосом надиктовал команду

Rai220 13.12.2012 12:09

Цитата:

Сообщение от admin (Сообщение 240168)
У меня в автомобиле штатное распознавание установленно.
Так там все просто, нажал кнопку на руле, все что играло, сразу заткнулось и в ответ приятный женский голос предлагает, что бы я голосом надиктовал команду

Да, у меня точно такое же... нажал кнопку, прослушал инструкцию, сказал после сигнала один из 10-15 вариантов. Работает очень хорошо, но меня не впечатляет.

Некоторые функции находятся аж на третьем уровне вложенности, команды надо запоминать, т.к. если читать их с экрана, то смысл теряется.

А еще кнопка на руле - вещь не удобная, т.к. в повороте на неё нажимать не удобно (а ведь бывают и затяжные повороты (баблочка + пробка)).

В итоге я в этой системе использую только команду "домой", хотя она позволяет и выбирать категории POI и музыкой рулить по всей программе и по телефону звонить.

CyberSubaru 13.12.2012 17:32

Цитата:

Сообщение от Rai220 (Сообщение 237728)
Я не очень хочу выкладывать само решение в открытом виде, так как хочется привлечь под него деньги и сделать стартап - либо про умный дом, либо про умный автомобиль. Но инвесторы в очередь не выстраиваются, а сделать что-то хорошее хочется :)

Если и выстроятся - то эдак лет через 20. Сейчас не те условия. Люди не готовы ставить себе в автомобиль дорогостоящее оборудование, чтобы покататься 2-3 года и автомобиль продать. Салонам тоже невыгодно - резко вырастит стоимость авто.
То что нужно - ученые уже разработали. Несколько лет назад роботы ездили по США и вполне успешно.
Массового пользователя сложно заинтересовать инновациями. Потому как людям что надо от автомобиля:
* чтобы перевез попу из точки А в точку Б - большинству
* чтоб был повыше, дабы не цеплять бордюры - для девушек
* чтоб рычал и пшыкал - для стритейсеров
* чтоб в нем было много места, 4вд - семейный
* чтоб был крутой - для имиджа
* джип - типа круто, даже если все время по городу ездить
* чтоб просто ездил и не ломался - низкобюджетный
* чтоб был вот такого цвета - для капризных
* ну и частные случаи там оффроудеры всякие

Вот такие сейчас тенденции на автомобильном рынке.
Большинству по-барабану всякие там няшечки, рюшечки и прочее.
У меня многие видели в машине комп - но вряд ли кто себе такое же захотел. Ибо весь тюнинг музыки как проходит в большинстве случаев - пойти на рынок/магазин и купить другую магнитолу. Если вообще не мп3-фм-модулятор.

Говорю как человек, который профессионально приобретает автомобили несколько лет. Что хотят люди от автомобиля мне куда виднее.

Вообще я делаю подобную вещь. Давай спишемся?

saber_vs 10.01.2013 13:52

неужели тема заглохла?

Rai220 12.01.2013 14:10

Цитата:

Сообщение от saber_vs (Сообщение 242450)
неужели тема заглохла?

Тема не заглохла, но остро встал вопрос тестирования. Нужно собрать данные о том, когда программа хорошо работает, а когда лажает.

Я был бы очень рад, если бы нашлись желающие проверить работу программы, показанной выше, которая отвечает на вопрос "что за регион XXX"?


Часовой пояс GMT +4, время: 07:19.

Работает на vBulletin® версия 3.8.4.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot