ISSN: 1814-3520(print)
ISSN: 2500-1590(online)
12+
Вестник Иркутского государственного технического университета
Поиск по сайту

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АВТОМАТИЗАЦИИ МОДЕЛИРОВАНИЯ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ И ВОКАЛЬНЫХ ИСПОЛНЕНИЙ

Якимук Алексей Юрьевич , Конев Антон Александрович , Осипов Андрей Олегович

2017 / Том 21, №10 (129) 2017 [ ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ ]

ЦЕЛЬ. В данной работе рассматривается проблема автоматизации моделирования сегментации речевых сигналов и вокальных исполнений. МЕТОДЫ. Специфика исследования заключается в попытке установить степень влияния предлагаемого алгоритма, определяющего качество сегментации, на качество идентификации нот. С помощью данного алгоритма представляется возможным оценить как корректность границ для сегментов, выделенных вручную, так и правильность автоматически определенных вокализованных и невокализованных участков при распознавании нот. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ. Результатом проведенного исследования стала модификация программного комплекса, заключающаяся в разработке алгоритма определения качества сегментации. Применение этого алгоритма совместно с алгоритмом автоматической сегментации позволит получать результаты с таким же высоким уровнем качества, как и при ручной сегментации. ВЫВОДЫ. Применение алгоритма определения качества сегментации в программном комплексе способно сократить трудозатраты в десятки раз без потери качества точности найденных границ.

Ключевые слова:

сегментация, речевые технологии, основной тон, распознавание нот, вокальное исполнение, автоматизация обучения, обработка звука

Библиографический список:

  1. Бондаренко В.П., Конев А.А., Мещеряков Р.В. Обработка речевых сигналов в задачах идентифи-кации // Известия высших учебных заведений. Физика. 2006. Т. 49. № 9. С. 207–210.
  2. Конев А.А., Онищенко А.А., Костюченко Е.Ю., Якимук А.Ю. Автоматическое распознавание музыкальных нот // Научный вестник Новосибирского государственного технического университета. 2015. № 3 (60). С. 32–47.
  3. Benati N., Bahi H. Spoken term detection based on acoustic speech segmentation // 2016 7th International Conference on Sciences of Electronics, Technologies of Information and Telecommunications. SETIT 2016. 2017. P. 267–271.
  4. Kamper H., Jansen A., Goldwater S. A segmental framework for fully-unsupervised large-vocabulary speech recognition // Computer Speech and Language. 2017. Vol. 46. P. 154–174.
  5. Pakoci E., Popovic B., Jakovljevic N., Pekar D., Yassa F. A Phonetic Segmentation Procedure Based on Hidden Markov Models // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. P. 67–74.
  6. Biagetti G., Crippa P., Falaschetti L., Orcioni S., Turchetti C. Speaker identification in noisy conditions using short sequences of speech frames // Smart Innovation, Systems and Technologies. 2017. Vol. 73. P. 43–52.
  7. Рахманенко И.А. Программный комплекс для идентификации диктора по голосу с применением параллельных вычислений на центральном и графическом процессорах // Доклады ТУСУР (Томского государственного университета систем управления и радиоэлектроники). 2017. Т. 20. № 1. С. 70–74.
  8. Kokkinidis K., Stergiaki A., Tsagaris A. Error proving and sensorimotor feedback for singing voice // ACM International Conference Proceeding Series. 3rd International Symposium on Movement and Computing. MOCO 2016. Vol. 05-06-July-2016.
  9. Marxer R., Purwins H. Unsupervised incremental online learning and prediction of musical audio signals // IEEE/ACM Transactions on Audio Speech and Language Processing. 2016. Vol. 24 (5). P. 863–874.
  10. Конев А.А. Модель и алгоритмы анализа и сегментации речевого сигнала: автореф. дис. … канд. техн. наук. Томск, 2007. 20 с.
  11. Brognaux, S., Roekhaut, S., Drugman, T., Beaufort, R. Train&Align: a new online tool for automatic phonetic alignment. // IEEE Signal Processing Society. Spoken Language Technology Workshop (SLT). 2012. P. 416-421.
  12. Zajic Z., Kunesova M., Radova V. Investigation of Segmentation in i-Vector Based Speaker Diarization of Telephone Speech // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. P. 411–418.
  13. Якимук А.Ю., Егошин Н.С., Осипов А.О., Боков И.М. Повышение качества идентификации нот в автоматизированной системе распознавания вокала // Электронные средства и системы управления. 2016. № 1–2. С. 29–32.

Файлы:

Язык

Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная
Количество скачиваний:8041