V Seminarium CSZ CI

Cykl seminariów organizowanych przez Centrum Studiów Zaawansowanych oraz Centrum Informatyzacji Politechniki Warszawskiej pod wspólnym tytułem „Problemy, metody i obliczenia wielkoskalowe oraz wyzwania modelowania inżynierskiego i biznesowego” przewiduje 8 tematów realizowanych we wtorkowe popołudnia roku akademickiego 2014/2015 w sali 134 Gmachu Głównego PW.

2 grudnia przewidziane jest seminarium pt. "Statystyczne tłumaczenie mowy".

Wykład wygłosi: dr hab. Krzysztof Marasek z Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych.

Streszczenie:Tłumaczenie mowy (SLT) jako element komunikacji międzyludzkiej staje się coraz istotniejsze w zglobalizowanym świecie. Jest to jedno z największych wyzwań dla automatycznego rozpoznawania mowy (ASR) i tłumaczenia maszynowego (MT), a intensywne prace badawcze w tych dziedzinach prowadzone są zarówno w instytutach badawczych jak i laboratoriach największych firm. Wcześniejsze badania nad SLT, ze względu na ograniczenia technologiczne, koncentrowały się głównie na wypowiedziach nagranych w kontrolowanych warunkach, dziś głównym wyzwaniem jest tłumaczenie z języka mówionego, jaki można znaleźć w codziennym życiu. Rozpatrywane scenariusze obejmują szeroki zastosowań: od przenośnych tłumaczy dla turystów, poprzez tłumaczenie na żywo wykładów, prezentacji, wiadomości do ich prezentacji z napisami w dodatkowym języku. Chcielibyśmy przedstawić doświadczenia w PJWSTK w SLT zdobyte w projekcie EU-Bridge (VII PR EU) i działaniach konsorcjum U-Star dla pary języków polski/angielski. Przedstawione badania koncentrują się na adaptacji ASR dla języka polskiego (modele akustyczne: trening DBN-BLSTM, transformacje LDA + MLLT + SAT + MMI), modelowaniu języka  na potrzeby ASR & MT (normalizacja tekstu wykorzystująca sieci LSTM, domenowa interpolacja modeli n-gramowych) i statystycznych technikach tłumaczenia (modele hierarchiczne, modele z wykorzystaniem dodatkowych czynników (factored models), korpusy porównywalne i dwujęzyczne). Zagadnienia te wymagają przetwarzania ogromnych zbiorów danych, a trening modeli prowadzi się zazwyczaj na strukturach gridowych.

Pełen program cyklu TUTAJ