Recenzja Microsoft Azure: najnowocześniejsza recenzja przetwarzania głosu

Microsoft Azure Speech to Text to jedna z najbardziej zaawansowanych platform rozpoznawania głosu. W ramach oferty Microsoft Cognitive Speech Services wykorzystuje algorytmy głębokiego uczenia się w celu przezwyciężenia złej jakości dźwięku i może dostosować się do różnych stylów mówienia w celu dokładnej transkrypcji dźwięku. W tej recenzji mowy na tekst Microsoft Azure przyjrzymy się bliżej tej usłudze. 

Warto zauważyć, że funkcja Microsoft Azure Mowa na tekst nie jest tradycyjnym przyjaznym dla użytkownika oprogramowaniem do dyktowania. Zamiast tego jest to platforma zorientowana na programistów, która pomaga firmom tworzyć, testować i zarządzać własnymi produktami. Jeśli chcesz transkrybować partię plików audio, lepszym rozwiązaniem mogą być alternatywne aplikacje syntezatora mowy. Zapoznaj się z naszym przewodnikiem po najlepszych programach konwersji tekstu na mowę, aby znaleźć najlepsze alternatywy.

Microsoft Azure Mowa na tekst: Plany i ceny

Korzystając z usługi Microsoft Azure Mowa na tekst, możesz bezpłatnie transkrybować do pięciu godzin dźwięku i utworzyć jeden niestandardowy model głosu na miesiąc. Jednak w przypadku bezpłatnego abonamentu jednorazowo dostępne jest tylko jedno jednoczesne żądanie audio, co oznacza, że ​​ta opcja nie jest wykonalna dla większości firm.

Fakturowanie za usługę Azure Azure jest podzielone na jednosekundowe przyrosty. (Źródło obrazu: Microsoft)

Jeśli chcesz transkrybować więcej niż jeden klip mowy jednocześnie, musisz uaktualnić do standardowego systemu cenowego Azure. To kosztuje 1 USD za godzinę dźwięku i obsługuje do 20 jednoczesnych żądań. W przypadku korzystania z niestandardowego modelu audio lub transkrypcji wielokanałowych plików dźwiękowych obowiązują dodatkowe opłaty. Te dodatkowe usługi kosztują odpowiednio 1,40 USD i 2,10 USD za godzinę audio.

Chociaż Microsoft wymienia ceny w “na godzinę audio” format, zgodnie ze standardem branżowym, fakturowanie jest podzielone na przyrosty jednosekundowe, więc nie zapłacisz za czas przetwarzania dłuższy niż wymagany.

Microsoft Azure Mowa na tekst: Funkcje

Kluczową funkcją Azure Speech to Text jest dostęp do potężnego systemu przetwarzania języka naturalnego firmy Microsoft. W ciągu ostatnich kilku lat sztuczna inteligencja mowy Microsoft osiągnęła kilka ważnych etapów. Oznacza to, że może teraz wykonywać zadania, które wcześniej były niemożliwe dla usługi rozpoznawania mowy, takie jak dokładne transkrybowanie rozmowy podczas rozmów w małych grupach.

Usługa Microsoft Azure Mowa na tekst może zostać zintegrowana z Office 365 w celu uzyskania optymalnej dokładności. (Źródło obrazu: Microsoft)

Platforma Azure współpracuje z dziesiątkami języków i dialektów i można ją szkolić – korzystając z niestandardowych modeli rozpoznawania mowy – aby lepiej dostosować się do stylu mówienia użytkownika, hałasu otoczenia i słownictwa. Jeśli Twoja organizacja jest już zaangażowana w ekosystem produktów Microsoft, możesz wykorzystać dane Office 365 użytkownika, aby lepiej poprawić dokładność rozpoznawania mowy dla warunków specyficznych dla organizacji. Co ważne, można tego dokonać bez narażania bezpieczeństwa danych, ponieważ funkcję zamiany mowy na tekst można uruchamiać lokalnie.

Microsoft Azure Mowa na tekst: Instalator

Microsoft Azure został zaprojektowany raczej dla programistów niż konsumentów. Oznacza to, że konfiguracja jest zaangażowaną i nieco trudną procedurą, którą najlepiej pozostawić osobie z dużym doświadczeniem technicznym. 

Konfigurowanie platformy Azure nie jest proste, chyba że masz doświadczenie w programowaniu. (Źródło obrazu: Microsoft)

Najszybszym sposobem skonfigurowania platformy Azure jest użycie zestawu Azure Speech SDK w języku programowania, takim jak Java lub C ++. W tym celu musisz zarejestrować bezpłatne konto platformy Azure i utworzyć pusty projekt w środowisku programistycznym. Następnie musisz użyć Microsoft Visual Studio i napisać krótki program do zainicjowania obiektu Microsoft SpeechRecognizer. 

Microsoft Azure Mowa na tekst: Interfejs

Podobnie jak inne platformy do masowej transkrypcji, Microsoft Azure Mowa na tekst ma być uruchamiany jako interfejs programowania aplikacji (API), dodawany do programów Office 365 lub zintegrowany z nowymi platformami i usługami. Z tego powodu nie ma jednego interfejsu Azure Mowa na Tekst. To, co zobaczy użytkownik końcowy, zależy od sposobu integracji usługi Azure Speech to Text.

Portal internetowy Azure jest intuicyjny i łatwy w użyciu. (Źródło obrazu: Microsoft)

Tymczasem programista zarządzający platformą Azure zrobi to za pośrednictwem internetowego portalu Azure firmy Microsoft, który jest nowoczesny i łatwy w nawigacji. Zlokalizowanie strony zasobów usług mowy zajmuje tylko kilka minut, a po dodaniu instancji do konta alarmy monitorowania i użycie można wyświetlić w jednym oknie.

Microsoft Azure Mowa na tekst: Wydajność

W ramach naszego przeglądu mowy na tekst Microsoft Azure chcieliśmy zobaczyć, jak ta platforma poradziła sobie z wyzwaniem przetwarzania nieprzetworzonych nagrań głosowych, więc gdy nasze konto platformy Azure było gotowe do pracy, przesłaliśmy serię klipów o różnym poziomie hałasu w tle . Ogólnie rzecz biorąc, Azure wykonało dobrą robotę, przetwarzając nasze próbki, ponieważ w trakcie naszej oceny zauważyliśmy niewiele błędów.

Włączenie niestandardowego modelu mowy Azure poprawiło naszą dokładność transkrypcji. (Źródło obrazu: Microsoft)

Platforma Azure nieco zmagała się z przetwarzaniem nietypowych lub specjalistycznych zwrotów, takich jak nazwy drużyn sportowych i terminy naukowe, ale szybko to rozwiązano, włączając opcję wyjścia modelu niestandardowego. Po aktywowaniu tej opcji Azure była w stanie dostosować się do unikalnego słownictwa i stylu mówienia, którego używaliśmy.

Microsoft Azure Mowa na tekst: Wsparcie

Aby dowiedzieć się, jak współpracować z zestawem SDK usługi Azure Speech Services za pośrednictwem różnych języków programowania i zintegrować funkcje Azure Speech to Text na własnej platformie, zdecydowanie potrzebujesz pomocy. Na szczęście Microsoft stworzył obszerny katalog materiałów szkoleniowych dla platformy Azure, w którym znajdziesz przykłady kodu i przydatne wskazówki. 

Sekcja szkoleniowa witryny Azure zawiera wiele pomocnych zasobów. (Źródło obrazu: Microsoft)

Ponadto wszyscy klienci platformy Azure otrzymują bezpłatną obsługę rozliczeń i zarządzania subskrypcjami, do której można uzyskać dostęp za pośrednictwem systemu biletów. Bardziej szczegółowe wsparcie można dodać do konta za powtarzającą się opłatą, zaczynając od 29 USD miesięcznie.

Microsoft Azure Mowa na tekst: ostateczny werdykt

Platforma Azure Speech to Text wykorzystuje najnowocześniejszą technologię, aby zapewnić niemal idealną usługę transkrypcji. Jest najbardziej odpowiedni dla firm, które już zainwestowały w ekosystem Microsoft Office 365, ponieważ niestandardowe modele głosu i słownictwa można bezpiecznie wygenerować z istniejącego archiwum dokumentów. Niektóre małe firmy mogą mieć problemy z platformą Azure, ponieważ jej prawidłowe skonfigurowanie wymaga uwagi wykwalifikowanego programisty chmury Microsoft.

Konkurs

Amazon Transcribe, Google Cloud Speech-to-Text oraz Watson Speech to Text są bezpośrednimi konkurentami dla Microsoft Azure. Te trzy platformy są również w stanie dokładnie wykonywać transkrypcje partii o dużej objętości. Google Cloud jest jedynym bliskim konkurentem zdolnym do pracy w większej liczbie języków niż Azure, a także jest tańszy, ze stawką początkową wynoszącą zaledwie 0,006 USD za minutę w porównaniu do 0,017 USD na platformie Azure.

Aby znaleźć inne alternatywy dla usługi Microsoft Azure Mowa na tekst, zapoznaj się z naszym przewodnikiem po najlepszym oprogramowaniu syntezatora mowy.