"OpenAI" şirkəti səsli süni intellektin imkanlarını genişləndirərək API vasitəsilə üç yeni audio modelini təqdim edib. GPT-Realtime-2, GPT-Realtime-Translate və GPT-Realtime-Whisper adlanan bu modellər canlı səsli ünsiyyət sahəsində müxtəlif tapşırıqları yerinə yetirmək üçün nəzərdə tutulub. Şirkətin məlumatına görə, yeniliklər avtomobil idarə edərkən, hava limanlarında naviqasiya zamanı və ya müştəri xidmətlərində mətn yazmadan səsli proqram təminatını daha faydalı etməyi hədəfləyir.
"GPT-Realtime-2" modelinin üstünlükləri nələrdir?
Flaqman model olan GPT-Realtime-2, şirkətin GPT-5 səviyyəli düşünmə qabiliyyətinə malik ilk səsli modeli kimi xarakterizə olunur. Sistem daha mürəkkəb sorğuları emal etməyi, müdaxilələri idarə etməyi və təbii söhbət axınını qorumağı bacarır. Əsas xüsusiyyətlərdən biri alətlərdən real vaxt rejimində istifadə dəstəyidir: tərtibatçılar süni intellektə istifadəçilərlə danışarkən təqvimlərə və ya axtarış sistemlərinə daxil olmaq imkanı verə bilərlər. Modelin kontekst pəncərəsi 32K-dan 128K tokenə qədər genişləndirilib ki, bu da konteksti itirmədən daha uzun dialoqlar aparmağa imkan yaradır.
"OpenAI" qeyd edir ki, yeni model tibbi leksika və xüsusi isimlər daxil olmaqla sahə terminologiyasını daha yaxşı başa düşür. Test nəticələrinə əsasən, GPT-Realtime-2 əvvəlki GPT-Realtime-1.5 versiyası ilə müqayisədə "Big Bench Audio" sınaqlarında 15,2%, "Audio MultiChallenge" testlərində isə təlimatlara əməl etmə göstəriciləri üzrə 13,8% daha yüksək nəticə nümayiş etdirib. Bu yeniliklər şirkəti "Google Gemini Live" ilə birbaşa rəqabətə aparır.
Tərcümə və transkripsiya imkanları necə işləyir?
İkinci model olan GPT-Realtime-Translate real vaxt rejimində tərcümə üçün nəzərdə tutulub və danışanın sürətinə ayaq uyduraraq 70-dən çox giriş dilindən 13 çıxış dilinə sinxron tərcüməni dəstəkləyir. Artıq "Deutsche Telekom" şirkəti bu texnologiya əsasında müştəri dəstəyi alətləri hazırlayır. Üçüncü model GPT-Realtime-Whisper isə birbaşa mətn yayımına diqqət yetirərək, insan danışdıqca nitqi anında mətnə çevirir.
Bu texnologiya nə üçün vacibdir?
"OpenAI" bəyan edir ki, əsas məqsəd sadə səsli köməkçilərdən söhbət əsnasında tapşırıqları aktiv şəkildə yerinə yetirə bilən sistemlərə keçid etməkdir. Məsələn, "Zillow" şirkəti yalnız səsli sorğular əsasında evləri axtara, seçimləri filtrləyə və baxış təyin edə bilən səsli asistent hazırlayır. Yeni modellər real vaxt sistemlərini danışıq zamanı dinləyə, düşünə, tərcümə edə və hərəkətə keçə bilən tamhüquqlu agentlərə daha da yaxınlaşdırır.






