Pensilvaniya Universitetinin tədqiqatçıları gündəlik danışıq dili vasitəsilə səs mühitini fərdiləşdirməyə imkan verən "SmartDj" adlı süni intellekt redaktorunu hazırlayıblar. "Səs üçün ChatGPT" kimi tanınan bu yeni sistem istifadəçilərə mürəkkəb əmrlər əvəzinə, sadəcə "bu səsi səs-küylü ofisə bənzət" kimi təlimatlar verməyə imkan yaradır. Layihənin baş müəllifi Minmin Çjao bildirib ki, istifadəçilər istədikləri nəticəni təbii dildə təsvir edir, sistem isə bunu necə həyata keçirəcəyini özü müstəqil şəkildə müəyyənləşdirir.
Əvvəlki texnologiyalardan nə ilə fərqlənir?
Yeni süni intellekt redaktoru əvvəlki sistemlərin iki əsas məhdudiyyətini aradan qaldırır. Birincisi, köhnə alətlər istifadəçidən hər bir səsi (məsələn, klaviatura səsi, telefon zəngi) tək-tək əlavə etməyi və ya silməyi tələb edən sərt şablonlarla işləyirdi. İkincisi isə, onlar yalnız birtərəfli mono səs formatını dəstəkləyirdi. "SmartDj" isə məkan strukturunu qoruyub saxlayan stereo səs mühitində işləmək üçün xüsusi olaraq dizayn edilib. Bundan əlavə, sistemin şəffaflığı istifadəçilərə hər bir redaktə addımını görməyə və məsələn, 3 desibel səviyyəsindəki telefon zəngini digər səslərə toxunmadan fərdi şəkildə dəyişməyə imkan verir.
"SmartDj" necə işləyir?
Tədqiqatın aparıcı müəllifi Zitonq Lan qeyd edir ki, əvvəllər mətni anlamaq üçün "ChatGPT" və "Siri" kimi dil modellərindən, səsi redaktə etmək üçün isə diffuziya modellərindən ayrı-ayrılıqda istifadə olunurdu. Bu iki fərqli yanaşmanı birləşdirmək üçün mühəndislər yeni Audio-Dil Modeli (ALM) yaradıblar. Bu model istifadəçinin sorğusunu təhlil edərək onu kiçik redaktə addımlarına bölür. Daha sonra diffuziya modeli bu addımları ardıcıl olaraq icra edir. Tədqiqatçı İduo Hao bu prosesi belə izah edir: dil modeli sistemə istiqamət verir, diffuziya modeli isə bu göstərişləri yerinə yetirir.
Gələcək tətbiq sahələri və potensialı
Sistemi öyrətmək üçün lazımi məlumat bazası mövcud olmadığından, komanda böyük dil modellərindən istifadə edərək öz məlumat dəstini sıfırdan yaratmaq məcburiyyətində qalıb. Sınaqlar göstərib ki, "SmartDj" səs keyfiyyəti və məkan reallığı baxımından əvvəlki metodları üstələyir. Hazırda yalnız laboratoriya şəraitində sınaqdan keçirilən bu texnologiyanın gələcəkdə virtual reallıq (VR), artırılmış reallıq (AR), videooyunlar və virtual konfranslarda geniş tətbiq olunacağı gözlənilir. Əsas məqsəd isə səs redaktəsini heç bir peşəkar bacarığı olmayan sıravi istifadəçilər üçün də əlçatan etməkdir.






