Getty Images
Gruplar halinde insanlar etraflarındaki sohbetleri engelliyorlar – ve şimdi teknoloji de aynısını yapabiliyor
Bu, her yıl tekrarlanan “kokteyl partisi sorunu”dur – bir oda dolusu insanın ortasında durmak, elinizde içki, diğer konukların ne söylediğini duymaya çalışmak.
Aslında insanlar, rekabet eden sesleri filtreleyerek bir kişiyle sohbet etme konusunda oldukça yeteneklidir.
Ancak şaşırtıcı bir şekilde bu, teknolojinin yakın zamana kadar taklit edemediği bir beceriydi.
Ve bu, mahkeme davalarında ses kanıtı kullanma söz konusu olduğunda önemlidir. Arkaplandaki sesler, kimin konuştuğundan ve ne söylendiğinden emin olmayı zorlaştırabilir ve potansiyel olarak kayıtları işe yaramaz hale getirebilir.
Wave Sciences’ın kurucusu ve baş teknoloji sorumlusu olan elektrik mühendisi Keith McElveen, ABD hükümeti adına bir savaş suçları davası üzerinde çalışırken bu sorunla ilgilenmeye başladı.
“Bizim anlamaya çalıştığımız şey, sivillerin katledilmesini kimin emrettiğiydi. Kanıtların bir kısmı, aynı anda konuşan bir sürü sesin olduğu kayıtları içeriyordu – ve işte o zaman “kokteyl partisi sorununun” ne olduğunu öğrendim,” diyor.
“Konuşmadan otomobil sesleri, klimalar veya vantilatörler gibi gürültüleri çıkarmada başarılı olmuştum, ancak konuşmadan konuşmayı çıkarmaya çalıştığımda, bunun yalnızca çok zor bir problem olmadığı, aynı zamanda akustikteki klasik zor problemlerden biri olduğu ortaya çıktı.
“Sesler bir odada yankılanıyor ve bunu çözmek matematiksel olarak korkunç.”
Paul Cheney
Keith McElveen, 2008 yılında “kokteyl partisi sorununa” odaklanmak amacıyla Wave Sciences’ı kurdu
Cevabın, yapay zekayı kullanarak odadaki tüm rekabet eden sesleri, orijinal olarak nereden geldiklerine göre tespit edip elemek olduğunu söylüyor.
Bu yalnızca konuşan diğer kişiler anlamına gelmiyor; seslerin odada yansıtılma biçiminden kaynaklanan önemli miktarda parazit de söz konusu; hedef konuşmacının sesi hem doğrudan hem de dolaylı olarak duyuluyor.
Mükemmel bir yankısız oda – yankılardan tamamen arınmış – herkesin ne söylediğini almak için konuşmacı başına bir mikrofon yeterli olurdu; ancak gerçek bir odada, yansıyan her ses için bir mikrofona ihtiyaç duyulur.
Bay McElveen, üst üste binen sesleri ayırabilecek bir teknoloji geliştirmeyi umarak 2009 yılında Wave Sciences’ı kurdu. Başlangıçta firma, dizi ışın oluşturma olarak bilinen şeyde çok sayıda mikrofon kullandı.
Ancak potansiyel ticari ortaklardan gelen geri bildirimler, sistemin birçok durumda iyi sonuçlar verebilmesi için maliyeti göz önünde bulundurulduğunda çok fazla mikrofona ihtiyaç duyduğu ve diğer birçok durumda ise hiç performans gösteremeyeceği yönündeydi.
Bay McElveen, “Ortak düşüncemiz, bu endişeleri giderecek bir çözüm bulabilirsek çok ilgilenecekleri yönündeydi” diyor.
Ve ekliyor: “Bir çözüm olması gerektiğini biliyorduk, çünkü bunu sadece iki kulağınızla yapabilirsiniz.”
Şirket, 10 yıl süren iç kaynaklı araştırmaların ardından sorunu çözdü ve Eylül 2019’da patent başvurusunda bulundu.
Keith McElveen
Wave Sciences’ın “kokteyl partisi sorununu” çözmesi 10 yıl sürdü
Ortaya koydukları şey, sesin mikrofona veya kulağa ulaşmadan önce odada nasıl yansıdığını analiz edebilen bir yapay zekaydı.
Bay McElveen, “Sesi her mikrofona ulaştığı anda yakalıyoruz, nereden geldiğini anlamak için geriye doğru izliyoruz ve sonra, özünde, kişinin oturduğu yerden gelemeyecek herhangi bir sesi bastırıyoruz” diyor.
Etkisi bazı açılardan, kameranın tek bir nesneye odaklanıp ön plan ile arka planı bulanıklaştırmasına benzetilebilir.
“Sadece çok gürültülü bir kayıttan ders çıkarabildiğinizde sonuçlar çok net duyulmuyor, ancak yine de çarpıcı.”
Teknolojinin gerçek dünyadaki adli tıptaki ilk kullanımı, ABD’deki bir cinayet davasında gerçekleşti ve sağladığı deliller mahkumiyet kararlarında merkezi bir rol oynadı.
İki tetikçi bir adamı öldürdükleri için tutuklandıktan sonra, FBI, çocuk velayeti anlaşmazlığı yaşayan bir aile tarafından işe alındıklarını kanıtlamak istedi. FBI, aileyi, olaya dahil oldukları için şantaj yapıldığına inandırmak için bir plan yaptı – ve sonra tepkiyi görmek için geri çekildi.
FBI’ın metinlere ve telefon görüşmelerine erişmesi oldukça kolayken, şahsen iki restoranda yapılan toplantılar farklı bir konuydu. Ancak mahkeme, Wave Sciences’ın algoritmasının kullanılmasına izin verdi, bu da sesin kabul edilemez olmaktan önemli bir delil parçasına dönüştüğü anlamına geliyordu.
O zamandan beri, İngiltere’dekiler de dahil olmak üzere diğer hükümet laboratuvarları bunu bir dizi testten geçirdi. Şirket şimdi teknolojiyi, sonar sinyallerini analiz etmek için kullanan ABD ordusuna pazarlıyor.
McElveen, bunun rehine pazarlıkları ve intihar senaryolarında da uygulanabileceğini, böylece konuşmanın her iki tarafının da duyulabildiğinden emin olunabileceğini söylüyor; sadece megafonla konuşan müzakerecinin değil.
Şirket, geçen yılın sonlarında, ses adli tıp ve akustik analizleri yapan hükümet laboratuvarlarının kullanımı için öğrenme algoritmasını kullanan bir yazılım uygulaması yayınladı.
Getty Images
Wave sonunda ürününün akıllı hoparlörlerde kullanılmak üzere versiyonlarını piyasaya sürmek istiyor
Şirketin nihai hedefi, ses kayıt kitleri, otomobiller için ses arayüzleri, akıllı hoparlörler, artırılmış ve sanal gerçeklik, sonar ve işitme cihazları gibi alanlarda kullanılmak üzere ürününün özelleştirilmiş versiyonlarını tanıtmak.
Yani örneğin arabanızla veya akıllı hoparlörünüzle konuştuğunuzda etrafınızda çok fazla gürültü olsa bile cihaz ne dediğinizi duyabilir.
Adli Bilimler Akademisi’nden adli tıp eğitimcisi Terri Armenta’ya göre, yapay zeka adli bilimin diğer alanlarında da kullanılmaya başlandı.
“ML [machine learning] “Modeller, konuşanların kimliğini belirlemek için ses örüntülerini analiz ediyor; bu süreç, ses kanıtının doğrulanmasının gerektiği cezai soruşturmalarda özellikle yararlıdır” diyor.
“Ayrıca, yapay zeka araçları ses kayıtlarındaki manipülasyonları veya değişiklikleri tespit ederek mahkemeye sunulan delillerin bütünlüğünü koruyabiliyor.”
Yapay zeka aynı zamanda ses analizinin diğer alanlarında da kendine yer bulmaya başladı.
Bosch
Samarjit Das, bir aracın arızasını daha oluşmadan tahmin edebilen SoundSee ile
Bosch’un SoundSee adı verilen bir teknolojisi var. Bu teknoloji, örneğin bir motorun sesini analiz ederek arızayı oluşmadan önce tahmin etmek için ses sinyali işleme algoritmalarını kullanıyor.
Bosch ABD Araştırma ve Teknoloji Direktörü Dr. Samarjit Das, “Geleneksel ses sinyali işleme yetenekleri, sesi bizim insanlar gibi anlama yeteneğinden yoksundur” diyor.
“Sesli Yapay Zeka, çevremizdeki nesnelerin sesinin daha önce hiç olmadığı kadar derinlemesine anlaşılmasını ve anlamsal yorumlanmasını sağlıyor; örneğin, çevresel sesler veya makinelerden gelen ses ipuçları.”
Wave Sciences algoritmasının daha yakın zamanda yapılan testleri, sadece iki mikrofonla bile teknolojinin insan kulağı kadar iyi performans gösterebildiğini, hatta daha fazla mikrofon eklendiğinde daha da iyi performans gösterdiğini gösterdi.
Ve bir şey daha ortaya çıkardılar.
“Tüm testlerimizdeki matematik, insan işitmesiyle dikkate değer benzerlikler gösteriyor. Algoritmamızın neler yapabileceği ve bunu ne kadar doğru bir şekilde yapabileceği konusunda, insan işitmesinde var olan bazı tuhaflıklara şaşırtıcı derecede benzeyen küçük tuhaflıklar var,” diyor McElveen.
“İnsan beyninin de aynı matematiği kullandığından şüpheleniyoruz; kokteyl partisi problemini çözerken, beyinde gerçekten neler olup bittiğine rastlamış olabiliriz.”
GENEL HABERLER
06 Eylül 2024Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.