Hollywood’un altın çağındaki yıldızların, ünlülerin miraslarından yapay zeka ile ses kopyalama anlaşmaları yoluyla yeniden doğması, “Vahşi Batı”da izinsiz yapay zeka taklitleri konusunda yaşanan endişelerin yeni iş modelleriyle nasıl giderildiğinin bir göstergesi.
Andreessen Horowitz ve Sequoia gibi risk sermayesi şirketleri tarafından finanse edilen bir ses teknolojisi girişimi olan ElevenLabs, kullanıcıların sesli kitap uygulaması aracılığıyla yapay zeka tarafından oluşturulan seslerin kendilerine okunmasını sağlayan IconicVoices aracı için efsanevi aktörlerin mirasçılarıyla birden fazla anlaşma imzaladı. Yıldızlar arasında Burt Reynolds, Judy Garland, James Dean ve Sir Laurence Olivier yer alıyor.
2023’te piyasaya sürülen ElevenLabs, kitaplar ve haber makaleleri, video oyunu karakterleri, film ön prodüksiyonu ve sosyal medya ve reklamcılık için ses üretiyor. Şirket halihazırda New York Times ve Washington Post gibi yayıncılarla çalışıyor ve bu yılın başlarında şirket, Disney tarafından hızlandırıcı programına katılmak üzere seçildi.
ElevenLabs’ın büyüme ekibinin bir üyesi olan Sam Sklar, “Profesyonel bir ses klonu oluşturmak için yaklaşık 30 dakikalık yüksek kaliteli sese ihtiyacınız var” dedi ve sesler ünlünün kataloğundan üretiliyor. Oluşturulduktan sonra, metin (makaleler, PDF’ler, ePub’lar, haber bültenleri veya diğer metin içerikleri) okumak için çağrılabilir. Ancak, ses ve içerik, tüm dinleme bir okuma uygulamasında yapıldığından dışa aktarılamaz.
Örneğin, bir kullanıcıya uygulama içerisinde James Dean tarafından seslendirilen makaleler sunulabilir, ancak kullanıcılar uygulamada halihazırda bulunmayan hiçbir içeriğin seslerine erişemez.
Bu tür anlaşmalar, yapay zeka tarafından üretilen ses içeriğinin daha az çekişmeli ve daha çok kontrollü, düzenlenmiş bir alan olduğu bir gelecek için sınırları belirlemeye yardımcı olabilir. Google Play ve Apple Books, yapay zeka tarafından üretilen sesleri halihazırda bir dereceye kadar kullanıyor, ancak insan sesi temposunu, tonlamasını ve duygusunu yeniden yaratmanın önünde yüksek engeller var.
Yapay zeka sektörü, ünlü seslerin kullanımıyla ilgili endişelerle boğuşuyor. Oyuncu Scarlett Johansson’un, şirketin sesinin lisanslanması teklifini reddetmesinin ardından OpenAI’nin Mayıs ayında tam tersi bir karar alması, ünlülerin seslerinin kullanımıyla ilgili endişeleri artırıyor.
“Sentetik medyayla ilişkili risklerin farkındayız ve araçlarımızın güvenli kullanımını inanılmaz derecede ciddiye alıyoruz,” dedi Sklar. Güvenlik önlemleri arasında içeriklerin aktif olarak denetlenmesi, yasaklarla uygulanabilir hesap verebilirlik ve 2024 seçimlerinde yapay zeka sesinin etkisini korumak için özel hükümler yer alıyor.
Mevcut nesil oyuncular arasında, ses içeriği oluşturmada AI kullanımına ilişkin önemli bir kaygı devam ediyor. Video oyunları için seslendirme sanatçıları endişelere yol açtı ve geçen yılki film ve televizyon grevi, AI kullanımına ilişkin kaygılarda önemli köklere sahipti. Mirasçılar tarafından satılan ikonik seslerin kullanımı, AI nedeniyle kaybedilen bir gelir akışı yerine AI’dan yeni bir gelir akışı temsil ederek bu tuzaklardan potansiyel olarak kaçınan bir pazar nişidir.
Ünlü seslerinin benzerlerinin kullanımı, Frito Lay’in reklamlarında Tom Waits’in ses benzerlerini kullandığı 1988 tarihli dava ve Waits’in kendisinin uzun süre reklam anlaşmalarını reddetmesinin ardından 2007’de açılan bir diğer Waits davası gibi, yapay zekadan önce de var olan bir sorundur. Yapay zeka, ses benzerleri yaratmanın daha kolay bir yolunu sunar ve yapay zeka girişimi Lovo’ya, yapay zeka seslerini üretirken ses aktörlerini uygunsuz ve tazmin edilmemiş bir şekilde kullandığı iddiasıyla açılan son davalar, yapay zeka ses üretimi dünyasının bir dereceye kadar karmaşık ve dava konusu olmaya devam edeceğinin bir hatırlatıcısıdır. (Lovo davadaki iddiaları reddetti ve ayrıca klonlanmış sesler için aktörlere sunduğu bir gelir paylaşım modeline işaret etti.)
İzinsiz ses klonlama iddiasıyla açılan alakasız bir davada seslendirme sanatçılarını temsil eden Pollock & Cohen’de ortak olan Steve Cohen, IconicVoices sözleşmelerinin özel metnini incelemeden belirli yerlerdeki korumaları değerlendirmenin zor olduğunu söyledi.
ElevenLabs, IconicVoices aracının seslerin izinlerini nasıl elde ettiğini ve kullanımını nasıl düzenlediğini anlatıyor.
“Sesini kullanmak için izin vermek temellerden biridir,” dedi Cohen. “Bence temel faktörler izin, tazminat ve kontroldür.”
Cohen, yeni ve daha net yasaların, “sert kötü adamlar için değil, uç durumlar için” uygunsuz bir şekilde bir sesi benimsemeye meyilli kişiler için caydırıcı olabileceğini söyledi. Ancak “All About Eve”de Bette Davis’ten alıntı yaparak, “‘Emniyet kemerlerinizi bağlayın; sarsıntılı bir yolculuk olacak'” diye ekledi.
Gerçekçi klonlanmış seslerin ne kadar gerçekçi duyulduğu da gelişen bir konudur. Birçok uzman, yapay zekanın ne söylediğini “bilmemesi” nedeniyle performans kalitesinin sınırlı olduğunu söylüyor. Sklar, ElevenLabs’in son konuşma kalitesi seviyesinin gerçek insan konuşmasından ayırt edilemez olduğunu söyledi. “ElevenLabs’in metinden sese dönüştürme araçları kelimelerin bağlamını anlayabilir” dedi.
Yapay zeka, eğitildiği modeller kadar iyidir ve aktörlerin ses veri kümeleri sürecin bir parçası haline gelir.
“Nöral modeller, yeteneklerini eğitim verilerinde bulunan nüansları ve kalıpları taklit ederek/ezberleyerek elde eder,” diyor MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda AI ses üretimi konusunda kapsamlı araştırmalar yapan doktora sonrası araştırmacı Nauman Dawalatabad. “Eğitim verilerinin kalitesi ve çeşitliliği, modelin performansını önemli ölçüde etkiler.”
Film yıldızlarının vokal sunumu, Dawalatabad’ın süreç için elzem olduğunu söylediği “büyük modelleri eğitmek ve ince ayar yapmak için yüksek kaliteli ses veri kümeleri” sağlayarak AI taklidine ve öğrenmeye katkıda bulunabilir. Ancak AI ses alanı için doğru testin “insan gibi ses çıkarmak” olduğu konusunda çekincelerini dile getirdi, çünkü bu, insan ve sentetik seslendirmeler arasındaki düşmanca ilişkiyi güçlendirebilir.
Seslendirme sanatçıları teknoloji konusunda bölünmüş durumda, bazıları herhangi bir anlaşmayı değerlendirmeyi reddederken diğerleri bazı sesli kitap türlerinde daha hızlı ve daha ucuz üretim için seslerini klonlama fırsatlarının göz ardı edilemeyeceğini söylüyor. “Yapay zeka teknolojisi iş akışlarına yardımcı olabilir. Yapay zeka, ses yetenekleri, yapımcılar ve yayıncılar için yeni bir araç değil, birçoğu bunu post prodüksiyonda kalite kontrollerini iyileştirmek için kullanıyor,” dedi Audio Publishers Association’ın yönetici direktörü Michele Cobb geçen yıl CNBC’ye.
Dawalatabad’a göre, son jeneratif modeller, daha önceki yinelemelere kıyasla önemli ilerlemeler gösterdi ve bu da sahte ve gerçek sesleri yalnızca kulakla ayırt etmeyi giderek daha da zorlaştırdı. Yapay zeka ses lisanslaması, seslendirme sanatçılarının iş yükünü hafifletebilir, ancak onları yerinden etmeden, “tonlama, sıcaklık ve vurgu gibi hala zorluklar sunan ifade edilemeyen yönlere düzeltme veya iyileştirme sunmaya odaklanarak sürece müdahale ederler.”
GENEL HABERLER
10 Eylül 2024Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.