Ekip, bu verileri kullanarak bir derin öğrenme algoritması üzerine çalıştı ve sonrasında programı kendi deşifre cihazlarına dahil etti. Cihaz, beyin sinyallerini vokal bölgenin tahmin edilen hareketlerine dönüştürmekte ve bu hareketleri sentezlenmiş konuşma haline getirmekte
Nörobilimciler, konuşamayan insanların ses üretebilmesini sağlamak için beyin sinyallerini konuşmaya dönüştürebilen bir cihaz tasarladılar.
Bu teknoloji, henüz laboratuvar dışında kullanılmak için yeterince hassas olmamasına karşın, çoğu anlaşılabilir olan cümleler sentezleyebilmekte. Yaratıcıları, konuşmayı deşifre etme cihazlarını Nature’da yayınlanan bir çalışmada (Anumanchipalli ve ark., 2019) tarif ettiler.
Atlanta, Georgia’da bulunan Emory Üniversitesi’nde bir nöromühendis olarak çalışan ve çalışmaya ilişkin yorumun yazarlarından biri olan Chethan Pandarinath şöyle diyor:
Bilim insanları, yakın zamanda 2, 3 ve çoğunlukla tek heceden oluşan ayrı kelimeleri, beyin etkinliği kullanılarak dönüştürmek için yapay zekayı kullandılar (Akbari ve ark., 2019; Angrick ve ark., 2019). Ayrı ayrı kelimelerden cümlelere geçiş için yapılan sıçrayış teknik açıdan oldukça zorlayıcıdır ve bu çalışmayı böylesine etkileyici kılan nedenlerden biridir.
San Francisco’daki California Üniversitesi’nde bir beyin cerrahı ve çalışmanın öncüsü olan Edward Chang şöyle diyor:
İletişim kurmak için konuşma yeteneğini kaybeden birçok insan teknolojiden yararlanmakta. Bu teknolojide, bir ekrandan kelimeleri ve harfleri seçen bir imlecin çok küçük hareketlerle kontrol edilmesi gerekir. Motor nöron hastalığı bulunan Stephen Hawking, ünlü örneklerden biri. Kendisi, yanağındaki bir kas tarafından etkinleştirilen bir konuşma üretici cihaz kullanmaktaydı. Bu tip cihazları kullanan insanlar kelimeleri harf harf yazmaktalar. Dolayısıyla bu cihazlar dakikada on adete kadar kelime üretmekte ve çok yavaş kalabilmekteler. Doğal konuşma ise dakikada ortalama 150 kelime içermekte. Bunu yapabilmemizi sağlayan, vokal bölgenin verimliliğidir.
Bu düşünceler ile yola çıkan Chang ve ekibi, kendi şifre çözücülerini oluştururken vokal sistemi modellemeye karar verdiler.
Araştırmacılar, epilepsi tedavisinin bir parçası olarak beyin yüzeylerine elektrotlar yerleştirilmiş olan beş birey ile çalıştılar. Ekip ilk olarak, katılımcılar yüzlerce cümleyi yüksek sesle okudukları sırada oluşan beyin etkinliklerini kayıt altına aldı. Sonrasında Chang ve arkadaşları, bu kayıtlar ile dil, dudak, çene ve gırtlak hareketlerinin nasıl ses oluşturduğunu belirleyen önceki çalışmalardan gelen verileri birleştirdiler.
Ekip, bu verileri kullanarak bir derin öğrenme algoritması üzerine çalıştı ve sonrasında programı kendi deşifre cihazlarına dahil etti. Cihaz, beyin sinyallerini vokal bölgenin tahmin edilen hareketlerine dönüştürmekte ve bu hareketleri sentezlenmiş konuşma haline getirmekte. Chang şöyle diyor:
Sentezlenen 101 cümleyi dinleyen kişiler, ortalama olarak kelimelerin %70’ini anlayabildiler.
Ses kaydında ilk olarak üretilmek istenen cümle söyleniyor: “Ship building is a most fascinating process”, yani: “Gemi inşaatı baş döndürücü bir süreçtir.” Sonrasında ise aynı cümle, düşünceler aracılığıyla üretiliyor. Ses kaydının ikinci kısmında ise, bir diğer cümle söyleniyor: “The proof that you are seeking is not available in the books”, yani: “Aradığın kanıt, kitaplarda bulunmuyor.” Sonrasında bu cümle de düşüncelerden üretiliyor.
Başka bir deneyde araştırmacılar, bir katılımcıdan cümleleri yüksek sesle okumasını ve ardından aynı cümleleri ağzını ses çıkarmadan hareket ettirerek taklit etmesini istedi. Chang, bu deneye ait şu yorumu yapıyor:
Bu testte oluşturulan cümlelerin kalitesi, sesli konuşma ile elde edilenlere göre daha düşüktü ancak sonuçlar hala cesaret verici.
Yukarıdaki videoda, vokal bölge hareketlerinin sesli okuma ve sessiz taklit ile nasıl şifrelendiği ve bu şifrelerin nasıl çözüldüğü anlatılıyor. Chang’in de ifade ettiği gibi, sessiz taklit sonrası yapılan deşifreden elde edilen kelimelerin anlaşılırlığının daha az olduğu görülüyor.
California’daki Diego Eyalet Üniversitesi’nde bir nörobilimci olan Stephanie Riès şöyle diyor:
Vokal bölge hareketlerinin oluşturduğu beyin etkinliğinin haritalanması ve bunun sese dönüştürülmesiyle konuşmanın üretilmesi, doğrudan sese yönelik oluşturulan beyin etkinliğinin haritalandırmasına göre daha kolay anlaşılabilir.
Seattle’daki Washington Üniversitesi’nde bir sinir mühendisi olan Amy Orsbon, çalışmaya dair düşüncelerini şöyle açıklamakta:
Yeni konuşma deşifre cihazının bireylerin sadece düşündükleri kelimelerle çalışıp çalışmayacağı net değil. Çalışma, taklit edilen konuşma için bunun çalıştığını gerçekten güzel bir şekilde göstermekte. Ancak biri ağzını hareket ettirmediği zaman bu sistem nasıl işleyecek?
Chicago, Illinois’deki Northwestern Üniversitesi’nde bir nörolog olan Marc Slutzky de aynı fikirde ve deşifre cihazının performansının gelişmeye açık kapı bıraktığını ifade etmekte. Kendisi, dinleyicilerin kelimeleri bir grup seçenek içinden ayırarak sentezlenmiş konuşmayı tanımladığına ve seçenek sayısı arttıkça bireylerin kelimeleri anlamada daha büyük sıkıntı çekeceğine dikkat çekmekte. Slutzky şunları ifade ederek sözlerini tamamlıyor:
Çalışma gerçekten çok önemli bir adım ancak oluşturulan konuşmanın kolaylıkla anlaşılabilir olmasının önünde hala uzun bir yol bulunmakta.
Kaynaklar ve ileri okuma:
Kaynak: Evrim Ağacı