Method Article
* Bu yazarlar eşit katkıda bulunmuştur
Bu çalışma, bir dil görüntüsünü segmentlere ayırmak için U-Net ve diğer derin öğrenme algoritmalarını kullandı ve dil tanısının nesnelleştirilmesini araştırmak için segmentasyon sonuçlarını karşılaştırdı.
Dil teşhisi, geleneksel Çin tıbbı (TCM) teşhisinin temel bir tekniğidir ve görüntü işleme teknolojisi ile dil görüntülerini nesneleştirme ihtiyacı artmaktadır. Bu çalışma, son on yılda dil nesnelleştirmesinde kaydedilen ilerlemeye genel bir bakış sunmakta ve segmentasyon modellerini karşılaştırmaktadır. Gerçek dil görüntü kümelerini kullanarak algoritmaları doğrulamak ve karşılaştırmak için çeşitli derin öğrenme modelleri oluşturulmuştur. Her modelin güçlü ve zayıf yönleri analiz edilir. Bulgular, U-Net algoritmasının hassasiyet doğruluğu (PA), geri çağırma ve birleşme (MIoU) metrikleri üzerinden ortalama kesişim ile ilgili diğer modellerden daha iyi performans gösterdiğini göstermektedir. Bununla birlikte, dil görüntüsü elde etme ve işlemedeki önemli ilerlemelere rağmen, dil tanısını nesnelleştirmek için tek tip bir standart henüz belirlenmemiştir. Mobil cihazlar kullanılarak yakalanan dil görüntülerinin dil tanı nesneleştirmesinde yaygın olarak uygulanmasını kolaylaştırmak için, daha fazla araştırma karmaşık ortamlarda yakalanan dil görüntülerinin yarattığı zorlukları ele alabilir.
Dil gözlemi, geleneksel Çin etnik tıbbında (TCM) yaygın olarak kullanılan bir tekniktir. Dilin rengi ve şekli fiziksel durumu ve çeşitli hastalık özelliklerini, şiddetlerini ve prognozlarını yansıtabilir. Örneğin, geleneksel Hmong tıbbında, dilin rengi vücut ısısını tanımlamak için kullanılır, örneğin kırmızı veya mor bir dil, ısı ile ilgili patolojik faktörleri gösterir. Tibet tıbbında, bir durum hastanın dilini gözlemleyerek, mukusun rengine, şekline ve nemine dikkat ederek değerlendirilir. Örneğin, Heyi hastalığı olan hastaların dilleri kırmızı ve kaba veya siyah ve kuruolur 1; Xieri hastalığı2 olan hastaların sarı ve kuru dilleri vardır; Bu arada, Badakan hastalığı3 olan hastaların beyaz, nemli ve yumuşak bir dilivardır 4. Bu gözlemler dil özellikleri ile fizyoloji ve patoloji arasındaki yakın ilişkiyi ortaya koymaktadır. Genel olarak, dilin durumu tanı, hastalık tanımlama ve tedavi etkisinin değerlendirilmesinde hayati bir rol oynar.
Aynı zamanda, farklı etnik gruplar arasındaki farklı yaşam koşulları ve diyet uygulamaları nedeniyle, dil görüntülerindeki farklılıklar belirgindir. Rengin belirlenmesi için uluslararası bir standart temelinde kurulan Laboratuvar modeli, 1931 yılında Uluslararası Ekler Komisyonu (CIE) tarafından formüle edilmiştir. 1976'da bir renk deseni değiştirildi ve adlandırıldı. Lab renk modeli üç öğeden oluşur: L parlaklığa karşılık gelirken, a ve b iki renk kanalıdır. a, koyu yeşilden (düşük parlaklık değeri) griye (orta parlaklık değeri) parlak pembeye (yüksek parlaklık değeri) kadar renkleri içerir; b, parlak maviden (düşük parlaklık değeri) griye (orta parlaklık değeri) sarıya (yüksek parlaklık değeri) geçer. Beş etnik grubun dil renginin L x a x b değerlerini karşılaştırarak, Yang ve ark.5 , Hmong, Hui, Zhuang, Han ve Moğol gruplarının dil görüntülerinin özelliklerinin birbirinden önemli ölçüde farklı olduğunu bulmuşlardır. Örneğin, Moğollar sarı dil kaplamalı koyu dillere sahipken, Hmong'un beyaz dil kaplamalı açık dilleri vardır, bu da dil özelliklerinin bir popülasyonun sağlık durumunu değerlendirmek için tanısal bir gösterge olarak kullanılabileceğini düşündürmektedir. Ayrıca, dil görüntüleri, etnik tıbbın klinik araştırmalarında kanıta dayalı tıp için bir değerlendirme indeksi olarak işlev görebilir. O ve ark.6 , TCM tanısı için bir temel olarak dil görüntülerini kullandılar ve Çin ve Batı tıbbı ile birlikte Chou-Ling-Dan peletlerinin (TCM'de mevsimsel grip de dahil olmak üzere enflamatuar ve ateşli hastalıkları tedavi etmek için kullanılan CLD granülleri) güvenliğini ve etkinliğini sistematik olarak değerlendirdiler. Sonuçlar, dil görüntülerinin klinik çalışmalar için bir değerlendirme indeksi olarak bilimsel geçerliliğini ortaya koymuştur. Bununla birlikte, geleneksel tıp pratisyenleri genellikle dil özelliklerini gözlemlemek ve hastaların fizyolojik ve patolojik durumlarını değerlendirmek için öznelliğe güvenir ve daha kesin göstergeler gerektirir.
İnternetin ve yapay zeka teknolojisinin ortaya çıkışı, dil teşhisinin dijitalleştirilmesinin ve nesneleştirilmesinin önünü açmıştır. Bu süreç, dil görüntüsünün içeriğini yansıtan dil görüntülerinin nitel ve nesnel bir tanımını sağlamak için matematiksel modellerin kullanılmasını içerir7. İşlem birkaç adım içerir: görüntü yakalama, optik telafisi, renk düzeltme ve geometrik dönüşüm. Önceden işlenmiş görüntüler daha sonra görüntü konumlandırma ve segmentasyon, özellik çıkarma, desen tanıma vb. İçin algoritmik bir modele beslenir. Bu işlemin çıktısı, dil görüntü verilerinin son derece verimli ve kesin bir teşhisidir, böylece dil teşhisinin nesnelleştirilmesi, nicelleştirilmesi ve bilgilendirilmesi hedefine ulaşılır8. Böylece dil tanı verilerinin yüksek verimlilik ve yüksek hassasiyetle işlenmesi amacına ulaşılmaktadır. Dil tanılama bilgisine ve derin öğrenme teknolojisine dayanan bu çalışma, doktorlar için dillerin nicel özelliklerini çıkarmak, tanının güvenilirliğini ve tutarlılığını artırmak ve sonraki dil tanısı nesneleştirme araştırmaları için yöntemler sağlamak amacıyla bir bilgisayar algoritması kullanarak dil gövdesini ve dil kaplamasını dil görüntülerinden otomatik olarak ayırmıştır9.
Bu çalışma, Çin Ulusal Doğa Bilimleri Vakfı projesi olan TCM Yüz Görüntüsünün İlişkilendirme Analizine Dayalı Dinamik Değişim Kurallarının Oluşturulması projesi tarafından onaylanmıştır. Etik onay numarası 2021KL-027 olup, klinik araştırma protokolü (2021.04.12, V2.0), bilgilendirilmiş onam (2021.04.12, V2.0), denek işe alım materyalleri (2021.04.12, V2.0), çalışma vakaları ve/veya vaka sunumları, konu günlük kartları ve diğer anketler (2021.04.12, V2.0), klinik araştırmaya katılanların listesi, araştırma projesi onayı, vb. Çalışmaya katılan hastalardan bilgilendirilmiş onam alındı. Bu çalışmanın temel deneysel yaklaşımı, model segmentasyon etkilerini doğrulamak ve karşılaştırmak için gerçek dil görüntülerini kullanmaktır. Şekil 1 , dil tanı nesnelleştirmesinin bileşenlerini sunmaktadır.
1. Görüntü alma
2. Dil segmentasyonu
3. Dil sınıflandırması
Karşılaştırma sonuçları için, bu çalışma tarafından oluşturulan ortamın algoritma modelini eğitmek ve test etmek için aynı örnekleri kullandığı Şekil 12, Şekil 13 ve Tablo 1'e bakın. MIoU göstergesi: U-Net > Seg-Net > PSPNet > DeeplabV3; MPA göstergesi: U-Net > Seg-Net > PSPNet > DeeplabV3; hassasiyet göstergesi: U-Net > Seg-Net > DeeplabV3 > PSPNet; hatırlama: U-Net > Seg-Net > PSPNet > DeeplabV3. Dizin değeri ne kadar büyük olursa, segmentasyon doğruluğu o kadar yüksek olur ve model performansı o kadar iyi olur. İndeks sonuçlarına göre U-Net algoritmasının MIoU, MPA, hassasiyet ve hatırlamada diğer algoritmalardan üstün olduğu, segmentasyon doğruluğunun da diğer algoritmalara göre daha yüksek olduğu analiz edilebilir. Bu nedenle, U-Net algoritması dört farklı algoritma arasında en iyi performansa sahiptir. PSPNet, MIoU, MPA ve geri çağırmada DeeplabV3'ten daha iyidir, DeeplabV3 modeli ise tüm dizinlerde Seg-Net modelinden daha düşüktür. Bu nedenle, DeeplabV3 algoritmasının bu araştırma ortamındaki dört algoritma arasında en az arzu edilen kapsamlı performansa sahip olduğu sonucuna varılabilir.
Değerlendirme göstergeleri
Bu çalışmada, algoritma modelinin performansı esas olarak hassasiyet, geri çağırma, MPA ve MIoU ile doğrulanmıştır. Modelin performans ölçümleri, model sınıflandırma sonuçlarından oluşan karışıklık matrisiyle doğrudan ilişkilidir ve modelin doğru ve yanlış sınıflandırdığı örneklerin sayısını yansıtır. Matris, test kümesi sonuçlarına eşdeğer tahmini değeri temsil eder ve gerçek, temel gerçeği temsil eder. Her iki kategori de sırasıyla T ve F ile temsil edilen doğru ve yanlış olarak ayrılır ve dört kombinasyonla sonuçlanır: TP, FP, FN ve TN.MPA her kategorideki doğru sınıflandırılmış piksellerin oranının ortalama değeridir ve MIoU ortalama kesişim-birleştirme oranıdır. Bu, semantik segmentasyon için en yaygın metriktir; kesişimin oranını hesaplar ve gerçek ve tahmin edilen değerleribirleştirir 10. Bunların formülü şunlardır:
Hassasiyet = , hatırlama = , MPA = (CPA = , burada N toplam kategori sayısıdır) ve MIoU = (IoU =
).
Bu dört metrik, dil görüntülerinin segmentasyon etkisinin daha kapsamlı bir değerlendirmesini sağlar.
Bu çalışma, algoritma modellerini gerçek dilsel görüntü verilerini kullanarak eğitmek ve test etmek için U-Net, Seg-Net, DeeplabV3 ve PSPNet olmak üzere dört derin öğrenme algoritma modelini seçti. U-Net11 , solda bir kodlayıcı ve sağda bir kod çözücüden oluşan U şeklinde bir mimariye sahiptir ve daha az veri ile daha doğru sınıflandırma sonuçlarını eğitme ve görüntü özelliklerini kapsamlı bir şekilde çıkarma avantajına sahiptir. Çok ölçekli hedef segmentasyon problemini çözmek için Res-Net ağına dayanan DeepLabV3, içi boş evrişim yapısını benimser, modülü çok ölçekli bağlamı yakalamak için tasarlar, koşullu rasgele alanı (CRF) kaldırır ve atrous uzamsal piramit havuzu (ASPP) modülünü yükselterek model performansını önemli ölçüde artırır. Semantik segmentasyon, segmentlere ayrılmış nesnenin her pikseli için kategori etiketini almayı amaçlar. Seg-Net, bir kodlayıcı ve bir kod çözücü de dahil olmak üzere semantik segmentasyon için simetrik bir yapıya sahip evrişimli bir sinir ağı (CNN) mimarisidir. Bunun avantajı, kod çözücünün düşük çözünürlüklü özellik diyagramları için yukarı örnekleme yönteminin, yukarı örnekleme öğrenme süresini ortadan kaldırmasıdır. PSPNet modeli esas olarak sahne ayrıştırmaya uygulanır, semantik segmentasyona bağlam bilgileri eklenir, bu da kısmi hatayı önleyebilir, genel sahne sınıflandırma bilgilerini kullanmak için uygun stratejilerin eksikliği sorununu çözebilir ve nihai tahmin edilen sonuçların güvenilirliğini artırabilir.
Şekil 1: Dil tanı nesnelleştirmesinin bileşenleri. Görüntü çekim elemanları, dil segmentasyonu ve dil sınıflandırması dahil olmak üzere dil teşhis bileşenleri. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 2: Görüntü yakalama sayfası. Dil görüntü alma arayüzü ve anket içeriği. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 3: Görüntü filtreleme ve reddetme kriterleri. Yeşil onay işareti dahil etme ölçütlerini, kırmızı çarpı işareti ise dışlama ölçütlerini temsil eder. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 4: Labelme işaretleme işleminin şematik diyagramı. Labelme yazılımı, klasörün açılmasından dosyanın kaydedilmesine kadar görüntünün tüm sürecine açıklama eklemek için kullanılır. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 5: Resim ön işleme diyagramı. Çekilen görüntünün boyutu 1080 x 1920 pikseldir ve dolgu görüntüsünün boyutu 1920 x 1920 pikseldir. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 6: Ortam yapılandırmasının akış şeması. Algoritma yalnızca ortam yapılandırıldıktan sonra çalışabilir. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 7: Algoritma eğitimi çalıştırma detay diyagramı. Algoritma işleminde ayrıntılı adımlar ve yürütme yöntemleri. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 8: Eğitim ve testte algoritma modelinin akış şeması. Veri işleme, algoritma eğitimi ve algoritma testi dahil olmak üzere algoritmanın önemli adımları. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 9: Seg-Net algoritma yapısı. Seg-Net algoritmasının mantıksal yapısı ve kod çalıştırma işlemidir. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 10: U-Net algoritma yapısı. U-Net algoritması mantıksal yapı ve kod çalıştırma işlemidir. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 11: Dil görüntü segmentasyon çalışmalarının akışı. Görüntüdeki kırmızı alan dil segmentasyonunun sonucudur ve yeşil alan dil kaplama segmentasyonunun sonucudur. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 12: Dört algoritma metriğinin karşılaştırma tablosu. MIoU, MPA, hassasiyet ve geri çağırma, algoritma performansının değerlendirme endeksleridir. Değer ne kadar büyük olursa, algoritma performansı o kadar iyi olur ve segmentasyon doğruluğu o kadar yüksek olur. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 13: Dil segmentasyonu için dört algoritmanın sonuçlarının karşılaştırılması. Görüntüdeki kırmızı alan dil segmentasyonunun sonucudur ve yeşil alan dil kaplama segmentasyonunun sonucudur. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
Şekil 14: U-Net algoritması yapı diyagramı. Mavi/beyaz kutular özellik haritasını gösterirken, özellik haritasının üzerindeki sayı kanal sayısını temsil eder. Bu şeklin daha büyük bir versiyonunu görmek için lütfen buraya tıklayın.
MIoU | .MPA | Kesinlik | Anımsamak | |
U-Net | 84.00% | 89.38% | 91.90% | 89.38% |
DeeplabV3 | 59.68% | 61.33% | 84.21% | 61.33% |
PSPNet | 67.80% | 72.56% | 82.71% | 72.56% |
SegNet | 80.09% | 87.14% | 88.53% | 87.14% |
Tablo 1: Dört algoritma segmentasyon sonuç metriğinin karşılaştırılması. Ölçümler MIoU, MPA, hassasiyet ve geri çağırma idi.
Ek Kodlama Dosyası 1: U-Net_training. U-Net modeli eğitim kodu. Bu Dosyayı indirmek için lütfen buraya tıklayın.
Ek Kodlama Dosyası 2: Seg-Net_training. Seg-Net modeli eğitim kodu. Bu Dosyayı indirmek için lütfen buraya tıklayın.
Ek Kodlama Dosyası 3: DeeplabV3_training. DeeplabV3 modeli eğitim kodu. Bu Dosyayı indirmek için lütfen buraya tıklayın.
Ek Kodlama Dosyası 4: PSPNet_training. PSPNet modeli eğitim kodu. Bu Dosyayı indirmek için lütfen buraya tıklayın.
Yukarıda sunulan karşılaştırma sonuçlarına dayanarak, incelenen dört algoritmanın özelliklerinin çeşitli olduğu ve bunların belirgin avantaj ve dezavantajlarının aşağıda açıklandığı açıktır. Tam bir evrişim ağının modifikasyonuna ve genişlemesine dayanan U-Net yapısı, bir büzülme yolu ve simetrik bir genişleyen yol aracılığıyla bağlamsal bilgi ve kesin konumlandırma elde edebilir. Her piksel noktasını sınıflandırarak, bu algoritma daha yüksek bir segmentasyon doğruluğu elde eder ve görüntüyü eğitilmiş modelle daha hızlı bir şekilde bölümlere ayırır. Öte yandan, bir kodlayıcı ve bir kod çözücünün simetrik bir yapısını içeren Seg-Net algoritması, yeni problemlere hızla adapte olma ve konuşma, semantik, görme ve oyun gibi görevlerde iyi performans gösterme avantajına sahiptir. Bununla birlikte, algoritma büyük miktarda veri gerektirir, bu da donanım yapılandırması açısından talepkar hale getirir ve bu nedenle yalnızca bazı görevler için geçerlidir. Daha genel bir çerçeve olarak, DeeplabV3 algoritması, çoğu ağ için ASSP modüllerini geliştirme ve genel performansı artırmak için bunları basamaklı veya paralel olarak yerleştirme avantajına sahiptir. Bununla birlikte, nihai özellik haritasının, nispeten kaba olan ve daha sonra geliştirilebilecek olan 8 ve 16 oranlarında yukarı örnekleme ile elde edilmesi gerekir. Ayrıca, PSPNet modeli, PSP modülü aracılığıyla farklı bölgelerden bağlamsal bilgileri toplama, böylece küresel bilgilere erişimi iyileştirme ve birden fazla veri kümesinde iyi sonuçlar sunma gibi en önemli özelliğe sahiptir. Sonuçlar, U-Net modelinin bu araştırma ortamında en yüksek segmentasyon doğruluğuna ve en iyi segmentasyon etkisine sahip olduğunu göstermektedir.
U-Net mimarisi, tıbbi görüntü segmentasyonundaki üstünlüğünü göstermektedir12. Başlangıçta 2D hücre görüntü segmentasyonu için tasarlanan U-Net algoritması, 2D modülünü bir 3D modülle değiştirerek daha da geliştirilmiştir. Bu modifikasyon, manyetik rezonans görüntüleme (MRI), bilgisayarlı tomografi (BT) ve üç boyutlu (3D) ultrason görüntüleri gibi 3D görüntüleri işleme yeteneğini güçlendirmiştir. Tıbbi görüntüleri organlara, dokulara ve lezyonlara ayırarak değerli klinik veriler elde edilebilir. Geliştirilmiş U-Net algoritması, sonraki muayene ve tedaviler için etkili bir araçtır. Tıbbi teşhiste, görüntülerin sınıflandırılması birçok teşhis sürecinin çok önemli bir parçasıdır. Geleneksel tıp, dil, cilt ve ifade de dahil olmak üzere tüm görünür işaretleri gözlemlemeye dayanır. Tıbbi görüntü segmentasyon teknolojisinin ortaya çıkışı ve ilerlemesi tıbbi tanıda büyük önem taşımaktadır. TCM'de, yüz ve dil görüntülerini analiz etmek, özellik çıkarma sınıflandırması için çeşitli derin öğrenme algoritmalarının kullanılmasını gerektirir. Öte yandan, görüntü segmentasyon algoritmaları Batı tıbbında yaygın olarak kullanılmaktadır ve klinik tanı ve patoloji için bir temel oluşturmaktadır13.
Bu çalışmanın araştırma süreci, veri ön işleme, algoritma eğitimi ve testi ve algoritma performans karşılaştırması dahil olmak üzere kritik adımları içermektedir. Başlangıçta, ham veriler işleme, etiketleme ve sonraki algoritma yapımını kolaylaştırmak için eğitim ve test setlerine bölünür. İşlenen veriler daha sonra sinir ağına beslenir ve kayıp fonksiyonu, geri yayılma yoluyla gradyan vektörünü belirlemek için ayarlanır. Daha sonra, parametreler eğitim sürecinin tamamlanmasına kadar ayarlanır. Algoritma performansı, performansını kapsamlı bir şekilde değerlendirmek için MIoU, MPA, hassasiyet ve geri çağırma gibi birden çok dizin kullanılarak görüntü segmentasyon efekti test edilerek değerlendirilir. Gerçek algoritma eğitim sürecinde, modelin gürültü verilerinin özellikleri de dahil olmak üzere verileri çok ayrıntılı bir şekilde öğrendiği aşırı montaj meydana gelebilir. Bu, daha sonraki testler sırasında verilerin tanımlanmasına, verilerin yanlış sınıflandırılmasına ve zayıf bir genelleme yeteneğine neden olur. Aşırı uyum meydana gelirse, eğitim verileri artırılabilir veya veriler yeniden temizlenebilir. Bu çalışmada gradyan iniş yinelemeli yöntemi benimsenmiştir. Aşırı uydurma, yinelemeyi önceden keserek de önlenebilir.
Bu çalışmanın kısıtlılığı açıktır; Görüntüler sabit aletler kullanılarak toplanmıştır ve deneysel aletler şu anda ticari amaçlar için kullanılamaz. Sonuç olarak, bu çalışmadaki dil görüntüleri tek bir sahneden alınmıştır ve klinik arka planı ve karmaşık ve değişken ışık koşullarını tamamen yansıtmamaktadır. Bu nedenle, karmaşık ortamlar ve zayıf aydınlatma koşulları altında görüntü işleme tekniklerini incelemek için daha fazla araştırmaya ihtiyaç vardır. Dil tanısının nesnelleştirme çalışmaları zengin içerik içerir, bu nedenle doğru dil vücut segmentasyonu esastır. Sonuç olarak, algoritmaların en uygun segmentasyon etkisiyle karşılaştırılması ve doğrulanması, sonraki çalışmalar için önemlidir. Dil segmentasyonunu sınıflandırma ile birleştirmek teorik olarak otomatik dil görüntüsü yargısına ulaşabilir ve tanıya yardımcı olabilir; akademisyenler bu konuyu araştırmış ve incelemişlerdir. Sağlık hizmetlerinde, biyomedikal görüntüleri işlemek için nesnelerin internetini ve kablosuz iletişim teknolojilerini ve ayrıca tanı yardımını kullanmak, bir sistemin verimliliğini artırabilir. Mansour ve ark.14 , işbirlikçi derin öğrenmeye ve nesnelerin internetine dayanan otomatik bir dil rengi görüntüsü (ASDL-TCI) tasarladı. Veri toplama, ön işleme, özellik çıkarma, sınıflandırma ve parametre optimizasyonunu içerir. Bu modelin hassasiyeti, geri çağırma oranı ve doğruluğu, diğer yöntemlerden daha üstün olan sırasıyla 0.984, 0.973 ve 0.983'tür.
Görüntü yakalama ve ön işleme
Görüntü alma işlemi sırasında, ışık kaynaklarının yoğunluğu ve çeşitliliği görüntü kalitesini doğrudan etkileyebilir ve bu da görüntü segmentasyonunu ve sınıflandırma sonuçlarını etkiler. Bu nedenle, ışık kaynağını doğal ışık kaynaklarının etkisini mümkün olduğunca yakından taklit edecek şekilde ayarlamak önemlidir. Ek olarak, standart ışık kaynaklarını kullanmak veya birden fazla ışık kaynağı kullanmak ve sabit bir sahnede çekim yapmak gibi yöntemler, ışığın, arka planın ve diğer faktörlerin olumsuz etkilerini önleyebilir ve böylece algoritmik segmentasyonun doğruluğunu artırabilir. Dil görüntülerini toplamak için kullanılan enstrüman aydınlatma parametreleri, dil görüntülerinin renk oluşturma efektini etkileyen standart aydınlatma ile aynı değildir. Bu nedenle, kullanılan en yaygın ön işleme yöntemi renk düzeltmedir. Cai ve ark.15 , bir dil görüntüsünün renk verileri ile karşılık gelen dilin renk rengi arasındaki tutarsızlığı ele almak için, dil görüntüsünün renk uzayı dönüşümünü ve renk düzeltmesini normalleştirmenin gerekli olduğunu bulmuşlardır. Ekran cihazının renk performansı da gerçek dil gövdesinden saparak test ve ayarlama yapılmasını gerektirir. Ayrıca, resim boyutu, görüntü toplama işlemi sırasında kullanılan farklı edinme araçlarına bağlı olarak değişir16. Eğitim verimliliğini artırmak ve depolama alanından tasarruf etmek için, derin öğrenme ağının giriş resmi boyutunda sınırlamaları vardır. Bu nedenle, resim ön işleme aşamasında resim boyutu standartlaştırılmalıdır. Genellikle bu, model eğitimi için giriş resmi boyutunun eşit şekilde yeniden şekillendirilmesiyle gerçekleştirilir; yaygın olarak kullanılan yeniden şekillendirme yöntemleri enterpolasyon, kırpma, dahil etme, döşeme ve yansıtmadır.
Dil görüntü segmentasyonu
Dil görüntüsü segmentasyonu iki türe ayrılabilir: geleneksel ve derin öğrenme segmentasyon yöntemleri17. Geleneksel dil görüntü segmentasyon yöntemleri, Yılan algoritması ve Otsu algoritması gibi algoritmalardan oluşur. Aktif bir kontur modeli olarak, Snake algoritması18 önce bir profil eğrisi belirler ve ardından ilk profili gerçek bir profil eğrisine dönüşecek şekilde ayarlar. İlk konturların elde edilmesi ve konturların evrimi, Yılan algoritması için araştırmanın ana odak noktasıdır. Öte yandan, Otsu algoritması, orijinal görüntüdeki gri değeri hesaplamak ve her pikselin gri tonlama değerini eşik değeriyle karşılaştırmak için bir veya daha fazla eşik kullanan klasik bir eşik segmentasyon algoritmasıdır. Karşılaştırma sonuçlarına dayanarak, dil ve arka plan, derin öğrenme yöntemlerinin ortaya çıkmasından önce tasvir edilmiştir. Bu iki algoritma, dil görüntü işleme ve dil teşhisi nesnelleştirmesinde yaygın olarak kullanılmaktadır.
Derin öğrenme teorisinin ortaya çıkışından bu yana, çok sayıda bilim adamı dil teşhisi nesnelleştirme ve derin öğrenmenin entegrasyonunu araştırmıştır. Zheng ve ark.19 , çeşitli algoritmaları birleştirerek ve dil algılama yöntemini açık bir ortamda keşfederek görüntü segmentasyonuna dayalı bir dil algılama yöntemi geliştirdiler ve sonuçta olumlu dil segmentasyon sonuçları elde ettiler. Yuan ve ark.20 , bölge ilişkisinin tek piksel kaybı fonksiyonuna dayanan bir dil segmentasyon yöntemi önermiştir, burada geliştirilmiş kayıp fonksiyonu bölge pikselleri arasındaki korelasyonu açıklamıştır. Piksel etiketli semantik denetimli öğrenmeyi kullanarak, MIoU endeksinin% 96.32'ye ulaşmasıyla örneklenen model eğitim verimliliği artırıldı. Dil görüntüsü, hastalığın başlangıcı ile yakından bağlantılı olan diş izleri, çatlaklar ve delinmeler gibi spesifik morfolojik özellikler sergiledi. Bu nedenle, dil gözlemi hastalığın ilerlemesini teşhis etmede yardımcı olabilir. Wang ve ark. 21 , gelişmiş doğruluk ve stabilite sağlayan küçük örnek veri setleri için derin öğrenme dil kırığı segmentasyon yaklaşımı önermiştir. Bu yöntem, önce dil gövdesini, ardından dil çatlaklarını bölmeyi içeriyordu ve odak kaybını fonksiyon kaybı olarak dahil ederek U-Net algoritmasını geliştirdi.
Dil görüntüsü sınıflandırması
Dil görüntülerini sınıflandırmak temel olarak dil rengi, dikenler, çatlaklar ve kaplama rengi gibi özellikleri tanımlamayı içerir. Wang ve ark.22 , dil gövdesini bölümlere ayırmak için Yılan algoritmasını kullandılar ve delinmeleri tanımlamak için karşılıklı bilgi görüntü kaydı, günlük kenarı tespiti, paralel çizgi ve diğer yöntemler gibi teknikleri kullandılar. Bu yaklaşım, erken tespit ve önlemeyi kolaylaştırırken otomatik delinme tanımlama ve sayma sorununu etkili bir şekilde çözdü. Büyük bir veri hacmi, uzun eğitim süresi ve yüksek ekipman gereksinimleri gibi dil görüntü algoritmasının eğitimi ile ilgili sınırlamaları ele almak için, Yang ve ark.23, transfer öğrenimine dayanan tamamen bağlı bir sinir ağı önerdi. Bu yöntem, özellikleri ayıklamak ve bunları tamamen bağlı sinir ağı (FCN) ile birleştirmek için iyi eğitilmiş Inception_v3 kullanır ve% 90'ın üzerinde bir doğruluk oranı elde eder. Bu yaklaşım, küçük örneklerde ve çoklu sınıflandırmalarda derin öğrenme sorununu çözdü. Song ve ark.24 , GoogLe-Net ve Res-Net'teki görüntüleri bulmak için bir basamaklı sınıflandırıcı kullandılar ve üç dil görüntüsü özelliğini otomatik olarak sınıflandırmak için derin öğrenmeyi transfer etmek, eğitmek ve uygulamak için kullandılar: diş izleri, çatlaklar ve dil kaplama kalınlığı. Sınıflandırma sonuçlarının ortalama doğruluğu% 94'ü aştı. Bununla birlikte, dil görüntüsü sınıflandırma algoritması, yüzün diğer ilgisiz kısımlarından gelen parazitlere karşı oldukça hassastır ve sınıflandırma doğruluğunu doğrudan etkiler25.
Zhai ve ark.26 , dikkat mekanizmalarını kullanarak dil görüntülerini sınıflandırmak için çok aşamalı bir algoritma geliştirdi. Bu yöntem, dil lokalizasyonu aşamasında kaynaşmış olan çeşitli algısal görüş alanlarından özellikler çıkararak dil bölgelerini tanımlama doğruluğunu arttırır. Ayrıca, dikkat mekanizması modülü, dil safsızlıklarından kaynaklanan paraziti bastıran dil görüntüsü sınıflandırma doğruluğunu geliştirir. Farklı hastalıkların dil özelliklerini sınıflandırma sorunuyla karşı karşıya kalan27, derin öğrenme algoritmaları da yeni yaklaşımlar sağlayabilir. Ek olarak, Shi ve ark.28 , C5.0 karar ağacı algoritmasına dayanan küçük hücreli olmayan akciğer kanseri için tipik bir sınıflandırma yöntemini araştırmışlardır. Qi eksikliği sertifikası ve Yin eksikliği sertifikası sınıflandırması ile ilgili yedi nitelik sınıflandırma kuralı belirlediler. Modelin doğruluğu %80.37 olarak bulundu. Ek olarak, Li ve ark.29 , stokastik orman algoritmasını kullanarak diyabet için bir tanı modeli geliştirmiştir. Ayrıca, modelin performansını artırmak için dil görüntülerinden doku ve renk özelliklerini analiz ettiler.
Son
Batı tıbbının çağdaş tanı yaklaşımlarının aksine, TCM'nin tanı yöntemleri minimal invazivdir ve minimum zarar gerektirir. Ek olarak, gözlem, dinleme veya koku alma, sorgulama ve palpasyonun dört tanı yöntemi, TCM'nin çeşitli yönlerinde temellerine sahiptir. Bununla birlikte, TCM tanı ve tedavisinin uygulayıcının uzmanlığına ve kişisel tedavi kavramlarına büyük ölçüde dayanması nedeniyle, nesnellik ve standardizasyon eksikliği olabilir. Sonuç olarak, TCM tanısını nesnelleştirme eğilimi, TCM'nin ilerlemesini teşvik edebilecek daha fazla araştırma için bir yön olarak ortaya çıkmıştır.
Dil teşhisinin nesnelleştirilmesi, görüntüleri ve büyük miktarda veriyi yüksek verimlilikle işleme potansiyeline sahiptir ve bu da doktorlara önemli ölçüde yardımcı olabilir. Bununla birlikte, dil teşhisinin sadece geleneksel bir yöntem olmadığını, aynı zamanda doğrulandığını da belirtmek önemlidir. Chen ve ark.30, 382 COVID-19 hastasının dil görüntüleri hakkında klinik veriler topladıkları bir çalışma yürütmüştür. Tüm görüntüleme grupları için dil görüntü özelliklerini ve laboratuvarın renk deseni parametrelerini istatistiksel olarak analiz ettiler. Çalışmanın bulguları, dil görüntülerinin özellikleri ile kullanılan Batı tıbbı türü arasında bir korelasyon olduğunu ortaya koydu. Ek olarak, dil görüntülerindeki değişiklikler hastalığın genel patogenezi ile uyumludur. Dil görüntülerinin bazı parametreleri, TCM31'de COVID-19'un patojenik değişikliklerini tahmin etmede potansiyel olarak yardımcı olabilir.
Geleneksel tıp dili tanısını nesnelleştirirken, çok sayıda araştırmacı segmentasyon ve sınıflandırma yöntemini kullanmıştır. Derin öğrenme ve evrişim sinir ağları, dil görüntü özelliklerini sınıflandırmak için gereklidir. Dil görüntü segmentasyon algoritmasının doğruluğu, dilin yüzden tam olarak ayrılıp ayrılamayacağını belirlediği için çok önemlidir, böylece sonraki özelliklerin sınıflandırılmasının doğruluğunu etkiler. Sonuç olarak, mevcut algoritma modelinin doğruluğunu arttırmak, bu alanda çok önemli bir araştırma odağıdır. Şu anda, algoritma modelini ve doğruluğunu geliştirmek bir araştırma noktasıdır.
Bu çalışmada U-Net, Seg-Net, DeeplabV3 ve PSPNet4 algoritmalarının performansını karşılaştırmak için aynı test seti verileri kullanılmıştır. Bu önlem, kullanılan verilerin kalitesinde tutarlılık sağlamak için alınmıştır. Bu çalışmada kullanılan deneysel ortam altında, U-Net algoritması, segmentasyon doğruluğu açısından diğer üç algoritmadan önemli ölçüde daha iyi performans göstermiştir. MIoU, algoritma performansını değerlendirmek için kullanılan en önemli dizin olan semantik segmentasyon algoritması32'nin ek açıklama ölçüsüdür. U-Net algoritmasının MIoU değeri, Seg-Net algoritmasından% 3.91, DeeplabV3'ünkinden % 23.32 ve PSPNet'inkinden % 16.2 daha yüksekti. Bu, U-Net algoritmasının diğer algoritmalardan daha iyi performans gösterdiğine dair kanıt sağlar.
Bununla birlikte, derin öğrenme algoritmaları kullanılarak dil görüntülerinin segmentasyonunda ve sınıflandırılmasında bazı sorunlar vardır. Örneğin, hasta gizliliği nedeniyle, tıbbi görüntü veri kümeleri, diğer semantik bölümlere ayrılmış veri kümelerine kıyasla boyut olarak çok küçüktür ve bu da büyük verilerde derin öğrenmenin avantajlarını kısıtlar. Büyük parametre modeli segmentasyonu, montaj problemine eğilimlidir. Bu nedenle, ağ yapısının uygun iyileştirme modları seçilerek ayarlanması gerekir. Şu anda, dil teşhisinin nesnelleştirme araştırması henüz tek tip bir toplama standardı oluşturmamıştır; satın alma ortamı ve ışık kaynağı türü uygun standardizasyondan yoksundur. Araştırmacılar genellikle toplama ortamını kurar ve kendi halka açık olmayan veritabanlarını oluştururlar. Aynı zamanda, mevcut algoritmik modeller iyi bir doğruluk elde edebilse de, kullanılan veriler dikkatli bir şekilde taranır ve önceden işlenir, bu da gerçek tanı ve tedavi ortamında elde edilmesi zordur, böylece klinik uygulamasını sınırlar. Ek olarak, dil teşhisinin daha fazla nesnelleştirilmesi, farklı cihazlar tarafından yakalanan karmaşık ortamlar veya dil görüntüleri ile ilgilenecektir33. Diğer bir eğilim ise dinamik bilgi işleme, özellikle dil hakkında daha ayrıntılı bilgi sağlayan ve dil teşhisinin avantajlarını daha kapsamlı bir şekilde yansıtan video görüntü işlemedir. Bu nedenle, dinamik detayları işlemek için derin öğrenme algoritmaları geliştirmek gerekir. Genel olarak, tıbbi dil teşhisinin nesnelleştirilmesi, derin öğrenme algoritmaları ile birleştiğinde, TCM tanısında öznelliği azaltma sözü vermektedir.
Yazarların beyan edecekleri bir çıkar çatışması yoktur.
Bu çalışma, Çin Ulusal Doğa Vakfı (hibe no.82004504), Çin Bilim ve Teknoloji Bakanlığı Ulusal Anahtar Araştırma ve Geliştirme Programı (hibe no.2018YFC1707606), Sichuan Eyaleti Çin Tıbbı İdaresi (hibe no.2021MS199) ve Çin Ulusal Doğa Vakfı (hibe no.82174236) tarafından desteklenmiştir.
Name | Company | Catalog Number | Comments |
CPU | Intel(R) Core(TM) i7-9700K | ||
GPU | NVIDIA GeForce RTX 3070 Ti (8192MB) | ||
Operating systems | Microsoft Windows 10 Professional Edition (64-bit) | ||
Programming language | Python | ||
RAM | 16G |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır