Pandemi günlerinde #HAP Özel: Açık Veri ve FAIR İlkeleri

7 Mayıs Perşembe günü İstinye Üniversitesi Yönetim Bilişim Sistemleri Bölüm Başkanı Dr. Şebnem Özdemir‘in Pandemi Günlerinde #HAP Özel programına konuk olduk. Şebnem Hoca çok zor ve çok değerli bir şey yapıyor. Haftanın üç P’si yani Pazartesi, Perşembe ve Pazar günleri saat 18:00’da Facebook, Twitter, Youtube, Twitch ve Periscope üzerinden aynı anda canlı yayın yapıyor. Programa açık veri paketi olarak dört kişilik güzel ekibimizle yarım saat için canlı bağlanıp, verinin FAIR olmasının önemi ve açık bilim üzerine konuştuk. Şebnem Hoca canlı yayını normalde 20 dakika ve tek kişi ile yapıyor ama biz bu ekiple yarım saate tamamladık:) Ekibin değerli üyeleri, sevgili dostlar İYTE Kütüphane Daire Başkanı Gültekin Gürdal, Hacettepe Üniversitesi BBY Bölümü Öğretim Görevlisi Orçun Madran ve TU Delft Üniversitesi’nde Veri Yöneticisi Yasemin Türkyılmaz-van der Velden. Birlikte yaptığımız her işte olduğu gibi bu da keyifli bir sunum oldu. Gültekin açık verinin öneminden, ben FAIR veri yönetiminin gerekliliğinden, Orçun açık lisansların veri yönetimindeki rolünden söz ederken, Yasemin araştırmacılar için veri ihtiyacı, açık bilim şemsiye teriminin bir kurumsal stratejide ne anlama geldiğini TU Delft deneyimi üzerinden anlattı. HAP canlı yayınının kaydı YouTube‘da mevcut. Konuya hap gibi bir giriş izlemek isteyenlere öneririm.

Verinin FAIR ilkeleri ile işlenmesi üzerine bu canlı yayında değindiğim değinmediğim bir kaç notu aşağıda paylaşıyorum. Eksik noktalar var ve tam değil ancak bu canlı bağlantıda kullandığım notlara biraz ekleme yapılmış kısa bir özet niteliğinde. Daha detaylı bilgi isteyebilecek olanlar için, bu konuda daha önce kendi yaptığım ve yine bu ekiple birlikte düzenlediğimiz çalıştayların sunumları da var.

Veriden yeni bir üretim yapabilmek, karar aracı kullanmak, var olan veriyi yeniden ve yeni amaçlarla kullanabilmek için doğru şekilde toplanması, saklanması ve iyi yönetilmesi gerekiyor. Bunun içinde araştırma çevrelerinde kabul edilen, fon sağlayıcı kurumlar tarafından teşvik edilen bir takım veri paylaşım ilkeleri var. Bunlardan en güncel ve günümüzde yaygınlıkla kabul göreni ise FAIR ilkeleri.

FAIR ilkeler topluluğunun kısaltması. F (findable) bulunabilir, A-(accessible) erişilebilir, I (interoperability) birlikte işler ve R (re-usable) yani yeniden kullanılabilir kelimelerinin baş harfleri.

Araştırma çevrelerinde verinin tekrar kullanımını sağlayacak süreçlerin ve altyapıların geliştirilmesi gereği uzun yıllardır tartışma konusu. FAIR ilkeleri 2016’da Hollanda’da bir grup araştırmacı tarafından bu amaçla geliştiriliyor. Aslında aynı niyetle yapılmış çalışmalar ve ilkeler, prensipler bu tarihten önce de gündemde. Bugün bildiğimiz web’in yaratıcısı Tim Berners-Lee, 2006’da linked data yani bağlı veri konusunda iyi uygulamalarını yayınlar. 2010 yılında da 5 yıldız açık veri şemasını yayınlıyor. Bu 5 yıldız, veriyi toplama ve yayınlama adımlarını kümülatif olarak alır ve son 5. Yıldız açık lisansın uygulandığı, herkesin erişimine açılacak adımı ifade eder.

Bugün yaygınlıkla kabul edilen FAIR ilkeleri ise verinin hassas ve gizlilik özelliklerini gözeten, verinin tamamıyla açılmasını değil ama makinece okunabilir ve işlenebilir (aksiyon alınabilir) olmasını ön görmektedir. Yani veri FAIR ilkeleri ile toplanmış, düzenlenmiş ve paylaşılmış olabilir ama açık olmayabilir.

Bugün FAIR ilkeleri Avrupa Komisyonu, Research Data Alliance gibi konuya ilişkin çalışmalarda bulunan tüm büyük ve saygın kuruluşlar tarafından kabul görüyor ve teşvik ediliyor. FAIR ilkelerinin uygulamaya geçirilmesi için politika, altyapı, eğitim düzeyinde pek çok faaliyet yürütülüyor.

FAIR veri ilkeleri der ki; veri bulunabilir, erişilebilir, birlikte işlerlik niteliğine uygun ve yeniden kullanılabilir olmalı.

F – bulunabilirlik (PIDler): Veri insan ve makine tarafından okunabilir olmalı, bunu sağlayacak yeterlilikte, doğru ve tam üst veri yani metadataya sahip olmalı. Bu ilkede persistent ID dediğimiz kalıcı tanımlayıcılar önemlidir. Bundan yazar ID’si (ör. ORCID) veya verinin DOI numarası gibi tanımlayıcıları anlamak gerek.

A – erişilebilirlik (Protokoller): Uzun dönemli korumayı işaret eder. Verinin erişim koşulları (ör. açık/kapalı/ambargolu) net biçimde belirtilmiş olmalı. Bir de sistemlerin birbirleri ile konuşmalarını sağlayacak web protokollerinin uygulanmasını gerektirir. Bunlara örnek olarak HTTP, veri alıp vereceğiniz REST API ler, veri kürasyonuna yardımcı olacak SPARQL endpoint ler verilebilir. Çok daha basit bir örnek olarak, excel dosyası yerine .csv dosyası kullanmak, verinin farklı formatlara çevrilmesini kolaylaştırır.

I – birlikte işlerlik (linked data): İlkelerin hepsi makinece okunabilir veri yapısından söz ediyor şüphesiz. Birlikte işlerlik sadece makinece okunabilir değil, semantik olarak – makinece işlenebilir (machine actionable) formattaki veriyi vurgular. Bunun içinde örneğin veriyi tanımlarken, ontolojiler, kontrollü sözlükler, otorite dizinlerinin kullanılması öneriliyor.

R – yeniden kullanılabilirlik ilkesi (lisanslar ve citation): verinin güvenirliliğine işaret eden ilke diyebiliriz. Verinin kaynağını bilebilmeli ve yeninden kullandığımız zaman doğru kaynağa atıf yapabiliyor olmalıyız. Dolayısıyla bu ilke, verinin doğru ve düzgün atıf yapılmasına izin verecek üst veri ve altyapı gereksinimi işaret eder.

Ek olarak, FAIR ilkelerinin araştırma yazılımlarına uygulanabilmesi için çalışmalar da var. Veri ve yazılımın farklı şeyler olduğundan hareketle, FAIR ilkeleri, araştırma yazılımlarının kalitesini artırmak için, yazılıma özel olarak adapte ediliyor. Bu konuda ilgisi olanlar RDA’in ilgili çalışma grubuna katılıp, gelişmeleri izleyebilirler.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s