Ottoman Turkish Crowdsourcing

under review

Buraya tıklayarak proje için beta geri bildirimi yapabilirsiniz /Leave beta feedback for the project by clicking here

Transkripsiyonu nasıl yapacağınıza dair videomuza buradan yazılı dokümana ise buradan ulaşabilirsiniz. / You can find the links to our video about transcription task here and written tutorials here.

Research

See below for the English version

GENEL BAKIŞ

OTurC, arşivlerin ve metinsel dijital beşeri bilimlerin kesişim noktasında yer almakta ve Osmanlı Türkçesi için paylaşılabilir ve yeniden kullanılabilir bir dijital külliyat oluşturmayı hedeflemektedir. Osmanlı Türkçesi için kitle kaynaklı bilgi üretimini üstlenmek, Osmanlı Araştırmaları için bir Dijital Beşeri Bilimler altyapısı oluşturmanın yanı sıra, akademik olmayan kullanıcılar için de Osmanlı kültürel mirasının erişilebilirliğini artırmaya yönelik önemli bir katkıdır.

PROJE HAKKINDA

Birçok Avrupa dilinin yirminci yüzyılın sonlarında başladığı dijitalleşme çalışmaları Osmanlı Türkçesi (OT) için çok daha geç bir zamanda başladı, dolayısıyla OT dijital beşeri bilimlerde güçlü bir şekilde temsil edilemedi. Bu durumun başlıca sebepleri geniş OT arşivinin artzamanlı doğasının getirdiği zorluklar, OT yazımının karmaşıklığı, OT için standartlaştırılmış ve algoritmik sistemlerle uyumlu bir transkripsiyon şemasının olmaması ve son olarak, OT gibi bitişik el yazısı için gelişmiş ve kullanıcı dostu metin tanıma sistemlerinin bulunmaması da bunda etkendir. Arap alfabesi için geliştirilen OCR teknolojisindeki son gelişmeler sayesinde, artık OT için de anahtar kelime araması yapılabilen veritabanı projeleri bulunmaktadır. Bununla birlikte, bu dijital veri havuzlarından bazılarının ticari doğası, bu çevrimiçi koleksiyonlardan yararlanmak için gerekli kurumsal bağlantılara veya kişisel finansal araçlara sahip olmayan kullanıcılar için bir zorluk teşkil etmektedir. Ayrıca, ücretsiz, açık kaynaklı OCR yazılımıyla çalışmak, akademi dışından kullanıcıların yanı sıra birçok profesyonel Osmanlı araştırmacısının yatırım yapmak için yeterli zamana sahip olmayabileceği dikey bir öğrenme eğrisi içerir. OTurC, akademik ve akademik olmayan bilim camiasına dijital metin oluşturma konusunda bu tarz zorlukların üstesinden gelmesi için yardımcı olmayı amaçlıyor. Kitle kaynak kullanımını Osmanlı Araştırmaları için değerli bir girişim olarak görüyoruz. Özellikle akademik camia dışındaki gönüllü araştırmacıların dbu sürece katılımını sağlamanın ve bu tarz demokratik platformlardan yararlanmanın, geleneksel olarak arşivlerde bireysel çalışmanın hakim olduğu ve araştırmacılar arasında veri paylaşımının olmadığı bu alanı dönüştürme potansiyeline sahip olduğuna inanıyoruz. Bu kapsamda paylaşılabilir, yeniden kullanılabilir ve açık bilgi üretiminden oluşan katılımcı bir topluluk yaratmak OTurC'un önemli motivasyonlarındandır.

PROJE AMAÇ VE HEDEFLERİ

OTurC'un aşağıda bahsedilen hedeflere hizmet etmesini öngörüyoruz:

El Yazısı Metin Tanıma (HTR) için eğitim verileri oluşturma: OTurC, Osmanlı Türkçesi (OT) için hesaplanabilir bir külliyat ve dijital versiyon üretiminden oluşan daha geniş araştırma gündeminin bir parçasıdır. Zooniverse'de gönüllü olarak üretilen transkripsiyonlar, OT koleksiyonları bilgisayar destekli araştırmaya açmak için geliştirilecek Yapay Zeka (AI) destekli HTR modeli oluşturma ve otomatik metin tanıma için eğitim verileri olarak kullanılacaktır.

Metin Kodlama Girişimi (TEI) ile dijital yayın: Muallim Cevdet'in kişisel belgeleri ve bazı belgelerin tıpkıbasımlarının yanı sıra gönüllüler tarafından oluşturulan transkripsiyon metinlerini içeren TEI formatında verileri yayınlayacağız.

Tarih arşivleri için Üst Veri (Metadata) oluşturma: OTurC projesi, Muallim Cevdet belgelerinin tam metin transkripsiyonuna ek olarak Hakkı Tarık Us Osmanlı Türkçesi Süreli Yayınları koleksiyonunun belirli kısımları için de anahtar kelime aranabilir bir dizin oluşturmak üzere üst veri oluşturmayı hedeflemektedir.

Pedagojik kullanımlar: OTurC, Osmanlı tarihi ve edebiyatı öğrencilerinin yanı sıra akademiden olmayan gönüllüler için de paleografi becerilerini geliştirebilecekleri ve aynı zamanda dijital ortamda birincil belgeleri ve tarihi metinleri keşfedebilecekleri bir platform sunacaktır.

Paylaşılabilir ve yeniden kullanılabilir dijital metin üretimi: OTurC'de gönüllü olarak üretilen metinlerin tamamı Github'da gönüllüler ve diğer araştırmacılarla paylaşılacaktır.

Arşiv Kaynakları ve Araştırma Soruları

OTurC projesinin ilk aşaması, alfabe reformu (tâdil-i hurûf) meselesine ilişkin Muallim Cevdet Evrakı arasındaki elyazısı notlar ve Muallim Cevdet’in yayınlanmış makalelerini esas alıyor. Bu koleksiyonları ve konuları seçerken iki husus göz önünde bulunduruldu. Kamuya açık bir bilim projesi olarak, halka açık kaynaklardan yararlanmayı sağlamak istiyoruz. Muallim Cevdet'in yayınlanmış makaleleri HTU dijital arşivinde çevrimiçi olarak mevcuttur. Yazarın kişisel evrakı ise İstanbul Büyükşehir Belediyesi Atatürk Kütüphanesi'nde saklanmaktadır. Bu belgeleri seçerken ikinci kriterimiz, konu itibariyle Osmanlı/Türk tarihi ve edebiyatı araştırmacıları için disiplinler arası bir çekiciliğe sahip olmalarıydı. Nitekim OT için önerilen alfabe reformu hakkındaki söz konusu belgeler, hem geç Osmanlı dönemi entelektüel eğilimlerine ilgi duyan tarihçilerin hem de Türk dili ve edebiyatı araştırmacılarının ilgisini çekmektedir. Bu projede üretilen verilerle ele alınacak daha genişbir araştırma sorusu da, geleneksel Cumhuriyet tarihçiliğinin keskin bir ayrım olarak tanımlama eğiliminde olduğu geç Osmanlı ve erken Cumhuriyet dönemleri arasındaki kültürel ve entelektüel süreklilik meselesidir. OT yazısı ve dilinde reform yapılmasına ilişkin geç Osmanlı dönemi tartışmalarının, erken Cumhuriyet döneminde gerçekleşen dil reformunun entelektüel zeminini hazırladığını gösterebilmeyi umuyoruz.

Overview

OTurC lies at the intersection of archives and textual digital humanities and aims to advance a shareable and reusable digital corpora creation agenda for Ottoman Turkish. Undertaking crowdsourced knowledge production for Ottoman Turkish is a significant contribution towards building a Digital Humanities research infrastructure for Ottoman Studies as well as increasing the accessibility of the Ottoman cultural heritage for the non-academic members of the public.

Project Background

Ottoman Turkish (OT) missed the digitization moment that many European languages enjoyed during the late twentieth century and has not been represented in textual digital humanities in a noteworthy way. This has been primarily due to the multi-layered complexities of this historical language, i.e. the diachronic nature of the vast OT archive, the complexity of the OT orthography, the absence of a standardized and algorithmic systems-compatible transcription scheme for OT; and, last but not the least, the unavailability of fully-developed and user-friendly text recognition systems for cursive and connected languages, such as OT. Thanks to the recent advancements in OCR for Arabic script, there are now several keyword-searchable corpora creation projects in progress for OT; however, the commercial nature of some of these digital repositories poses a challenge for users who might not have the necessary institutional affiliations or personal financial means to avail themselves of these online collections. Furthermore, working with free, open-source OCR software involves a steep learning curve that non-academic citizen scholars as well as many professional Ottomanists might not necessarily have the time to invest in.
OTurc invites citizen scientists to help the scholarly community overcome some of these challenges of digital text creation in the field. We find crowdsourcing an especially valuable enterprise for Ottoman Studies as we believe that utilizing democratized platforms for engaging citizen scholars has the potential to transform the field, which has traditionally been dominated by individual work in the archives and an absence of data sharing among researchers, by creating a participatory community of shareable, reusable, open knowledge production.

Project goals and objectives

We envision OTurC serving the following goals:

Generating training data for HTR: OTurC is part of our group’s larger research agenda of computable corpora and digital edition production for OT. Portions of the volunteer-produced transcription in Zooniverse will be utilized as training data for our AI-powered, automated text recognition of OT study with HTR, whose goal is to open certain domains of OT historical collections to computational research.

Digital publication with TEI: We will publish a scholarly edition of certain files from Muallim Cevdet’s personal papers with TEI, which will include the volunteer-generated transcription text alongside the facsimiles of the original documents.

Metadata creation for historical archives: In addition to full-text transcription of Muallim Cevdet papers, an additional workflow in OTurC will involve metadata creation for particular domains of the Hakki Tarik Us OT Periodicals collection to generate a keyword-searchable index for those newspapers.

Pedagogical uses: OTurC will offer Ottoman history and literature students as well as interested members of the public a platform where they can hone their paleography skills while also exploring primary documents and historical texts in a digital environment.

Sharable and reusable computable text production: The entirety of the volunteer-transcribed text in OturC will be shared on Github with the public and other researchers.

Archival Sources and Research Questions

The first phase of the OTurC project entails working with sections of the Muallim Cevdet papers and his printed articles that pertain to the question of OT alphabet reform (tâdil-i hurûf). Two considerations went into choosing these collections and topics. As an open scholarship project, we would like to ensure that we utilize resources that are accessible to the public. Muallim Cevdet’s published articles are available online at the HTU digital repository. The personal papers of the author, on the other hand, are held in Istanbul Metropolitan Municipality’s Atatürk Library (AL). Our second criterion in selecting this particular body of documents was that they are of interdisciplinary appeal to scholars of Ottoman/Turkish history and literature. The proposed alphabet reform for OT in these documents is of interest to both historians of late Ottoman era intellectual trends and scholars of Turkish language and literature. The broader research question that will be addressed by the data produced in this project is the question of cultural and intellectual continuity between the late Ottoman and early Republican periods, which conventional Republican historiography tends to identify as a sharp divide. We expect to be able to demonstrate that the late Ottoman era debates surrounding reforming the OT script and language laid the intellectual groundwork for the language reform of the early Republican period.
*