Anasayfa » nasıl » Biçimlendirmeyi Koruyarak PDF'yi Nasıl Metin Kopyalayabilirim?

    Biçimlendirmeyi Koruyarak PDF'yi Nasıl Metin Kopyalayabilirim?

    Her yerde bulunan belge biçimi olan PDF, yazı tiplerini, resimleri ve platformlardaki genel düzeni korurken belgeleri paylaşmak için mükemmeldir. Bununla birlikte, metni belgeden kopyalayıp yapıştırırken çok biçimlendirmeyi korumanın kolay bir yolu var mı??

    Bugünün Soru ve Cevap oturumu bize topluluk tarafından yönlendirilen bir soru-cevap web sitesi grubu olan Stack Exchange'in bir alt birimi olan SuperUser'ın izniyle geliyor..

    Soru

    SuperUser okuyucu Colen, formatlamayı korurken PDF'lerden metin çıkarmanın bir yolunu arıyor:

    Bir PDF dosyasından ve bir metin editörüne metin kopyaladığımda, çeşitli şekillerde karışıklığa neden olur. Kalın ve italik gibi formatlar kayboluyor; bir metin paragrafındaki yumuşak satır sonları, sert satır sonlarına dönüştürülür; bir sözcüğü iki satırın üzerinden kesmek için kısa çizgiler olması gerekmese bile korunur; ve tek ve çift tırnak ile değiştirilir? işaretler.

    İdeal olarak, bir PDF'den metin kopyalayabilmek ve HTML kodlarına dönüştürülmüş biçimlendirmeyi, “ve” biçimine dönüştürülmüş “akıllı tırnak” ve satır sonlarını doğru bir şekilde yapmak istiyorum. Bunu yapmanın bir yolu var mı??

    Colen'in (ve geri kalanımızın) biçimlendirmeden ödün vermeden metin kapmak için hızlı ve kolay bir yolu var mı??

    Cevap

    Süper Kullanıcı Katkıda Bulunan Frabjous, ağır bir dikkat dozu ile birlikte bir çözüm sunar:

    Öncelikle, bir PDF'nin ne olduğunu anlamanız gerekir. PDF'ler yazdırılan bir sayfayı taklit etmek için tasarlanmıştır ve bir giriş formatı değil, yalnızca bir çıkış formatı olarak tasarlanmıştır. PDF, temelde karakterlerin tam yerini (tek tek harfler veya noktalama işaretleri vb.) veya görüntüleri içeren bir haritadır. Çoğu durumda, bir PDF bir kelimenin bittiği ve bir başkasının başladığı yer hakkında bilgi bile depolamaz, yumuşak sonlar ve paragraf sonları için sert sonlar gibi çok daha az şeyler.

    (Bazı yeni PDF'ler bu bilgilerle ilgili bazı bilgiler depolar, ancak bu yeni bir teknolojidir ve böyle PDF'ler bulabileceğiniz için şanslısınız. Yapsanız bile, PDF görüntüleyiciniz bu konuda bilgi sahibi olmayabilir.)

    Her neyse, yalnızca bireysel karakterlerin konumlarından sözcük ne, paragraf nedir, vb. Çıkarmak için bir çeşit “yapay zeka” uygulamak sizin yazılımınıza kalmıştır. Farklı yazılımlar bunu diğerlerinden daha iyi yapacak ve aynı zamanda PDF'nin nasıl yapıldığına da bağlı olacaktır. Her durumda, asla mükemmel sonuçlar beklememelisiniz. Çıktı PDF'ye sahip olmak, kaynak belgeye sahip olmakla aynı değildir. Bunu elde etmek için denemek çok daha iyi.

    Türünüzün standart çözümü, PDF'yi HTML'ye dönüştürmek için Adobe Acrobat Professional'ı (pahalı olanı değil, ücretsiz okuyucu) kullanmaktır. Bu bile mükemmel sonuç alamayacak.

    Bazı biçimlendirme işlemleri bozulmadan PDF'lerden metin çıkarmak için kullanılabilecek ücretsiz bir yazılım var, ancak yine de mükemmel sonuçlar beklemeyin. Bkz. Örneğin calibre (RTF formatına dönüştürebilir), pdftohtml / pdfreflow veya AbiWord kelime işlemcisi (tüm ithalat / ihracat eklentileri etkinleştirilmiş). OpenOffice için bir PDF eklentisi de mevcut.

    Ancak, lütfen bu sonuçların hiçbirinde mükemmellik beklemeyin. Buradaki tahılın aleyhine gidiyorsun. PDF sadece düzenlenebilir bir giriş formatı anlamına gelmez.

    Hangi araçla başlayacağınıza karar verme konusunda sorun yaşıyorsanız, Calibre gerçek bir belgedir İsviçre Çakısı. PDF dosyalarını e-kitap okuyucunuzda kullanmak üzere dönüştürmek ve e-kitap / belge kitaplığınızı düzenlemek için de kullanabilirsiniz..


    Açıklamaya eklemek için bir şey var mı? Yorumlarda ses kesiliyor. Diğer teknoloji meraklısı Stack Exchange kullanıcılarından daha fazla cevap okumak ister misiniz? Burada tüm tartışma konusuna göz atın.