ক্রেজবার্গ নথি থেকে পাঠ্য উত্তোলনের জন্য একটি পাইথন লাইব্রেরি। এটি পিডিএফ, চিত্র, অফিসের নথি এবং আরও অনেক কিছু থেকে পাঠ্য উত্তোলনের জন্য একটি ইউনিফাইড অ্যাসিঙ্ক ইন্টারফেস সরবরাহ করে।

সহজ এবং ঝামেলা মুক্ত : ক্লিন এপিআই যা কেবল কাজ করে, জটিল কনফিগারেশন ছাড়াই

স্থানীয় প্রক্রিয়াজাতকরণ : কোনও বাহ্যিক এপিআই কল বা মেঘ নির্ভরতা প্রয়োজন

রিসোর্স দক্ষ : জিপিইউ প্রয়োজনীয়তা ছাড়াই লাইটওয়েট প্রসেসিং

লাইটওয়েট : কয়েকটি সংশোধিত নির্ভরতা এবং একটি ন্যূনতম পদচিহ্ন রয়েছে

ফর্ম্যাট সমর্থন : নথি, চিত্র এবং পাঠ্য ফর্ম্যাটগুলির জন্য ব্যাপক সমর্থন

আধুনিক পাইথন : অ্যাসিঙ্ক/অপেক্ষা করা, প্রকারের ইঙ্গিতগুলি এবং কার্যকরী প্রথম পদ্ধতির সাথে নির্মিত

অনুমতিপ্রাপ্ত ওএসএস: ক্রেজবার্গ এবং এর নির্ভরতাগুলির একটি অনুমতিপ্রাপ্ত ওএসএস লাইসেন্স রয়েছে

ক্রেজবার্গ ন্যূনতম নির্ভরতা সহ স্থানীয় প্রক্রিয়াকরণে মনোনিবেশ করে আরএজি (পুনরুদ্ধার অগমেন্টেড প্রজন্ম) অ্যাপ্লিকেশনগুলির জন্য নির্মিত হয়েছিল। এটি আধুনিক অ্যাসিঙ্ক অ্যাপ্লিকেশন, সার্ভারলেস ফাংশন এবং ডকারাইজড অ্যাপ্লিকেশনগুলির জন্য ডিজাইন করা হয়েছে।

ক্রেজবার্গের দুটি সিস্টেম স্তরের নির্ভরতা প্রয়োজন:

দয়া করে তাদের নিজ নিজ ইনস্টলেশন গাইড ব্যবহার করে ইনস্টল করুন।

ক্রেজবার্গ সংহত:

পিডিএফ প্রসেসিং: pdfium2 অনুসন্ধানযোগ্য পিডিএফএসের জন্য, স্ক্যান করা সামগ্রীর জন্য টেসার্যাক্ট ওসিআর

নথি রূপান্তর: অনেক নথি এবং মার্কআপ ফর্ম্যাটগুলির জন্য প্যান্ডোক, পাওয়ারপয়েন্ট ফাইলগুলির জন্য python-pptx, এইচটিএমএল সামগ্রীর জন্য html-to-markdown, এক্সেল স্প্রেডশিটগুলির জন্য calamine (মাল্টি-শিট সমর্থন সহ)

পাঠ্য প্রক্রিয়াকরণ: স্মার্ট এনকোডিং সনাক্তকরণ, মার্কডাউন এবং সরল পাঠ্য হ্যান্ডলিং

::

পিডিএফ ( .pdf অনুসন্ধানযোগ্য এবং স্ক্যান উভয়ই)

মাইক্রোসফ্ট ওয়ার্ড ( .docx )

পাওয়ারপয়েন্ট উপস্থাপনা ( .pptx )

ওপেনডোকামেন্ট পাঠ্য ( .odt )

সমৃদ্ধ পাঠ্য ফর্ম্যাট ( .rtf )

এপুব ( .epub )

ডকবুক এক্সএমএল ( .dbk , .xml )

কথাসাহিত্য বই ( .fb2 )

ল্যাটেক্স ( .tex , .latex )

টাইপস্ট ( .typ )

এইচটিএমএল ( .html , .htm )

সরল পাঠ্য ( .txt ) এবং মার্কডাউন ( .md , .markdown )

পুনর্গঠিত টেক্সট ( .rst )

অর্গ-মোড ( .org )

ডোকুউইকি ( .txt )

পড ( .pod )

বিশ্বাস/মানুষ ( .1 , .2 ইত্যাদি)

স্প্রেডশিট ( .xlsx , .xls , .xlsm , .xlsb , .xlam , .xla , .ods )

সিএসভি ( .csv ) এবং টিএসভি ( .tsv ) ফাইল

ওপিএমএল ফাইল ( .opml )

জুপিটার নোটবুক ( .ipynb )

বিবিটেক্স ( .bib ) এবং বাইব্লেটেক্স ( .bib )

সিএসএল-জসন ( .json )

এন্ডনোট এবং জ্যাটস এক্সএমএল ( .xml )

রিস ( .ris )

জেপিইজি ( .jpg , .jpeg , .pjpeg )

পিএনজি ( .png )

টিফ ( .tiff , .tif )

বিএমপি ( .bmp )

জিআইএফ ( .gif )

জেপিইজি 2000 পরিবার ( .jp2 , .jpm , .jpx , .mj2 )

ওয়েবপি ( .webp )

পোর্টেবল আনম্যাপ ফর্ম্যাট ( .pbm , .pgm , .ppm , .pnm )

ক্রেজবার্গ ব্যাচ প্রসেসিং সহ পাঠ্য উত্তোলনের জন্য অ্যাসিঙ্ক এবং সিঙ্ক এপিআই উভয়ই সরবরাহ করে। গ্রন্থাগারটি নিম্নলিখিত প্রধান ফাংশনগুলি রফতানি করে:

একক আইটেম প্রসেসিং: extract_file() : ASYNC ফাংশন কোনও ফাইল থেকে পাঠ্য আহরণ করতে (স্ট্রিং পাথ বা গ্রহণ করে pathlib.Path ) extract_bytes() : বাইট থেকে পাঠ্য বের করতে অ্যাসিঙ্ক ফাংশন (একটি বাইট স্ট্রিং গ্রহণ করে) extract_file_sync() : সিঙ্ক্রোনাস সংস্করণ extract_file() extract_bytes_sync() : সিঙ্ক্রোনাস সংস্করণ extract_bytes()

ব্যাচ প্রসেসিং: batch_extract_file() : একযোগে একাধিক ফাইল থেকে পাঠ্য বের করতে অ্যাসিঙ্ক ফাংশন batch_extract_bytes() : অ্যাসিঙ্ক ফাংশন একসাথে একাধিক বাইট সামগ্রী থেকে পাঠ্য বের করতে batch_extract_file_sync() : সিঙ্ক্রোনাস সংস্করণ batch_extract_file() batch_extract_bytes_sync() : সিঙ্ক্রোনাস সংস্করণ batch_extract_bytes()



সমস্ত এক্সট্রাকশন ফাংশনগুলি ওসিআর এবং কর্মক্ষমতা কনফিগার করার জন্য নিম্নলিখিত al চ্ছিক পরামিতিগুলি গ্রহণ করে:

language (ডিফল্ট: "ইঞ্জি"): টেসার্যাক্ট ওসিআর এর জন্য ভাষার মডেল নির্দিষ্ট করে। এটি অ-ইংরেজি নথিগুলির জন্য পাঠ্য স্বীকৃতি নির্ভুলতা প্রভাবিত করে। উদাহরণ: ইংরেজির জন্য "ইঞ্জি", জার্মান জন্য "দিয়েছে", ফরাসিদের জন্য "থেকে"

(ডিফল্ট: “ইঞ্জি”): টেসার্যাক্ট ওসিআর এর জন্য ভাষার মডেল নির্দিষ্ট করে। এটি অ-ইংরেজি নথিগুলির জন্য পাঠ্য স্বীকৃতি নির্ভুলতা প্রভাবিত করে। উদাহরণ:

পরামর্শ টেসরেক্ট ডকুমেন্টেশন আরও তথ্যের জন্য।

psm (পৃষ্ঠা বিভাজন মোড, ডিফল্ট: পিএসএম.আউটো): টেসার্যাক্ট কীভাবে পৃষ্ঠা বিন্যাস বিশ্লেষণ করে তা নিয়ন্ত্রণ করে। বেশিরভাগ ক্ষেত্রে আপনাকে এটিকে অন্য কোনও মানতে পরিবর্তন করার দরকার নেই।

max_processes (ডিফল্ট: সিপিইউ গণনা / 2): টেসর্যাক্ট এবং প্যান্ডোকের জন্য সর্বাধিক সংখ্যক সমবর্তী প্রক্রিয়া। উচ্চতর মানগুলি পারফরম্যান্সের উন্নতির দিকে পরিচালিত করতে পারে তবে সম্পদ ক্লান্তি এবং অচলাবস্থার কারণ হতে পারে (বিশেষত টেসরেক্টের জন্য)।

from pathlib import Path from kreuzberg import extract_file from kreuzberg . extraction import ExtractionResult from kreuzberg . _tesseract import PSMMode , SupportedLanguage # Basic file extraction async def extract_document (): # Extract from a PDF file with default settings pdf_result : ExtractionResult = await extract_file ( "document.pdf" ) print ( f"Content: { pdf_result . content } " ) # Extract from an image with German language model img_result = await extract_file ( "scan.png" , language = "deu" , # German language model psm = PSMMode . SINGLE_BLOCK , # Treat as single block of text max_processes = 4 # Limit concurrent processes ) print ( f"Image text: { img_result . content } " ) # Extract from Word document with metadata docx_result = await extract_file ( Path ( "document.docx" )) if docx_result . metadata : print ( f"Title: { docx_result . metadata . get ( 'title' ) } " ) print ( f"Author: { docx_result . metadata . get ( 'author' ) } " )

from kreuzberg import extract_bytes from kreuzberg . extraction import ExtractionResult async def process_upload ( file_content : bytes , mime_type : str ) -> ExtractionResult : """Process uploaded file content with known MIME type.""" return await extract_bytes ( file_content , mime_type = mime_type , ) # Example usage with different file types async def handle_uploads ( docx_bytes : bytes , pdf_bytes : bytes , image_bytes : bytes ): # Process PDF upload pdf_result = await process_upload ( pdf_bytes , mime_type = "application/pdf" ) print ( f"PDF content: { pdf_result . content } " ) print ( f"PDF metadata: { pdf_result . metadata } " ) # Process image upload (will use OCR) img_result = await process_upload ( image_bytes , mime_type = "image/jpeg" ) print ( f"Image text: { img_result . content } " ) # Process Word document upload docx_result = await process_upload ( docx_bytes , mime_type = "application/vnd.openxmlformats-officedocument.wordprocessingml.document" ) print ( f"Word content: { docx_result . content } " )

ক্রেজবার্গ একাধিক ফাইল বা বাইট সামগ্রীগুলির দক্ষ ব্যাচ প্রসেসিং সমর্থন করে:

from pathlib import Path from kreuzberg import batch_extract_file , batch_extract_bytes # Process multiple files concurrently async def process_documents ( file_paths : list ( Path )) -> None : # Extract from multiple files results = await batch_extract_file ( file_paths ) for path , result in zip ( file_paths , results ): print ( f"File { path } : { result . content (: 100 ) } ..." ) # Process multiple uploaded files concurrently async def process_uploads ( contents : list ( tuple ( bytes , str ))) -> None : # Each item is a tuple of (content, mime_type) results = await batch_extract_bytes ( contents ) for ( _ , mime_type ), result in zip ( contents , results ): print ( f"Upload { mime_type } : { result . content (: 100 ) } ..." ) # Synchronous batch processing is also available def process_documents_sync ( file_paths : list ( Path )) -> None : results = batch_extract_file_sync ( file_paths ) for path , result in zip ( file_paths , results ): print ( f"File { path } : { result . content (: 100 ) } ..." )

বৈশিষ্ট্য:

অর্ডার করা ফলাফল

একযোগে প্রক্রিয়াজাতকরণ

প্রতি আইটেম হ্যান্ডলিং ত্রুটি

অ্যাসিঙ্ক এবং সিঙ্ক ইন্টারফেস

একক নিষ্কাশন হিসাবে একই বিকল্প

ক্রেজবার্গ পিডিএফ পাঠ্য উত্তোলনের জন্য একটি স্মার্ট পদ্ধতির নিয়োগ করে:

অনুসন্ধানযোগ্য পাঠ্য সনাক্তকরণ: প্রথমে অনুসন্ধানযোগ্য পিডিএফগুলি ব্যবহার করে সরাসরি পাঠ্য বের করার চেষ্টা pdfium2। পাঠ্য বৈধতা: নিষ্কাশিত পাঠ্যটি পরীক্ষা করে দুর্নীতির জন্য বৈধ করা হয়েছে: নিয়ন্ত্রণ এবং অ-মুদ্রণযোগ্য অক্ষর, ইউনিকোড প্রতিস্থাপন অক্ষর (�), জিরো-প্রস্থের স্পেস এবং অন্যান্য অদৃশ্য অক্ষর, খালি বা হোয়াইটস্পেস-কেবল সামগ্রী

ইউনিকোড প্রতিস্থাপন অক্ষর (�)

জিরো-প্রস্থের স্পেস এবং অন্যান্য অদৃশ্য অক্ষর

খালি বা হোয়াইটস্পেস-কেবল সামগ্রী স্বয়ংক্রিয় ওসিআর ফ্যালব্যাক: যদি নিষ্কাশিত পাঠ্যটি দূষিত হয় বা পিডিএফ চিত্র-ভিত্তিক হয় তবে স্বয়ংক্রিয়ভাবে টেসার্যাক্ট ব্যবহার করে ওসিআরে ফিরে আসে।

এই পদ্ধতির অনুসন্ধানযোগ্য পিডিএফ এবং স্ট্যান্ডার্ড পাঠ্য নথির জন্য ভাল কাজ করে। জটিল ওসিআর (যেমন, হস্তাক্ষর, ফটোগ্রাফ) এর জন্য একটি বিশেষ সরঞ্জাম ব্যবহার করুন।

আপনি Pt চ্ছিক পরামিতি ব্যবহার করে পিডিএফ প্রসেসিং আচরণ নিয়ন্ত্রণ করতে পারেন:

from kreuzberg import extract_file async def process_pdf (): # Default behavior: auto-detect and use OCR if needed # By default, max_processes=1 for safe operation result = await extract_file ( "document.pdf" ) print ( result . content ) # Force OCR even for searchable PDFs result = await extract_file ( "document.pdf" , force_ocr = True ) print ( result . content ) # Control OCR concurrency for large documents # Warning: High concurrency values can cause system resource exhaustion # Start with a low value and increase based on your system's capabilities result = await extract_file ( "large_document.pdf" , max_processes = 4 # Process up to 4 pages concurrently ) print ( result . content ) # Process a scanned PDF (automatically uses OCR) result = await extract_file ( "scanned.pdf" ) print ( result . content )

সমস্ত নিষ্কাশন ফাংশন একটি ফিরে আসে ExtractionResult বা এর একটি তালিকা (ব্যাচের ফাংশনগুলির জন্য)। দ্য ExtractionResult অবজেক্ট হ’ল ক NamedTuple ::

content : নিষ্কাশিত পাঠ্য (এসআরটি)

mime_type : আউটপুট ফর্ম্যাট (প্যান্ডোক রূপান্তরগুলির জন্য "পাঠ্য/সরল" বা "পাঠ্য/মার্কডাউন")

metadata : একটি মেটাডেটা অভিধান। প্যান্ডোক ব্যবহার করে নথি বের করার সময় বর্তমানে এই অভিধানটি কেবল জনবহুল।

from kreuzberg import extract_file , ExtractionResult , Metadata async def process_document ( path : str ) -> tuple ( str , str , Metadata ): # Access as a named tuple result : ExtractionResult = await extract_file ( path ) print ( f"Content: { result . content } " ) print ( f"Format: { result . mime_type } " ) # Or unpack as a tuple content , mime_type , metadata = await extract_file ( path ) return content , mime_type , metadata

ক্রেজবার্গ বেশ কয়েকটি ব্যতিক্রম প্রকারের মাধ্যমে বিস্তৃত ত্রুটি পরিচালনা করে, সমস্ত উত্তরাধিকার সূত্রে প্রাপ্ত KreuzbergError । প্রতিটি ব্যতিক্রম ডিবাগিংয়ের জন্য সহায়ক প্রসঙ্গের তথ্য অন্তর্ভুক্ত করে।

from kreuzberg import extract_file from kreuzberg . exceptions import ( ValidationError , ParsingError , OCRError , MissingDependencyError ) async def safe_extract ( path : str ) -> str : try : result = await extract_file ( path ) return result . content except ValidationError as e : # Input validation issues # - Unsupported or undetectable MIME types # - Missing files # - Invalid input parameters print ( f"Validation failed: { e } " ) except OCRError as e : # OCR-specific issues # - Tesseract processing failures # - Image conversion problems print ( f"OCR failed: { e } " ) except MissingDependencyError as e : # System dependency issues # - Missing Tesseract OCR # - Missing Pandoc # - Incompatible versions print ( f"Dependency missing: { e } " ) except ParsingError as e : # General processing errors # - PDF parsing failures # - Format conversion issues # - Encoding problems print ( f"Processing failed: { e } " ) return ""

সমস্ত ব্যতিক্রম অন্তর্ভুক্ত:

ত্রুটি বার্তা

প্রসঙ্গে context বৈশিষ্ট্য

বৈশিষ্ট্য স্ট্রিং উপস্থাপনা

ব্যতিক্রম চেইন

এই গ্রন্থাগারটি অবদানের জন্য উন্মুক্ত। সমস্যাগুলি খুলতে বা পিআর জমা দিতে নির্দ্বিধায়। হতাশা এড়াতে পিআরএস জমা দেওয়ার আগে বিষয়গুলি নিয়ে আলোচনা করা ভাল।

রেপো ক্লোন সিস্টেম নির্ভরতা ইনস্টল করুন সাথে সম্পূর্ণ নির্ভরতা ইনস্টল করুন uv sync সহ প্রাক-কমিট হুকগুলি ইনস্টল করুন: pre-commit install && pre-commit install --hook-type commit-msg আপনার পরিবর্তনগুলি করুন এবং একটি পিআর জমা দিন

এই লাইব্রেরিটি এমআইটি লাইসেন্স ব্যবহার করে।