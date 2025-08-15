🆕 (2025-08-14) 🔥 dinov3 ব্যাকবোনগুলি এখন উপলভ্য আলিঙ্গন ফেস হাব এবং সমর্থিত আলিঙ্গন মুখ দ্বারা ট্রান্সফর্মার গ্রন্থাগার

মেটা এআই গবেষণা, মেলা

ওরিয়ান সিমোনি, হু ভি ভি ভো, ম্যাক্সিমিলিয়ান সেটিজার, ফেডেরিকো বালদাসেরে, ম্যাক্সিম ওকাব,

সিজো জোসে, বিশিলস খাদভ, মার্ক সজাফরানিক, ভিলেজ এ।

ফ্রান্সিসকো ম্যাসা, ড্যানিয়েল হাজিজা, লুকা ওয়েহরস্টেট, জিয়ানুয়ান ওয়াং,

ডারসেট তীমথিয়, থিও মাউতাকান্নি

আন্ড্রেয়া বেদাল্ডি, জেমি টোলান, জন ব্র্যান্ড্ট, ক্যামিল কাপ্রি,

জুলিয়েন মাইরাল, হার্ভি জ্যাগু, প্যাট্রিক লাবাতুট, পিয়োটার বোজানোভস্কি

DINOV3 এর জন্য রেফারেন্স পাইটোরচ বাস্তবায়ন এবং মডেলগুলি। বিশদ জন্য, দেখুন দিনভ 3 কাগজ।

উচ্চ-রেজোলিউশন ঘন বৈশিষ্ট্য।

আমরা Dinov3 আউটপুট বৈশিষ্ট্যগুলির সাথে প্রাপ্ত কোসাইন সাদৃশ্য মানচিত্রগুলি কল্পনা করি

রেড ক্রস এবং অন্যান্য সমস্ত প্যাচগুলির সাথে চিহ্নিত প্যাচগুলির মধ্যে।

বহুমুখী ভিশন ফাউন্ডেশন মডেলগুলির একটি বর্ধিত পরিবার উচ্চমানের ঘন বৈশিষ্ট্যগুলি উত্পাদন করে এবং বিভিন্ন দৃষ্টিভঙ্গি কার্যগুলিতে অসামান্য পারফরম্যান্স অর্জন করে যা সূক্ষ্ম-টিউন না করে বিস্তৃত সেটিংস জুড়ে শিল্পের বিশেষায়িত অবস্থাকে ছাড়িয়ে যায়

Model এই ইউআরএলগুলি তখন ব্যবহার করা যেতে পারে:

স্থানীয় ফাইল সিস্টেম এবং পয়েন্টে মডেল বা অ্যাডাপ্টার ওজন ডাউনলোড করুন torch.hub.load() এই স্থানীয় ওজনের মাধ্যমে weights বা backbone_weights পরামিতি, বা

এই স্থানীয় ওজনের মাধ্যমে বা পরামিতি, বা সরাসরি অনুরোধ torch.hub.load() একটি ব্যাকবোন বা অ্যাডাপ্টারটি এর ইউআরএল থেকে ডাউনলোড এবং লোড করতেও weights বা backbone_weights প্যারামিটার।

নীচে উদাহরণ কোড স্নিপেটগুলি দেখুন।

⚠ দয়া করে ব্যবহার করুন wget ওজন ডাউনলোড করতে ওয়েব ব্রাউজারের পরিবর্তে।

ওয়েব ডেটাসেটে (এলভিডি -1689 এম) প্রাক-মডেল ভিট মডেলগুলি:

কনভেনেক্সট মডেলগুলি ওয়েব ডেটাসেটে (এলভিডি -1689 এম) প্রাক-প্রিট্রেইনড:

মডেল প্যারামিটার Pretraining

ডেটাসেট ডাউনলোড কনভেনেক্সট টিনি 29 মি LVD-1689 মি (লিঙ্ক) কনভেনেক্সট ছোট 50 মি LVD-1689 মি (লিঙ্ক) কনভেনেক্সট বেস 89 মি LVD-1689 মি (লিঙ্ক) বড় বড় 198 মি LVD-1689 মি (লিঙ্ক)

ভিট মডেলগুলি স্যাটেলাইট ডেটাসেটে (স্যাট -493 এম) প্রাক-প্রাক-প্রিটরাইনড:

নির্দেশাবলী অনুসরণ করুন এখানে পাইটোরচ ইনস্টল করতে (মডেলটি লোড করার জন্য একমাত্র প্রয়োজনীয় নির্ভরতা)। সিউডিএ সমর্থন সহ পাইটোরচ ইনস্টল করা দৃ strongly ়ভাবে সুপারিশ করা হয়।

import torch REPO_DIR = < PATH / TO / A / LOCAL / DIRECTORY / WHERE / THE / DINOV3 / REPO / WAS / CLONED > # DINOv3 ViT models pretrained on web images dinov3_vits16 = torch . hub . load ( REPO_DIR , 'dinov3_vits16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vits16plus = torch . hub . load ( REPO_DIR , 'dinov3_vits16plus' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vitb16 = torch . hub . load ( REPO_DIR , 'dinov3_vitb16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vitl16 = torch . hub . load ( REPO_DIR , 'dinov3_vitl16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vith16plus = torch . hub . load ( REPO_DIR , 'dinov3_vith16plus' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vit7b16 = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) # DINOv3 ConvNeXt models pretrained on web images dinov3_convnext_tiny = torch . hub . load ( REPO_DIR , 'dinov3_convnext_tiny' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_convnext_small = torch . hub . load ( REPO_DIR , 'dinov3_convnext_small' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_convnext_base = torch . hub . load ( REPO_DIR , 'dinov3_convnext_base' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_convnext_large = torch . hub . load ( REPO_DIR , 'dinov3_convnext_large' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) # DINOv3 ViT models pretrained on satellite imagery dinov3_vitl16 = torch . hub . load ( REPO_DIR , 'dinov3_vitl16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > ) dinov3_vit7b16 = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16' , source = 'local' , weights = < CHECKPOINT / URL / OR / PATH > )

সমস্ত ব্যাকবোন উপলব্ধ দিনভ 3 আলিঙ্গন ফেস হাবের উপর সংগ্রহ এবং আলিঙ্গন মুখের মাধ্যমে সমর্থিত ট্রান্সফর্মার গ্রন্থাগার। দয়া করে ব্যবহারের জন্য সংশ্লিষ্ট ডকুমেন্টেশনগুলি দেখুন, তবে নীচে একটি সংক্ষিপ্ত উদাহরণ রয়েছে যা (পাইপলাইন) বা (অটোমোডেল) শ্রেণীর সাথে কীভাবে একটি চিত্র এম্বেডিং পেতে হয় তা প্রদর্শন করে।

from transformers import pipeline from transformers . image_utils import load_image url = " image = load_image ( url ) feature_extractor = pipeline ( model = "facebook/dinov3-convnext-tiny-pretrain-lvd1689m" , task = "image-feature-extraction" , ) features = feature_extractor ( image )

import torch from transformers import AutoImageProcessor , AutoModel from transformers . image_utils import load_image url = " image = load_image ( url ) pretrained_model_name = "facebook/dinov3-convnext-tiny-pretrain-lvd1689m" processor = AutoImageProcessor . from_pretrained ( pretrained_model_name ) model = AutoModel . from_pretrained ( pretrained_model_name , device_map = "auto" , ) inputs = processor ( images = image , return_tensors = "pt" ). to ( model . device ) with torch . inference_mode (): outputs = model ( ** inputs ) pooled_output = outputs . pooler_output print ( "Pooled output shape:" , pooled_output . shape )

কোথায় model এবং pretrained_model_name উপরে একটি হতে পারে:

facebook/dinov3-vits16-pretrain-lvd1689m

facebook/dinov3-vits16plus-pretrain-lvd1689m

facebook/dinov3-vitb16-pretrain-lvd1689m

facebook/dinov3-vitl16-pretrain-lvd1689m

facebook/dinov3-vith16plus-pretrain-lvd1689m

facebook/dinov3-vit7b16-pretrain-lvd1689m

facebook/dinov3-convnext-base-pretrain-lvd1689m

facebook/dinov3-convnext-large-pretrain-lvd1689m

facebook/dinov3-convnext-small-pretrain-lvd1689m

facebook/dinov3-convnext-tiny-pretrain-lvd1689m

facebook/dinov3-vitl16-pretrain-sat493m

facebook/dinov3-vit7b16-pretrain-sat493m

LVD-1689M ওজন ব্যবহার করে মডেলগুলির জন্য (ওয়েব চিত্রগুলিতে প্রিটরাইনড), দয়া করে নিম্নলিখিত ট্রান্সফর্মটি ব্যবহার করুন (স্ট্যান্ডার্ড ইমেজেনেট মূল্যায়ন ট্রান্সফর্ম):

import torchvision def make_transform ( resize_size : int = 224 ): to_tensor = transforms . ToTensor () resize = transforms . Resize (( resize_size , resize_size ), antialias = True ) normalize = transforms . Normalize ( mean = ( 0.485 , 0.456 , 0.406 ), std = ( 0.229 , 0.224 , 0.225 ), ) return transforms . Compose (( to_tensor , resize , normalize ))

SAT-493M ওজন (স্যাটেলাইট চিত্রের উপর প্রিট্রেইনড) ব্যবহার করে মডেলগুলির জন্য, দয়া করে নিম্নলিখিত রূপান্তরটি ব্যবহার করুন:

import torchvision def make_transform ( resize_size : int = 224 ): to_tensor = transforms . ToTensor () resize = transforms . Resize (( resize_size , resize_size ), antialias = True ) normalize = transforms . Normalize ( mean = ( 0.430 , 0.411 , 0.296 ), std = ( 0.213 , 0.156 , 0.143 ), ) return transforms . Compose (( to_tensor , resize , normalize ))

(পূর্ণ) শ্রেণিবদ্ধ মডেলগুলি পিটারচ হাবের মাধ্যমে লোড করা যায়:

import torch # DINOv3 dinov3_vit7b16_lc = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_lc' , source = "local" , weights = < DEPTHER / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > )

depther = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_dd' , source = "local" , weights = < DEPTHER / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > )

একটি চিত্রের উপর গভীরতার সম্পূর্ণ উদাহরণ কোড

from PIL import Image import torch from torchvision import transforms import matplotlib . pyplot as plt from matplotlib import colormaps def get_img (): import requests url = " image = Image . open ( requests . get ( url , stream = True ). raw ). convert ( "RGB" ) return image def make_transform ( resize_size : int | list ( int ) = 768 ): to_tensor = transforms . ToTensor () resize = transforms . Resize (( resize_size , resize_size ), antialias = True ) normalize = transforms . Normalize ( mean = ( 0.485 , 0.456 , 0.406 ), std = ( 0.229 , 0.224 , 0.225 ), ) return transforms . Compose (( to_tensor , resize , normalize )) depther = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_dd' , source = "local" , weights = < DEPTHER / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > ) img_size = 1024 img = get_img () transform = make_transform ( img_size ) with torch . inference_mode (): with torch . autocast ( 'cuda' , dtype = torch . bfloat16 ): batch_img = transform ( img )( None ) batch_img = batch_img depths = depther ( batch_img ) plt . figure ( figsize = ( 12 , 6 )) plt . subplot ( 121 ) plt . imshow ( img ) plt . axis ( "off" ) plt . subplot ( 122 ) plt . imshow ( depths ( 0 , 0 ). cpu (), cmap = colormaps ( "Spectral" )) plt . axis ( "off" )

প্রিট্রেইনড হেডস – ডিটেক্টর কোকো 2017 ডেটাসেটে প্রশিক্ষিত

ব্যাকবোন Pretraining

ডেটাসেট মাথা

ডেটাসেট ডাউনলোড ভিট -7 বি/16 LVD-1689 মি COCO2017 (লিঙ্ক)

detector = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_de' , source = "local" , weights = < DETECTOR / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > )

প্রিট্রেইনড হেডস – সেগমেন্টর এডিই 20 কে ডেটাসেটে প্রশিক্ষিত

ব্যাকবোন Pretraining

ডেটাসেট মাথা

ডেটাসেট ডাউনলোড ভিট -7 বি/16 LVD-1689 মি AD20K (লিঙ্ক)

segmentor = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_ms' , source = "local" , weights = < SEGMENTOR / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > )

সেগমেন্টেটর একটি চিত্রের সম্পূর্ণ উদাহরণ কোড

import sys sys . path . append ( REPO_DIR ) from PIL import Image import torch from torchvision import transforms import matplotlib . pyplot as plt from matplotlib import colormaps from functools import partial from dinov3 . eval . segmentation . inference import make_inference def get_img (): import requests url = " image = Image . open ( requests . get ( url , stream = True ). raw ). convert ( "RGB" ) return image def make_transform ( resize_size : int | list ( int ) = 768 ): to_tensor = transforms . ToTensor () resize = transforms . Resize (( resize_size , resize_size ), antialias = True ) normalize = transforms . Normalize ( mean = ( 0.485 , 0.456 , 0.406 ), std = ( 0.229 , 0.224 , 0.225 ), ) return transforms . Compose (( to_tensor , resize , normalize )) segmentor = torch . hub . load ( REPO_DIR , 'dinov3_vit7b16_ms' , source = "local" , weights = < SEGMENTOR / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > ) img_size = 896 img = get_img () transform = make_transform ( img_size ) with torch . inference_mode (): with torch . autocast ( 'cuda' , dtype = torch . bfloat16 ): batch_img = transform ( img )( None ) pred_vit7b = segmentor ( batch_img ) # raw predictions # actual segmentation map segmentation_map_vit7b = make_inference ( batch_img , segmentor , inference_mode = "slide" , decoder_head_type = "m2f" , rescale_to = ( img . size ( - 1 ), img . size ( - 2 )), n_output_channels = 150 , crop_size = ( img_size , img_size ), stride = ( img_size , img_size ), output_activation = partial ( torch . nn . functional . softmax , dim = 1 ), ). argmax ( dim = 1 , keepdim = True ) plt . figure ( figsize = ( 12 , 6 )) plt . subplot ( 121 ) plt . imshow ( img ) plt . axis ( "off" ) plt . subplot ( 122 ) plt . imshow ( segmentation_map_vit7b ( 0 , 0 ). cpu (), cmap = colormaps ( "Spectral" )) plt . axis ( "off" )

Pretrained মাথা – সাথে শূন্য শট কাজ dino.txt

(পূর্ণ) dino.txt মডেলটি পাইটোরচ হাবের মাধ্যমে লোড করা যায়:

import torch # DINOv3 dinov3_vitl16_dinotxt_tet1280d20h24l , tokenizer = torch . hub . load ( REPO_DIR , 'dinov3_vitl16_dinotxt_tet1280d20h24l' , weights = < SEGMENTOR / CHECKPOINT / URL / OR / PATH > , backbone_weights = < BACKBONE / CHECKPOINT / URL / OR / PATH > )

প্রশিক্ষণ এবং মূল্যায়ন কোডের জন্য পাইটোরচ সংস্করণ> = 2.7.1 পাশাপাশি আরও কয়েকটি তৃতীয় পক্ষের প্যাকেজ প্রয়োজন। নোট করুন যে কোডটি কেবলমাত্র নির্দিষ্ট সংস্করণগুলির সাথে পরীক্ষা করা হয়েছে এবং একটি লিনাক্স পরিবেশেরও প্রত্যাশা করে। প্রশিক্ষণ এবং মূল্যায়নের জন্য প্রয়োজনীয় সমস্ত নির্ভরতা সেটআপ করতে, দয়া করে নীচের নির্দেশাবলী অনুসরণ করুন:

মাইক্রোমাম্বা (প্রস্তাবিত) – সংগ্রহস্থলটি ক্লোন করুন এবং তারপরে একটি তৈরি করুন এবং সক্রিয় করুন dinov3 প্রদত্ত পরিবেশ সংজ্ঞা ব্যবহার করে কনডা পরিবেশ:

micromamba env create -f conda.yaml micromamba activate dinov3

দিনভ 3 প্রয়োগ করতে শুরু করার জন্য বেশ কয়েকটি নোটবুক সরবরাহ করা হয়েছে:

ডেটাসেটের মূল ডিরেক্টরিটি নিম্নলিখিত বিষয়বস্তুগুলি ধরে রাখতে হবে:

<ROOT>/test/ILSVRC2012_test_00000001.JPEG

<ROOT>/test/(..)

<ROOT>/test/ILSVRC2012_test_00100000.JPEG

<ROOT>/train/n01440764/n01440764_10026.JPEG

<ROOT>/train/(...)

<ROOT>/train/n15075141/n15075141_9993.JPEG

<ROOT>/val/n01440764/ILSVRC2012_val_00000293.JPEG

<ROOT>/val/(...)

<ROOT>/val/n15075141/ILSVRC2012_val_00049174.JPEG

<ROOT>/labels.txt

প্রদত্ত ডেটাসেট বাস্তবায়ন অতিরিক্ত ডিরেক্টরিগুলির অধীনে কয়েকটি অতিরিক্ত মেটাডেটা ফাইল উপস্থিত থাকার প্রত্যাশা করে:

<EXTRA>/class-ids-TRAIN.npy

<EXTRA>/class-ids-VAL.npy

<EXTRA>/class-names-TRAIN.npy

<EXTRA>/class-names-VAL.npy

<EXTRA>/entries-TEST.npy

<EXTRA>/entries-TRAIN.npy

<EXTRA>/entries-VAL.npy

এই মেটাডেটা ফাইলগুলি পাইথন কোডের নিম্নলিখিত লাইনগুলির সাথে (একবার) উত্পন্ন করা যেতে পারে:

from dinov3 . data . datasets import ImageNet for split in ImageNet . Split : dataset = ImageNet ( split = split , root = "<ROOT>" , extra = "<EXTRA>" ) dataset . dump_extra ()

নোট করুন যে মূল এবং অতিরিক্ত ডিরেক্টরিগুলি পৃথক ডিরেক্টরি হতে হবে না।

আপনার স্থানীয় সেটআপের সাথে মেলে দয়া করে ডেটাসেট ক্লাসটি মানিয়ে নিন।

⚠ প্রশিক্ষণ এবং মূল্যায়নের জন্য পরবর্তী বিভাগগুলিতে প্রদত্ত কমান্ডগুলি সম্পাদন করতে, dinov3 প্যাকেজটি পাইথন মডিউল অনুসন্ধানের পথে অন্তর্ভুক্ত করা উচিত, অর্থাত্ চালানোর জন্য কেবল কমান্ডটি উপসর্গ করুন PYTHONPATH=. ।

দ্রুত সেটআপ: প্রশিক্ষণ দিনভ 3 ভিট-এল/16 ইমেজেনেট -1 কে

জমা সহ একটি স্লর্ম ক্লাস্টার পরিবেশে 4 এইচ 100-80 জিবি নোড (32 জিপিইউ) এ ডিনোভ 3 প্রি-ট্রেনিং চালান:

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/train/train.py \ --nodes 4 \ --config-file dinov3/configs/train/vitl_im1k_lin834.yaml \ --output-dir < PATH/TO/OUTPUT/DIR > \ train.dataset_path=ImageNet22k:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

প্রশিক্ষণের সময় প্রায় 14 ঘন্টা এবং ফলস্বরূপ চেকপয়েন্টটি কে-এনএন এভেলে 82.0% এবং লিনিয়ার ইভাল এ 83.5% এ পৌঁছাতে হবে।

প্রশিক্ষণ কোডটি মূল্যায়নের জন্য প্রতি 12500 পুনরাবৃত্তির জন্য মূল্যায়ন ফোল্ডারে শিক্ষকের ওজন সংরক্ষণ করে।

সঠিক দিনভ 3 সেটআপ: প্রশিক্ষণ দিনভ 3 ভিট -7 বি/16

Dinov3 VIT-7B/16 একটি ব্যক্তিগত ডেটাসেটে প্রশিক্ষিত। প্রশিক্ষণে 3 টি স্তর জড়িত:

Pretraining

গ্রাম অ্যাঙ্করিং

উচ্চ রেজোলিউশন অভিযোজন

জমা সহ একটি স্লর্ম ক্লাস্টার পরিবেশে 32 নোড (256 জিপিইউ) এ ডিনোভ 3 ভিআইটি -7 বি/16 প্রিট্রেনিং চালু করুন।

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/train/train.py \ --nodes 32 \ --config-file dinov3/configs/train/dinov3_vit7b16_pretrain.yaml \ --output-dir < PATH/TO/OUTPUT/DIR > \ train.dataset_path= < DATASET > :root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/train/train.py \ --nodes 32 \ --config-file dinov3/configs/train/dinov3_vit7b16_gram_anchor.yaml \ --output-dir < PATH/TO/OUTPUT/DIR > \ train.dataset_path= < DATASET > :root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET > \ gram.ckpt= < PATH/TO/GRAM_TEACHER_FROM_PREVIOUS_STEP >

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/train/train.py \ --nodes 32 \ --config-file dinov3/configs/train/dinov3_vit7b16_high_res_adapt.yaml \ --output-dir < PATH/TO/OUTPUT/DIR > \ train.dataset_path= < DATASET > :root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET > \ gram.ckpt= < PATH/TO/TEACHER_FROM_GRAM > \ student.resume_from_teacher_chkpt= < PATH/TO/TEACHER_FROM_GRAM >

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/train/train.py \ --nodes 1 \ --config-file dinov3/configs/train/multi_distillation_test.yaml \ --output-dir < PATH/TO/OUTPUT/DIR > \ --multi-distillation \ train.dataset_path= < DATASET > :root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

প্রশিক্ষণ কোডটি নিয়মিত শিক্ষকের ওজন সংরক্ষণ করে। মডেলটি মূল্যায়ন করার জন্য, একটি একক নোডে নিম্নলিখিত মূল্যায়ন চালান:

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/eval/log_regression.py \ model.config_file= < PATH/TO/OUTPUT/DIR > /config.yaml \ model.pretrained_weights= < PATH/TO/OUTPUT/DIR > /teacher_checkpoint.pth \ output_dir= < PATH/TO/OUTPUT/DIR > \ train.dataset=ImageNet:split=TRAIN:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET > \ eval.test_dataset=ImageNet:split=VAL:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/eval/knn.py \ model.config_file= < PATH/TO/OUTPUT/DIR > /config.yaml \ model.pretrained_weights= < PATH/TO/OUTPUT/DIR > /teacher_checkpoint.pth \ output_dir= < PATH/TO/OUTPUT/DIR > \ train.dataset=ImageNet:split=TRAIN:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET > \ eval.test_dataset=ImageNet:split=VAL:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/eval/linear.py \ model.config_file= < PATH/TO/OUTPUT/DIR > /config.yaml \ model.pretrained_weights= < PATH/TO/OUTPUT/DIR > /teacher_checkpoint.pth \ output_dir= < PATH/TO/OUTPUT/DIR > \ train.dataset=ImageNet:split=TRAIN:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET > \ train.val_dataset=ImageNet:split=VAL:root= < PATH/TO/DATASET > :extra= < PATH/TO/DATASET >

Dino.txt ব্যবহার করে Dinov3 এ পাঠ্য প্রান্তিককরণ

পদ্ধতিটি অনুসরণ করে পাঠ্য প্রান্তিককরণ করা যেতে পারে dino.txt ওরফে Dinov2 পাঠ্য পূরণ করে।

PYTHONPATH= $PWD python -m dinov3.run.submit dinov3/eval/text/train_dinotxt.py \ --nodes 4 \ # An example config for text alignment is here: dinov3/eval/text/configs/dinov3_vitl_text.yaml \ trainer_config_file= " <PATH/TO/DINOv3/TEXT/CONFIG> " \ output-dir= < PATH/TO/OUTPUT/DIR >

উপরোক্ত ট্রেনগুলির পাঠ্য প্রান্তিককরণটি 4 টি নোডে 8 জিপিইউ (মোট 32 জিপিইউ) সহ 4 টি নোডে চালু করা হচ্ছে। দয়া করে নোট করুন যে ডিনোভ 3 কাগজে পাঠ্য প্রান্তিককরণ মডেলটি একটি ব্যক্তিগত ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল এবং এখানে আমরা একটি উদাহরণ কনফিগারেশন দিয়েছি dinov3/eval/text/configs/dinov3_vitl_text.yaml ব্যবহার CocoCaptions চিত্রের উদ্দেশ্যে ডেটাসেট। সরবরাহ করা দয়া করে অভিযোজিত CocoCaptions ডেটাসেট ক্লাস, ডেটাসেট পাওয়া যাবে এখানে

DINOV3 কোড এবং মডেল ওজন DINOV3 লাইসেন্সের অধীনে প্রকাশিত হয়। অতিরিক্ত তথ্যের জন্য লাইসেন্স.এমডি দেখুন।

অবদান এবং আচরণবিধি দেখুন।

যদি আপনি এই ভান্ডারটি দরকারী বলে মনে করেন তবে দয়া করে একটি তারা দেওয়ার কথা বিবেচনা করুন ⭐ এবং উদ্ধৃতি 🦖: