🆕 (2025-08-14) 🔥 dinov3 ব্যাকবোনগুলি এখন উপলভ্য আলিঙ্গন ফেস হাব এবং সমর্থিত আলিঙ্গন মুখ দ্বারা ট্রান্সফর্মার গ্রন্থাগার
ওরিয়ান সিমোনি, হু ভি ভি ভো, ম্যাক্সিমিলিয়ান সেটিজার, ফেডেরিকো বালদাসেরে, ম্যাক্সিম ওকাব,
সিজো জোসে, বিশিলস খাদভ, মার্ক সজাফরানিক, ভিলেজ এ।
ফ্রান্সিসকো ম্যাসা, ড্যানিয়েল হাজিজা, লুকা ওয়েহরস্টেট, জিয়ানুয়ান ওয়াং,
ডারসেট তীমথিয়, থিও মাউতাকান্নি
আন্ড্রেয়া বেদাল্ডি, জেমি টোলান, জন ব্র্যান্ড্ট, ক্যামিল কাপ্রি,
জুলিয়েন মাইরাল, হার্ভি জ্যাগু, প্যাট্রিক লাবাতুট, পিয়োটার বোজানোভস্কি
(📜
Paper) (📰
Blog) (🌐
Website) (📖
BibTeX)
DINOV3 এর জন্য রেফারেন্স পাইটোরচ বাস্তবায়ন এবং মডেলগুলি। বিশদ জন্য, দেখুন দিনভ 3 কাগজ।
উচ্চ-রেজোলিউশন ঘন বৈশিষ্ট্য।
আমরা Dinov3 আউটপুট বৈশিষ্ট্যগুলির সাথে প্রাপ্ত কোসাইন সাদৃশ্য মানচিত্রগুলি কল্পনা করি
রেড ক্রস এবং অন্যান্য সমস্ত প্যাচগুলির সাথে চিহ্নিত প্যাচগুলির মধ্যে।
বহুমুখী ভিশন ফাউন্ডেশন মডেলগুলির একটি বর্ধিত পরিবার উচ্চমানের ঘন বৈশিষ্ট্যগুলি উত্পাদন করে এবং বিভিন্ন দৃষ্টিভঙ্গি কার্যগুলিতে অসামান্য পারফরম্যান্স অর্জন করে যা সূক্ষ্ম-টিউন না করে বিস্তৃত সেটিংস জুড়ে শিল্পের বিশেষায়িত অবস্থাকে ছাড়িয়ে যায়
Model এই ইউআরএলগুলি তখন ব্যবহার করা যেতে পারে:
- স্থানীয় ফাইল সিস্টেম এবং পয়েন্টে মডেল বা অ্যাডাপ্টার ওজন ডাউনলোড করুন
torch.hub.load()এই স্থানীয় ওজনের মাধ্যমে
weightsবা
backbone_weightsপরামিতি, বা
- সরাসরি অনুরোধ
torch.hub.load()একটি ব্যাকবোন বা অ্যাডাপ্টারটি এর ইউআরএল থেকে ডাউনলোড এবং লোড করতেও
weightsবা
backbone_weightsপ্যারামিটার।
নীচে উদাহরণ কোড স্নিপেটগুলি দেখুন।
wget ওজন ডাউনলোড করতে ওয়েব ব্রাউজারের পরিবর্তে।
ওয়েব ডেটাসেটে (এলভিডি -1689 এম) প্রাক-মডেল ভিট মডেলগুলি:
|মডেল
|প্যারামিটার
|Pretraining
ডেটাসেট
|ডাউনলোড
|ভিট-এস/16 পাতিত
|21 মি
|LVD-1689 মি
|(লিঙ্ক)
|ভিট-এস+/16 পাতিত
|29 মি
|LVD-1689 মি
|(লিঙ্ক)
|ভিট-বি/16 ডিস্টিল
|86 মি
|LVD-1689 মি
|(লিঙ্ক)
|ভিট-এল/16 ডিস্টিল
|300 মি
|LVD-1689 মি
|(লিঙ্ক)
|ভিট-এইচ+/16 পাতিত
|840 মি
|LVD-1689 মি
|(লিঙ্ক)
|ভিট -7 বি/16
|6,716 মি
|LVD-1689 মি
|(লিঙ্ক)
কনভেনেক্সট মডেলগুলি ওয়েব ডেটাসেটে (এলভিডি -1689 এম) প্রাক-প্রিট্রেইনড:
|মডেল
|প্যারামিটার
|Pretraining
ডেটাসেট
|ডাউনলোড
|কনভেনেক্সট টিনি
|29 মি
|LVD-1689 মি
|(লিঙ্ক)
|কনভেনেক্সট ছোট
|50 মি
|LVD-1689 মি
|(লিঙ্ক)
|কনভেনেক্সট বেস
|89 মি
|LVD-1689 মি
|(লিঙ্ক)
|বড় বড়
|198 মি
|LVD-1689 মি
|(লিঙ্ক)
ভিট মডেলগুলি স্যাটেলাইট ডেটাসেটে (স্যাট -493 এম) প্রাক-প্রাক-প্রিটরাইনড:
|মডেল
|প্যারামিটার
|Pretraining
ডেটাসেট
|ডাউনলোড
|ভিট-এল/16 ডিস্টিল
|300 মি
|SAT-493 মি
|(লিঙ্ক)
|ভিট -7 বি/16
|6,716 মি
|SAT-493 মি
|(লিঙ্ক)
প্রিট্রেইনড ব্যাকবোনগুলি (পাইটোর্চের মাধ্যমে) হাব)
নির্দেশাবলী অনুসরণ করুন এখানে পাইটোরচ ইনস্টল করতে (মডেলটি লোড করার জন্য একমাত্র প্রয়োজনীয় নির্ভরতা)। সিউডিএ সমর্থন সহ পাইটোরচ ইনস্টল করা দৃ strongly ়ভাবে সুপারিশ করা হয়।
import torch
REPO_DIR = <PATH/TO/A/LOCAL/DIRECTORY/WHERE/THE/DINOV3/REPO/WAS/CLONED>
# DINOv3 ViT models pretrained on web images
dinov3_vits16 = torch.hub.load(REPO_DIR, 'dinov3_vits16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vits16plus = torch.hub.load(REPO_DIR, 'dinov3_vits16plus', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vitb16 = torch.hub.load(REPO_DIR, 'dinov3_vitb16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vitl16 = torch.hub.load(REPO_DIR, 'dinov3_vitl16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vith16plus = torch.hub.load(REPO_DIR, 'dinov3_vith16plus', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vit7b16 = torch.hub.load(REPO_DIR, 'dinov3_vit7b16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
# DINOv3 ConvNeXt models pretrained on web images
dinov3_convnext_tiny = torch.hub.load(REPO_DIR, 'dinov3_convnext_tiny', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_convnext_small = torch.hub.load(REPO_DIR, 'dinov3_convnext_small', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_convnext_base = torch.hub.load(REPO_DIR, 'dinov3_convnext_base', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_convnext_large = torch.hub.load(REPO_DIR, 'dinov3_convnext_large', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
# DINOv3 ViT models pretrained on satellite imagery
dinov3_vitl16 = torch.hub.load(REPO_DIR, 'dinov3_vitl16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
dinov3_vit7b16 = torch.hub.load(REPO_DIR, 'dinov3_vit7b16', source='local', weights=<CHECKPOINT/URL/OR/PATH>)
সমস্ত ব্যাকবোন উপলব্ধ দিনভ 3 আলিঙ্গন ফেস হাবের উপর সংগ্রহ এবং আলিঙ্গন মুখের মাধ্যমে সমর্থিত ট্রান্সফর্মার গ্রন্থাগার। দয়া করে ব্যবহারের জন্য সংশ্লিষ্ট ডকুমেন্টেশনগুলি দেখুন, তবে নীচে একটি সংক্ষিপ্ত উদাহরণ রয়েছে যা (পাইপলাইন) বা (অটোমোডেল) শ্রেণীর সাথে কীভাবে একটি চিত্র এম্বেডিং পেতে হয় তা প্রদর্শন করে।
from transformers import pipeline
from transformers.image_utils import load_image
url = "
image = load_image(url)
feature_extractor = pipeline(
model="facebook/dinov3-convnext-tiny-pretrain-lvd1689m",
task="image-feature-extraction",
)
features = feature_extractor(image)
import torch
from transformers import AutoImageProcessor, AutoModel
from transformers.image_utils import load_image
url = "
image = load_image(url)
pretrained_model_name = "facebook/dinov3-convnext-tiny-pretrain-lvd1689m"
processor = AutoImageProcessor.from_pretrained(pretrained_model_name)
model = AutoModel.from_pretrained(
pretrained_model_name,
device_map="auto",
)
inputs = processor(images=image, return_tensors="pt").to(model.device)
with torch.inference_mode():
outputs = model(**inputs)
pooled_output = outputs.pooler_output
print("Pooled output shape:", pooled_output.shape)
কোথায়
model এবং
pretrained_model_name উপরে একটি হতে পারে:
facebook/dinov3-vits16-pretrain-lvd1689m
facebook/dinov3-vits16plus-pretrain-lvd1689m
facebook/dinov3-vitb16-pretrain-lvd1689m
facebook/dinov3-vitl16-pretrain-lvd1689m
facebook/dinov3-vith16plus-pretrain-lvd1689m
facebook/dinov3-vit7b16-pretrain-lvd1689m
facebook/dinov3-convnext-base-pretrain-lvd1689m
facebook/dinov3-convnext-large-pretrain-lvd1689m
facebook/dinov3-convnext-small-pretrain-lvd1689m
facebook/dinov3-convnext-tiny-pretrain-lvd1689m
facebook/dinov3-vitl16-pretrain-sat493m
facebook/dinov3-vit7b16-pretrain-sat493m
LVD-1689M ওজন ব্যবহার করে মডেলগুলির জন্য (ওয়েব চিত্রগুলিতে প্রিটরাইনড), দয়া করে নিম্নলিখিত ট্রান্সফর্মটি ব্যবহার করুন (স্ট্যান্ডার্ড ইমেজেনেট মূল্যায়ন ট্রান্সফর্ম):
import torchvision
def make_transform(resize_size: int = 224):
to_tensor = transforms.ToTensor()
resize = transforms.Resize((resize_size, resize_size), antialias=True)
normalize = transforms.Normalize(
mean=(0.485, 0.456, 0.406),
std=(0.229, 0.224, 0.225),
)
return transforms.Compose((to_tensor, resize, normalize))
SAT-493M ওজন (স্যাটেলাইট চিত্রের উপর প্রিট্রেইনড) ব্যবহার করে মডেলগুলির জন্য, দয়া করে নিম্নলিখিত রূপান্তরটি ব্যবহার করুন:
import torchvision
def make_transform(resize_size: int = 224):
to_tensor = transforms.ToTensor()
resize = transforms.Resize((resize_size, resize_size), antialias=True)
normalize = transforms.Normalize(
mean=(0.430, 0.411, 0.296),
std=(0.213, 0.156, 0.143),
)
return transforms.Compose((to_tensor, resize, normalize))
|ব্যাকবোন
|Pretraining
ডেটাসেট
|মাথা
ডেটাসেট
|ডাউনলোড
|ভিট -7 বি/16
|LVD-1689 মি
|ইমেজেনেট
|(লিঙ্ক)
(পূর্ণ) শ্রেণিবদ্ধ মডেলগুলি পিটারচ হাবের মাধ্যমে লোড করা যায়:
import torch
# DINOv3
dinov3_vit7b16_lc = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_lc', source="local", weights=<DEPTHER/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
|ব্যাকবোন
|Pretraining
ডেটাসেট
|মাথা
ডেটাসেট
|ডাউনলোড
|ভিট -7 বি/16
|LVD-1689 মি
|সিন্থমিক্স
|(লিঙ্ক)
depther = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_dd', source="local", weights=<DEPTHER/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
একটি চিত্রের উপর গভীরতার সম্পূর্ণ উদাহরণ কোড
from PIL import Image
import torch
from torchvision import transforms
import matplotlib.pyplot as plt
from matplotlib import colormaps
def get_img():
import requests
url = "
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
return image
def make_transform(resize_size: int | list(int) = 768):
to_tensor = transforms.ToTensor()
resize = transforms.Resize((resize_size, resize_size), antialias=True)
normalize = transforms.Normalize(
mean=(0.485, 0.456, 0.406),
std=(0.229, 0.224, 0.225),
)
return transforms.Compose((to_tensor, resize, normalize))
depther = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_dd', source="local", weights=<DEPTHER/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
img_size = 1024
img = get_img()
transform = make_transform(img_size)
with torch.inference_mode():
with torch.autocast('cuda', dtype=torch.bfloat16):
batch_img = transform(img)(None)
batch_img = batch_img
depths = depther(batch_img)
plt.figure(figsize=(12, 6))
plt.subplot(121)
plt.imshow(img)
plt.axis("off")
plt.subplot(122)
plt.imshow(depths(0,0).cpu(), cmap=colormaps("Spectral"))
plt.axis("off")
|ব্যাকবোন
|Pretraining
ডেটাসেট
|মাথা
ডেটাসেট
|ডাউনলোড
|ভিট -7 বি/16
|LVD-1689 মি
|COCO2017
|(লিঙ্ক)
detector = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_de', source="local", weights=<DETECTOR/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
|ব্যাকবোন
|Pretraining
ডেটাসেট
|মাথা
ডেটাসেট
|ডাউনলোড
|ভিট -7 বি/16
|LVD-1689 মি
|AD20K
|(লিঙ্ক)
segmentor = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_ms', source="local", weights=<SEGMENTOR/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
সেগমেন্টেটর একটি চিত্রের সম্পূর্ণ উদাহরণ কোড
import sys
sys.path.append(REPO_DIR)
from PIL import Image
import torch
from torchvision import transforms
import matplotlib.pyplot as plt
from matplotlib import colormaps
from functools import partial
from dinov3.eval.segmentation.inference import make_inference
def get_img():
import requests
url = "
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
return image
def make_transform(resize_size: int | list(int) = 768):
to_tensor = transforms.ToTensor()
resize = transforms.Resize((resize_size, resize_size), antialias=True)
normalize = transforms.Normalize(
mean=(0.485, 0.456, 0.406),
std=(0.229, 0.224, 0.225),
)
return transforms.Compose((to_tensor, resize, normalize))
segmentor = torch.hub.load(REPO_DIR, 'dinov3_vit7b16_ms', source="local", weights=<SEGMENTOR/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
img_size = 896
img = get_img()
transform = make_transform(img_size)
with torch.inference_mode():
with torch.autocast('cuda', dtype=torch.bfloat16):
batch_img = transform(img)(None)
pred_vit7b = segmentor(batch_img) # raw predictions
# actual segmentation map
segmentation_map_vit7b = make_inference(
batch_img,
segmentor,
inference_mode="slide",
decoder_head_type="m2f",
rescale_to=(img.size(-1), img.size(-2)),
n_output_channels=150,
crop_size=(img_size, img_size),
stride=(img_size, img_size),
output_activation=partial(torch.nn.functional.softmax, dim=1),
).argmax(dim=1, keepdim=True)
plt.figure(figsize=(12, 6))
plt.subplot(121)
plt.imshow(img)
plt.axis("off")
plt.subplot(122)
plt.imshow(segmentation_map_vit7b(0,0).cpu(), cmap=colormaps("Spectral"))
plt.axis("off")
(পূর্ণ) dino.txt মডেলটি পাইটোরচ হাবের মাধ্যমে লোড করা যায়:
import torch
# DINOv3
dinov3_vitl16_dinotxt_tet1280d20h24l, tokenizer = torch.hub.load(REPO_DIR, 'dinov3_vitl16_dinotxt_tet1280d20h24l', weights=<SEGMENTOR/CHECKPOINT/URL/OR/PATH>, backbone_weights=<BACKBONE/CHECKPOINT/URL/OR/PATH>)
প্রশিক্ষণ এবং মূল্যায়ন কোডের জন্য পাইটোরচ সংস্করণ> = 2.7.1 পাশাপাশি আরও কয়েকটি তৃতীয় পক্ষের প্যাকেজ প্রয়োজন। নোট করুন যে কোডটি কেবলমাত্র নির্দিষ্ট সংস্করণগুলির সাথে পরীক্ষা করা হয়েছে এবং একটি লিনাক্স পরিবেশেরও প্রত্যাশা করে। প্রশিক্ষণ এবং মূল্যায়নের জন্য প্রয়োজনীয় সমস্ত নির্ভরতা সেটআপ করতে, দয়া করে নীচের নির্দেশাবলী অনুসরণ করুন:
মাইক্রোমাম্বা (প্রস্তাবিত) – সংগ্রহস্থলটি ক্লোন করুন এবং তারপরে একটি তৈরি করুন এবং সক্রিয় করুন
dinov3 প্রদত্ত পরিবেশ সংজ্ঞা ব্যবহার করে কনডা পরিবেশ:
micromamba env create -f conda.yaml
micromamba activate dinov3
দিনভ 3 প্রয়োগ করতে শুরু করার জন্য বেশ কয়েকটি নোটবুক সরবরাহ করা হয়েছে:
ডেটাসেটের মূল ডিরেক্টরিটি নিম্নলিখিত বিষয়বস্তুগুলি ধরে রাখতে হবে:
<ROOT>/test/ILSVRC2012_test_00000001.JPEG
<ROOT>/test/(..)
<ROOT>/test/ILSVRC2012_test_00100000.JPEG
<ROOT>/train/n01440764/n01440764_10026.JPEG
<ROOT>/train/(...)
<ROOT>/train/n15075141/n15075141_9993.JPEG
<ROOT>/val/n01440764/ILSVRC2012_val_00000293.JPEG
<ROOT>/val/(...)
<ROOT>/val/n15075141/ILSVRC2012_val_00049174.JPEG
<ROOT>/labels.txt
প্রদত্ত ডেটাসেট বাস্তবায়ন অতিরিক্ত ডিরেক্টরিগুলির অধীনে কয়েকটি অতিরিক্ত মেটাডেটা ফাইল উপস্থিত থাকার প্রত্যাশা করে:
<EXTRA>/class-ids-TRAIN.npy
<EXTRA>/class-ids-VAL.npy
<EXTRA>/class-names-TRAIN.npy
<EXTRA>/class-names-VAL.npy
<EXTRA>/entries-TEST.npy
<EXTRA>/entries-TRAIN.npy
<EXTRA>/entries-VAL.npy
এই মেটাডেটা ফাইলগুলি পাইথন কোডের নিম্নলিখিত লাইনগুলির সাথে (একবার) উত্পন্ন করা যেতে পারে:
from dinov3.data.datasets import ImageNet
for split in ImageNet.Split:
dataset = ImageNet(split=split, root="<ROOT>", extra="<EXTRA>")
dataset.dump_extra()
নোট করুন যে মূল এবং অতিরিক্ত ডিরেক্টরিগুলি পৃথক ডিরেক্টরি হতে হবে না।
আপনার স্থানীয় সেটআপের সাথে মেলে দয়া করে ডেটাসেট ক্লাসটি মানিয়ে নিন।
dinov3 প্যাকেজটি পাইথন মডিউল অনুসন্ধানের পথে অন্তর্ভুক্ত করা উচিত, অর্থাত্ চালানোর জন্য কেবল কমান্ডটি উপসর্গ করুন
PYTHONPATH=.।
জমা সহ একটি স্লর্ম ক্লাস্টার পরিবেশে 4 এইচ 100-80 জিবি নোড (32 জিপিইউ) এ ডিনোভ 3 প্রি-ট্রেনিং চালান:
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/train/train.py \
--nodes 4 \
--config-file dinov3/configs/train/vitl_im1k_lin834.yaml \
--output-dir <PATH/TO/OUTPUT/DIR> \
train.dataset_path=ImageNet22k:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
প্রশিক্ষণের সময় প্রায় 14 ঘন্টা এবং ফলস্বরূপ চেকপয়েন্টটি কে-এনএন এভেলে 82.0% এবং লিনিয়ার ইভাল এ 83.5% এ পৌঁছাতে হবে।
প্রশিক্ষণ কোডটি মূল্যায়নের জন্য প্রতি 12500 পুনরাবৃত্তির জন্য মূল্যায়ন ফোল্ডারে শিক্ষকের ওজন সংরক্ষণ করে।
Dinov3 VIT-7B/16 একটি ব্যক্তিগত ডেটাসেটে প্রশিক্ষিত। প্রশিক্ষণে 3 টি স্তর জড়িত:
- Pretraining
- গ্রাম অ্যাঙ্করিং
- উচ্চ রেজোলিউশন অভিযোজন
জমা সহ একটি স্লর্ম ক্লাস্টার পরিবেশে 32 নোড (256 জিপিইউ) এ ডিনোভ 3 ভিআইটি -7 বি/16 প্রিট্রেনিং চালু করুন।
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/train/train.py \
--nodes 32 \
--config-file dinov3/configs/train/dinov3_vit7b16_pretrain.yaml \
--output-dir <PATH/TO/OUTPUT/DIR> \
train.dataset_path=<DATASET>:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/train/train.py \
--nodes 32 \
--config-file dinov3/configs/train/dinov3_vit7b16_gram_anchor.yaml \
--output-dir <PATH/TO/OUTPUT/DIR> \
train.dataset_path=<DATASET>:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
gram.ckpt=<PATH/TO/GRAM_TEACHER_FROM_PREVIOUS_STEP>
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/train/train.py \
--nodes 32 \
--config-file dinov3/configs/train/dinov3_vit7b16_high_res_adapt.yaml \
--output-dir <PATH/TO/OUTPUT/DIR> \
train.dataset_path=<DATASET>:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
gram.ckpt=<PATH/TO/TEACHER_FROM_GRAM> \
student.resume_from_teacher_chkpt=<PATH/TO/TEACHER_FROM_GRAM>
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/train/train.py \
--nodes 1 \
--config-file dinov3/configs/train/multi_distillation_test.yaml \
--output-dir <PATH/TO/OUTPUT/DIR> \
--multi-distillation \
train.dataset_path=<DATASET>:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
প্রশিক্ষণ কোডটি নিয়মিত শিক্ষকের ওজন সংরক্ষণ করে। মডেলটি মূল্যায়ন করার জন্য, একটি একক নোডে নিম্নলিখিত মূল্যায়ন চালান:
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/eval/log_regression.py \
model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
output_dir=<PATH/TO/OUTPUT/DIR> \
train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
eval.test_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/eval/knn.py \
model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
output_dir=<PATH/TO/OUTPUT/DIR> \
train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
eval.test_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/eval/linear.py \
model.config_file=<PATH/TO/OUTPUT/DIR>/config.yaml \
model.pretrained_weights=<PATH/TO/OUTPUT/DIR>/teacher_checkpoint.pth \
output_dir=<PATH/TO/OUTPUT/DIR> \
train.dataset=ImageNet:split=TRAIN:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET> \
train.val_dataset=ImageNet:split=VAL:root=<PATH/TO/DATASET>:extra=<PATH/TO/DATASET>
পদ্ধতিটি অনুসরণ করে পাঠ্য প্রান্তিককরণ করা যেতে পারে
dino.txt ওরফে Dinov2 পাঠ্য পূরণ করে।
PYTHONPATH=$PWD python -m dinov3.run.submit dinov3/eval/text/train_dinotxt.py \
--nodes 4 \
# An example config for text alignment is here: dinov3/eval/text/configs/dinov3_vitl_text.yaml \
trainer_config_file="<PATH/TO/DINOv3/TEXT/CONFIG>" \
output-dir=<PATH/TO/OUTPUT/DIR>
উপরোক্ত ট্রেনগুলির পাঠ্য প্রান্তিককরণটি 4 টি নোডে 8 জিপিইউ (মোট 32 জিপিইউ) সহ 4 টি নোডে চালু করা হচ্ছে। দয়া করে নোট করুন যে ডিনোভ 3 কাগজে পাঠ্য প্রান্তিককরণ মডেলটি একটি ব্যক্তিগত ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল এবং এখানে আমরা একটি উদাহরণ কনফিগারেশন দিয়েছি
dinov3/eval/text/configs/dinov3_vitl_text.yaml ব্যবহার
CocoCaptions চিত্রের উদ্দেশ্যে ডেটাসেট। সরবরাহ করা দয়া করে অভিযোজিত
CocoCaptions ডেটাসেট ক্লাস, ডেটাসেট পাওয়া যাবে এখানে
DINOV3 কোড এবং মডেল ওজন DINOV3 লাইসেন্সের অধীনে প্রকাশিত হয়। অতিরিক্ত তথ্যের জন্য লাইসেন্স.এমডি দেখুন।
অবদান এবং আচরণবিধি দেখুন।
যদি আপনি এই ভান্ডারটি দরকারী বলে মনে করেন তবে দয়া করে একটি তারা দেওয়ার কথা বিবেচনা করুন ⭐ এবং উদ্ধৃতি 🦖:
@article{simeoni2025dinov3,
title = DINOv3,
author = Sim\'eoni, Oriane and Vo, Huy V. and Seitzer, Maximilian and Baldassarre, Federico and Oquab, Maxime and Jose, Cijo and Khalidov, Vasil and Szafraniec, Marc and Yi, Seungeun and Ramamonjisoa, Micha\"el and Massa, Francisco and Haziza, Daniel and Wehrstedt, Luca and Wang, Jianyuan and Darcet, Timoth\'ee and Moutakanni, Th\'eo and Sentana, Leonel and Roberts, Claire and Vedaldi, Andrea and Tolan, Jamie and Brandt, John and Couprie, Camille and Mairal, Julien and J\'egou, Herv\'e and Labatut, Patrick and Bojanowski, Piotr,
year = 2025,
month = aug,
url=
urldate = 2025-08-13,