কার্যকারণ জ্ঞানকে কৃত্রিম বুদ্ধিমত্তাকে এগিয়ে নেওয়ার অন্যতম মূল উপাদান হিসাবে দেখা হয়। তবুও, কয়েকটি জ্ঞানের ঘাঁটি আজ পর্যন্ত কার্যকারণ জ্ঞান নিয়ে গঠিত, সম্ভবত বৈধতার জন্য প্রয়োজনীয় উল্লেখযোগ্য প্রচেষ্টার কারণে। এই চ্যালেঞ্জ সত্ত্বেও, আমরা কার্যনির্বাহী সংকলন করি, এর একটি বৃহত আকারের জ্ঞান ভিত্তি দাবি কার্যকারণ ধারণাগুলির মধ্যে কার্যকারণ সম্পর্ক। বিভিন্ন আধা- এবং কাঠামোগত ওয়েব উত্স থেকে নিষ্কাশন দ্বারা, আমরা 83%% এর আনুমানিক নিষ্কাশন নির্ভুলতার সাথে 11 মিলিয়নেরও বেশি কার্যকারণ সম্পর্ক সংগ্রহ করি এবং প্রথম বৃহত আকারের এবং ওপেন-ডোমেন কার্যকারিতা গ্রাফটি তৈরি করি। আমরা ওয়েবে প্রকাশিত কার্যকারণ বিশ্বাস সম্পর্কে অন্তর্দৃষ্টি অর্জনের জন্য গ্রাফটি বিশ্লেষণ করি এবং আমরা মৌলিক কার্যকারণ প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে এর সুবিধাগুলি প্রদর্শন করি। ভবিষ্যতের কাজ কার্যকারণ যুক্তি, গণনামূলক যুক্তি, মাল্টি-হপ প্রশ্নের উত্তর এবং আরও অনেক কিছুর জন্য গ্রাফটি ব্যবহার করতে পারে।
ডাউনলোড
আমরা আমাদের কার্যকারিতা গ্রাফের কার্যকারণের তিনটি সংস্করণ সরবরাহ করি:
পরিসংখ্যান
সম্পর্ক | ধারণা | ফাইল আকার | |
---|---|---|---|
Caucenet- পূর্ণ | 11,609,890 | 12,186,195 | 1.8 গিগাবাইট |
মেসেনেট-নির্ভুলতা | 199,806 | 80,223 | 135 এমবি |
মেসেনেট-নমুনা | 264 | 524 | 54 কেবি |
ডেটা মডেল
কার্যকারণীয় সম্পর্কের দ্বারা সংযুক্ত থাকে যা কার্যকারণ ধারণাগুলি নিয়ে গঠিত। প্রতিটি কার্যকারণ সম্পর্কের কোথায় এবং কীভাবে এটি উত্তোলন করা হয়েছিল সে সম্পর্কে ব্যাপক প্রোভেন্যান্স ডেটা রয়েছে।
কার্যকারণ সম্পর্কের উদাহরণ
কার্যকারণ সম্পর্কগুলি নিম্নলিখিত উদাহরণে প্রদর্শিত হিসাবে প্রতিনিধিত্ব করা হয়। প্রোভেন্যান্স ডেটা বাদ দেওয়া হয়।
{
"causal_relation": {
"cause": {
"concept": "disease"
},
"effect": {
"concept": "death"
}
}
}
মেসেনেট-পূর্ণ এবং কার্যনির্বাহী-নির্ভুলতার জন্য, আমরা বিস্তৃত প্রোভেন্যান্স ডেটা অন্তর্ভুক্ত করি। নিম্নলিখিতগুলিতে, আমরা উত্স প্রতি একটি উদাহরণ দিই।
প্রাকৃতিক ভাষার বাক্যগুলি থেকে প্রাপ্ত সম্পর্কের জন্য আমরা সরবরাহ করি:
surface
: বাক্যটির পৃষ্ঠের রূপ, অর্থাত্ মূল স্ট্রিংpath_pattern
: এক্সট্রাকশন জন্য ব্যবহৃত ভাষাগত পাথ প্যাটার্ন
ক্লুওয়েব 12 বাক্য
clueweb12_page_id
: ক্লুওয়েব 12 কর্পাসে প্রদত্ত পৃষ্ঠা আইডিclueweb12_page_reference
: ক্লুওয়েব 12 কর্পাসে প্রদত্ত পৃষ্ঠা রেফারেন্সclueweb12_page_timestamp
: ক্লুওয়েব 12 কর্পাসে বর্ণিত হিসাবে পৃষ্ঠা অ্যাক্সেস ডেটা
{
"causal_relation":{
"cause":{
"concept":"smoking"
},
"effect":{
"concept":"disability"
}
},
"sources":(
{
"type":"clueweb12_sentence",
"payload":{
"clueweb12_page_id":"urn:uuid:4cbae00e-8c7f-44b1-9f02-d797f53d448a",
"clueweb12_page_reference":"http://atlas.nrcan.gc.ca/site/english/maps/health/healthbehaviors/smoking",
"clueweb12_page_timestamp":"2012-02-23T21:10:45Z",
"sentence": "In Canada, smoking is the most important cause of preventable illness, disability and premature death.",
"path_pattern":"((cause))/N\t-nsubj\tcause/NN\t+nmod:of\t((effect))/N"
}
}
)
}
উইকিপিডিয়া বাক্য
wikipedia_page_id
: উইকিপিডিয়া পৃষ্ঠা আইডিwikipedia_page_title
: উইকিপিডিয়া পৃষ্ঠার শিরোনামwikipedia_revision_id
: শেষ সম্পাদনার উইকিপিডিয়া রিভিশন আইডিwikipedia_revision_timestamp
: শেষ সম্পাদনার উইকিপিডিয়া রিভিশন আইডির টাইমস্ট্যাম্পsentence_section_heading
: যে বিভাগটি বাক্যটি এসেছে সেখানে শিরোনামsentence_section_level
: যে স্তরটি বিভাগটি শিরোনাম থেকে আসে
{
"causal_relation":{
"cause":{
"concept":"human_activity"
},
"effect":{
"concept":"climate_change"
}
},
"sources":(
{
"type":"wikipedia_sentence",
"payload":{
"wikipedia_page_id":"13109",
"wikipedia_page_title":"Global warming controversy",
"wikipedia_revision_id":"860220175",
"wikipedia_revision_timestamp":"2018-09-19T04:52:18Z",
"sentence_section_heading":"Global warming controversy",
"sentence_section_level":"1",
"sentence": "The controversy is, by now, political rather than scientific: there is a scientific consensus that climate change is happening and is caused by human activity.",
"path_pattern":"((cause))/N\t-nmod:agent\tcaused/VBN\t+nsubjpass\t((effect))/N"
}
}
)
}
উইকিপিডিয়া তালিকা
list_toc_parent_title
: প্যারেন্ট বিভাগের শিরোনাম তালিকায় উপস্থিত হয়list_toc_section_heading
: বিভাগের শিরোনামে তালিকায় উপস্থিত হয়list_toc_section_level
: সামগ্রীর সারণির মধ্যে বিভাগের বাসা স্তর (টিওসি)
{
"causal_relation":{
"cause":{
"concept":"separation_from_parents"
},
"effect":{
"concept":"stress_in_early_childhood"
}
},
"sources":(
{
"type":"wikipedia_list",
"payload":{
"wikipedia_page_id":"33096801",
"wikipedia_page_title":"Stress in early childhood",
"wikipedia_revision_id":"859225864",
"wikipedia_revision_timestamp":"2018-09-12T16:22:05Z",
"list_toc_parent_title":"Stress in early childhood",
"list_toc_section_heading":"Causes",
"list_toc_section_level":"2"
}
}
)
}
উইকিপিডিয়া ইনফোবক্সস
infobox_template
: ইনফোবক্সের উইকিপিডিয়া টেম্পলেটinfobox_title
: উইকিপিডিয়া ইনফোবক্সের শিরোনামinfobox_argument
: ইনফোবক্সের যুক্তি (কী-মূল্য জুটির কী)
{
"causal_relation":{
"cause":{
"concept":"alcohol"
},
"effect":{
"concept":"cirrhosis"
}
},
"sources":(
{
"type":"wikipedia_infobox",
"payload":{
"wikipedia_page_id":"21365918",
"wikipedia_page_title":"Cirrhosis",
"wikipedia_revision_id":"861860835",
"wikipedia_revision_timestamp":"2018-09-30T15:40:21Z",
"infobox_template":"Infobox medical condition (new)",
"infobox_title":"Cirrhosis",
"infobox_argument":"causes"
}
}
)
}
Neo4j এ কার্যেনেট লোড হচ্ছে
আমরা গ্রাফ ডাটাবেসে কার্যনির্মিত লোড করতে নমুনা কোড সরবরাহ করি নিও 4 জে।
নিম্নলিখিত চিত্রটি নিও 4 জে এর মধ্যে কিসেনেটের একটি অংশ দেখায় (একটি করোনাভাইরাস রোগের এসএআরএসের কারণ হিসাবে দেখানো):
কনসেপ্ট স্পটিং ডেটাসেটস
কার্যনির্বাহী নির্মাণের জন্য, আমরা একটি কার্যকারণ ধারণা স্পটার নিয়োগ করি কারণ একটি কার্যকারণ ধারণা একাধিক শব্দের সমন্বয়ে গঠিত হতে পারে (যেমন, “গ্লোবাল ওয়ার্মিং”, “মানব ক্রিয়াকলাপ”, বা “অনুশীলনের অভাব”)। আমরা সিকোয়েন্স ট্যাগার সহ একটি বাক্যে একটি কার্যকারণ ধারণার সঠিক শুরু এবং শেষ নির্ধারণ করি। আমাদের প্রশিক্ষণ এবং মূল্যায়ন ডেটা আমাদের অংশ হিসাবে উপলব্ধ কনসেপ্ট স্পটিং ডেটাসেটস: উইকিপিডিয়া ইনফোবক্স, উইকিপিডিয়া তালিকা এবং ক্লুওয়েব বাক্যগুলির জন্য একটি। আমরা প্রতিটি ডেটাসেটকে 80% প্রশিক্ষণ, 10% বিকাশ এবং 10% পরীক্ষার সেটে বিভক্ত করি
কাগজ
Caucenet আমাদের CIKM 2020 কাগজের ভিত্তি গঠন করে মেসেনেট: ওয়েব থেকে নিষ্কাশিত একটি কার্যকারিতা গ্রাফের দিকে। দয়া করে এটি নিম্নলিখিত হিসাবে উল্লেখ করতে ভুলবেন না:
@inproceedings{heindorf2020causenet,
author = {Stefan Heindorf and
Yan Scholten and
Henning Wachsmuth and
Axel-Cyrille Ngonga Ngomo and
Martin Potthast},
title = {CauseNet: Towards a Causality Graph Extracted from the Web},
booktitle = {{CIKM}},
publisher = {{ACM}},
year = {2020}
}
প্রশ্ন এবং প্রতিক্রিয়া জন্য যোগাযোগ করুন:
স্টিফান হাইন্ডর্ফ, প্যাডারবার্ন বিশ্ববিদ্যালয়
ইয়ান শোল্টেন, মিউনিখের প্রযুক্তিগত বিশ্ববিদ্যালয়
হেনিং ওয়াচস্মুথ, প্যাডার্ন ইউনিভার্সিটি
অ্যাক্সেল-সিরিল সাইক্লোথ, প্যাডব্রন বিশ্ববিদ্যালয়,
মার্টিন পটথাস্ট, লাইপজিগ বিশ্ববিদ্যালয়
লাইসেন্স
কোডটি ক এর অধীনে লাইসেন্স দেওয়া হয় আমার লাইসেন্স। ডেটা ক এর অধীনে লাইসেন্স দেওয়া হয় ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 4.0 আন্তর্জাতিক লাইসেন্স।