Caucenet

Caucenet

কার্যকারণ জ্ঞানকে কৃত্রিম বুদ্ধিমত্তাকে এগিয়ে নেওয়ার অন্যতম মূল উপাদান হিসাবে দেখা হয়। তবুও, কয়েকটি জ্ঞানের ঘাঁটি আজ পর্যন্ত কার্যকারণ জ্ঞান নিয়ে গঠিত, সম্ভবত বৈধতার জন্য প্রয়োজনীয় উল্লেখযোগ্য প্রচেষ্টার কারণে। এই চ্যালেঞ্জ সত্ত্বেও, আমরা কার্যনির্বাহী সংকলন করি, এর একটি বৃহত আকারের জ্ঞান ভিত্তি দাবি কার্যকারণ ধারণাগুলির মধ্যে কার্যকারণ সম্পর্ক। বিভিন্ন আধা- এবং কাঠামোগত ওয়েব উত্স থেকে নিষ্কাশন দ্বারা, আমরা 83%% এর আনুমানিক নিষ্কাশন নির্ভুলতার সাথে 11 মিলিয়নেরও বেশি কার্যকারণ সম্পর্ক সংগ্রহ করি এবং প্রথম বৃহত আকারের এবং ওপেন-ডোমেন কার্যকারিতা গ্রাফটি তৈরি করি। আমরা ওয়েবে প্রকাশিত কার্যকারণ বিশ্বাস সম্পর্কে অন্তর্দৃষ্টি অর্জনের জন্য গ্রাফটি বিশ্লেষণ করি এবং আমরা মৌলিক কার্যকারণ প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে এর সুবিধাগুলি প্রদর্শন করি। ভবিষ্যতের কাজ কার্যকারণ যুক্তি, গণনামূলক যুক্তি, মাল্টি-হপ প্রশ্নের উত্তর এবং আরও অনেক কিছুর জন্য গ্রাফটি ব্যবহার করতে পারে।

ডাউনলোড

আমরা আমাদের কার্যকারিতা গ্রাফের কার্যকারণের তিনটি সংস্করণ সরবরাহ করি:

পরিসংখ্যান

সম্পর্কধারণাফাইল আকার
Caucenet- পূর্ণ11,609,89012,186,1951.8 গিগাবাইট
মেসেনেট-নির্ভুলতা199,80680,223135 এমবি
মেসেনেট-নমুনা26452454 কেবি

ডেটা মডেল

কার্যকারণীয় সম্পর্কের দ্বারা সংযুক্ত থাকে যা কার্যকারণ ধারণাগুলি নিয়ে গঠিত। প্রতিটি কার্যকারণ সম্পর্কের কোথায় এবং কীভাবে এটি উত্তোলন করা হয়েছিল সে সম্পর্কে ব্যাপক প্রোভেন্যান্স ডেটা রয়েছে।

অঙ্কন

কার্যকারণ সম্পর্কের উদাহরণ

কার্যকারণ সম্পর্কগুলি নিম্নলিখিত উদাহরণে প্রদর্শিত হিসাবে প্রতিনিধিত্ব করা হয়। প্রোভেন্যান্স ডেটা বাদ দেওয়া হয়।

{
    "causal_relation": {
        "cause": {
            "concept": "disease"
        },
        "effect": {
            "concept": "death"
        }
    }
}

মেসেনেট-পূর্ণ এবং কার্যনির্বাহী-নির্ভুলতার জন্য, আমরা বিস্তৃত প্রোভেন্যান্স ডেটা অন্তর্ভুক্ত করি। নিম্নলিখিতগুলিতে, আমরা উত্স প্রতি একটি উদাহরণ দিই।

প্রাকৃতিক ভাষার বাক্যগুলি থেকে প্রাপ্ত সম্পর্কের জন্য আমরা সরবরাহ করি:

  • surface: বাক্যটির পৃষ্ঠের রূপ, অর্থাত্ মূল স্ট্রিং
  • path_pattern: এক্সট্রাকশন জন্য ব্যবহৃত ভাষাগত পাথ প্যাটার্ন

ক্লুওয়েব 12 বাক্য

  • clueweb12_page_id: ক্লুওয়েব 12 কর্পাসে প্রদত্ত পৃষ্ঠা আইডি
  • clueweb12_page_reference: ক্লুওয়েব 12 কর্পাসে প্রদত্ত পৃষ্ঠা রেফারেন্স
  • clueweb12_page_timestamp: ক্লুওয়েব 12 কর্পাসে বর্ণিত হিসাবে পৃষ্ঠা অ্যাক্সেস ডেটা
{
    "causal_relation":{
        "cause":{
            "concept":"smoking"
        },
        "effect":{
            "concept":"disability"
        }
    },
    "sources":(
        {
            "type":"clueweb12_sentence",
            "payload":{
                "clueweb12_page_id":"urn:uuid:4cbae00e-8c7f-44b1-9f02-d797f53d448a",
                "clueweb12_page_reference":"http://atlas.nrcan.gc.ca/site/english/maps/health/healthbehaviors/smoking",
                "clueweb12_page_timestamp":"2012-02-23T21:10:45Z",
                "sentence": "In Canada, smoking is the most important cause of preventable illness, disability and premature death.",
                "path_pattern":"((cause))/N\t-nsubj\tcause/NN\t+nmod:of\t((effect))/N"
            }
        }
    )
}

উইকিপিডিয়া বাক্য

  • wikipedia_page_id: উইকিপিডিয়া পৃষ্ঠা আইডি
  • wikipedia_page_title: উইকিপিডিয়া পৃষ্ঠার শিরোনাম
  • wikipedia_revision_id: শেষ সম্পাদনার উইকিপিডিয়া রিভিশন আইডি
  • wikipedia_revision_timestamp: শেষ সম্পাদনার উইকিপিডিয়া রিভিশন আইডির টাইমস্ট্যাম্প
  • sentence_section_heading: যে বিভাগটি বাক্যটি এসেছে সেখানে শিরোনাম
  • sentence_section_level: যে স্তরটি বিভাগটি শিরোনাম থেকে আসে
{
    "causal_relation":{
        "cause":{
            "concept":"human_activity"
        },
        "effect":{
            "concept":"climate_change"
        }
    },
    "sources":(
        {
            "type":"wikipedia_sentence",
            "payload":{
                "wikipedia_page_id":"13109",
                "wikipedia_page_title":"Global warming controversy",
                "wikipedia_revision_id":"860220175",
                "wikipedia_revision_timestamp":"2018-09-19T04:52:18Z",
                "sentence_section_heading":"Global warming controversy",
                "sentence_section_level":"1",
                "sentence": "The controversy is, by now, political rather than scientific: there is a scientific consensus that climate change is happening and is caused by human activity.",
                "path_pattern":"((cause))/N\t-nmod:agent\tcaused/VBN\t+nsubjpass\t((effect))/N"
            }
        }
    )
}

উইকিপিডিয়া তালিকা

  • list_toc_parent_title: প্যারেন্ট বিভাগের শিরোনাম তালিকায় উপস্থিত হয়
  • list_toc_section_heading: বিভাগের শিরোনামে তালিকায় উপস্থিত হয়
  • list_toc_section_level: সামগ্রীর সারণির মধ্যে বিভাগের বাসা স্তর (টিওসি)
{
    "causal_relation":{
        "cause":{
            "concept":"separation_from_parents"
        },
        "effect":{
            "concept":"stress_in_early_childhood"
        }
    },
    "sources":(
        {
            "type":"wikipedia_list",
            "payload":{
                "wikipedia_page_id":"33096801",
                "wikipedia_page_title":"Stress in early childhood",
                "wikipedia_revision_id":"859225864",
                "wikipedia_revision_timestamp":"2018-09-12T16:22:05Z",
                "list_toc_parent_title":"Stress in early childhood",
                "list_toc_section_heading":"Causes",
                "list_toc_section_level":"2"
            }
        }
    )
}

উইকিপিডিয়া ইনফোবক্সস

  • infobox_template: ইনফোবক্সের উইকিপিডিয়া টেম্পলেট
  • infobox_title: উইকিপিডিয়া ইনফোবক্সের শিরোনাম
  • infobox_argument: ইনফোবক্সের যুক্তি (কী-মূল্য জুটির কী)
{
    "causal_relation":{
        "cause":{
            "concept":"alcohol"
        },
        "effect":{
            "concept":"cirrhosis"
        }
    },
    "sources":(
        {
            "type":"wikipedia_infobox",
            "payload":{
                "wikipedia_page_id":"21365918",
                "wikipedia_page_title":"Cirrhosis",
                "wikipedia_revision_id":"861860835",
                "wikipedia_revision_timestamp":"2018-09-30T15:40:21Z",
                "infobox_template":"Infobox medical condition (new)",
                "infobox_title":"Cirrhosis",
                "infobox_argument":"causes"
            }
        }
    )
}

Neo4j এ কার্যেনেট লোড হচ্ছে

আমরা গ্রাফ ডাটাবেসে কার্যনির্মিত লোড করতে নমুনা কোড সরবরাহ করি নিও 4 জে

নিম্নলিখিত চিত্রটি নিও 4 জে এর মধ্যে কিসেনেটের একটি অংশ দেখায় (একটি করোনাভাইরাস রোগের এসএআরএসের কারণ হিসাবে দেখানো):

অঙ্কন

কনসেপ্ট স্পটিং ডেটাসেটস

কার্যনির্বাহী নির্মাণের জন্য, আমরা একটি কার্যকারণ ধারণা স্পটার নিয়োগ করি কারণ একটি কার্যকারণ ধারণা একাধিক শব্দের সমন্বয়ে গঠিত হতে পারে (যেমন, “গ্লোবাল ওয়ার্মিং”, “মানব ক্রিয়াকলাপ”, বা “অনুশীলনের অভাব”)। আমরা সিকোয়েন্স ট্যাগার সহ একটি বাক্যে একটি কার্যকারণ ধারণার সঠিক শুরু এবং শেষ নির্ধারণ করি। আমাদের প্রশিক্ষণ এবং মূল্যায়ন ডেটা আমাদের অংশ হিসাবে উপলব্ধ কনসেপ্ট স্পটিং ডেটাসেটস: উইকিপিডিয়া ইনফোবক্স, উইকিপিডিয়া তালিকা এবং ক্লুওয়েব বাক্যগুলির জন্য একটি। আমরা প্রতিটি ডেটাসেটকে 80% প্রশিক্ষণ, 10% বিকাশ এবং 10% পরীক্ষার সেটে বিভক্ত করি

কাগজ

Caucenet আমাদের CIKM 2020 কাগজের ভিত্তি গঠন করে মেসেনেট: ওয়েব থেকে নিষ্কাশিত একটি কার্যকারিতা গ্রাফের দিকে। দয়া করে এটি নিম্নলিখিত হিসাবে উল্লেখ করতে ভুলবেন না:

@inproceedings{heindorf2020causenet,
  author    = {Stefan Heindorf and
               Yan Scholten and
               Henning Wachsmuth and
               Axel-Cyrille Ngonga Ngomo and
               Martin Potthast},
  title     = {CauseNet: Towards a Causality Graph Extracted from the Web},
  booktitle = {{CIKM}},
  publisher = {{ACM}},
  year      = {2020}
}

প্রশ্ন এবং প্রতিক্রিয়া জন্য যোগাযোগ করুন:

স্টিফান হাইন্ডর্ফ, প্যাডারবার্ন বিশ্ববিদ্যালয়
ইয়ান শোল্টেন, মিউনিখের প্রযুক্তিগত বিশ্ববিদ্যালয়
হেনিং ওয়াচস্মুথ, প্যাডার্ন ইউনিভার্সিটি
অ্যাক্সেল-সিরিল সাইক্লোথ, প্যাডব্রন বিশ্ববিদ্যালয়,
মার্টিন পটথাস্ট, লাইপজিগ বিশ্ববিদ্যালয়

লাইসেন্স

কোডটি ক এর অধীনে লাইসেন্স দেওয়া হয় আমার লাইসেন্স। ডেটা ক এর অধীনে লাইসেন্স দেওয়া হয় ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 4.0 আন্তর্জাতিক লাইসেন্স

Source link