টিএলডিআর: আমি এটি ডাউনলোড করেছি

এবং এখন আমি এটি ডাকডিবি দিয়ে বিশ্লেষণ করতে পারি। সময়ের সাথে মূল বিষয়গুলি উল্লেখ করে মোট মন্তব্য এবং গল্পগুলির ভগ্নাংশ দেখুন!

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 5/14/2007 5/14/2008 5/14/2009 5/14/2010 5/14/2011 5/14/2012 5/14/2013 5/14/2014 5/14/2015 5/14/2016 5/14/2017 5/14/2018 5/14/2019 5/14/2020 5/14/2021 5/14/2022 5/14/2023 5/14/2024 মরিচা avg_python_12w avg_javastript_12w avg_java_12w avg_ruby_12w avg_rust_12w

0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.01 5/14/2007 5/14/2008 5/14/2009 5/14/2010 5/14/2011 5/14/2012 5/14/2013 5/14/2014 5/14/2015 5/14/2016 5/14/2017 5/14/2018 5/14/2019 5/14/2020 5/14/2021 5/14/2022 5/14/2023 5/14/2024 পোস্টগ্রেসের অগ্রগতি avg_mysql_12w avg_postgres_12w avg_mongo_12w avg_redis_12w avg_sqlite_12w

অংশ 1: ​​মোডগুলি ঘুমিয়ে আছে, এটি সমস্ত ডাউনলোড করুন

বিল্ডিংয়ের অংশ হিসাবে hn.unlurker.comআমি লিখেছি একটি

এইচএন এপিআই ক্লায়েন্ট। ইতিমধ্যে অন্যান্য ক্লায়েন্টদের একটি গুচ্ছ রয়েছে তবে আমি একটি নতুন প্রকল্পে সর্বশেষতম জিও বৈশিষ্ট্য এবং লিন্টারগুলি চেষ্টা করতে চেয়েছিলাম। আমি খুশি আমি করেছি; এটা অনেক মজা ছিল।

ক্লায়েন্ট সক্রিয় আইটেম, আইটেমগুলির তালিকা ইত্যাদি পুনরুদ্ধার করতে পারে (মন্তব্য এবং গল্পগুলিকে “আইটেম” বলা হয় এইচএন)। যদিও আমার প্রকল্পের জন্য আমার কেবল সাম্প্রতিক আইটেমগুলির প্রয়োজন ছিল, সম্পূর্ণতার জন্য আমি “স্ক্যান” যুক্ত করেছি যা শূন্য থেকে সর্বশেষ বা অন্য উপায়ে সমস্ত আইটেমগুলি ক্রমানুসারে ডাউনলোড করে।

আমি ভাবলাম – আমি কি পুরো জিনিসটি ডাউনলোড করতে পারি? কয়েক হাজার আইটেম থেকে এক্সট্রাপোলেটিং, এটি কেবল জেসনের কয়েক দশক গিব হবে। আমি ভেবেছিলাম আমি চেষ্টা করে দেখব।

hn scan --no-cache --asc -c- -o full.json

আমাকে কয়েকবার স্টলড ডাউনলোড করতে হয়েছিল, তবে স্ক্যানটি পুনরায় শুরু করা যায় তাই কয়েক ঘন্টা পরে আমার কাজ শেষ হয়ে যায়। আমার কাছে হ্যাকার নিউজে যা ঘটেছিল তার সমস্ত 20 টি গিব জসন ফাইল ছিল এবং আমি যে কোনও সময় আমার সর্বশেষের প্রয়োজন হওয়ার সময় “শীর্ষে এটি” করতে কেবল উপরের কমান্ডটি পুনরায় চালাতে পারি। তবে আমি এটি দিয়ে কী করতে পারি?

পার্ট 2: হাঁসকে খাওয়ান

প্রথমে আমি কেবল জিনিসগুলির জন্য গ্রেপ করেছি। কতবার বাক্যাংশ আছে “সঠিক ঘোড়ার ব্যাটারি স্ট্যাপল”সাইটে হাজির? বেশ কয়েক: 231 বার (শেষটি)

ঠিক আজ)। তবে গ্রেপিং স্টাফগুলি পুরানো খবর, তাই আমি ভেবেছিলাম আমি ডাকডিবি চেষ্টা করব।

ডাটাবেস বিশ্বে, ডাকডিবি অনন্য: একটি সুপার-ফাস্ট এম্বেডেবল অ্যানালিটিক্স এক্সিকিউশন ইঞ্জিনও কমান্ড-লাইন সরঞ্জাম হিসাবে উপলব্ধ। আমি আমার বেশিরভাগ দিন কাটিয়েছি a

বিভিন্ন ডাটাবেস (আমার সহকর্মীরা যে প্লাগটি সন্ধান করবে তা রয়েছে) তবে আমি ডাকডিবি চেষ্টা করার অর্থ পেয়েছি এবং এটি এই এক-অফ টাস্কের জন্য উপযুক্ত বলে মনে হয়েছিল।

দেখা যাচ্ছে যে, আমার মতো নবাগতদের জন্য তাদের নতুন ইউআই সহ, এটি ব্যবহারের জন্য একটি বাতাস। এবং এলএলএম এসকিউএল কোয়েরিগুলি তৈরি করতে সহায়তা করতে বেশ ভাল। আমাকে কেবল ডেটা আমদানি করতে হয়েছিল:

CREATE TABLE items AS SELECT * FROM read_json_auto ( '/home/jason/full.json' , format = 'nd' , sample_size = - 1 ) ;

তারপরে এটি জিজ্ঞাসা করুন। আমি আগ্রহী শর্তাদি সম্বলিত মোট আইটেমগুলির ভগ্নাংশের 12-সপ্তাহের চলমান গড় এখানে:

WITH weekly AS ( SELECT DATE_TRUNC ( 'week' , TO_TIMESTAMP ( time ) ) AS week_start , COUNT ( * ) FILTER ( WHERE text ILIKE '%python%' ) :: float / NULLIF ( COUNT ( * ) , 0 ) AS python_prop , COUNT ( * ) FILTER ( WHERE text ILIKE '%javascript%' ) :: float / NULLIF ( COUNT ( * ) , 0 ) AS javascript_prop , COUNT ( * ) FILTER ( WHERE text ILIKE '%java%' ) :: float / NULLIF ( COUNT ( * ) , 0 ) AS java_prop , COUNT ( * ) FILTER ( WHERE text ILIKE '%ruby%' ) :: float / NULLIF ( COUNT ( * ) , 0 ) AS ruby_prop , COUNT ( * ) FILTER ( WHERE text ILIKE '%rust%' ) :: float / NULLIF ( COUNT ( * ) , 0 ) AS rust_prop FROM items GROUP BY week_start ) SELECT week_start , AVG ( python_prop ) OVER ( ORDER BY week_start ROWS BETWEEN 11 PRECEDING AND CURRENT ROW ) AS avg_python_12w , AVG ( javascript_prop ) OVER ( ORDER BY week_start ROWS BETWEEN 11 PRECEDING AND CURRENT ROW ) AS avg_javascript_12w , AVG ( java_prop ) OVER ( ORDER BY week_start ROWS BETWEEN 11 PRECEDING AND CURRENT ROW ) AS avg_java_12w , AVG ( ruby_prop ) OVER ( ORDER BY week_start ROWS BETWEEN 11 PRECEDING AND CURRENT ROW ) AS avg_ruby_12w , AVG ( rust_prop ) OVER ( ORDER BY week_start ROWS BETWEEN 11 PRECEDING AND CURRENT ROW ) AS avg_rust_12w FROM weekly ORDER BY week_start ;

সামগ্রিক ডাকডিবি এই আকারের ডেটা সেট বিশ্লেষণের জন্য সত্যিই দুর্দান্ত বলে মনে হচ্ছে।

পরবর্তী পদক্ষেপ

এখন যেহেতু আমার কাছে সমস্ত হ্যাকার নিউজ সামগ্রীর স্থানীয় ডাউনলোড রয়েছে, আমি এটিতে কয়েকশ এলএলএম-ভিত্তিক বট প্রশিক্ষণ দিতে পারি এবং এগুলি অবদানকারী হিসাবে চালাতে পারি, ধীরে ধীরে এবং অনিবার্যভাবে সমস্ত মানব পাঠ্যকে একটি চীনা কক্ষের দোলকের আউটপুট দিয়ে চিরতরে প্রতিধ্বনিত করে এবং পুনর্ব্যবহারের সাথে প্রতিস্থাপন করতে পারি।

বা বিকল্পভাবে, আমি মনে করি এই প্রকল্পটির জন্য আমি সম্পন্ন করেছি। অন্য কাউকে এটিকে পরবর্তী যৌক্তিক পদক্ষেপে নিয়ে যেতে হবে।

