• news_banner

خدمة

آلية تنظيف بيانات Spark Streaming
(ط) DStream وRDD
كما نعلم، يعتمد حساب Spark Streaming على Spark Core، وجوهر Spark Core هو RDD، لذا يجب أن يكون Spark Streaming مرتبطًا بـ RDD أيضًا.ومع ذلك، لا يسمح Spark Streaming للمستخدمين باستخدام RDD مباشرة، ولكنه يلخص مجموعة من مفاهيم DStream، DStream و RDD هما علاقات شاملة، يمكنك فهمها على أنها نمط الزخرفة في Java، أي أن DStream هو تحسين لـ RDD، ولكن السلوك مشابه لـ RDD.
لدى كل من DStream وRDD عدة شروط.
(1) لها إجراءات تحويل مماثلة، مثل الخريطة، وreduceByKey، وما إلى ذلك، ولكن أيضًا بعض الإجراءات الفريدة، مثل Window، وmapWithStated، وما إلى ذلك.
(2) جميعها لها إجراءات إجراء، مثل foreachRDD، count، وما إلى ذلك.
نموذج البرمجة متسق.
(ب) مقدمة عن DStream في Spark Streaming
يحتوي DStream على عدة فئات.
(1) فئات مصدر البيانات، مثل InputDStream، المحددة مثل DirectKafkaInputStream، وما إلى ذلك.
(2) فئات التحويل، عادةً MappedDStream، ShuffledDStream
(3) فئات الإخراج، عادةً مثل ForEachDStream
مما سبق، يتم إجراء البيانات من البداية (الإدخال) إلى النهاية (الإخراج) بواسطة نظام DStream، مما يعني أن المستخدم عادةً لا يمكنه إنشاء ملفات RDD ومعالجتها بشكل مباشر، مما يعني أن DStream لديه الفرصة والالتزام بأن يكون المسؤولة عن دورة حياة RDDs.
وبعبارة أخرى، فإن Spark Streaming لديهالتنظيف التلقائيوظيفة.
(3) عملية توليد RDD في Spark Streaming
يعد تدفق حياة RDDs في Spark Streaming تقريبيًا على النحو التالي.
(1) في InputDStream، يتم تحويل البيانات المستلمة إلى RDD، مثل DirectKafkaInputStream، الذي ينشئ KafkaRDD.
(2) ثم من خلال MappedDStream وتحويل البيانات الأخرى، تسمى هذه المرة مباشرة RDD المطابق لطريقة التحويل للخريطة
(3) في عملية فئة الإخراج، فقط عندما يتم الكشف عن RDD، يمكنك السماح للمستخدم بإجراء التخزين المقابل والحسابات الأخرى والعمليات الأخرى.