Apache Hive

Apache Hive انبار داده ای متن باز برای پرس و جو(query) و تجزیه و تحلیل مجموعه داده های بزرگ ذخیره شده در فایل های هدوپ است.  هدوپ چهارچوبی برای مدیریت مجموعه کلان داده ها در یک محیط محاسباتیِ توزیع شده است.

Hive  دارای سه عملکرد اصلی است : خلاصه سازی داده ها، پرس و جو و تجزیه و تحلیل و پشتیبانی از پرس و جو را در زبان HiveQL انجام می دهد که به طور خودکار پرس و جوهای SQL  را به کار های  MapReduce  اجرا شده در هدوپ ترجمه می کند.  علاوه بر این، HiveQL  از اسکریپت های سفارشیMapReduce   برای متصل شدن به پرس و جو ها پشتیبانی می کند. Hive  همچنین امکان سریال سازی/ عدم سریال سازی داده را فراهم می کند و انعطاف پذیری را در طراحی الگو با استفاده از سیستم فهرست کردن به نام Hive-Metastore  افزایش می دهد.

با توجه به آپاچی Hive ویکی(Apache Hive wiki)، Hive”  برای کارهای OLTP طراحی نشده است و پرس و جو های بلادرنگ یا به روز رسانی های سطح پایین را عرضه نمی کند اما بهترین استفاده برای کارهای دسته ای روی مجموعه های بزرگ از داده های افزودنی صرف (مانند سیاهه های مربوط به وب) است. ”

Hive از فایل های متنی (که فایل های صاف نیز خوانده می شوند)، فایل های ترتیبی(SequenceFiles) – فایل های صاف شامل جفت key/value باینری – و RCFiles (ضبط فایل های ستونی که ستون های یک جدول را در پایگاه داده ستونی ذخیره می کند) نیز پشتیبانی می کند.

apache hive

نویسنده نوشته: N.M

N.M

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *