.:رویال آی تی:.

× دسته بندی ها

پروژه کارشناسی رشته کامپیوتر: داده کاوی

داده چیست؟

به صورتی کلی و کلان‌نگر٬ می‌توان همهٔ مفروضات٬ معلومات٬ داشته‌ها٬ دانسته‌ها٬ سوابق٬ و اطلاعات را داده‌ها (Data) نامید. انسان جهت ثبت و درک مشترک هر واقیعت و پدیده از نشانه های مختص آن استفاده نمود ابتدا بصورت تصویر و در ادامهء سیر تکاملی آن از حروف , اعداد و علائم کمک گرفت بنابراین هر واقعیتی یا داده ای (Data) با حروف ,اعداد و علائم و یا ترکیبی از آنها قابل ثبت است .بعنوان نمونه میتوان از موارد زیر نام برد

به اعداد، حروف و علائم که جهت درک و فهم مشترک از انسان‌ها یا رایانه سرچشمه می‌گیرند داده‌ می‌گویند. داده‌ها معمولاً از سوی انسان‌ها بصورت حروف ,اعداد ,علائم و در رایانه به صورت نمادهایی (همان رمزهای صفر و یک) قراردادی ارائه می‌شوند. اصطلاح داده یک عبارت نسبی است یعنی اگر موجب درک و فهم لازم و کامل دراین مرحله شده است به عنوان آگاهی یا اطلاعات (Information) از آن نام می برند و چنانچه موجب درک و فهم کامل نگردد به عنوان همان داده(Data) به شمار می‌آیند و چون هدف نهایی آگاهی و اطلاعات است باید از سوی دست‌اندرکاران (انسان یا رایانه) دستکاری یا پردازش (Processing) شوند. منظور از دستکاری یا پردازش داده ها انجام عملیاتی از قبیل جمع , تفریق , ضرب , تقسیم , مقایسه وغیره است.

داده‌ها مجموعه ای از نمادها (برای انسان حروف , اعداد , علائم و برای رایانه رمزهای صفر و یک )هستند که حقایق را نشان می‌دهند و برای انسان از طریق حواس وی (بینایی , شنوایی , چشایی , بویایی , لامسه) و برای رایانه از طریق لوازم مخصوص (صفحه کلید موس و غیره) به دست می‌آیند.

داده‌ها امروزه فقط از سوی انسان یا رایانه پردازش می‌شوند یعنی کارهایی روی آن‌ها صورت می‌گیرد. در پردازش داده ها (داده‌پردازی) در رایانه ابتدا داده ها به رایانه وارد می‌شوند. این داده ها درابتدا ذخیره شده و روی آن‌ها عملیاتی (جمع , تفریق , ضرب , تقسیم و…) صورت می‌گیرد. پس از این که این عملیات (پردازش) صورت گرفت معمولاً داده‌ها به یک رایانه دیگر یا دوباره به انسان‌ها منتقل می‌شود.در اغلب گزارش‌ها و یادداشت‌های سازمانی، داده‌ها به چشم می‌خورند. برای مثال، تاریخ و مقدار یک صورت‌حساب یا چک، جزئیات فهرست حقوق، تعداد وسایل نقلیه‌ای که از نقطهٔ خاصی در کنار جاده گذشته‌اند،… نمونه‌هایی از داده‌ها هستند.

 انبار داده ها

از اواسط سال هاي ۱۹۸۰ نياز به انبار داده ها به وجود آمد و دريافتند كه سيستم هاي اطلاعاتي بايد به صورت سيستم هاي عملياتي واطلاعاتي مشخص شوند. سيستم هاي عملياتي از فعاليت هاي روزانه كسب و كار پشتيباني مي نمايند و براي پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. داده هاي عملياتي ارائه بي درنگ و فعلي وضعيت كسب و كار مي باشند. اما سيستم هاي اطلاعاتي براي مديريت و كنترل كسب و كار به كار مي روند.

اين سيستم ها از تجزيه و تحليل داده ها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني مي كنند و براي درخواست هاي موردي، پيچيده و به طور كلي فقط خواندني طراحي شده اند. داده هاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب و كار در يك دوره زماني مي باشند.

۱-۲-۱ويژگي هاي اصلي داده هاي انبار داده

داده هاي موجود در انبار داده ها از سيستم هاي عملياتي متنوع (نظير سيستم هاي پايگاه داده[۳] ها) و منافع داده اي خارجي (نظير پايگاه داده هاي آماري وWWW) يكپارچه مي شوند. تفاوت هاي ساختاري و معنايي داده ها بايد پيش از يكپارچه سازي انسجام يابد. براي مثال داده ها بايد مطابق با مدل داده اي يكپارچه “همگن” شوند. به علاوه، مقادير داده اي سيستم هاي عملياتي بايد پاك شوند تا داده هاي صحيحي در انبار داده ها وارد شوند. نياز به داده هاي تاريخي يكي از موارد مهم در شيوه انبار داده هاست.

داده هاي تاريخي براي تحليل روند كسب و كار ضروري هستند. البته هزينه نگهداري اين گونه داده ها نيز بايد مورد توجه قرار گيرد. به علاوه، داده هاي انبار داده هاي ثابتي هستند، براي مثال دسترسي به DWH از نوع خواندني است. انجام اصلاحات در اين داده ها فقط هنگامي صورت مي گيرد كه اصلاحات داده هاي منبع در انبار انتشار يابند. DWH داده هاي ديگري به نام داده هاي اشتقاق يافته (derived data) دارد. اين داده ها به طور صريح در منابع عملياتي ذخيره نمي شوند، بلكه در حين بعضي از فرآيندها از داده هاي عملياتي، اشتقاق مي يابند. براي مثال داده هاي فروش را مي توان در سطوح مختلف (هفتگي، ماهانه، فصلي) در انبار ذخيره نمود.

۱-۲-۲ سيستم هاي انبار داده ها

سيستم انبار داده ها و همه مولفه هايي است كه براي ساخت، دستيابي و نگهداري DWH به كار مي روند. انبار داده ها بخش مركزي سيستم انبار داده ها را تشكيل مي دهد. گاهي اوقات انبار داده ها حجم عظيمي از اطلاعات را در واحد هاي منطقي كوچكتر به نام Data Mart نگهداري مي كند. مولفه آماده سازي، مسووليت كسب يا دريافت داده ها را بر عهده دارد. اين مولفه شامل همه برنامه ها و برنامه هاي كاربردي اي است كه مسئول استخراج داده ها از منابع عملياتي هستند. مولفه دستيابي شامل برنامه هاي كاربردي مختلف (OLAP يا برنامه هاي كاربردي داده كاوي) است كه امكان استفاده از اطلاعات ذخيره شده در انبار داده ها را فراهم مي آورند.

مولفه مديريت Metadata، وظيفه مديريت، تعريف و دستيابي به انواع مختلف Metadata را به عهده دارد. در اصل، “Metadata داده هايي درباره داده ها” يا “داده هايي است كه مفهوم داده ها را توصيف مي كنند”. انواع مختلف Metadata در انبار داده ها وجود دارند. مثلا اطلاعاتي در مورد منابع عملياتي، ساختار داده هاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيابي به DWH انجام مي شوند. نياز به Metadata شناخته شده است. پياده سازي يك DWS منسجم، كار پيچيده و دشواري است و شامل دو فاز مي باشد. در فاز اول كه پيكربندي DWS نام دارد، ديدگاه مفهومي انبار داده ها مطابق با نيازمندي هاي كاربر مشخص مي شود. سپس منابع داده اي دخيل و روش استخراج و بارگذاري در انبار داده ها تعيين مي گردد. سرانجام، درباره پايگاه داده هاي مورد نظر و روش هاي دستيابي داده ها تصميم گيري خواهد شد. پس از بارگذاري اوليه، در فاز عمليات DWS بايد داده هاي انبار داده ها به منظور منظم refresh شوند.
۱-۲-۳ طراحي انبار داده ها

روش هاي طراحي انبار داده ها امكان پردازش كارآمد query را بر روي حجم عظيمي از داده ها فراهم مي آورند. نوع ويژه اي از الگوي پايگاه داده ها به نام star براي مدل سازي انبار داده هاي چند بعدي به كار مي رود. در اين حالت، پايگاه داده ها از يك جدول مركزي واقعيت يا fact و جداول چند بعدي تشكيل شده است. جدول واقعيت حاوي tuple هايي است كه بيانگر واقعيت هاي كسب و كار مانند فروش يا عرضه هستند. هر tuple جدول واقعيت به tuple هاي جدول چند بعدي اشاره دارد. هر tuple جدول چند بعدي مواردي نظير محصولات، مشتريان، زمان و فروشنده را نشان مي دهد.
۱-۲-۴ انبار داده هاي مجازي

هدف انبار داده هاي مجازي، پياده سازي سريع انبار داده ها بدون نياز به ذخيره سازي و نگهداري كپي هاي متعدد از داده هاي منبع است. اغلب، انبار داده هاي مجازي به سازمانها كمك مي كند تا به نياز واقعي كاربران نهايي پي ببرند. كاربران نهايي مي خواهند به طور مستقيم به داده هاي منبع بي درنگ با كمك ابزارهاي توانمند شبكه اي دسترسي پيدا كنند. معايب اين روش عباتند از:

-كيفيت و سازگاري داده هاتضمين نمي شود. زيرا فعاليت هاي آماده سازي

داده ها صورت نمي گيرند.

-به طور معمول، داده هاي تاريخي وجود ندارند.

-زمان دسترسي كاربرنهايي بسته به وجود يا عدم وجود منابع عملياتي، بار شبكه و پيچيدگي درخواست، غير قابل پيش بيني است.

پایگاه داده ها

دادِگان (پایگاه داده‌ها یا بانک اطلاعاتی) به مجموعه‌ای از اطلاعات با ساختار منظم و سامانمند گفته می‌شود. این پایگاه‌های اطلاعاتی معمولاً در قالبی که برای دستگاه‌ها و رایانه‌ها قابل خواندن و قابل دسترسی باشند ذخیره می‌شوند. البته چنین شیوه ذخیره‌سازی اطلاعات تنها روش موجود نیست و شیوه‌های دیگری مانند ذخیره‌سازی ساده در پرونده‌ها نیز استفاده می‌گردد. مسئله‌ای که ذخیره‌سازی داده‌ها در دادگان را موثر می‌سازد وجود یک ساختار مفهومی است برای ذخیره‌سازی و روابط بین داده‌ها است.

پایگاه داده در اصل مجموعه‌ای سازمان یافته از اطلاعات است.این واژه از دانش رایانه سرچشمه می‌‌گیرد ،اما کاربر وسیع و عمومی نیز دارد، این وسعت به اندازه‌ای است که مرکز اروپایی پایگاه داده (که تعاریف خردمندانه‌ای برای پایگاه داده ایجاد می‌‌کند) شامل تعاریف غیر الکترونیکی برای پایگاه داده می‌‌باشد. در این نوشتار به کاربرد های تکنیکی برای این اصطلاح محدود می‌‌شود.

یک تعریف ممکن این است که: پایگاه داده مجموعه‌ای از رکورد های ذخیره شده در رایانه با یک روش سیستماتیک (اصولی) مثل یک برنامه رایانه‌ای است که می‌‌تواند به سوالات کاربر پاسخ دهد. برای ذخیره و بازیابی بهتر، هر رکورد معمولا به صورت مجموعه‌ای از اجزای داده‌ای یا رویداد ها سازماندهی می‌‌گردد. بخش های بازیابی شده در هر پرسش به اطلاعاتی تبدیل می‌‌شود که برای اتخاذ یک تصمیم کاربرد دارد. برنامه رایانه‌ای که برای مدیریت و پرسش و پاسخ بین پایگاه‌های داده‌ای استفاده می‌‌شود را مدیر سیستم پایگاه داده‌ای یا به اختصار (DBMS) می‌‌نامیم. خصوصیات و طراحی سیستم های پایگاه داده‌ای در علم اطلاعات مطالعه می‌‌شود.

مفهوم اصلی پایگاه داده این است که پایگاه داده مجموعه‌ای از رکورد ها یا تکه هایی از یک شناخت است.نوعا در یک پایگاه داده توصیف ساخت یافته‌ای برای موجودیت های نگه داری شده در پایگاه داده وجود دارد: این توصیف با یک الگو یا مدل شناخته می‌‌شود. مدل توصیفی، اشیا پایگاه‌های داده و ارتباط بین آنها را نشان می‌‌دهد. روش های متفاوتی برای سازماندهی این مدل ها وجود دارد که به آنها مدل های پایگاه داده گوییم. پرکاربرد‌ترین مدلی که امروزه بسیار استفاده می‌‌شود، مدل رابطه‌ای است که به طور عام به صورت زیر تعریف می‌‌شود: نمایش تمام اطلاعاتی که به فرم جداول مرتبط که هریک از سطر ها و ستونها تشکیل شده است(تعریف حقیقی آن در علم ریاضیات برسی می‌‌شود). در این مدل وابستگی ها به کمک مقادیر مشترک در بیش از یک جدول نشان داده می‌‌شود. مدل های دیگری مثل مدل سلسله مراتب و مدل شبکه‌ای به طور صریح تری ارتباط ها را نشان می‌‌دهند.

در مباحث تخصصی تر اصتلاح دادگان یا پایگاه داده به صورت مجموعه‌ای از رکورد های مرتبط با هم تعریف می‌‌شود. بسیاری از حرفه‌ای ها مجموعه‌ای از داده هایی با خصوصیات یکسان به منظور ایجاد یک پایگاه داده‌ای یکتا استفاده می‌‌کنند.

معمولا DBMS ها بر اساس مدل هایی که استفاده می‌‌کنند تقسیم بندی می‌‌شوند:

ارتباطی،شی گرا، شبکه‌ای و امثال آن. مدل های داده‌ای به تعیین زبانهای دسترسی به پایگاه‌های داده علاقه مند هستند. بخش قابل توجهی از مهندسی DBMS مستقل از مدل های می‌‌باشد و به فاکتور هایی همچون اجرا، همزمانی،جامعیت و بازیافت از خطاهای سخت افزاری وابسطه است.در این سطح تفاوت های بسیاری بین محصولات وجود دارد.

موارد زیر به صورت خلاصه شرح داده می شود:

۱ تاریخچه پایگاه داده

۲ انواع دادگان ها

۳ مدل های پایگاه داده

۳٫۱ مدل تخت

۳٫۲ مدل شبکه ای(Network)

۳٫۳ مدل رابطه ای

۳٫۴ پایگاه داده‌های چند بعدی

۳٫۵ پایگاه داده‌های شیء

۴ ویژگی‌های سیستم مدیریت پایگاه داده‌ها

۵ فهرست سیستم‌های متداول مدیریت دادگان

فهرست
فهرست

royalit

محصولات مرتبط
s

مقاله کنترل کننده های دور ...


7000 تومان 2 16 سپتامبر 2017
s

دانلود پروژه راهسازی همراه با ...


15000 تومان 13 8 جولای 2018

دیدگاه ها

- - - - - - - - - - - - - - - - - - - - -