مطالب اسناد بالادستی ایران

پروژه های تحلیل آماری

  • انجام تحلیل آماری پایان نامه و رساله ارشد و دکتری

    نگارش پروپوزال کارشناسی ارشد و دکتری - نگارش رساله دکتری - نگارش مقاله پژوهشی - نگارش مقاله ISI - نگارش مقاله مروری - نگارش مقاله کنفرانسی - نگارش پایان نامه کارشناسی ارشد - استخراج مقاله 

    علم آمار به معنای مطالعه فرآیند گردآوری، تجزیه و تحلیل، تفسیر، ارائه و سازماندهی داده‌های خام است. با توجه به این موضوع، تعریف تحلیل آماری (statistical analysis) به معنای تولید نمودار‌ها و جداول آماری از داده‌های خام است، به گونه ای که نتایج آن قابل فهم و استنتاج باشند. فرض کنید به عنوان یک پژوهشگر اقدام به توزیع پرسش‌نامه در مورد یک موضوع مشخص کرده‌اید و داده‌های خام بسیاری را در این حوزه جمع نموده‌اید. اما چطور می‌خواهید متوجه نظر مشارکت کنندگان و یا افراد پاسخ دهنده به تحقیق شوید؟ چگونه می‌خواهید دریابید که نتایج تحقیق چه بوده‌است؟ و یا چطور می‌خواهید از صحت و اعتبار تحقیقتان مطمئن شوید؟
    در همین راستا یکی از اساسی‌ترین و مهم‌ترین ابزار تحلیل و بررسی صحت و دقت نتایج تحقیق، استفاده از تحلیل آماری (Statistical Analysis)است که به شما کمک می کند تا یافته‌ها و نتایج شفافی از داده‌های خام بدست آورید. شروع فرآیند تحلیل آماری با مشخص کردن جامعه آماری و جامعه نمونه آغاز می‌شود.
    پیش از آنکه اقدام به جمع‌آوری داده‌ها کنید باید سعی کنید جامعه هدف خود برای تحقیق را شناسایی نمایید. برای مثال فرض کنید موضوع تحقیق شما " تاثیر تحریم‌های بین‌المللی بر روی تصمیم‌های سازمانی هتل‌داران کشور" است. به نظر شما جامعه هدف مناسب برای گردآوری داده‌های آماری کدام است؟ آیا کارکنان هتل‌ها هم می‌توانند در فرآیند گردآوری داده‌ها مشارکت کنند؟ آیا تنها مدیران و تصمیم‌گیران هتل‌ها گزینه مناسبی هستند و یا سیاست‌گذاران کشوری در حوزه گردشگری و هتل‌داری نیز مناسب این تحقیق می‌باشند؟ انتخاب درست و دقیق جامعه آماری به شما کمک می‌کند که بتوانید داده‌های دقیق‌تری داشته و به نتایج کاربردی‌تر دست پیدا کنید.
    جامعه نمونه نماد و مظهری از جامعه آماری است و یک ماهیت خلاصه شده از آن ارائه می‌نماید. در مثال قبلی گردآوری داده از تمامی مدیران و سیاست‌گذاران هتل‌داری کار بسیار دشواری است و به همین منظور پژوهش‌گر سعی میکند یک جامعه نمونه از آن انتخاب کند. برای مثال جامعه هتل‌داران استان تهران و یا مدیران هتل های 4‌و‌5 ستاره می‌توانند نمونه مناسب و قابل اندازه‌گیری برای یک تحقیق باشند. از طرف دیگر انتخاب نمونه در تعمیم‌پذیری تحقیق تاثیر بسیار زیادی دارد. اگر نمونه آماری به درستی انتخاب شود و نماینده مناسبی برای کل جامعه باشد، در نهایت نتایج به دست آمده از نمونه تحقیق قابل تعمیم به کل جامعه آماری است.

    انجام تحلیل آماری پایان نامه و رساله ارشد و دکتری

    تحلیل‌های آماری و کمی که در حوزه‌های مختلف انجام می‌گیرند دو رویکرد کلی را دنبال می‌کنند:
    (1) مطالعات آزمایشگاهی 
    (2) مطالعات مشاهده‌ای
    مطالعات آزمایشگاهی (Experimental Study) برروی یک سیستم و یا نمونه انجام می‌شود و هدف آن دستکاری و بررسی نتایج حاصل از دستکاری است. فرض کنید قصد بررسی مقاومت یک نوع خاصی از سیمان یا بتون در محیط آزمایشگاه را دارید.
    در این حالت سعی می‌کنید با اعمال تغییرات و دست‌کاری محیطی مانند رطوبت، فشار، دما و سایر عوامل محیطی و شیمیایی، میزان مقاومت در سیمان و یا بتون را اندازه بگیرید.
    مطالعات مشاهده ای (Observational Study) که بیشتر در حوزه علوم اجتماعی مورد استفاده قرار می‌گیرند به بررسی یه موضوع در جامعه پرداخته و نتایج حاصل از مشاهدات خود را گزارش خواهد کرد.
    دو روش آماری مهم در فرآیند تحلیل آماری نیز عبارتند از:
    (1) آماری توصیفی (Descriptive Statistic) 
     آمار توصیفی در تحلیل آماری به بررسی و تجزیه و تحلیل یک گروه مشخص و یا نمونه خاص پرداخته که تنها ویژگی‌های آن گزارش می‌شود و این نتایج قابل تعمیم نمی باشد.
    (2) آمار استنباطی (Inferential Statistic)
    آمار استنباطی به مطالعه نمونه به عنوان نماینده‌ای از کل جامعه پرداخته و نتایج آن را به صورت یافته‌های قابل تعمیم ارائه می‌نماید. 
    اولین نوشته‌ها و مستندات در مورد تحلیل آماری و احتمالات توسط خلیل ابن احمد فراهیدی دانشمند عرب بین قرن 100-176 هجری در کتاب "پیام‌های رمزنگاری" مورد استفاده قرار گرفت. در این کتاب خلیل ابن احمد از روش‌ها و تحلیل‌های آماری و ریاضی سخن گفت که به واسطه آن می‌توان پیام‌ها را رمز نگاری و کدگذاری کرد.

    تحلیل آماری پایان نامه ارشد و رساله دکتری

     اما اولین نوشته‌ها در مورد آمار و تحلیل آماری در اروپا به سال 1663 باز می‌گردد. در این سال مقاله‌ای با عنوان "مشاهدات طبیعی و سیاسی در مورد لوایح مرگ و میر" توسط شخصی به نام جان گرانت (John Graunt) منتشر شد. این تحقیق به ضرورت استفاده از داده ها و تحلیل‌های آماری در سیاست گذاری و تصمیم‌سازی اقتصادی و سیاسی پرداخته‌بود و به این موضوع اشاره داشت که اطلاعات زمینه‌ای و جمعیت شناختی در یک جامعه می‌توانند در فرآیند برنامه‌سازی اقتصادی و سیاسی تاثیر بسزایی داشته باشند.
    اما شکل جدید و شناخته شده امروزی علم آمار در اوایل قرن 19‌و‌20 در سه مرحله شکل گرفت. اولین مرحله از فرآیند شکل‌گیری تحلیل و علوم آماری توسط فرانسیس گالتون و کارل پیرسون (Galton and Pearson) شکل گرفت که روش‌های آماری را به قواعد بسیار منظم و کاربردی برای تحلیل تبدیل کردند. از مهم‌ترین دستاوردهای گالتون ارائه تعاریف آماری مانند انحراف معیار، رگرسیون و همبستگی بود که تاثیر بسیار زیادی در درک روابط بین متغیرهای آماری ایجاد کرد.
    دومین موج از توسعه علم آمار و تحلیل آماری بین سال‌های 1910 تا 1920 شکل گرفت که مهم‌ترین نقش در توسعه آن را شخصی به نام ویلیام سیلی (William Sealy) ایفا کرد و رونالد فیشر (Ronald Fisher) آن را به اوج رسانید. رونالد فیشر در یکی از مهم‌ترین و معتبر‌ترین مقالاتش، مفهومی به نام واریانس و اهمیت آن در تحلیل‌های آماری را مطرح کرد و در نهایت آخرین موج از توسعه علم آمار که به اصلاح و تعدیل مفاهیم قبلی اختصاص داشت توسط پیرسون و نیمن (Pearson and Neyman) بین سال های 1930-1934 انجام گرفت.
    امروزه علم آمار و تحلیل‌های آماری در بسیاری از تحقیقات، برنامه‌ریزی‌ها و تصمیم‌گیری‌های کشوری و بین الملل نقش اساسی داشته و به واسطه آن می‌توان به نتایجی بسیار دقیق دست یافت و استدلال‌هایی مبتنی بر واقعیت انجام داد. با توجه به اینکه روش‌ها و تکنیک‌های مختلفی برای تجزیه و تحلیل آماری و فهم داده‌های خام وجود دارد، اما تحلیل‌های آماری معمولا بر3 مفهوم کلی استوار هستند که درک آن‌ها کمک بسیار زیادی به پژوهش‌گران در تجزیه و تحلیل داده‌های خام خواهد کرد. به پژوهش‌گران توصیه می‌شود قبل از انجام تحلیل‌های پیشرفته توسط نرم افزار‌های آماری، 3 مفهوم بنیادی در آمار را آموخته و مورد استفاده قرار دهند.

     STATISTICAL ANALYSIS  10 این 3 مفهوم بنیادی در تحلیل آماری عبارتند از:
    میانگین: میانگین که در زبان آماری با دو عنوان (Mean) و (Average) شناخته می‌شود، نشان دهنده روند کلی در داده‌های خام است. میانگین کاربردهای بسیار زیادی در تحلیل ایفا می‌کند برای مثال قصد دارید بدانید میانگین پاسخ‌های افراد در یک طیف لیکرت 5 تایی چگونه است؟ آیا داده‌ها می تواند نرمال باشد یا غیر‌نرمال هستند؟ و یا میانگین عددی یک متغیر چگونه است.
    برای مثال فرض کنید میزان تحمل فشار در بیش از 1000 لوله چدنی با اندازه، شکل و وزن یکسان در نرم افزار SPSS وارد شده است و هر کدام از این قطعه‌های آلیاژی در یک فشار مشخص و متفاوت با سایرین شکسته می‌شود. حال می‌خواهید متوجه شوید که میانگین فشاری که این 1000 لوله چدنی تحمل کرده‌اند چه مقدار است؟ بهترین روش برای این کار استفاده از میانگین یا دستور Mean در نرم افزارهای آماری است. اما تنها استفاده از میانگین در تفسیر آمار نمی‌تواند روش تحلیل مناسبی باشد چرا که این مفهوم با میانه (Median) و مد (Mode) ارتباط نزدیکی دارد و در داده‌های با توزیع غیر نرمال اهمیت پیدا می‌کنند.
    انحراف معیار: دومین مفهوم بنیادی در آمار انحراف معیار یا Standard Deviation نام دارد که پراکندگی داده‌ها در اطراف میانگین را اندازه می‌گیرد. انحراف معیار بالا نشان‌دهنده این است که داده از میانگین فاصله زیادی دارند و انحراف معیار پایین نشان‌دهنده این است که پراکندگی‌داده‌ها بسیار نزدیک و در اطراف میانگین است. یکی از بهترین و مناسب‌ترین ابزارها برای تشخیص پراکندگی داده‌ها انحراف معیار است، اما اگر پراکندگی داده غیر‌نرمال و با الگوی پیچیده باشند نمی‌توان از ابزار انحراف معیار برای تفسیر بهره برد.
    رگرسیون: رگرسیون (Regression) یکی از ابزارهای آماری برای سنجش ارتباط میان متغیرهای وابسته و پیوسته است. ابزار رگرسیون می‌تواند یک پیشبینی از رفتار و تغییرات یک متغیر نسبت به متغیر دیگر را ارائه نماید. بطور کلی خط رگرسیون که از میان نقاط پراکندگی متغیر عبور می‌کند می‌تواند نشان دهد که ارتباطات تا چه اندازه‌ای قوی یا ضعیف هستند.
    آزمونهای آماری - اصطلاح شناسی مقالات - چگونگی انتخاب نمونه در پژوهش و تحقیق - انواع مختلف پرسشنامه در پژوهش

  • علم آمار به معنای مطالعه فرآیند گردآوری، تجزیه و تحلیل، تفسیر، ارائه و سازماندهی داده های خام است. با توجه به این موضوع، تعریف تحلیل آماری (statistical analysis) به معنای تولید نمودار ها و جداول آماری از داده های خام است به گونه ای که نتایج آن قابل فهم و استنتاج باشند. فرض کنید به عنوان یک پژوهشگر اقدام به توزیع پرسشنامه در مورد یک موضوع مشخص کرده اید و داده های خام بسیاری را در این حوزه جمع نموده اید. اما چطور می خواهید متوجه نظر مشارکت کنندگان و یا افراد پاسخ دهنده به تحقیق شوید؟ چگونه می خواهید دریابید که نتایج تحقیق چه بوده است؟ و یا چطور می خواهید از صحت و اعتبار تحقیقتان مطمئن شوید؟در همین راستا یکی از اساسی ترین و مهمترین ابزار تحلیل و بررسی صحت و دقت نتایج تحقیق، استفاده از تحلیل آماری (Statistical Analysis) است که به شما کمک می کند تا یافته های و نتایج شفافی از داده های خام بدست آورید. شروع فرآیند تحلیل آماری با مشخص کردن جامعه آماری و جامعه نمونه آغاز می شود.

    چگونگی انتخاب نمونه در پژوهش و تحقیق - انواع مختلف پرسشنامه در پژوهش

    ادامه مطلب

  • تحلیل آماری مهارتی ویژه است تحلیل آماری علاوه بر جنبه های کاربردی و ضرورت آن در فرآیند نگارش پایان نامه و یا رساله دکتری، برای بسیاری از کسب و کارها در خارج از محیط دانشگاه، یک مهارت اساسی محسوب می شود. بسیاری از کسب و کارها در جهان به این نتیجه رسیده اند که استفاده از استراتژی های مبتنی بر داده های آماری می تواند به تصمیم گیری و برنامه ریزی دقیق تر کمک کند. طرح کسب و کار (Business Plan)، طرح استراتژیک (Strategic Plan)، طرح تبلیغات (Marketing Plan) و سایر برنامه های درون سازمانی از جمله طرح هایی هستند که نیاز اساسی به تحقیقات بازار و تحلیل داده ها و یافته ها دارند. شرکت هایی که فرآیند تصمیم گیری آنها کاملا برنامه ریزی شده و مبتنی بر نیازهای مشتریان است به دنبال افرادی هستند که در تحلیل آماری مهارت و تسلط بالایی داشته باشند. چرا که به صورت مداوم نظرات مشتریان را به صورت داده های خام جمع آوری کرده و مورد تحلیل و بررسی قرار می دهند. علاوه بر اهمیت و کاربرد تحلیل های آماری به معرفی مهارت های مرتبط با آن نیز اشاره کنیم.

    تحلیل آماری به معنای گردآوری، طبقه بندی، آنالیز و تجزیه داده های خام جمع آوری شده از جامعه هدف به منظور دستیابی به نتایج و نظرات نهفته در تحقیق است. این نتایج برای تصمیم گیری های مدیریتی و برنامه ریزی های کوتاه، میان و بلند مدت اهمیت بسیار بالایی دارند. گزارشات حاصل از تحلیل های آماریمی بایست در قالب نمودار، جدول و یا گراف در اختیار تصمیم گیران قرار بگیرند که به همراه تفسیرها و استدلالهای حاصل از خروجی های نرم افزار کاربرد پیدا می کنند. لازم به ذکر است داده های خام آماری ممکن است گزارشات سازمانی، یافته های آزمایشگاهی و یا نتایج حاصل از گردآوری پرسشنامه باشند. تمامی این داده ها به روش های متفاوت و با نرم افزارهای مختلف آماری تحلیل شده و یافته های آن تفسیر می شوند. به طور کلی فرآیند تحلیل آماری در سه مرحله کلی انجام و پیاده می شود:

    گردآوری و مرتب سازی داده ها: اولین و مهمترین فرآیند مربوط به مهارت تحلیل آماری، نحوه گردآوری و مرتب سازی داده ها است. هر پژوهشگری باید تسلط کافی به ابزارهای گردآوری داده ها و شناسایی جامعه آماری و روش نمونه گیری داشته باشد. هر تحقیقی بسته به اهداف و موضوع آن باید روش و ابزار مشخصی را برای گردآوری داده ها استفاده کند. از جمله این روش ها می توان به مطالعات کتابخانه ای، بررسی اسناد، مصاحبه، پرسشنامه و غیره اشاره کرد. پس از مشخص کردن ابزار گردآوری داده ها نوبت به شناسایی جامعه آماری و تعیین نمونه می رسد که نقش بسیار مهمی در نتایج و یافته های تحقیق دارد.

    انتخاب نمونه تحقیق باید به گونه ای باشد که نماینده مناسبی از جامعه آماری محسوب شده و پوشش دهنده نظرات جامعه آماری باشد. برای مثال فرض کنید جامعه آماری تحقیق شما در برگیرنده طیف سنی 18-65 سال است و شما باید یک نمونه آماری از آن انتخاب کنید. آیا می توانید فقط از افراد بین 18-30 سال تحقیق کنید؟ جواب این سوال خیر است چرا که نمونه شما پوشش دهنده جامعه آماری نیست. در نهایت پس از مشخص کردن این موارد و طی شدن فرآیند گردآوری داده ها نوبت به مرتب سازی آنها می رسد که می بایست داده های اشتباه، پرسشنامه های ناقص، اطلاعات نامربوط به تحقیق و سایر عوامل بی ارتباط به تحقیق از مجموعه داده های اولیه و خام حذف شوند تا فرآیند تحلیل آماری به درستی و دقت انجام پذیرد.

    ورود به نرم افزار و کد گذاری داده ها: دومین مرحله از مهارت تحلیل آماری مربوط به طریقه کارکردن با نرم افزارهای آماری و وارد کردن داده های خام برای انجام آنالیزهای مربوط به آن است. تمامی تحلیل های آمارینیازمند استفاده از نرم افزارهای خاصی برای پیاده سازی آنالیزهای مربوطه هستند. از جمله این نرم افزارهای آماری می توان به SPSS, Smart PLS, R, Liserel, Eviews و غیره اشاره کرد. برای وارد کردن یا کد گذاری داده های خام روش های مشخصی وجود دارد که در ابتدا باید متغیرها را در نرم افزار تعریف کنید و در مرحله بعد این متغیرها را در قالب مفاهیم عددی تبیین نمایید. این کار برای تجزیه تحلیل آماری و درک نظرات بسیار ضروری است چرا که این نظرات معمولا در قالب طیف لیکرت یا سایر مقیاس های عددی طراحی می شوند.

    تحلیل و تفسیر داده ها: آخرین مرحله از فرآیند تحلیل آماری مربوط به انجام آنالیز، گرفتن خروجی، ارائه خروجی های نرم افزار در قالب جدول، گراف و نمودار و در نهایت تفسیر و نتیجه گیری از خروجی های بدست آمده است. این فرآیند معمولا به دانش بسیار بالایی از علم آمار و مفاهیم آماری نیاز دارد. برای مثال اهمیت آلفای کرونباخ، مقیاس KMO یا تحلیل عاملی (factor loading) در برازش داده ها و شناسایی فاکتورهای تاثیرگذار در تحقیق چیست؟ یا اینکه چطور باید تشخیص بدهیم که از آزمونهای پارامتریک استفاده کنیم و یا آزمون های ناپارامتریک؟. پس از روش شناسی و نحوه استفاده از آزمون های آماری نوبت به سختترین مرحله یعنی تفسیر مفاهیم آماری میرسد که در این مرحله باید به زبانی کاملا ساده و شفاف تشریح کنید که یافته های تحقیق شما چه چیزهایی هستند و خروجی های نرم افزار چه معنایی می دهند.

    همانطور که پیشتر بیان کردیم، مهارت های کاربردی تحلیل آماری نه تنها برای اهداف آکادمیک بلکه در دنیای رقابتی امروز برای کسب و کارهای مختلف نیز به یک ضرورت تبدیل شده اند. بر اساس تحقیق انجام گرفته توسط دانشگاه Northeastern در سال 2020 مشخص شد که بیش از 70 درصد از مدیران کسب و کارهای خدماتی در آمریکا ترجیح می دهند افرادی را استخدام کنند که تسلط بالایی به نرم افزارهای آماری و علم آمار داشته باشند. در حال حاضر بسیاری از دانشگاه ها در سراسر جهان تمرکز خودشان را بر روی آموزش تحلیل های آماری به دانشجویان گذاشته اند تا از این طریق بتوانند به آنها کمک کنند تا هر چه سریعتر جذب بازار کار شوند. از جمله مهارت عمده که در فرآیند تحلیل آماری آموزش داده می شود عبارتند از:

    زبان پرسمان یا اس کیو ال (SQL)
    ماکروسافت اکسل (Microsoft Excel)
    تفکر انتقادی (Critical thinking)
    نرم افزارهای آماری (Statistical Programs)
    تصویر سازی داده (Data Visualization)
    مهارت ارائه (Presentation Skill)
    یادگیری ماشین یا داده کاوی (Machine Learning)

    زبان اس کیو ال (SQL):یک زبان رایج مربوط به پایگاه داده استاندارد صنعتی است و شاید یکی از مهمترین مهارت های تحلیل آماری در نظر گرفته می شود. بسیاری از محققان باور دارند که زبان اس کیو ال (SQL) نمونه پیشرفته تر نرم افزار اکسل است که می تواند طیف وسیعی از داده های آماری را سازماندهی کند که نرم افزار اکسل براحتی قادر به انجام آن نخواهد بود.

    بسیاری از کسب و کارها نیاز به شخصی دارند که تسلط بالایی به زبان اس کیو ال (SQL) برای مدیریت و ذخیره داده ها از پایگاه داده های چندگانه (Multiple Database) داشته باشد. بر اساس تعریف موسسه استاندارد ملی آمریکا، زبان اس کیو ال (SQL) یک سیستم مدیریت ارتباط دیتابیس است که با اهداف مختلف از جمله بروزرسانی داده ها در چندین دیتابیس و یا بازیابی آنها مورد استفاده قرار می گیرد. بر اساس تحقیقات انجام گرفته میانگین دستمزدی که کارفرمایان آمریکای حاضرند برای کارکنان مسلط به SQL بپردازند چیزی در حدود 75000 دلار است.

    ماکروسافت اکسل (Microsoft Excel):شاید اولین چیزی که بعد از شنیدن نام نرم افزار اکسل به ذهنتان برسد یک صفحه خالی سفید رنگ جدول بندی شده است. اما مهارت های تحلیل آماری بسیار زیادی را می توان در قالب همین جداول یاد گرفته و طراحی نمود. اگرچه زبان برنامه نویسی R یا Python برای تحلیل و مدیریت داده های با اندازه بسیار بزرگ مناسب هستند ولی نرم افزار اکسل مناسب انجام آنالیزهای سریع و با حجم کم تا متوسط بسیار مناسب است. اگر در مراحل آغازین یادگیری مهارت آماری هستید و یا در یک شرکت تازه تاسیس کار میکنید ممکن است دیتا بیس شما در قالب یک فایل اکسل طراحی شده باشد.

    تفکر انتقادی (Critical thinking):تفکر انتقادی بدین معناست که شما با دید پرسشگرانه به پدیده های اجتماعی و طبیعی اطراف خودتان نگاه کنید. دید انتقادی قوی موجب مطرح کردن سوالات درست و در نهایت پیاده سازی تحلیل های دقیق خواهد شد. برای موفقیت در مهارت تحلیل آماری نیاز است که همچون یک منتقد به پدیده ها و اتفاقات محیط اطراف نگاه کنید و جنبه مختلف آن را مورد بررسی قرار دهید. اگر چه ممکن است این مهارت کاربردی تا حدی عجیب و خارج از دسترس به نظر برسد اما چند روش مختلف برای بهبود آن وجود دارد. اولین روش این است که سعی کنید سوالاتی کاملا ساده در مورد پدیده ها و اتفاقات مطرح کنید بجای اینکه به دنبال راه حل بگردید.

    مطرح کردن سوال موجب جهت دهی به تفکر شما می شود و شما را به سمت تحلیل و بررسی سوق می دهد اما مطرح کردن راه حل در همان مرحله اول موجب قضاوت سریع و انحراف شما از واقعیت موجود می شود. دومین روش بر روی میزان تمرکز شما بر رو موضوع تاکید دارد. هر چه تمرکز و دقت خودتان را بر روی یک موضوع بیشتر کنید موجب درگیری ذهنی و طرح سوالات مختلف در مورد آن موضوع خواهد شد.

    نرم افزارهای آماری (Statistical Programs): یادگیری نرم افزارهای آماری یکی از ضرورت های مهارت تحلیل آماری است. شما به عنوان یک محقق هرچقدر هم که به دانش و علوم آماری تسلط داشته باشید باز هم بدون استفاده از نرم افزار آماری نمی توانید پژوهش خودتان را به نتیجه برسانید. فرض کنید کنید که شما برای تحلیل های AHP و TOPSIS از نرم افزار اکسل استفاده می کنید، اما اگر همین فرآیند را بخواهید روی کاغذ و به صورت دستی انجام دهید ممکن است هفته ها وقت شما را بگیرد. حال تصور کنید که پلتفرم هایی مانند R یا Python نیز ده ها برابر سریعتر از اکسل اقدام به تجزیه و تحلیل و آنالیز داده ها میکنند.

    برای اینکه بتوانید به یک آنالیزور یا تحلیلگر حرفه ای تبدیل شوید باید بتوانید با نرم افزارهایی مانند SQL, R و Python به راحتی کار کنید چرا که خروجی های آماری را در زمانی بسیار کمتر و با دقتی بسیار بالا در اختیار تصمیمگیران سازمانی قرار می دهند. در میان نرم افزارهایی تحلیل آماری، پلتفرم های دیگری مانند SAS, SPSS, Smart PLS, Eviews و Liserel هم وجود دارند که میتوان بسته به اهداف تحقیق و یا میزان راحتی در یادگیری یکی از آنها را برای تحلیل آماری انتخاب نمود.

    تصویر سازی داده (Data Visualization):همواره به محققان توصیه می شود که در ابتدای انجام تحقیق سعی کنید یک تصویر کلی از فرآیندهای موردنظرتان در ذهن مجسم کنید. این کار به شما کمک می کند که بتوانید مرحله به مرحله و به صورت سازمان یافته قادام به جمع آوری و تحلیل دادهکنید و در نهایت نتایج مورد انتظار را بدست آورید. مهارت تصویر سازی به شما کمک می کند که علاوه بر سازماندهی فرآیند بتوانید استدلال های منطقی و دقیقی در مورد یافته های تحقیق داشته باشید. سعی کنید مهارت تصویر سازی را مبتنی بر واقعیت و خروجی های موجود انجام دهید و از محدوده تحقیق خارج نشوید.

    مهارت ارائه (Presentation Skill):یادگیری مهارت ارائه یکی از دشوارترین و در عین حال زمانبر ترین مهارت است که به تمرین زیادی نیاز دارد. علاوه بر توانمندی های ذاتی برای یادگیری این مهارت باید بتوانید نیازهای مخاطبان را نیز به درستی شناسایی کنید. مهارت ارائه هم در قالب نوشتاری و هم در قالب سخنرانی نیاز به تسلط بالایی دارد. شما باید بتوانید در عین ارائه مطالب به زبان ساده، مفاهیم علمی را نیز منتقل کنید. سعی کنید بجای تمرکز بر روی خودتان و نحوه ارائه تان بر روی مخاطبان تمرکز کنید تا فکرتان از استرس و اشتباهات احتمالی دور شود.

    یادگیری ماشین یا داده کاوی (Machine Learning): هوش مصنوعی (Artificial Intelligence) و تحلیل پیش بینانه (Predictive Analytics) دو مورد از جدیدترین و داغ ترین مباحثی هستند که در سالهای اخیر توجه بسیاری از متخصصان و کارفرمایان را به خود جلب کرده اند. اگر چه بسیاری از آنالیزورها و تحلیلگران حرفه ای آشنایی کمی با این دو مهارت دارند اما برای بهترین بودن در زمینه تحلیل های آماری بهتر است تا حدی در این رشته های جدید دانش بدست بیاورید. شاید بتوانید برای شروع کار از نرم افزارهای داده کاوی (Data Mining) مانند Orange نیز در این زمینه استفاده کنید.

    نمونه تحقیق - مقاله علمی پژوهشی - نگارش ادبیات موضوع در پایان نامه - رساله دکتری 

  • STATISTICALANALYSIS 2،آزمونهای آماری،ماد دانش پژوهان

    1- تعریف علم آمار: علم آمار به مجموعه روش‌های علمی اطلاق می‌شود که برای جمع آوری اطلاعات اولیه، مرتب و خلاصه کردن، طبقه بندی و تجزیه و تحلیل اطلاعات اولیه و تفسیر آن‌‌ها به کار می‌رود.

    2- تعریف جامعه آماری: هر مجم یا افرادی که لااقل دارای یک صفت مشترک باشد را جامعه آماری می‌گویند. هر یک از اشیاء یک جامعه آماری را یک فرد جامعه می‌نامیم. مجموع اشیاء یک جامعه را حجم جامعه می‌نامیم.

    3- تعریف متغیر: صفاتی از هریک از افراد جامعه آماری که از یک فرد به فرد دیگر تغییر می‌کنند متغیر می‌باشند. متغیرها به سه دسته تقسیم می‌شوند:

    3-1- متغیر اسمی: متغیرهای کیفی که قابل مقایسه با همدیگر نیستند، مانند رنگ چشم که مثلا مشکی یا میشی است و نمی‌توان گفت که مشکی از میشی بهتر است.

    3-2- متغیر ترتیبی: متغیرهای کیفی که شدت و ضعف را نشان می‌دهند یعنی ترتیب بین اعداد رعایت شده است.

    3-3- متغیرهای کمی: متغیرهایی هستند که قابل اندازه گیری یا شمارش و یا قابل مقایسه و سنجش هستند. این متغیرها نیز بر دو قسم هستند:

    3-3-1- متغیرهای کمی گسسته: متغیرهای قابل شمارش هستند که بین مقادیر قابل تصور از آن فاصله وجود داشته باشد. مانند تعداد افراد خانوار

    3-3-2- متغیرهای کمی پیوسته: متغیرهای کمی هستند که مقادیر خودشان را از اعداد حقیقی می‌گیرند یعنی فاصله ای بین هیچ یک از دو مقدار قابل تصور از متغیر وجود ندارد. مانند قد و وزن یا طول.

    4- بررسی آماری: بررسی‌ای است که موضوع مورد مطالعه را به یک جامعه مربوط می‌کند و در آن جامعه افراد را مورد مطالعه قرار می‌دهد. بررسی‌های آماری شامل سه مرحله است.

    1) مشاهده

    2) گروه بندی تهیه جداول و رسم نمودارها

    3) محاسبه شاخص‌ها، مشخص کننده‌ها و تجزیه و تحلیل آن‌ها

    5- آمارگیری: در مطالعات آماری که اطلاعات آماری را نتوان از ثبت جاری به دست آورد، از طریق آمارگیری استفاده می‌کنیم. مشاهدات به طور کلی خود بر دو نوع هستند:

    5-1- سراسری: کلیه افراد جامعه را مورد مطالعه قرار می‌دهیم و معمولا این نوع مشاهدات را سرشماری می‌نامیم و اصولا سرشماری خاص انسان است. ولی امروز در تمام زمینه‌ها به کار می‌رود.

    5-2- غير سراسری: مشاهداتی هستند که در تمام افراد جامعه مورد مطالعه قرار نمی‌گیرند و خود به چند دسته تقسیم می‌شوند:

    5-2-1- آمارگیری نمونه‌ای: در زیر چند روش نمونه گیری به طور فهرست وار اشاره می‌گردد.

    5-2-1-1- نمونه‌گیری تصادفی: یکی از دقیق‌ترین روش‌های آمارگیری است که افراد مورد مطالعه به طور تصادفی و بر طبق قانون احتمالات انتخاب می‌شوند. به طوری که این جامعه نمونه نماینده جامعه اصلی باشد. هر نمونه که با یک شانس معلوم انتخاب شده‌باشد نمونه تصادفی نامیده می‌شود. اگر روند انتخاب نمونه طوری باشد که شانس انتخاب برای هر نمونه ممکن (با حجم ثابت از همان جامعه) برابر باشد آن را نمونه تصادفی ساده می‌نامیم ولی اگر شانس انتخاب هر یک از اعضای نمونه برابر نباشد آن را نمونه تصادفی‌ای با احتمال متغیر می‌نامیم نمونه برداری تصادفی ساده‌ای را می‌توان به روش با جای گذاری و یا بدون جای گذاری انجام داد.

    5-2-1-2- نمونه‌گیری خوشه‌ای: یک نمونه گیری تصادفی ساده است که به جای یک فرد گروه‌هایی از افراد جامعه به عنوان واحد انتخابی در نظر گرفته می‌شوند و آن را می‌توان با جای گذاری و یا بدون جای گذاری اجرا کرد.

    5-2-1-3- نمونه‌گیری تصادفی طبقه‌ای: فرض کنید جامعه را به k طبقه متساوی الحجم تقسیم کنیم و بخواهیم از جامعه یک نمونه n تایی انتخاب کنیم. می‌توان از هر یک از طبقات یک نمونه به اندازه انتخاب کرد. حال اگر طبقه‌ها هم حجم نباشد، نسبت نمونه‌ متشابه نمی‌شود. یعنی متغیر می‌باشد. در این صورت آن را نمونه‌گیری تصادفی با احتمال متغیر می‌نامیم.

    5-2-2- آمارگیری با روش توده اصلی: در این روش تمام افراد جامعه را مورد مطالعه قرار نمی‌دهیم. بلکه جزئی از جامعه که سهم همه موضوع مورد مطالعه را در بردارند را مورد توجه قرار می‌دهیم.

    5-2-3- آمارگیری با روش یکه نگاری: در این روش به جای آن که تمام واحدهای یک جامعه را مطالعه کنیم و یا تعدادی را بر اساس روش‌های تصادفی انتخاب کنیم فقط یک واحد جامعه را مطالعه می‌کنیم و در آن واحد به جزئیات می‌پردازیم که البته در جای خود با ارزش است ولی از لحاظ تعمیم به کل جامعه بی ارزش می‌باشد.

    5-2-4- آمارگیری با روش مکاتبه: در این روش ما یک پرسش‌نامه تنظیم می‌کنیم و آن را برای افراد جامعه می‌فرستیم و جواب‌های رسیده را مطالعه می‌کنیم.

    STATISTICAL ANALYSIS  2،آزمونهای آماری،ماد دانش پژوهان

    6- آمار استنباطی و آمار توصیفی

    در یک پژوهش جهت بررسی و توصیف ویژگی‌های عمومی پاسخ‌دهندگان از روش‌های موجود در آمار توصیفی مانند جداول توزیع فراوانی، در صد فراوانی، درصد فراوانی تجمعی و میانگین استفاده می‌گردد. بنابراین هدف آمار توصیفی یا descriptive محاسبه پارامترهای جامعه با استفاده از سرشماری تمامی عناصر جامعه است.

    در آمار استنباطی یا inferential پژوهشگر با استفاده مقادیر نمونه آماره‌ها را محاسبه کرده و سپس با کمک تخمین و یا آزمون فرض آماری، آماره‌ها را به پارامترهای جامعه تعمیم می‌دهد. برای تجزیه و تحلیل داده‌ها و آزمون فرضیه‌های پژوهش از روش‌های آمار استنباطی استفاده می‌شود.

    پارامتر شاخص بدست آمده از جامعه آماری با استفاده از سرشماری است و شاخص بدست آمده از یک نمونه n تایی از جامعه آماره نامیده می‌شود. برای مثال میانگین جامعه یا µ یک پارامتر مهم جامعه است. چون میانگین جامعه همیشه در دسترس نیست به همین خاطر از میانگین نمونه که برآورد کننده پارامتر µ است در بسیاری موارد استفاده می‌شود.

    7- آزمون آماری و تخمین آماری

    در یک مقاله پژوهشی یا یک پایان نامه باید سوال پژوهش یا فرضیه پژوهش مطرح شود. اگر تحقیق از نوع سوالی و صرفا حاوی پرسش درباره پارامتر باشد، برای پاسخ به سوالات از تخمین آماری استفاده می‌شود و اگر حاوی فرضیه‌ها بوده و از مرحله سوال گذر کرده باشد، آزمون فرضیه‌ها و فنون آماری آن به کار می‌رود.

    هر نوع تخمین یا آزمون فرض آماری با تعیین صحیح آماره پژوهش شروع می‌شود. سپس باید توزیع آماره مشخص شود. براساس توزیع آماری آزمون با استفاده از داده‌های به دست آمده از نمونه محاسبه شده آماره آزمون محاسبه می‌شود. سپس مقدار بحرانی با توجه به سطح خطا و نوع توزیع از جداول مندرج در پیوست های کتاب آماری محاسبه می‌شود. در نهایت با مقایسه آماره محاسبه شده و مقدار بحرانی سوال یا فرضیه تحقیق بررسی و نتایج تحلیل می‌شود. در ادامه این بحث موشکافی می‌شود.

    STATISTICAL ANALYSIS  4،آزمونهای آماری،ماد دانش پژوهان

    8- آزمون های آماری پارامتریک و ناپارامتریک

    آمار پارامتریک مستلزم پیش فرض‌هایی در مورد جامعه‌ای که از آن نمونه‌گیری صورت گرفته می‌باشد. به عنوان مهم‌ترین پیش فرض در آمار پارامتریک فرض می‌شود که توزیع جامعه نرمال است اما آمار ناپارامتریک مستلزم هیچ گونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس‌های کیفی سنجیده شده و فاقد توزیع (Free of distribution ) هستند از شاخص‌های آماری ناپارامتریک استفاده می‌کنند.

    فنون آمار پارامتریک شدیداً تحت تاثیر مقیاس سنجش متغیرها و توزیع آماری جامعه است. اگر متغیرها از نوع اسمی و ترتیبی بوده حتما از روش‌های ناپارامتریک استفاده می‌شود. اگر متغیرها از نوع فاصله‌ای و نسبی باشند در صورتی که فرض شود توزیع آماری جامعه نرمال یا بهنجار است از روش‌های پارامتریک استفاده می‌شود در غیر این صورت از روش‌های ناپارامتریک استفاده می‌شود.

    STATISTICAL ANALYSIS  3،آزمونهای آماری،ماد دانش پژوهان

    8-1- خلاصه آزمون‌های پارامتریک

    آزمون t تک نمونه: برای آزمون فرض پیرامون میانگین یک جامعه استفاده می‌شود. در بیشتر پژوهش‌هایی که با مقیاس لیکرت انجام می‌شوند جهت بررسی فرضیه‌های پژوهش و تحلیل سوال‌های تخصصی مربوط به آن‌ها از این آزمون استفاده می‌شود.

    آزمون t وابسته: برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می‌شود. برای مثال اختلاف میانگین رضایت کارکنان یک سازمان قبل و بعد از تغییر مدیریت یا زمانی که نمرات یک کلاس با پیش آزمون و پس آزمون سنجش می‌شود.

    آزمون t دو نمونه مستقل: جهت مقایسه میانگین دو جامعه استفاده می‌شود. در آزمون t برای دو نمونه مستقل فرض می‌شود واریانس دو جامعه برابر است. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه‌های پژوهش استفاده می‌شود.

    آزمون t ولچ: این آزمون نیز مانند آزمون t دو نمونه جهت مقایسه میانگین دو جامعه استفاده می‌شود. در آزمون t ولچ فرض می‌شود واریانس دو جامعه برابر نیست. برای نمونه به منظور بررسی معنی‌دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه‌های پژوهش استفاده می‌شود.

    آزمون t هتلینگ: برای مقایسه چند میانگین از دو جامعه استفاده می‌شود. یعنی دو جامعه براساس میانگین چندین صفت مقایسه شوند.

    تحلیل واریانس (ANOVA): از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می‌شود. برای نمونه جهت بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس سن یا تحصیلات در خصوص هر یک از فرضیه‌های پژوهش استفاده می‌شود.

    تحلیل واریانس چند عاملی (MANOVA): از این آزمون به منظور بررسی اختلاف چند میانگین از چند جامعه آماری استفاده می‌شود.

    تحلیل کوواریانس چند عاملی (MANCOVA): چنانچه در MANOVA بخواهیم اثر یک یا چند متغیر کمکی را حذف کنیم استفاده می‌شود.

    8-2- خلاصه آزمون‌های ناپارامتریک

    آزمون علامت تک نمونه: برای آزمون فرض پیرامون میانگین یک جامعه استفاده می‌شود.

    آزمون علامت زوجی: برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می‌شود.

    ویلکاکسون: همان آزمون علامت زوجی است که در آن اختلاف نسبی تفاوت از میانگین لحاظ می‌شود.

    من-ویتنی: به آزمون U نیز موسوم است و جهت مقایسه میانگین دو جامعه استفاده می‌شود.

    کروسکال-والیس: از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می‌شود. به آزمون H نیز موسوم است و تعمیم آزمون U مان-ویتنی می‌باشد. آزمون کروسکال-والیس معادل روش پارامتریک آنالیز واریانس تک عاملی است.

    فریدمن: این آزمون معادل روش پارامتریک آنالیز واریانس دو عاملی است که در آن k تیمار به صورت تصادفی به n بلوک تخصیص داده شده‌اند.

    کولموگروف-اسمیرنف: نوعی آزمون نیکویی برازش برای مقایسه یک توزیع نظری با توزیع مشاهده شده است.

    آزمون تقارن توزیع: در این آزمون شکل توزیع مورد سوال قرار می‌گیرد. فرض به دلیل آن است که توزیع متقارن نیست.

    آزمون میانه: جهت مقایسه میانه دو جامعه استفاده می‌شود و برای k جامعه نیز قابل تعمیم است.

    مک نمار: برای بررسی مشاهدات زوجی درباره متغیرهای دو ارزشی استفاده می‌شود.

    آزمون Q کوکران: تعمیم آزمون مک نمار در k نمونه وابسته است.

    ضریب همبستگی اسپیرمن: برای محاسبه همبستگی دو مجموعه داده که به صورت ترتیبی قرار دارند استفاده می‌شود.

    آزمون میانه - معرفی نرم افزار Smart PLS - آزمون کروسکال والیس - آزمون Post Hoc - آزمون هایT(همبسته و مستقل)

  • دیتاست چیست؟

    دیتاست یک مجموعه داده یا مدیریت مجموعه‌ای از داده‌هاست. این مجموعه معمولاً در یک الگوی جدولی ارائه می‌شود. اجزای این جدول به صورت زیر می‌باشند:

    • ستون‌های جدول: هر ستون، یک متغیر خاص را توصیف می‌کند.
    • ردیف‌های جدول: هر ردیف، متناظر با یک عضو داده شده از مجموعه داده‌ها، طبق سؤال داده‌شده است.

    تعریف‌های متفاوتی از دیتاست وجود دارد که ما تنها یک تعریف از آن را گفتیم. مجموعه داده‌ها، مقادیر هر متغیر را برای کمیت‌های ناشناخته مانند قد، وزن، دما، حجم و غیره یک اندازه‌گیری واقعی یا آزمایشگاهی توصیف می‌کنند.

    هر جزء از مقادیر این مجموعه به‌عنوان یک دیتا یا داده شناخته می‌شوند. مجموعه داده‌ها شامل تمامی این دیتاها یا به عبارتی دیگر، شامل تمام ردیف‌های این جدول می‌باشند.

    در ادامه، تعریف مجموعه داده‌ها، انواع مختلف مجموعه داده‌ها و ویژگی‌های آن‌ها را با مثال‌های حل‌شده بسیاری می‌آموزیم.

    خلاصه مطالبی که در ادامه می‌خوانید به شرح زیر است:

    معنا و مفهوم دیتاست
    انواع دیتاست:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دومتغیره
    • مجموعه داده چند متغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی
    • میانگین، میانه، حالت و محدوده

    میانگین، میانه، حالت و محدوده داده‌ها
    ویژگی‌های دیتاست
    مثال‌های کاربردی
    سؤالات متداول
      

    معنای دیتاست

    دیتاست یک مجموعه مرتب از داده‌ها است. همان‌طور که می‌دانیم، مجموعه‌ای از اطلاعات به‌دست‌آمده از طریق مشاهدات، اندازه‌گیری‌ها، مطالعه یا تحلیل، داده نامیده می‌شود. این اطلاعات می‌تواند شامل اطلاعاتی مانند حقایق، اعداد، ارقام، نام‌ها یا حتی توصیفات پایه‌ای اشیا باشد. برای مطالعه ما، داده‌ها می‌توانند به شکل نمودار، نمودار یا جدول سازمان‌دهی شوند. دانشمندان از طریق داده‌کاوی به تجزیه‌وتحلیل داده‌های جمع‌آوری‌شده کمک می‌کنند.

    یک مجموعه داده مجموعه‌ای از اعداد یا مقادیر است که به یک موضوع خاص مربوط می‌شود. برای مثال، یک مجموعه داده، نمرات آزمون هر دانش‌آموز در یک کلاس خاص است. مجموعه داده‌ها می‌توانند به‌ صورت لیستی از اعداد صحیح به ترتیب تصادفی، جدول، یا با براکت های مجعد در اطراف آن‌ها نوشته شوند. مجموعه داده‌ها معمولاً برچسب‌گذاری می‌شوند تا شما بفهمید که داده‌ها چه چیزی را نشان می‌دهند، بااین‌حال، هنگامی‌که با مجموعه داده‌ها سروکار دارید، لزوماً نیازی نیست که بفهمید داده‌ها نشان‌دهنده چه چیزی هستند تا مشکل را حل کنید.

    انواع مجموعه داده‌ها

    در آمار، ما انواع مختلفی از مجموعه داده‌ها را برای انواع مختلف اطلاعات در دسترس داریم؛ که عبارت‌اند از:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دومتغیره
    • مجموعه داده‌های چندمتغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی

    اجازه دهید در مورد تمام این مجموعه داده‌ها با مثال بحث کنیم.

    مجموعه داده‌های عددی

    مجموعه داده‌های عددی یک مجموعه از داده‌هاست که در آن داده‌ها با اعداد بیان می‌شوند. داده‌های عددی گاهی داده‌های کمی نامیده می‌شوند. مجموعه تمام داده‌های کمی/داده‌های عددی را مجموعه داده‌های عددی می‌نامند. داده‌های عددی همیشه به شکل اعداد هستند، به‌طوری‌که می‌توانیم عملیات ریاضی را روی آن انجام دهیم.

    وزن و قد فرد
    شمارش RBC در یک گزارش پزشکی
    تعداد صفحات موجود در یک کتاب

    مجموعه داده‌های دو متغیره

    یک مجموعه داده که دو متغیر دارد، مجموعه داده دو متغیره نامیده می‌شود. مجموعه داده‌های دو متغیره معمولاً شامل دو نوع داده مرتبط است.

    مثال: یافتن درصد نمره و سن دانش آموزان در یک کلاس. امتیاز و سن را می‌توان به‌عنوان دو متغیر در نظر گرفت.

    فروش بستنی در مقابل دما در آن روز. در اینجا دو متغیر مورد استفاده بستنی و دما هستند.

    (توجه: درصورتی‌که تنها یک مجموعه داده داشته باشید مثلاً دما، آنگاه مجموعه داده تک متغیره نامیده می‌شود)

    مجموعه داده‌های چند متغیره

    یک مجموعه داده با چندین متغیر. هنگامی که مجموعه داده شامل سه یا بیش از سه نوع داده (متغیر) باشد، آنگاه مجموعه داده یک مجموعه داده چند متغیره نامیده می‌شود؛ به عبارت دیگر، مجموعه داده‌های چند متغیره شامل اندازه‌گیری‌های فردی است که به‌عنوان تابعی از سه یا بیش از سه متغیر به دست می‌آیند.

    مثال: اگر بخواهیم طول، عرض، ارتفاع، حجم یک جعبه مستطیلی را اندازه‌گیری کنیم، باید از متغیرهای متعددی برای تمایز بین آن موجودیت‌ها استفاده کنیم.

    مجموعه داده‌های طبقه‌بندی‌شده

    مجموعه داده‌های طبقه‌بندی‌شده نشان‌دهنده ویژگی‌های یک شخص یا یک شی است. مجموعه داده طبقه‌ای شامل یک متغیر طبقه‌بندی است که متغیر کیفی نیز نامیده می‌شود که می‌تواند دقیقاً دو مقدار داشته باشد. از این رو، آن را یک متغیر دوگانه می‌نامند. داده‌ها/متغیرهای دسته‌بندی با بیش از دو مقدار ممکن، متغیرهای چندجمله‌ای نامیده می‌شوند. متغیرهای کیفی/طبقه‌ای اغلب به‌عنوان متغیر چندجمله‌ای فرض می‌شوند، مگر اینکه طور دیگری مشخص‌شده باشد.

    مثال:

    جنسیت فرد (مرد یا زن)
    وضعیت ازدواج (متأهل / مجرد)

    مجموعه داده‌های همبستگی

    مجموعه مقادیری که رابطه‌ای را با یکدیگر نشان می‌دهند، مجموعه داده‌های همبستگی را نشان می‌دهند. در اینجا مشخص می‌شود که مقادیر به یکدیگر وابسته هستند.

    به‌طور کلی، همبستگی به عنوان یک رابطه آماری بین دو ماهیت / متغیر تعریف می‌شود. در برخی سناریوها، ممکن است مجبور شوید همبستگی بین چیزها را پیش‌بینی کنید. درک چگونگی کارکرد همبستگی ضروری است. همبستگی به سه نوع طبقه‌بندی می‌شود که عبارت‌اند از:

    - همبستگی مثبت - دو متغیر در یک جهت حرکت می‌کنند (هر دو بالا هستند یا هر دو یا پایین)

    - همبستگی منفی - دو متغیر در جهت مخالف حرکت می‌کنند. (یک متغیر بالا و متغیر دیگر پایین است و بالعکس)

    - همبستگی صفر یا صفر - هیچ رابطه‌ای بین دو متغیر وجود ندارد.

    مثال: یک فرد بلند قد سنگین‌تر از یک فرد کوتاه قد در نظر گرفته می‌شود؛ بنابراین در اینجا متغیرهای وزن و قد به یکدیگر وابسته هستند.

    میانگین، میانه، حالت و محدوده مجموعه داده‌ها

    میانگین، میانه و مد همراه با دامنه، موضوعات اصلی در آمار هستند؛ به عبارت دیگر، محاسبه میانگین، میانه و حالت مجموعه داده‌ها سه روش برای کار با آن‌ها هستند. با این حال، قبل از اینکه بتوانیم این سه معیار مجموعه داده را محاسبه کنیم، ابتدا باید مجموعه داده‌های خود را با بازنویسی آن‌ها به ترتیب صعودی از حداقل تا بیش‌ترین آماده کنیم.

    میانگین یک مجموعه داده میانگین تمام مشاهدات موجود در جدول است. این نسبت مجموع مشاهدات به تعداد کل عناصر موجود در مجموعه داده‌ها است. فرمول میانگین به‌صورت زیر است:

    میانگین= حجم مشاهدات / تعداد کل عناصر در مجموعه داده‌ها

    میانه یک مجموعه داده، مقدار میانه جمع‌آوری داده‌ها زمانی است که به ترتیب صعودی و نزولی مرتب‌شده باشند.

    مود یک مجموعه داده، متغیر یا عدد یا مقداری است که حداکثر چند بار در مجموعه تکرار می‌شود.

    محدوده یک مجموعه داده، تفاوت بین مقدار بیشینه و مقدار کمینه است.

    محدوده= حداکثر مقدار - حداقل مقدار

    ویژگی‌های مجموعه داده

    قبل از انجام هر تحلیل آماری, درک ماهیت داده‌ها ضروری است. ما می‌توانیم از تکنیک‌های مختلف تحلیل داده اکتشافی (EDA) استفاده کنیم که به شناسایی ویژگی‌های داده‌ها کمک می‌کند, به‌طوری‌که روش‌های آماری مناسب می‌توانند بر روی داده‌ها اعمال شوند. با کمک تکنیک های EDA می‌توانیم ویژگی‌های زیر را در مجموعه داده‌ها بررسی کنیم.

    - مرکز داده‌ها
    - Skewness of data
    - پخش در میان اعضای داده
    - حضور خارجی‌ها
    - همبستگی میان داده‌ها
    - نوع توزیع احتمال که داده‌ها از آن پیروی می‌کنند

    مثال مجموعه داده‌ها

    مثال ۱: میانگین، حالت، میانه و دامنه مجموعه داده‌های داده‌شده را پیدا کنید. { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲}

    راه‌حل: با توجه به اینکه { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲ } مجموعه‌ای از داده‌ها است.

    میانگین ۲+۴+۶+۸+۲+۱۰+۱۲/۷ = ۴۴/۷

    برای یافتن میانه ابتدا باید داده‌های داده شده را به ترتیب صعودی یا نزولی مرتب کنیم.

    بنابراین{ ۲، ۲، ۴، ۶، ۸، ۱۰، ۱۲ }

    بنابراین، میانه= ۶ مود= ۲ محدوده ۱۲-۲=۱۰

    مثال ۲: مود مجموعه داده‌های داده شده را پیدا کنید: ۲، ۳، ۳، ۴، ۶، ۷

    راه‌حل: مجموعه داده‌های داده شده: ۲، ۳، ۳، ۴، ۶، ۷

    می‌دانیم که مود مقدار تکرار شونده در مجموعه داده‌ها است.

    از مجموعه داده‌های داده شده، مشاهده می‌شود که داده "۳" دو بار تکرار می‌شود؛ بنابراین، مود برای مجموعه داده‌های داده شده ۳ است.

    سؤالات متداول در دیتابیس

    منظور از مجموعه داده چیست؟

    مجموعه یا مجموعه‌ای از داده‌ها و اطلاعات را مجموعه داده می‌نامند؛ به عبارت دیگر، مجموعه داده‌ها مجموعه مرتب اطلاعات و داده‌ها است.

    ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها چیست؟

    در آمار، ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها عبارت‌اند از میانگین، میانه، مود، دامنه و غیره.

    چگونه دامنه مجموعه داده‌های داده شده را محاسبه کنیم؟

    محدوده مجموعه داده‌های داده شده، تفاوت بین مقدار بیشینه و کمینه مجموعه داده‌ها است.

    انواع مختلف مجموعه داده‌ها چیست؟

    انواع مختلف مجموعه داده‌ها عبارت‌اند از:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دو متغیره
    • مجموعه داده‌های چند متغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی

    میانه مجموعه داده‌ها چیست؟

    میانه مقدار میانی مجموعه داده است که در آن داده‌ها به ترتیب صعودی مرتب می‌شوند.

    تفاوت بین داده، مجموعه داده و پایگاه داده چیست؟

    داده‌ها مشاهدات یا اندازه‌گیری‌هایی (پردازش نشده یا پردازش نشده) هستند که به صورت متن، اعداد یا چندرسانه‌ای نشان داده می‌شوند. یک مجموعه داده مجموعه‌ای ساختار یافته از داده‌ها است که به طور کلی با یک مجموعه کار منحصر به فرد در ارتباط است.

    پایگاه داده مجموعه‌ای سازمان یافته از داده‌های ذخیره شده به صورت مجموعه داده‌های چندگانه است. این مجموعه داده‌ها عموماً به صورت الکترونیکی از یک سیستم کامپیوتری ذخیره و در دسترس هستند که اجازه می‌دهد داده‌ها به‌راحتی قابل دسترسی، دستکاری و به روز رسانی باشند.

    این مقادیر ممکن است اعدادی مانند اعداد حقیقی یا اعداد صحیح باشند، برای مثال نشان‌دهنده قد یک شخص در سانتی‌متر باشند، اما ممکن است داده‌های اسمی نیز باشند (شامل مقادیر عددی نباشند)، برای مثال نشان‌دهنده قومیت یک شخص. به طور کلی، مقادیر ممکن است از هر یک از انواعی باشند که به عنوان سطحی از اندازه‌گیری توصیف می‌شوند. برای هر متغیر، مقادیر به طور معمول همگی از یک نوع هستند. با این حال، ممکن است مقادیر گم شده ای نیز وجود داشته باشد که باید به نحوی نشان داده شوند.

    در آمار، مجموعه داده‌ها معمولاً از مشاهدات واقعی به دست آمده از نمونه‌گیری یک جامعه آماری به دست می‌آیند و هر ردیف مربوط به مشاهدات یک عنصر از آن جامعه است. مجموعه داده‌ها ممکن است بیشتر توسط الگوریتم‌ها به منظور آزمایش انواع خاصی از نرم‌افزارها تولید شوند. برخی از نرم‌افزارهای تحلیل آماری مدرن مانند SPSS هنوز هم داده‌های خود را به شیوه مجموعه داده‌های کلاسیک ارائه می‌دهند. اگر داده‌ها گم شده یا مشکوک باشند، می‌توان از یک روش ایمن‌سازی برای تکمیل یک مجموعه داده استفاده کرد.

    چندین مجموعه داده کلاسیک به طور گسترده در منابع آماری مورد استفاده قرار گرفته‌اند:

    مجموعه داده‌های گل آیریس - مجموعه داده‌های چند متغیره معرفی‌شده توسط رونالد فیشر (۱۹۳۶).

    پایگاه داده MNIST - تصاویر ارقام دست‌نویس که معمولاً برای آزمایش الگوریتم‌های طبقه‌بندی، خوشه‌بندی و پردازش تصویر استفاده می‌شوند.

    تجزیه‌وتحلیل دسته‌ای داده‌ها - مجموعه داده‌های مورداستفاده در کتاب، مقدمه‌ای بر تجزیه‌وتحلیل دسته‌ای داده‌ها.

    آمار قوی - مجموعه داده‌های مورداستفاده در رگرسیون قوی و تشخیص دور از دسترس (روسسو و لروی، ۱۹۶۸). در دانشگاه کلن ارائه شد.

    سری‌های زمانی - داده‌های مورد استفاده در کتاب چاتفیلد، تجزیه و تحلیل سری‌های زمانی، به صورت آنلاین توسط StatLib ارائه می‌شوند.

    مقادیر افراطی - داده‌های مورد استفاده در این کتاب، مقدمه‌ای بر مدل‌سازی آماری مقادیر افراطی، تصویری از داده‌هایی است که توسط استوارت کولز، نویسنده کتاب، به‌صورت آنلاین ارائه شده است.

    تجزیه و تحلیل داده‌های بیزی - داده‌های مورد استفاده در این کتاب توسط اندرو گلمن، یکی از نویسندگان کتاب به صورت آنلاین ارائه شده است.

    داده‌های باگ بانتی در چندین مقاله در منابع یادگیری ماشین (داده کاوی) مورد استفاده قرار می‌گیرند.

    مجموعه داده‌های کوچک - کوارتت آنسکامب نشان‌دهنده اهمیت نمودار کردن داده‌ها برای جلوگیری از مغالطه‌های آماری است.

    درگاه‌های متعددی وجود دارند که به مجموعه داده‌ها دسترسی دارند:

    • داده‌کاوی در بریتانیا
    • داده‌کاوی در آمریکا
    • دنیای ما در داده‌ها
    • پنج و سی‌ وهشت
    • کار با داده‌ها