۱۳ مرداد

پایتون برای علم داده

چرا پایتون برای علم داده ضروری است؟ پایتون یکی از پرکاربردترین زبان های برنامه‌ نویسی به حساب می‌آید که توسط گیدو ون روسوم در سال ۱۹۹۱ معرفی شد. این زبان به دلیل سطح بالا، همه‌منظور بودن، سادگی و خوانایی بالا محبوبیت زیادی در میان برنامه‌نویسان دارد. پایتون از چندین پارادایم برنامه‌نویسی پشتیبانی می‌کند، از جمله برنامه‌نویسی شی‌ءگرا، تابعی و رویه‌ای. چرا پایتون زبان ترجیحی برای دانشمندان داده است؟ بیایید آن را تجزیه کنیم: سهولت یادگیری: سینتکس ساده و خوانایی پایتون آن را حتی برای کسانی که پیش زمینه برنامه نویسی ندارند، قابل دسترسی است. کتابخانه های گسترده: پایتون کتابخانه های قدرتمندی را ارائه می دهد که …

ادامه مطلب
۱۰ مرداد

مدل های زبانی

مردم از مدل‌های زبانی بزرگ برای مجموعه‌ای از وظایف، از ترجمه مقاله گرفته تا شناسایی کلاهبرداری مالی، استفاده می‌کنند. با این حال، با وجود قابلیت های باورنکردنی و تطبیق پذیری این مدل ها، گاهی اوقات پاسخ های نادرستی ایجاد می کنند. علاوه بر این مشکل، مدل‌ها می‌توانند نسبت به پاسخ‌های اشتباه بیش از حد یا در مورد پاسخ‌های صحیح اعتماد به‌نفس نداشته باشند. که تشخیص اینکه چه زمانی می‌توان به یک مدل اعتماد کرد برای کاربر دشوار می‌کند. محققان معمولاً یک مدل یادگیری ماشینی را کالیبره می‌کنند. و اطمینان حاصل کنند که سطح اطمینان آن با دقت آن همخوانی دارد. یک مدل به خوبی کالیبره …

ادامه مطلب
۶ مرداد

نقشه راه علم داده

در این مطلب برای روشنگری نقشه راه علم داده به توضیح ساده و به اختصار 6 مرحله اساسی در یادگیری پرداخته ایم. گام 1: یادگیری برنامه نویسی یا مهندسی نرم افزار -درک خوبی از زبان‌های برنامه‌نویسی، ابزارها و مفاهیم علوم کامپیوتر داشته باش(حداقل یکی از زبانهای زیر ): پایتون R اسکالا SQL Mongo DB لینوکس گیت ساختمان داده خزیدن در وب برنامه‌نویسی شی گرا گام 2:جمع‌آوری و پاک‌سازی داده‌ها باید حتما بدانی که چگونه داده‌ها را به طور کارآمد جمع‌آوری و پاک‌سازی کنی. از جمله ابزارهای پاک‌سازی داده عبارت‌اند از ( حداقل 2 مورد رو باید کاملا مسلط باشی): Python data visualization Microsoft Excel OpenRefine …

ادامه مطلب