پیکره بزرگ متنی با همکاری یک شرکت دانش‌بنیان و آزمایشگاه پردازش زبان طبیعی و گفتار زبان فارسی دانشگاه صنعتی شریف به صورت رایگان در اختیار محققان حوزه پردازش زبان طبیعی قرار گرفت

پیکره‌ متنی بزرگ از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌های با منابع کمتر  مثل فارسی  بیشتر احساس می‌شود.

بدین منظور تیمی حرفه‌ای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی آقای دکتر حسین صامتی  به همراه محققان مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز از واحدهای فناور عضو پارک علم وفناوری شریف برای این مساله راه‌حل پیکره ناب را معرفی کردند.

محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام داشت: این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.

همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیز‌سازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

آقای دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز اعلام داشت: از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی – که در اصل برای زبان انگلیسی تهیه شده‌اند – برای زبان فارسی نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T5 و … اشاره کرد.

در ادامه ایشان نیز از همه‌ محققان این حوزه دعوت نمود تا  با بررسی این پیکره، این تیم را از نظرات بهره‌مند سازند.

حسینیان در ادامه اعلام نمود مرکز نوآوری این شرکت دانش‌بنیان مستقر در پارک علم وفناوری دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب،  ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

برای مطالعه بیشتر به این لینک های زیر مراجعه کنید:

https://arxiv.org/abs/۲۲۰۸.۱۳۴۸۶

https://huggingface.co/datasets/SLPL/naab

+ https://huggingface.co/datasets/SLPL/naab-raw

منبع خبر: خبرگزاری ایرنا