پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر مثل فارسی بیشتر احساس میشود.
بدین منظور تیمی حرفهای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی آقای دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز از واحدهای فناور عضو پارک علم وفناوری شریف برای این مساله راهحل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام داشت: این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
آقای دکتر حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز اعلام داشت: از این پیکره میتوان برای fine-tune کردن مدلهای زبانی – که در اصل برای زبان انگلیسی تهیه شدهاند – برای زبان فارسی نیز استفاده کرد. از جمله این مدلهای زبانی میتوان به BERT, BART, T5 و … اشاره کرد.
در ادامه ایشان نیز از همه محققان این حوزه دعوت نمود تا با بررسی این پیکره، این تیم را از نظرات بهرهمند سازند.
حسینیان در ادامه اعلام نمود مرکز نوآوری این شرکت دانشبنیان مستقر در پارک علم وفناوری دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
برای مطالعه بیشتر به این لینک های زیر مراجعه کنید:
+ https://arxiv.org/abs/۲۲۰۸.۱۳۴۸۶
+ https://huggingface.co/datasets/SLPL/naab