تعتمد خوارزميات الذكاء الاصطناعي التي حققت نجاحات كبيرة في الآونة الأخيرة بشكل كبير على التدريب على كم كبير من البيانات والمعلومات، التي تساعد الخوارزميات على اتخاذ القرار بشكل سليم. تعد عملية إعداد البيانات لتدريب الخوارزميات من أهم المراحل التي تتم في أنظمة الذكاء الاصطناعي، ولذا التركيز في هذه المرحلة، مرحلة تجهيز البيانات، يعد الأهم في عمليات الذكاء، بل إن إعطاء الوقت والجهد الكافي لهذه المرحلة، يعني أن يقضي المطورون قرابة 80% من الوقت في عملية إعداد البيانات، و20% فقط في عملية تدريب خوارزميات الذكاء الاصطناعي. وهناك خوارزميات ذات شهرة عالية، وهي تلك التي حققت نتائج مبهرة في عدد من المجالات، كخوارزمية بيرت (BERT) التي تم تطويرها في معامل شركة جوجل (Google) للذكاء الاصطناعي، أو الخوارزمية إكس إل إم (XLM-R)، التي أنتجها معمل أبحاث الذكاء الاصطناعي بشركة فيسبوك (Facebook)، والأخيرة قد سعى فيها الباحثون إلى تجاوز دقة خوارزمية شركة جوجل. الخوارزميتان سابقتا الذكر، وغيرهما من الخوارزميات التي تعمل بنفس النسق، تعتمد على الحصول على كم ضخم من البيانات، التي قد لا تكون في متناول الجميع، وهذا يبدو ظاهراً من أسماء الشركات العملاقة التي تمكنت من تطوير تلك الخوارزميات، ولذا فقد سعى عدد من الباحثين لإيجاد بدائل تمكنهم من الاستفادة من تلك الخوارزميات، دون الحاجة إلى ذلك الكم الهائل من البيانات، ومن هذه البدائل ما اقترحه الباحث رافاييل تانج (Raphael Tang) في بحث نشره مع عدد من العلماء من جامعة ووترلو (University of Waterloo) في العام 2019، وبه قام الباحثون بتصميم طريقة يمكنها استخلاص الأجزاء الأكثر أهمية من خوارزميات الذكاء الاصطناعي، وقد أطلق عليها مجازاً عملية «تقطير» خوارزمية بيرت، وهي عملية يمكن وصفها بأنها تقوم على «ضغظ» نواتج الخوارزمية لتكون أقل حجماً، وهي عملية مشابهة لما ذكر في بحث نشر منذ عام 2006 بجامعة كرونيل (Cornell University) من قبل الباحث كريستيان بوسيل (Cristian Bucil) وعدد من العلماء بذات الجامعة. ومن الأعمال التي تحدثت عن فكرة الاستفادة من الخوارزميتين سابقتي الذكر، بشكل أكثر فاعلية، طريقة كتبت عنها طالبة الدراسات العليا شنيو وانج (Xinyu Wang)، مع باحثين بعدد من الجامعات في عام 2021، وبالشراكة مع الشركة الصينية العملاقة علي بابا (Alibaba)، في هذا البحث تم وصف عملية تدريب للخوارزميات مبتكرة، فيها يتم بناء خوارزمية كبيرة مدربة على كم كبير من البيانات، تماماً ك«بيرت»، ولكن هذه المرة، فإن الخوارزمية الضخمة تعمل لتدريب خوارزمية صغيرة، وقد أطلق عليها خوارزمية المعلم وخوارزمية الطالب، وفي هذه العملية فإن خوارزمية الطالب تحاول محاكاة طريقة تفكير المعلم، دون الحاجة إلى الكم الكبير من البيانات التي تستخدم لتدريب الخوارزميات.