微智科技网
您的当前位置:首页基于大数据建模的高职院校学生行为画像分析应用探索

基于大数据建模的高职院校学生行为画像分析应用探索

来源:微智科技网


基于大数据建模的高职院校学生行为画像分析应用探索

作者:林勤 陈长辉 贾志伟

来源:《现代信息科技》2021年第05期

摘 要:随着教育信息化进程的不断推进,海量的教育基础数据应运而生,各高职院校越发关注及重视如何利用这些“数字资产”为师生创建一个更加个性化的校园服务体系。运用基于大数据的教育分析平台及真实的院校业务数据,构建以学生为对象的度行为分析模型,并以广州某高职院校建设实施为例,从学生概况分析、学生行为分析、学生综合预警等维度向校方呈现精准、个性特征明显的学生综合画像,为学生的个性化学习生活提供导向依据。

关键词:教育大数据;行为画像;智慧校园

中图分类号:TP391;G434 文献标识码:A 文章编号:2096-4706(2021)05-0019-05

Application Exploration of Behavior Portrait Analysis of Higher Vocational College Students Based on Big Data Modeling

LIN Qin,CHEN Changhui,JIA Zhiwei

(Education Technology and Information Center,Guangzhou Panyu Polytechnic,Guangzhou 511483,China)

Abstract:With the continuous advancement of the process of education informatization,a large amount of basic educational data has emerged after with it. Higher vocational colleges pay more and more attention to how to use these “digital assets” to create a more personalized campus service system for teachers and students. Using the education analysis platform based on big data and real business data of campus,then constructs a multi-dimensional behavior analysis model with students as the object. And also taking the construction and implementation of a higher vocational college in Guangzhou as an example,from the aspects of student profile analysis,student behavior analysis and student comprehensive warning,this paper presents the school with accurate

and obvious personality characteristics of students’comprehensive portrait,which provides guidance for students’personalized learning and life.

Keywords:education big data;behavior portrait;smart campus

0 引 言

大數据时代的来临,对教育行业而言,是一个重要的契机。关于印发《国家教育事业发展“十三五”规划的通知》明确指出,鼓励学校利用大数据技术开展对教育教学活动和学生行为数据的收集、分析和反馈,为推动个性化学习和针对性教学提供支持[1]。虽然高校在时代进步与社会发展中充当着推动者的角色,同时在人才培育、知识探索、科技研发及服务社会等方面起着主导及决定性的作用,但在大数据应用方面反而一直滞后于传统的商务领域,实际上各高职院校已拥有数量庞大的教育基础数据,如何让这些“数字资产”进一步为学校办学及管理提供更好的应用价值,已成为各院校的研究重点。

1 大数据与行为画像

大数据是个抽象的概念,它是指社会生产生活中与管理服务过程中形成的无法通过常规工具进行采集、管理、处理的海量数据集合,须借助新型技术进行提取整合,交叉分析,最终具有强精准性、指向性、决策性的信息资产。它具有典型的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)5V特点(由IBM提出)。行为记录是指由时间、人物、地点及事件等元素标签所组成的具体的数据记录,通过对大量的行为记录进行分析便可以描绘出该人物的信息全貌,

即行为画像。

2 教育大数据应用现状

2.1 应用的现状

随着研究的开展及技术的成熟,大数据应用已渐渐在人们的生活中崭露头角,如电商购物平台利用用户查阅及购物记录大数据,分析出用户的消费喜好而进行产品推送;又如医院通过大数据可预知区域性流行病的范围及周期,提前做好应诊及进药措施等,这些正是挖掘、运用大数据的价值体现。事实上,我国的高校也在不断地尝试用大数据分析挖掘技术解决在实际办学中遇到的问题,如上海东华大学利用学校资产信息进行数据分析,从而了解学校的设备使用情况并以此制定采购计划、预算等,大多数普通高校对大数据技术的应用还停留在理论研究上,但随着现代高校信息化建设的不断发展推进,如教务、人事、科研、图书,特别是一卡通等各类管理应用系统的相继完善并不断标准化、体系化,使得有效、稳定、规范的数据来源成为可能,结合信息安全与云计算的支撑,普通高校也已逐步具备大数据技术应用的环境基础[2]。如果能利用上述这些大数据海量、度、准确及高可塑性等优点,加强对这些数据的研究与分析,并通过建立数据模型找出数据间的相互关系及规律,可实现提升教学、办公、管理、科研等各方面能力的应用分析结论,最终为学校的发展及规划提供决策导向。

2.2 面临的问题

随着国家教育现代化目标的不断提高,传统教育管理方式短板也日益突出,如教

育与管理数据的非实时性,导致预测和评估的滞后;数据分析偏宏观,导致缺乏对个体层面发展的关注等,而这些方面的问题又直接影响着学校的办学发展及学生的个性化成长,具体表现为:

(1)在当今的信息社会大环境下,高校学生在校园日常生活场景中极易受到不同信息资讯、生活氛围及思维引导的影响,进而产生潜移默化的变化,迷失正当的学习、生活目标,而且大部分学生及校方很难及时察觉并进行干预,一旦出现不可逆转的事件时,为时已晚。

(2)相比以往,当代的高校学生展现出了极具特色的个性化发展趋势,按部就班的传统教育模式已严重地制约了学生的学习成长,特别是在校园信息化高速发展的今天,这种采用单一引导及复印式的教学管理方式更加顯得格格不入。

(3)虽然与大数据应用相结合可以为高校的个性化教学及智慧管理提供可能,但在近些年的教育大数据应用与实践建设过程中,仍存在着数据标准不统一、信息系统孤岛严重及实际运用落地难等问题[3]。

3 智慧校园大数据基础平台

为解决上述问题,首先需要搭建大数据基础平台,借助各高职院校已具备的良好的计算及存储资源,利用云计算灵活的部署模式,采用Hadoop+分布式数据库并行的大数据架构体系[4],参照教育部教育管理信息化标准,对各信息化业务系统的主要结果数据进行整合、清洗、归管以及质量把控等环节处理,如图1所示,对全校的数据资源进行

管控和运营,充分发挥数据资产的优势,用于师生管理、教学、科研、资产及相关应用分析模块,服务于学校办学管理的各个方面。如对学生学习行为数据的分析,了解学生的学习进度、学习效果以及可能的就业方向等,这些数据展示给学生,让其可以调整自己的工作学习安排;这些数据展示给教师,将对教学创新提供最为直接的依据;这些数据整合给学校,将可以为学生提供更具个性的智慧校园服务等。

平台通过扩展和封装Hadoop来实现对大数据的存储、分析的支撑,同时实现对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型处理,在构建统一数据标准的同时完成基础核心的元数据管理平台及数据共享交换平台的建设,在此基础上将学校教务、一卡通、图书、学工等系统的主要基础数据汇聚到平台里,结合数据建模,从中构建出一个可度展示个体学生行为的数据分析模型(即行为画像分析模型)。

4 学生行为画像分析模型

行为画像的分析其实也是一项数据挖掘工作,该分析从学生的角色出发,基于个性化差异,对相关业务系统元数据通过因子分析、聚类分析、交叉分析以及组合分析等手段进行分析,来挖掘出每位学生的学习、生活、消费、行迹、兴趣爱好等具有明显个体特征性的标签信息,构建一个度、准确且全面的学生综合行为画像分析模型,如图2所示。

模型中所有分析维度的特征指标均由各业务系统提供数据来源,根据各高校主流信息系统相关样本数据的特征,采用K近邻算法(k-Nearest Neighbors algorithm,k-

NN)拟合模型进行建模分析,实现快速精准的度分析结果展示[5],从而解决智慧校园大环境下的学生个性化成长及高学智慧化办学服务中所遇到的困境与瓶颈。

5 应用分析的效果呈现

本文以广州某高职院校为例,通过上述大数据平台的实践建设,对该校32个在用业务系统的近7 800万条信息记录做作数据处理及数据仓库建设,由于部分原始数据有可能涉及学生隐私内容,因此,所有数据在清洗入仓时已做脱敏处理,保证数据信息的安全,其中由2 300万条相关信息记录构成学生行为画像分析模型元数据,对这些元数据进行流程化处理后,便可进行学生层面的分析与展示。

5.1 学生画像分析

该分析基于数据仓库数据抽取模型,分析每名在校学生的个人基本属性、综合指标表现等个体特征及分项排名,如图3所示。

所展示的分析结果十分有助于校方及老师对每一位学生有一个准确的了解,知道如何去针对不同的学生或整体学生的学习概况而进行教学方法的调整及学习方法的引导,同时有针对性地为学生提供感兴趣的课内课外学习资源,助力学生的个性化学习成长;最重要的是让学生本人对自己有一个客观的认识,更清晰地定位在校学习、生活以及就业等工作,并及时了解自己在各个阶段所出现的细微变化,通过自我肯定或反思,主动调整至最佳状态。

5.2 学生行为分析

该分析分为上网行为分析及行为轨迹分析两部分:

(1)上网行为分析是通过学生校园网的上网记录日志数据,对学生的上网进行分析,针对学生的日上网时长、流量、终端类型、接入地点等指标,展开其在年级、学院、时段等不同维度的分析;而对于网络应用类型及偏好分析则通过网络行为审计数据来实现。这些分析结果便于学校引导学生合理使用网络,同时干预沉溺网络的行为。

(2)行为轨迹分析通过挖掘学生在校的所有含地理位置痕迹的数据(主要有校园Wi-Fi认证接入、时长及漫游记录,辅以一卡通及门禁记录等),分析得出学校各个楼宇的各时间段的人流密度情况,以及各类群体和具体个人的行为轨迹规律,如图4所示。这有助于学校有针对性的加强人流密集区的安保措施,另外,在当前疫情期间,可依此对学生在上、下课以及用餐高峰期时进行错峰安排。

5.3 精准助学分析

精准助学的主要对象是家庭经济贫困学生,根据对全体在校学生一卡通消费数据的统计及聚类分析,得出在校学生整体的消费水平及频次概况,从中得知贫困学生群体与正常学生群体之间的消费差距及在校消费稳定性上的不同,如图5所示,从而开展相关工作[6]。精准助学分析不仅可以验证已列入贫困助学学生的实际经济情况,也可以发现其他因故而没有申请或申请不通过的贫困学生,学校可依此主动对这类学生进行心理疏导或助学关注,避免出现其他问题;同时可以作为助学申评结果的有效依据,确保贫困学生有基本的生活质量并能顺利完成学业。

2.2 面临的问题

随着国家教育现代化目标的不断提高,传统教育管理方式短板也日益突出,如教育与管理数据的非实时性,导致预测和评估的滞后;数据分析偏宏观,导致缺乏对个体层面发展的关注等,而这些方面的问题又直接影响着学校的办学发展及学生的个性化成长,具体表现为:

(1)在当今的信息社会大环境下,高校学生在校园日常生活场景中极易受到不同信息资讯、生活氛围及思维引导的影响,进而产生潜移默化的变化,迷失正当的学习、生活目标,而且大部分学生及校方很难及时察觉并进行干预,一旦出现不可逆转的事件时,为时已晚。

(2)相比以往,当代的高校学生展现出了极具特色的个性化发展趋势,按部就班的传统教育模式已严重地制约了学生的学习成长,特别是在校园信息化高速发展的今天,这种采用单一引导及复印式的教学管理方式更加显得格格不入。

(3)虽然与大数据应用相结合可以为高校的个性化教学及智慧管理提供可能,但在近些年的教育大数据应用与实践建设过程中,仍存在着数据标准不统一、信息系统孤岛严重及实际运用落地难等问题[3]。

3 智慧校园大数据基础平台

为解决上述问题,首先需要搭建大数据基础平台,借助各高职院校已具备的良好的计算及存储资源,利用云计算灵活的部署模式,采用Hadoop+分布式数据库并行的大

数据架构体系[4],参照教育部教育管理信息化标准,对各信息化业务系统的主要结果数据进行整合、清洗、归管以及质量把控等环节处理,如图1所示,对全校的数据资源进行管控和运营,充分发挥数据资产的优势,用于师生管理、教学、科研、资产及相关应用分析模块,服务于学校办学管理的各个方面。如对学生学习行为数据的分析,了解学生的学习进度、学习效果以及可能的就业方向等,这些数据展示给学生,让其可以调整自己的工作学习安排;这些数据展示给教师,将对教学创新提供最为直接的依据;这些数据整合给学校,将可以为学生提供更具个性的智慧校园服务等。

平台通过扩展和封装Hadoop来实现对大数据的存储、分析的支撑,同时实现对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型处理,在构建统一数据标准的同时完成基础核心的元数据管理平台及数据共享交换平台的建设,在此基础上将学校教务、一卡通、图书、学工等系统的主要基础数据汇聚到平台里,结合数据建模,从中构建出一个可度展示个体学生行为的数据分析模型(即行为画像分析模型)。

4 学生行为画像分析模型

行为画像的分析其实也是一项数据挖掘工作,该分析从学生的角色出发,基于个性化差异,对相关业务系统元数据通过因子分析、聚类分析、交叉分析以及组合分析等手段进行分析,来挖掘出每位学生的学习、生活、消费、行迹、兴趣爱好等具有明显个体特征性的标签信息,构建一个度、准确且全面的学生综合行为画像分析模型,如图2所示。

模型中所有分析维度的特征指标均由各业务系统提供数据来源,根据各高校主流信息系统相关样本数据的特征,采用K近邻算法(k-Nearest Neighbors algorithm,k-NN)拟合模型进行建模分析,实现快速精准的度分析结果展示[5],从而解决智慧校园大环境下的学生个性化成长及高学智慧化办学服务中所遇到的困境与瓶颈。

5 应用分析的效果呈现

本文以广州某高职院校为例,通过上述大数据平台的实践建设,对该校32个在用业务系统的近7 800万条信息记录做作数据处理及数据仓库建设,由于部分原始数据有可能涉及学生隐私内容,因此,所有数据在清洗入仓时已做脱敏处理,保证数据信息的安全,其中由2 300万条相关信息记录构成学生行为画像分析模型元数据,对这些元数据进行流程化处理后,便可进行学生层面的分析与展示。

5.1 学生画像分析

该分析基于数据仓库数据抽取模型,分析每名在校学生的个人基本属性、综合指标表现等个体特征及分项排名,如图3所示。

所展示的分析结果十分有助于校方及老师对每一位学生有一个准确的了解,知道如何去针对不同的学生或整体学生的学习概况而进行教学方法的调整及学习方法的引导,同时有针对性地为学生提供感興趣的课内课外学习资源,助力学生的个性化学习成长;最重要的是让学生本人对自己有一个客观的认识,更清晰地定位在校学习、生活以及就业等工作,并及时了解自己在各个阶段所出现的细微变化,通过自我肯定或反思,主动调整至

最佳状态。

5.2 学生行为分析

该分析分为上网行为分析及行为轨迹分析两部分:

(1)上网行为分析是通过学生校园网的上网记录日志数据,对学生的上网进行分析,针对学生的日上网时长、流量、终端类型、接入地点等指标,展开其在年级、学院、时段等不同维度的分析;而对于网络应用类型及偏好分析则通过网络行为审计数据来实现。这些分析结果便于学校引导学生合理使用网络,同时干预沉溺网络的行为。

(2)行为轨迹分析通过挖掘学生在校的所有含地理位置痕迹的数据(主要有校园Wi-Fi认证接入、时长及漫游记录,辅以一卡通及门禁记录等),分析得出学校各个楼宇的各时间段的人流密度情况,以及各类群体和具体个人的行为轨迹规律,如图4所示。这有助于学校有针对性的加强人流密集区的安保措施,另外,在当前疫情期间,可依此对学生在上、下课以及用餐高峰期时进行错峰安排。

5.3 精准助学分析

精准助学的主要对象是家庭经济贫困学生,根据对全体在校学生一卡通消费数据的统计及聚类分析,得出在校学生整体的消费水平及频次概况,从中得知贫困学生群体与正常学生群体之间的消费差距及在校消费稳定性上的不同,如图5所示,从而开展相关工作[6]。精准助学分析不仅可以验证已列入贫困助学学生的实际经济情况,也可以发现其他因故而没有申请或申请不通过的贫困学生,学校可依此主动对这类学生进行心理疏导或

助学关注,避免出现其他问题;同时可以作为助学申评结果的有效依据,确保贫困学生有基本的生活质量并能顺利完成学业。

因篇幅问题不能全部显示,请点此查看更多更全内容