深度学习在机器学习技能培养教学中的应用

北京白癜风治的好的医院 http://www.bdfyy999.com/m/

0引言

随着社会的进步、科技的发展,正逐步迈入信息化的时代。在云计算、物联网、大数据分析等基础上,机器学习得到了快速的发展。市场研究机构IDC最新发布的《中国人工智能软件及应用跟踪》报告预测:到年,中国人工智能软件及应用市场规模将达到.5亿美元,—年复合增长率达39.0%。这种发展趋势使相关企业对机器学习、人工智能人才的需求不断扩大,同时对相关人才的知识储备与实践能力提出了更高的要求。

高校在人工智能的基础理论探索和关键技术研究方面都取得了一些突破,人才培育和学科研究方面得到了新的进展,推动了人工智能的进步[1]。然而,面对日新月异的技术进步,过去常规的思维方法与学习方式正在不断受到冲击。在传统的机器学习课程教学过程中,学生习惯于被动地接受知识型教学,常常拘泥于理论知识的学习,实践技能的培养不足。大多数学生倾向于被动地接受知识,对于书本上或者课堂上的知识进行浅层地理解和记忆,缺少对相关理论的实践应用机会,对于其深度内涵以及具体应用场景理解不深。上面所述的浅层学习,即大多数学生主要学习的是理论知识,虽然有实验课程,需要学生应用算法,但教学实验的内容往往面对理想化的应用情景,使用的数据也是处理后比较干净的二手数据。这样的浅层学习方式导致学生为了考试分数仅仅进行浅层短时记忆,缺少对知识的实践,因而也不能灵活地应用所学知识,从而在遇到实际项目问题的时候往往难以应对。

1传统机器学习课程教学存在的问题

机器学习是统计学、计算机科学、算法理论等多个学科的交叉领域,不仅算法众多,而且在实际项目中也有很强的应用技巧。相对于传统教学以知识体系教学为主,将重点仅放在算法理论教学的方式,深度学习立足于真实情景的问题解决,使学生主动发现新问题,提出新观点、探寻新规律,发展学生的批判性思维、创新能力等,以促进机器学习技能的培养,实现有效的产教融合与领域问题驱动的深度融合,能够有效地帮助学生将学习内容应用到项目实践中。

在传统的机器学习课程教学的过程中,大多数教师常常拘泥于理论知识的学习,而忽视了实践技能的培养。目前,在线课程注重的也是知识型教学,即将课本内容分为各个知识点进行教学,实践动手练习的机会甚少。现阶段高校的机器学习课程普遍以介绍算法为主,大多数学生都是被动地接受知识,对于书本上的内容或者课堂上的知识进行简单理解,将相关概念和算法作为一个个知识点,对于其深层含义以及具体应用场景却了解不多。在传统教学中,学生仅需进行规范的实验就能取得预定的结果,在此过程中,学生很少进行独立思考,容易忽视实验步骤背后的问题和技巧,难以培养独立解决问题和增强创新素养的能力。

目前,国内机器学习课程教学的问题根源是脱离实际,对技能培养不足。针对这种问题,深度学习教学方法提供了一种解决方案,在初步理解基本算法的基础上,批判性地学习其应用,强调把已掌握的知识迁移到新的情境中去,解决实际问题,以发展学生的批判性思维、提高学生的创新能力、培养学生的合作精神和应用技能[2]。深度学习的重要特征之一就是解决真实情境的问题,不能孤零零地学机器学习知识,要与一些实际问题绑在一块。在真实复杂的情境中,通过自主与合作学习,实践所学的算法。学生需要从深层意义上了解机器学习相关知识,做到真正理解算法理论,而不是简单复现应用[3]。

根据深度学习方法的要求,掌握机器学习的最好方法就是做中学,使用实际数据解决真实问题。通过实际项目实践,不仅可以检验理论知识的掌握情况,而且可以加深理论知识的理解,弥补学习中的缺漏,尤其是体会数据分析过程中书本上难得看到的技能和技巧,并在应用中举一反三。如此反复,不断提高机器学习的应用能力。

2深度学习驱动机器学习技能的培养

美国国家训练实验室研究证实,不同的学习方式,学习者的平均效率是完全不同的,基于简单的听与看等被动学习方式只能吸收40%的知识,而剩下的60%的知识都要通过应用才能掌握。深度学习能促进机器学习技能的培养,领域问题驱动的深度学习使学生能够有效地将学习内容应用到项目实践。

在面对企业实际项目的时候,学生需要主动探索数据的质量,发现数据不平衡、数据缺失、噪音严重、数据不一致、数据量过大等问题。由于实际项目中各种各样的问题都会影响最后的模型质量,在项目解决的过程中会出现各种各样的瓶颈,这些都需要学生探索、总结经验,在原有的思路上不断优化,从而真正地解决问题。

为快速把握企业的真正痛点,学生需要对相关领域有一定程度的认知。针对现阶段人才需求目标,理论教学应注重机器学习过程的每一环节,使学生熟悉从数据获取、数据预处理、模型评估与选择到模型优化与结果分析每个步骤的常见问题以及解决技巧,需要学生总结经验,自主发现在教学过程中被忽略的难点,在现有思路上进行优化,从而解决算法缺陷[4]。

MIT于年8月启动了工程教育改革计划,称为“新工程教育转型”,倡导以项目为中心,使学生选择一个明确的跨院系课程和项目的“学科串”,组成一个围绕共同项目的团队。通过项目的锻炼,不仅能够使学生获取必要的专业知识,同时也能够培养其应用知识的能力,促进学生从团队技能到人际关系技能再到领导能力提升。

2.1主动探索促进学生对知识的理解

寻找所需要的知识以及综合使用这些知识进行创新的能力是深度学习的出发点。深度学习是基于理解的,学生以批判性的思维学习新的知识理论,将所学知识融入原有的认知结构中,并将所有知识进行联系应用。从数据获取、数据预处理、模型选择、模型评估、模型优化、结果分析等每一个步骤,主动探索,发现与解决实际问题,形成完整的机器学习思路。

2.2领域问题驱动的深度学习机器学习

的概念范围非常广泛,所应用的场景范围也纷繁复杂,例如目标分类、人脸识别、情感分析、自然语言处理、异常检测等。对于不同的应用场景,所对应的计算机相关技能的侧重点也不同。机器学习是一门实践性较强的课程,在日常教学中,教师在介绍支持向量机、决策树、逻辑回归、线性回归等机器学习算法的时候,可以结合其具体的应用领域进行分析。例如,通过引入笔者与英特尔合作的车辆识别的项目,可以详细介绍目标识别的大致过程,从输入图像的特征选择与提取,到正负样本的采样、分类器的训练与模型优化。这些内容基本上覆盖了目标识别的大部分内容,使学生在领域问题驱动的情况下对算法进行进一步分析与应用,突出各个阶段出现的问题以及解决方法,开拓思路。

2.3有效的企业合作项目驱动

深度学习不仅要重视理论方面的知识学习,还要注重实际项目经验的积累,能够促进学生对知识技能的理解,将知识融会贯通,并迁移应用到不同的场景问题中。面向企业真实生产环境,实行有效的领域问题项目驱动,有助于培养一批工程实践能力强的高水平学生。在坚实的理论基础上引导实践,在实践中加深对理论的理解[5]。

目前,高校普遍强调与企业的合作,引入企业真实的问题,通过实训培养学生的技能。例如清华大学的数据分析实践课,通过引入中国中铁、美团点评、拜尔等国内外几十家企业,涉及工业大数据、金融大数据、交通大数据等20个主要应用领域的项实际项目。在培养过程中以企业实际项目需求为驱动,锻炼学生与真实用户之间的交流能力、需求获取能力、团队合作能力,促进学生对理论算法的理解,实现学生应用能力的提高。具体的方式是把学生分成几个不同的小组,每个小组根据自己的兴趣选择相应的研究领域,然后学生在企业导师和学校导师的共同带领下,利用学过的机器学习相关知识解决问题,在实践中锻炼技能,把理论知识变成经验知识,弥补学习中的缺漏。尤其是体会数据分析过程中书本上难以了解的技能和技巧,并在应用中举一反三。如此反复,不断提高机器学习的应用能力,体会真正解决实际项目问题的思路。

3深度学习应用的关键问题

布卢姆将认知领域的学习目标分为知道、领会、应用、分析、综合、评价6个层次,其中浅层学习仅停留在知道和领会这2个层次,主要是对知识作为孤立、不相关的事实来接受和记忆,这种浅层学习可能会导致学生刚结课就把所有的知识抛掷脑后,无法对于知识和信息真正理解并长期保持。深度学习则是基于理解的学习,对应应用、分析、综合、评价这4个认知层次。强调学生对知识的整合理解,构建出完整的知识体系,能够将所学知识综合应用于解决实际问题,促进对于知识的理解和应用。

这里结合一个实际项目案例对深度学习应用的关键问题进行阐述。这个案例是某图书馆数字资源分类标引问题。根据数字资源的主要内容,参照《中图分类法》的分类规则,对其进行分类标引,使数字资源像纸质文献一样能够被快速根据类别进行检索。

3.1批判理解

深度学习重视对知识的批判理解,即在理解的基础上进行批判性的学习,学习者在看待问题的时候需要始终保持一种批判、怀疑的态度,对学习的知识进行深入思考,从而对知识概念有更深层次的理解。针对图书的自动标引问题,需要思考每种分类算法(例如朴素贝叶斯、支持向量机、TextCNN、BERT等)分别对应什么应用场景,哪一种算法对文本分类的效果更好,这些算法在实际应用中存在什么问题等,而不是简单地根据书本知识选择算法。

3.2信息整合

深度学习强调信息整合。这里的信息整合,不仅是新旧知识进行整合从而加深对新知识的理解,而且是将多学科的知识与多渠道的信息进行整合,在脑海中形成一个完整的相关知识框架,对知识进行长期保持从而灵活应用于不同的实际问题中。

针对图书的自动标引问题。首先,对数字资源的特点进行总结,数字资源的文献标题、期刊或会议名称、作者、单位、时间、文献摘要和关键词组成了全部数字资源的索引数据库部分,其中多数字段空值比例较高。然后,应用统计学的知识对数据进行初步探索,从中选择部分字段作为机器标引的输入特征,经过筛选,选择标题、出版社、关键词、摘要作为后续分类标引的依据。最后,对获取的数据综合应用多种方法进行预处理。例如,缺失词补全、去除停用词、提取关键词等。应用初步处理的数据,使用朴素贝叶斯分类器、TextCNN和BERT等多种算法进行分类比较。

3.3迁移应用

深度学习促进迁移应用。所谓的迁移应用,就是举一反三,学生对所学知识以及适用场景有深入的理解,正确把握关键要素,从而能够将所学知识在相似的场景中进行应用。

针对图书标引准确率不高的问题,笔者参考以前的类似问题处理经验,进一步提出了增量训练的想法。增量训练一般适用于训练数据过多的情况,每次都用全量训练,数据过多、时间过长,此时就可以使用增量训练,用新增的数据微调校正模型。借用增量训练的方法,在初次训练结束后,将训练数据的特征向量在训练好的贝叶斯分类器上进行预测,若预测结果与实际结果不一致,则将该条数据加入到新的训练集中。将所有训练集中预测失败的数据作为新的训练数据进行增量训练,以上过程重复多次。每次迭代都根据原训练数据获取不同的新的训练数据,若某条数据所属分类出现次数较少,则将该条数据随机删去部分词得到的新数据加入新的训练数据中,若某条数据所属分类出现次数较多,则可将该条数据随机删去部分词从而得到的新数据,将其加入到新的训练数据中,也可将其直接删除。通过数据增强训练,不仅可以增加训练的数据,而且可以对分错的样本进行再次学习。在此过程中,学生能够对于数据增强的应用有更深的理解,并由此深化,提高对于机器学习的应用能力。

3.4构建反思

深度学习注重构建反思。浅层学习将信息看作是一个个孤立的知识点进行记忆,学生只是简单机械地记忆背诵所学内容,不能对其进行深入理解、灵活应用。深度学习着眼于对知识的主动探索、深层理解,在众多信息中获取有用的内容,转换为自己的知识,并将新知识与已学知识进行关联,构建成一个完整的知识框架,并经常对知识架构进行反思,从而加深理解,达到融会贯通的境界。

在进行增量训练以后,训练集上数据样本的准确率在每轮增量训练时均在上升,验证集上的准确率在前几轮增量训练时同步上升,而在后面的迭代时反而会下降。笔者便考虑是否在迁移应用增量训练方法的时候出现了问题。因为,增量学习始终局限于一个样本,容易出现过拟合的情况,因此尝试将数据增强方法用于增量学习的每次迭代中,每次迭代都根据原训练数据获取不同的新的训练数据。

3.5解决问题

深度学习注重解决实际问题。判断学习效果的重要指标——是否解决了实际问题。深度学习要求学生能够灵活应用所学知识,解决复杂的现实问题。学生面对需要解决问题的复杂程度,也是学习深度的体现与要求。

笔者对上述图书标引算法进行优化,将卡方检验与前面提到的数据增强方法相结合,每次迭代时使用数据增强方法,并利用原训练集构建新的不同的训练集,之后使用卡方检验方法提取与分类关系较大的部分特征,并将对应加入词表中,之后在验证集上进行预测。结果发现,通过这种数据增强与增量训练的学习方式,使贝叶斯分类和BERT算法的准确率提升至82%左右(针对3级目录)。

通过这个案例,笔者基于深度学习的思想,实现从最简单的理论入手,一步步探索,发现问题,立足于真实情境的问题解决,通过自主与合作学习,迁移所学知识,解决实际问题。

4结语

与传统知识型教学相比,深度学习要求学生能够灵活应用所学知识,解决复杂的现实问题,学生所面对的需要解决的问题的复杂程度也是学习深度的体现与要求。通过基于深度学习的机器学习课程,可以与知识型教学相辅相成,使学习的知识转化为解决实际问题的技能,并在相似或更广的场景中进行应用,进一步提高实践和创新的能力,这样才能培养出真正实用型的人才。

参考文献:

[1]王珏.杜威的教育思想与深度学习[J].软件导刊,(9):6-8.

[2]LairdT,ShoupR,KuhG.MeasuringdeepapproachestolearningusingtheNationalSurveyofStudentEngagement[EB/OL].(-05-14)[-01-19].


转载请注明:http://www.aierlanlan.com/rzfs/467.html