虚妄

机器学习:概念

    笔记     机器学习

  1. 1. 背景介绍
  2. 2. 基础概念
    1. 2.0.1. 示例(instance)或 样本(sample)
    2. 2.0.2. 数据集(data set)
    3. 2.0.3. 属性(attribute)或 特征(feature)
    4. 2.0.4. 属性值
    5. 2.0.5. 属性空间(attribute space)、样本空间(sample space)、输入空间
    6. 2.0.6. 学习(learning)或 训练(training)
    7. 2.0.7. 假设(hypothesis)
    8. 2.0.8. 学习器(learner)
    9. 2.0.9. 标记(label)与样例(example)
    10. 2.0.10. 分类(classification)、回归(regression)、聚类(clustering)
    11. 2.0.11. 监督学习(supervised learning)与无监督学习(unsupervised learning)
    12. 2.0.12. 归纳学习(inductive learning)

背景介绍

机器学习很火。火到什么程度?火到国家都出台政策,说要到XXXX年“赶英超美”。网络上也是充满了关于机器学习的言论,当然也包括一些末日论。作为一个技术人员,不应该只看这种表面性的、具有很大宣传性质的信息。本着一颗好奇心,也接触下机器学习。但是作为新闻性质的文章,它都是基于一些特定的假设之上。很难让初学者理出一个头绪。比如一上来就跟你谈深度学习,谈感知机,谈神经网络,那么没几下就会被绕晕。

所以想从基础性的概念入手,一步一步构建,而不是之谈及那些平常人听不懂的高大上的名词。

机器学习不是新概念,几十年前就有了,为什么最近几年会火?原因有两个:

  • 人类文明社会的数字化程度越来越高
  • 计算机的高速发展

数字化程度越来越高的意思是社会的各个行业都离不开计算机,都会产生大量的数据。这就是机器学习天生的训练数据(当然并不是所有的都是可用的)。而计算机的高速发展,带来的效果就是处理能力越来越强。这两者结合,以及一些算法上的创新,导致机器学习又迎来了人生的第三春。

基础概念

下面简单介绍一些机器学习方面用到的基本术语。

示例(instance)或 样本(sample)

每一条数据或者称为记录,都是关于一个事件或者对象(比如一个西瓜)的描述。这样的一个记录称之为一个“示例”(instance)或者“样本”(sample)。


数据集(data set)

记录的集合。


属性(attribute)或 特征(feature)

样本的特定方面的描述,称之为 属性,比如西瓜的颜色等。


属性值

属性上的取值称之为属性值,比如青绿。


属性空间(attribute space)、样本空间(sample space)、输入空间

样本上的所有属性张成的空间称之为属性空间。比如色泽”,“根蒂”,“敲声”作为描述西瓜的三个属性的三个坐标轴,则它们张成一个描述西瓜的 三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。这里属性的个数称之为样本的 维数


学习(learning)或 训练(training)

从数据中学得模型的过程称之为 学习训练。训练过程中使用的数据称之为 训练数据(training data),其中每一个样本称之为 训练样本(training sample)。训练样本组成的集合称之为 训练集(training set)


假设(hypothesis)

学得模型对应了关于数据的某种潜在的规律,这种规律称之为 假设,这种潜在规律的自身,称之为 真相(ground-truth)学习的过程就是为了找出或者逼近真相


学习器(learner)

学习算法在给定的数据和参数空间上的实例化称之为 学习器


标记(label)与样例(example)

在对数据进行“预测(prediction)”的时候,需要训练样本的“结果”信息。比如三个属性分别如何才是一个“好瓜”。这里的示例结果的信息,例如“好瓜”,称之为 标记(label)。拥有标记信息的示例,称之为 样例(example)。所有的标记的集合,称之为 标记空间(label space)


分类(classification)、回归(regression)、聚类(clustering)

如果预测的是离散值,则此类学习任务成为 分类;若预测的是连续值,则此类学习任务称之为 _回归。如果对训练数据分成若干组,每组称之为一个 簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分。如果对西瓜划分,可能区分为“浅色瓜”,“深色瓜”或者“本地瓜”,“外地瓜”等。在学习之前,这些分类都是不知道的,而且通常训练样本不具备标记信息。这样的学习任务称之为 聚类

涉及到两个类别的学习任务分类称之为 二分类 任务,其中一个类称之为 正类(positive class),另一个类称之为 反类(negative class)


监督学习(supervised learning)与无监督学习(unsupervised learning)

训练数据有标记信息的学习任务称之为 监督学习,包括 分类回归
训练数据没有标记信息的学习任务称之为 无监督学习,包括 聚类


归纳学习(inductive learning)

归纳(induction)指的是,从特殊到一般的“泛化(generalization)”过程,即从具体的事实归结出一般性规律。演绎(deduction)指的是,从一般到特殊的“特化(specialization)”过程,即从基础原理推演出具体状况。

“从样例中学习”显然是一个归纳的过程,因此也称为 归纳学习。习得模型适用于新样本的能力,称之为 泛化能力。归纳学习有 狭义广义 之分。狭义的归纳学习大体相当于从样例中学习;广义的归纳学习则要求从训练数据中学得 概念(concept),因此亦称为 概念学习

页阅读量:  ・  站访问量:  ・  站访客数: