learn.lianglianglee.com/专栏/左耳听风/014 推荐阅读：机器学习101.md.html

<!DOCTYPE html>

<!-- saved from url=(0046)https://kaiiiz.github.io/hexo-theme-book-demo/ -->

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

    <head>

        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

        <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">

        <link rel="icon" href="/static/favicon.png">

        <title>014  推荐阅读：机器学习101.md.html</title>

        <!-- Spectre.css framework -->

        <link rel="stylesheet" href="/static/index.css">

        <!-- theme css & js -->

        <meta name="generator" content="Hexo 4.2.0">

    </head>
<body>
<div class="book-container">

    <div class="book-sidebar">

        <div class="book-brand">

            <a href="/">

                <img src="/static/favicon.png">

                <span>技术文章摘抄</span>

            </a>

        </div>

        <div class="book-menu uncollapsible">

            <ul class="uncollapsible">

                <li><a href="/" class="current-tab">首页</a></li>

            </ul>
            <ul class="uncollapsible">

                <li><a href="../">上一级</a></li>

            </ul>
            <ul class="uncollapsible">

                <li>


                    <a href="/专栏/左耳听风/000 开篇词  洞悉技术的本质，享受科技的乐趣.md.html">000 开篇词  洞悉技术的本质，享受科技的乐趣.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/001  程序员如何用技术变现（上）.md.html">001  程序员如何用技术变现（上）.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/002  程序员如何用技术变现（下）.md.html">002  程序员如何用技术变现（下）.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/003  Equifax信息泄露始末.md.html">003  Equifax信息泄露始末.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/004  从Equifax信息泄露看数据安全.md.html">004  从Equifax信息泄露看数据安全.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/005  何为技术领导力.md.html">005  何为技术领导力.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/006  如何拥有技术领导力.md.html">006  如何拥有技术领导力.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/007  推荐阅读：每个程序员都该知道的事.md.html">007  推荐阅读：每个程序员都该知道的事.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/008  Go语言，Docker和新技术.md.html">008  Go语言，Docker和新技术.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/009  答疑解惑：渴望、热情和选择.md.html">009  答疑解惑：渴望、热情和选择.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/010  如何成为一个大家愿意追随的Leader？.md.html">010  如何成为一个大家愿意追随的Leader？.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/011  程序中的错误处理：错误返回码和异常捕捉.md.html">011  程序中的错误处理：错误返回码和异常捕捉.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/012  程序中的错误处理：异步编程和最佳实践.md.html">012  程序中的错误处理：异步编程和最佳实践.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/013  魔数 0x5f3759df.md.html">013  魔数 0x5f3759df.md.html</a>
                </li>

                <li>
                    <a class="current-tab" href="/专栏/左耳听风/014  推荐阅读：机器学习101.md.html">014  推荐阅读：机器学习101.md.html</a>


                </li>

                <li>


                    <a href="/专栏/左耳听风/015  时间管理：同扭曲时间的事儿抗争.md.html">015  时间管理：同扭曲时间的事儿抗争.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/016  时间管理：投资赚取时间.md.html">016  时间管理：投资赚取时间.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/017  故障处理最佳实践：应对故障.md.html">017  故障处理最佳实践：应对故障.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/018  故障处理最佳实践：故障改进.md.html">018  故障处理最佳实践：故障改进.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/019  答疑解惑：我们应该能够识别的表象和本质.md.html">019  答疑解惑：我们应该能够识别的表象和本质.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/020  分布式系统架构的冰与火.md.html">020  分布式系统架构的冰与火.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/021  从亚马逊的实践，谈分布式系统的难点.md.html">021  从亚马逊的实践，谈分布式系统的难点.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/022  分布式系统的技术栈.md.html">022  分布式系统的技术栈.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/023  分布式系统关键技术：全栈监控.md.html">023  分布式系统关键技术：全栈监控.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/024  分布式系统关键技术：服务调度.md.html">024  分布式系统关键技术：服务调度.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/025  分布式系统关键技术：流量与数据调度.md.html">025  分布式系统关键技术：流量与数据调度.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/026  洞悉PaaS平台的本质.md.html">026  洞悉PaaS平台的本质.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/027  推荐阅读：分布式系统架构经典资料.md.html">027  推荐阅读：分布式系统架构经典资料.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/028  编程范式游记（1）- 起源.md.html">028  编程范式游记（1）- 起源.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/029  编程范式游记（2）- 泛型编程.md.html">029  编程范式游记（2）- 泛型编程.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/030  编程范式游记（3） - 类型系统和泛型的本质.md.html">030  编程范式游记（3） - 类型系统和泛型的本质.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/031  Git协同工作流，你该怎样选.md.html">031  Git协同工作流，你该怎样选.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/032  推荐阅读：分布式数据调度相关论文.md.html">032  推荐阅读：分布式数据调度相关论文.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/033  编程范式游记（4）- 函数式编程.md.html">033  编程范式游记（4）- 函数式编程.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/034  编程范式游记（5）- 修饰器模式.md.html">034  编程范式游记（5）- 修饰器模式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/035  编程范式游记（6）- 面向对象编程.md.html">035  编程范式游记（6）- 面向对象编程.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/036  编程范式游记（7）- 基于原型的编程范式.md.html">036  编程范式游记（7）- 基于原型的编程范式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/037  编程范式游记（8）- Go 语言的委托模式.md.html">037  编程范式游记（8）- Go 语言的委托模式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/038  编程范式游记（9）- 编程的本质.md.html">038  编程范式游记（9）- 编程的本质.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/039  编程范式游记（10）- 逻辑编程范式.md.html">039  编程范式游记（10）- 逻辑编程范式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/040  编程范式游记（11）- 程序世界里的编程范式.md.html">040  编程范式游记（11）- 程序世界里的编程范式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/041  弹力设计篇之“认识故障和弹力设计”.md.html">041  弹力设计篇之“认识故障和弹力设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/042  弹力设计篇之“隔离设计”.md.html">042  弹力设计篇之“隔离设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/043  弹力设计篇之“异步通讯设计”.md.html">043  弹力设计篇之“异步通讯设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/044  弹力设计篇之“幂等性设计”.md.html">044  弹力设计篇之“幂等性设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/045  弹力设计篇之“服务的状态”.md.html">045  弹力设计篇之“服务的状态”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/046  弹力设计篇之“补偿事务”.md.html">046  弹力设计篇之“补偿事务”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/047  弹力设计篇之“重试设计”.md.html">047  弹力设计篇之“重试设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/048  弹力设计篇之“熔断设计”.md.html">048  弹力设计篇之“熔断设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/049  弹力设计篇之“限流设计”.md.html">049  弹力设计篇之“限流设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/050  弹力设计篇之“降级设计”.md.html">050  弹力设计篇之“降级设计”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/051  弹力设计篇之“弹力设计总结”.md.html">051  弹力设计篇之“弹力设计总结”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/052  区块链技术 - 区块链的革命性及技术概要.md.html">052  区块链技术 - 区块链的革命性及技术概要.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/053  区块链技术 - 区块链技术细节 - 哈希算法.md.html">053  区块链技术 - 区块链技术细节 - 哈希算法.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/054  区块链技术 - 区块链技术细节 - 加密和挖矿.md.html">054  区块链技术 - 区块链技术细节 - 加密和挖矿.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/055  区块链技术 - 去中心化的共识机制.md.html">055  区块链技术 - 去中心化的共识机制.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/056  区块链技术 - 智能合约.md.html">056  区块链技术 - 智能合约.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/057  区块链技术 - 传统金融和虚拟货币.md.html">057  区块链技术 - 传统金融和虚拟货币.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/058  管理设计篇之分布式锁.md.html">058  管理设计篇之分布式锁.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/059  管理设计篇之配置中心.md.html">059  管理设计篇之配置中心.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/060  管理设计篇之边车模式.md.html">060  管理设计篇之边车模式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/061  管理设计篇之服务网格.md.html">061  管理设计篇之服务网格.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/062  管理设计篇之网关模式.md.html">062  管理设计篇之网关模式.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/063  管理设计篇之部署升级策略.md.html">063  管理设计篇之部署升级策略.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/064  性能设计篇之缓存.md.html">064  性能设计篇之缓存.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/065  性能设计篇之异步处理.md.html">065  性能设计篇之异步处理.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/066  性能设计篇之数据库扩展.md.html">066  性能设计篇之数据库扩展.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/067  性能设计篇之秒杀.md.html">067  性能设计篇之秒杀.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/068  性能设计篇之边缘计算.md.html">068  性能设计篇之边缘计算.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/069  程序员练级攻略（2018）：开篇词.md.html">069  程序员练级攻略（2018）：开篇词.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/070  程序员练级攻略（2018）：零基础启蒙.md.html">070  程序员练级攻略（2018）：零基础启蒙.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/071  程序员练级攻略（2018）：正式入门.md.html">071  程序员练级攻略（2018）：正式入门.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/072  程序员练级攻略（2018）：程序员修养.md.html">072  程序员练级攻略（2018）：程序员修养.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/073  程序员练级攻略（2018）：编程语言.md.html">073  程序员练级攻略（2018）：编程语言.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/074  程序员练级攻略：理论学科.md.html">074  程序员练级攻略：理论学科.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/075  程序员练级攻略（2018）：系统知识.md.html">075  程序员练级攻略（2018）：系统知识.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/076  程序员练级攻略（2018）：软件设计.md.html">076  程序员练级攻略（2018）：软件设计.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/077  程序员练级攻略（2018）：Linux系统、内存和网络.md.html">077  程序员练级攻略（2018）：Linux系统、内存和网络.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/078  程序员练级攻略（2018）：异步IO模型和Lock-Free编程.md.html">078  程序员练级攻略（2018）：异步IO模型和Lock-Free编程.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/079  程序员练级攻略（2018）：Java底层知识.md.html">079  程序员练级攻略（2018）：Java底层知识.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/080  程序员练级攻略（2018）：数据库.md.html">080  程序员练级攻略（2018）：数据库.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/081  程序员练级攻略（2018）：分布式架构入门.md.html">081  程序员练级攻略（2018）：分布式架构入门.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/082  程序员练级攻略（2018）：分布式架构经典图书和论文.md.html">082  程序员练级攻略（2018）：分布式架构经典图书和论文.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/083  程序员练级攻略（2018）：分布式架构工程设计.md.html">083  程序员练级攻略（2018）：分布式架构工程设计.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/084  程序员练级攻略（2018）：微服务.md.html">084  程序员练级攻略（2018）：微服务.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/085  程序员练级攻略（2018）：容器化和自动化运维.md.html">085  程序员练级攻略（2018）：容器化和自动化运维.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/086  程序员练级攻略（2018）：机器学习和人工智能.md.html">086  程序员练级攻略（2018）：机器学习和人工智能.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/087  程序员练级攻略（2018）：前端基础和底层原理.md.html">087  程序员练级攻略（2018）：前端基础和底层原理.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/088  程序员练级攻略（2018）：前端性能优化和框架.md.html">088  程序员练级攻略（2018）：前端性能优化和框架.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/089  程序员练级攻略（2018）：UIUX设计.md.html">089  程序员练级攻略（2018）：UIUX设计.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/090  程序员练级攻略（2018）：技术资源集散地.md.html">090  程序员练级攻略（2018）：技术资源集散地.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/091  程序员面试攻略：面试前的准备.md.html">091  程序员面试攻略：面试前的准备.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/092  程序员面试攻略：面试中的技巧.md.html">092  程序员面试攻略：面试中的技巧.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/093  程序员面试攻略：面试风格.md.html">093  程序员面试攻略：面试风格.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/094  程序员面试攻略：实力才是王中王.md.html">094  程序员面试攻略：实力才是王中王.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/095  高效学习：端正学习态度.md.html">095  高效学习：端正学习态度.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/096  高效学习：源头、原理和知识地图.md.html">096  高效学习：源头、原理和知识地图.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/097  高效学习：深度，归纳和坚持实践.md.html">097  高效学习：深度，归纳和坚持实践.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/098  高效学习：如何学习和阅读代码.md.html">098  高效学习：如何学习和阅读代码.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/099  高效学习：面对枯燥和量大的知识.md.html">099  高效学习：面对枯燥和量大的知识.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/100  高效沟通：Talk和Code同等重要.md.html">100  高效沟通：Talk和Code同等重要.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/101  高效沟通：沟通阻碍和应对方法.md.html">101  高效沟通：沟通阻碍和应对方法.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/102  高效沟通：沟通方式及技巧.md.html">102  高效沟通：沟通方式及技巧.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/103  高效沟通：沟通技术.md.html">103  高效沟通：沟通技术.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/104  高效沟通：好老板要善于提问.md.html">104  高效沟通：好老板要善于提问.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/105  高效沟通：好好说话的艺术.md.html">105  高效沟通：好好说话的艺术.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/106 加餐  谈谈我的“三观”.md.html">106 加餐  谈谈我的“三观”.md.html</a>
                </li>

                <li>


                    <a href="/专栏/左耳听风/107 结束语  业精于勤，行成于思.md.html">107 结束语  业精于勤，行成于思.md.html</a>
                </li>

            </ul>
        </div>

    </div>
    <div class="sidebar-toggle" onclick="sidebar_toggle()" onmouseover="add_inner()" onmouseleave="remove_inner()">

        <div class="sidebar-toggle-inner"></div>

    </div>
    <script>

        function add_inner() {

            let inner = document.querySelector('.sidebar-toggle-inner')

            inner.classList.add('show')

        }
        function remove_inner() {

            let inner = document.querySelector('.sidebar-toggle-inner')

            inner.classList.remove('show')

        }
        function sidebar_toggle() {

            let sidebar_toggle = document.querySelector('.sidebar-toggle')

            let sidebar = document.querySelector('.book-sidebar')

            let content = document.querySelector('.off-canvas-content')

            if (sidebar_toggle.classList.contains('extend')) { // show

                sidebar_toggle.classList.remove('extend')

                sidebar.classList.remove('hide')

                content.classList.remove('extend')

            } else { // hide

                sidebar_toggle.classList.add('extend')

                sidebar.classList.add('hide')

                content.classList.add('extend')

            }

        }


function open_sidebar() {

    let sidebar = document.querySelector('.book-sidebar')

    let overlay = document.querySelector('.off-canvas-overlay')

    sidebar.classList.add('show')

    overlay.classList.add('show')

}

function hide_canvas() {

    let sidebar = document.querySelector('.book-sidebar')

    let overlay = document.querySelector('.off-canvas-overlay')

    sidebar.classList.remove('show')

    overlay.classList.remove('show')

}
    </script>
    <div class="off-canvas-content">

        <div class="columns">

            <div class="column col-12 col-lg-12">

                <div class="book-navbar">

                    <!-- For Responsive Layout -->

                    <header class="navbar">

                        <section class="navbar-section">

                            <a onclick="open_sidebar()">

                                <i class="icon icon-menu"></i>

                            </a>

                        </section>

                    </header>

                </div>

                <div class="book-content" style="max-width: 960px; margin: 0 auto;

    overflow-x: auto;

    overflow-y: hidden;">

                    <div class="book-post">

                        <p id="tip" align="center"></p>

                        <div><h1>014  推荐阅读：机器学习101</h1>

<p>自从 2012 年在亚马逊第一次接触机器学习（一个关于预测商品需求的 Demand Forecasting 的项目）以来，我一直在用一些零星的时间学习机器学习相关的东西。所以，说实话，在机器学习方面，我也只是一个新手，也在入门阶段。在前面文章的评论中，有网友希望我写一篇有关大数据和机器学习的文章，老实说，有点为难我了。所以，我只能结合自己的学习过程写一篇入门级的文章，希望能看到高手的指教和指正。</p>

<p>首先，简单介绍一下机器学习的一些原理。机器学习主要来说有两种方法，监督式学习（Supervised Learning）和非监督式学习（Unsupervised Learning）。</p>

<h1>监督式学习</h1>

<p>所谓监督式学习，也就是说，我们需要提供一组学习样本，包括相关的特征数据以及相应的标签。程序可以通过这组样本来学习相关的规律或是模式，然后通过得到的规律或模式来判断没有被打过标签的数据是什么样的数据。</p>

<p>举个例子，假设需要识别一些手写的数字，那么我们就需要找到尽可能多的手写体数字的图像样本，然后人工或是通过某种算法来明确地标注什么是这些手写体的图片，谁是 1，谁是 2，谁是 3……这组数据就叫样本数据，又叫训练数据（training data）。通过机器学习的算法，找到每个数字在不同手写体下的特征，进而找到规律和模式。然后通过得到的规律或模式来识别那些没有被打过标签的手写数据，以此完成识别手写体数字的目标。</p>

<p>一种比较常见的监督式学习，就是从历史数据中获得数据的走向趋势，来预测未来的走向。比如，我们使用历史上的股票走势数据来预测接下来的股价涨跌，或者通过历史上的一些垃圾邮件的样本来识别新的垃圾邮件。</p>

<p>在监督式学习下，需要有样本数据或是历史数据来进行学习，这种方式会有一些问题。</p>

<ul>

<li>

<p>如果一个事物没有历史数据，那么就不好做了。变通的解决方式是通过一个和其类似的事物的历史数据。我以前做过的需求预测，就属于这种情况。对于新上市的商品来说，完全没有历史数据，比如，iPhone X，那么就需要从其类似的商品上找历史数据，如 iPhone 7 或是别的智能手机。</p>

</li>

<li>

<p>历史数据中可能会有一些是噪音数据，需要把这些噪音数据给过滤掉。一般这样的过滤方式要通过人工判断和标注。举两个例子。某名人在其微博或是演讲上推荐了一本书，于是这本书的销量就上升了。这段时间的历史数据不是规律性的，所以就不能成为样本数据，需要去掉。同样，如果某名人（如 Michael Jackson）去世导致和其有关的商品销售量很好，那么，这个事件所产生的数据则不属于噪音数据。因为每年这个名人的忌日的时候出现销量上升的可能性非常高，所以，需要标注一下，这是有规律的样本，可以放入样本进行学习。</p>

</li>

</ul>

<h1>非监督式学习</h1>

<p>对于非监督式学习，也就是说，数据是没有被标注过的，所以相关的机器学习算法需要找到这些数据中的共性。因为大量的数据是没有被标识过的，所以这种学习方式可以让大量的未标识的数据能够更有价值。而且，非监督式的学习，可以为我们找到人类很难发现的数据里的规律或模型。所以，也有人将这种学习称为“特征点学习”。其可以让我们自动地为数据进行分类，并找到分类的模型。</p>

<p>一般来说，非监督式学习会应用在一些交易型的数据中。比如，有一堆堆的用户购买数据，但是对于人类来说，我们很难找到用户属性和购买商品类型之间的关系，而非监督式学习算法可以帮助我们找到之间的关系。比如，一个在某一个年龄段的女性购买了某种肥皂，有可能说明这个女生在怀孕期，或是某人购买儿童用品，有可能说明这个人的关系链中有孩子，等等。于是这些信息会被用作一些所谓的精准市场营销活动，从而可以增加商品销量。</p>

<p>我们这么来说吧，监督式学习是在被告诉过正确的答案之后的学习，而非监督式学习是在没有被告诉正确答案时的学习，所以说，非监督式的学习是在大量的非常乱的数据中找寻一些潜在的关系，这个成本也比较高。这种非监督式学习也会经常被用来检测一些不正常的事情发生，比如信用卡的诈骗或是盗刷。也被用在推荐系统，比如买了这个商品的人又买了别的什么东西，或是如果某个人喜欢某篇文章、某个音乐、某个餐馆，那么可能他会喜欢某款车、某个明星，或某个地方。</p>

<p>在监督式的学习的算法下，我们可以用一组“狗”的照片来确定某个照片中的物体是不是狗。而在非监督式的学习算法下，我们可以通过一个照片来找到与其相似的事物的照片。这两种学习方式都有各自适用的场景。</p>

<h1>如何找到数据的规律和关联</h1>

<p>机器学习基本就是在已知的样本数据中寻找数据的规律，在未知的数据中找数据的关系。所以，这就需要一定的数学知识了，但对于入门的人来说，学好高数、线性代数、概率论、数据建模等大学本科的数学知识应该就够用了。以前上大学总觉得这些知识没什么用处，原来只不过是自己太 low，还没有从事会运用到这些知识的工作。</p>

<p>总之，机器学习中的基本方法论是这样的。</p>

<ol>

<li>要找到数据中的规律，你需要找到数据中的特征点。</li>

<li>把特征点抽象成数学中的向量，也就是所谓的坐标轴。一个复杂的学习可能会有成十上百的坐标轴。</li>

<li>抽象成数学向量后，就可以通过某种数学公式来表达这类数据（就像 y=ax+b 是直线的公式），这就是数据建模。</li>

</ol>

<p>这个数据公式就是我们找出来的规律。通过这个规律，我们才可能关联类似的数据。</p>

<p>当然，也有更为简单粗暴的玩法。</p>

<ol>

<li>把数据中的特征点抽象成数学中的向量。</li>

<li>每个向量一个权重。</li>

<li>写个算法来找各个向量的权重是什么。</li>

</ol>

<p>有人把这个事叫“数据搅拌机”。据说，这种简单粗暴的方式超过了那些所谓的明确的数学公式或规则。这种“土办法”有时候会比高大上的数学更有效，哈哈。</p>

<p>关于机器学习这个事，你可以读一读 <a href="https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471">Machine Learning is Fun!</a> 这篇文章，以及它的<a href="https://zhuanlan.zhihu.com/p/24339995">中文翻译版</a>。</p>

<h1>相关算法</h1>

<p>对于监督式学习，有如下经典算法。</p>

<ol>

<li>决策树（Decision Tree）。比如自动化放贷、风控。</li>

<li>朴素贝叶斯分类（Naive Bayesian classification）。可以用于判断垃圾邮件，对新闻的类别进行分类，比如科技、政治、运动，判断文本表达的感情是积极的还是消极的、人脸识别等。</li>

<li>最小二乘法（Ordinary Least Squares Regression）。算是一种线性回归。</li>

<li>逻辑回归（Logisitic Regression）。一种强大的统计学方法，可以用一个或多个变量来表示一个二项式结果。可以用于信用评分、计算营销活动的成功率、预测某个产品的收入等。</li>

<li>支持向量机（Support Vector Machine，SVM）。可以用于基于图像的性别检测，图像分类等。</li>

<li>集成方法（Ensemble methods）。通过构建一组分类器，然后根据它们的预测结果进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均，但是最近的算法包括纠错输出编码、Bagging 和 Boosting。</li>

</ol>

<p>对于非监督式的学习，有如下经典算法。</p>

<ol>

<li>聚类算法（Clustering Algorithms）。聚类算法有很多，目标是给数据分类。</li>

<li>主成分分析（Principal Component Analysis，PCA）。PCA 的一些应用包括压缩、简化数据，便于学习和可视化等。</li>

<li>奇异值分解（Singular Value Decomposition，SVD）。实际上，PCA 是 SVD 的一个简单应用。在计算机视觉中，第一个人脸识别算法使用 PCA 和 SVD 来将面部表示为“特征面”的线性组合，进行降维，然后通过简单的方法将面部匹配到身份。虽然现代方法更复杂，但很多方面仍然依赖于类似的技术。</li>

<li>独立成分分析（Independent Component Analysis，ICA）。ICA 是一种统计技术，主要用于揭示随机变量、测量值或信号集中的隐藏因素。</li>

</ol>

<p>上面的这些相关算法来源自博文《<a href="https://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html">The 10 Algorithms Machine Learning Engineers Need to Know</a>》。</p>

<h1>相关推荐</h1>

<p>学习机器学习有几个课是必需要上的。</p>

<ul>

<li>吴恩达教授（Andrew Ng）在 <a href="https://www.coursera.org/learn/machine-learning">Coursera 上的机器学习课程</a>非常棒。我强烈建议从此入手。对于任何拥有计算机科学学位的人，或是还能记住一点点数学的人来说，都非常容易入门。这个斯坦福大学的课程后面是有作业的，请尽量拿满分。另外，<a href="http://open.163.com/special/opencourse/machinelearning.html">网易公开课上也有该课程</a>。</li>

<li>卡内基梅隆大学计算机科学学院汤姆·米切尔（Tom Mitchell）教授的机器学习课程 <a href="https://www.cs.cmu.edu/~tom/10701_sp11/lectures.shtml">英文原版视频和课件 PDF</a> 。汤姆·米切尔是全球 AI 界顶尖大牛，在机器学习、人工智能、认知神经科学等领域卓有建树，撰写了机器学习方面最早的教科书之一<a href="https://item.jd.com/10131321.html">《机器学习》</a>，被誉为入门必读图书。</li>

<li>加利福尼亚理工学院亚瑟·阿布·穆斯塔法（Yaser Abu-Mostafa）教授的 <a href="http://work.caltech.edu/lectures.html">Learning from Data 系列课程</a> 。本课程涵盖机器学习的基本理论和算法，并将理论与实践相结合，更具实践指导意义，适合进阶。</li>

</ul>

<p>除了上述的那些课程外，下面这些资源也很不错。</p>

<ul>

<li>YouTube 上的 Google Developers 的 <a href="https://www.youtube.com/playlist?list=PLOU2XLYxmsIIuiBfYad6rFYQU_jL2ryal">Machine Learning Recipes with Josh Gordon</a> 。这 9 集视频，每集不到 10 分钟，从 Hello World 讲到如何使用 TensorFlow，非常值得一看。</li>

<li>还有 <a href="https://pythonprogramming.net/machine-learning-tutorial-python-introduction/">Practical Machine Learning Tutorial with Python Introduction</a> 上面一系列的用 Python 带着你玩 Machine Learning 的教程。</li>

<li>Medium 上的 <a href="https://medium.com/machine-learning-101">Machine Learning - 101</a> 讲述了好多我们上面提到过的经典算法。</li>

<li>还有，Medium 上的 <a href="https://medium.com/machine-learning-for-humans">Machine Learning for Humans</a>，不仅提供了入门指导，更介绍了各种优质的学习资源。</li>

<li><a href="https://machinelearningmastery.com/blog/">杰森·布朗利（Jason Brownlee）博士的博客</a> 也是非常值得一读，其中好多的 “How-To”，会让你有很多的收获。</li>

<li><a href="https://iamtrask.github.io/">i am trask</a> 也是一个很不错的博客。</li>

<li>关于 Deep Learning 中神经网络的学习，推荐 YouTube 介绍视频 <a href="https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi">Neural Networks</a>。</li>

<li>用 Python 做自然语言处理<a href="http://www.nltk.org/book/">Natural Language Processing with Python</a>。</li>

<li>以及 GitHub 上的 <a href="https://github.com/ujjwalkarn/Machine-Learning-Tutorials">Machine Learning 和 Deep Learning</a> 的相关教程列表。</li>

</ul>

<p>此外，还有一些值得翻阅的图书。</p>

<ul>

<li><a href="https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm">《机器学习》</a>，南京大学周志华教授著。本书是一本机器学习方面的入门级教科书，适合本科三年级以上的学生学习。为了照顾学习的进度，本书并不特别“厚”，让学生能在同时修多门课的情况下至多 2 学期时间内完成本书的学习。同时，这本书也非常方便其他对机器学习感兴趣的初学者快速学习入门知识。</li>

</ul>

<p>本书如同一张地图一般，让读者能“观其大略”，了解机器学习的各个种类、各个学派，其覆盖面与同类英文书籍相较不遑多让。为了帮助读者尽可能多地了解机器学习，作者已试图尽可能少地使用数学知识。对于仅需对机器学习做一般了解的读者，阅读本书时也可以略过数学细节仅做概观，否则建议对相关基础知识稍作复习以收全功。</p>

<ul>

<li><a href="http://ciml.info/">A Course In Machine Learning</a>，马里兰大学哈尔·道姆（Hal Daumé III）副教授著。 本书讲述了几种经典机器学习算法，包括决策树、感知器神经元、kNN 算法、K-means 聚类算法、各种线性模型（包括对梯度下降、支持向量机等的介绍）、概率建模、神经网络、非监督学习等很多主题，还讲了各种算法使用时的经验技巧，适合初学者学习。此外，本书官网提供了免费电子版。</li>

<li><a href="http://www.deeplearningbook.org/">Deep Learning</a>，麻省理工学院伊恩·古德费洛（Ian Goodfellow）、友华·本吉奥（Yoshua Benjio）和亚伦·考维尔（Aaron Courville）著。本书是深度学习专题的经典图书。它从历史的角度，将读者带进深度学习的世界。深度学习使用多层的（深度的）神经元网络，通过梯度下降算法来实现机器学习，对于监督式和非监督式学习都有大量应用。如果读者对该领域有兴趣，可以深入阅读本书。本书官网提供免费电子版，但不提供下载。实体书（英文原版或中文翻译版）可以在网上买到。</li>

<li><a href="http://www.freetechbooks.com/reinforcement-learning-an-introduction-second-edition-draft-t1282.html">Reinforcement Learning</a>，安德鲁·巴托（Andrew G.Barto）和理查德·萨顿（Richard S. Sutton）著。本书是强化学习（Reinforcement Learning）方面的入门书。它覆盖了马尔可夫决策过程（MDP）、Q-Learning、Sarsa、TD-Lamda 等方面。本书作者是强化学习方面的创始人之一。强化学习（结合深度学习）在围棋程序 AlphaGo 和自动驾驶等方面都有着重要的应用。</li>

<li><a href="https://www.amazon.com/Pattern-Recognition-Learning-Information-Statistics/dp/0387310738">Pattern Recognition and Machine Learning</a> ，微软剑桥研究院克里斯托夫·比肖普（Christoph M. Bishop）著。本书讲述模式识别的技术，包括机器学习在模式识别中的应用。模式识别在图像识别、自然语言处理、控制论等多个领域都有应用。日常生活中扫描仪的 OCR、平板或手机的手写输入等都属于该领域的研究。本书广受读者好评，是该领域一本不错的图书。</li>

</ul>

<p>好了，今天推荐的内容就这些。我目前也在学习中，希望能够跟你一起交流探讨，也期望能得到你的指教和帮助。</p>

</div>

                    </div>

                    <div>

                        <div style="float: left">

                            <a href="/专栏/左耳听风/013  魔数 0x5f3759df.md.html">上一页</a>

                        </div>

                        <div style="float: right">

                            <a href="/专栏/左耳听风/015  时间管理：同扭曲时间的事儿抗争.md.html">下一页</a>

                        </div>

                    </div>
                </div>

            </div>

        </div>

    </div>
    <a class="off-canvas-overlay" onclick="hide_canvas()"></a>

</div>

<script defer src="https://static.cloudflareinsights.com/beacon.min.js/v652eace1692a40cfa3763df669d7439c1639079717194" integrity="sha512-Gi7xpJR8tSkrpF7aordPZQlW2DLtzUlZcumS8dMQjwDHEnw9I7ZLyiOj/6tZStRBGtGgN6ceN6cMH8z7etPGlw==" data-cf-beacon='{"rayId":"709977e46b403cfa","version":"2021.12.0","r":1,"token":"1f5d475227ce4f0089a7cff1ab17c0f5","si":100}' crossorigin="anonymous"></script>

</body>

<!-- Global site tag (gtag.js) - Google Analytics -->

<script async src="https://www.googletagmanager.com/gtag/js?id=G-NPSEEVD756"></script>

<script>

    window.dataLayer = window.dataLayer || [];
    function gtag() {

        dataLayer.push(arguments);

    }
    gtag('js', new Date());

    gtag('config', 'G-NPSEEVD756');

    var path = window.location.pathname

    var cookie = getCookie("lastPath");

    console.log(path)

    if (path.replace("/", "") === "") {

        if (cookie.replace("/", "") !== "") {

            console.log(cookie)

            document.getElementById("tip").innerHTML = "<a href='" + cookie + "'>跳转到上次进度</a>"

        }

    } else {

        setCookie("lastPath", path)

    }
    function setCookie(cname, cvalue) {

        var d = new Date();

        d.setTime(d.getTime() + (180 * 24 * 60 * 60 * 1000));

        var expires = "expires=" + d.toGMTString();

        document.cookie = cname + "=" + cvalue + "; " + expires + ";path = /";

    }
    function getCookie(cname) {

        var name = cname + "=";

        var ca = document.cookie.split(';');

        for (var i = 0; i < ca.length; i++) {

            var c = ca[i].trim();

            if (c.indexOf(name) === 0) return c.substring(name.length, c.length);

        }

        return "";

    }
</script>
</html>