网站首页 > 御风而归 第6页
  • 御风而归 2023-01-05

    程序猿的日常——JVM内存模型与垃圾回收

    Java开发有个很基础的问题,虽然我们平时接触的不多,但是了解它却成为Java开发的必备基础——这就是JVM。在C++中我们需要手动申请内存然后释放内存,否则就会出现对象已经不再使用内存却仍被占用的情况。在Java中JVM内...

  • 御风而归 2023-01-05

    程序猿的日常——Java基础之equals与hashCode

    equals和hashCode是我们日常开发最常使用的方法,但是因为一般都使用默认的规则,因此也很少会引起关注。不过了解他们的用途和设计的原则,还是会帮助我们更好的设计代码。equals是java很基础的一个问题,通常都会跟...

  • 御风而归 2023-01-05

    程序猿的日常——Java基础之clone、序列化、字符串、数组

    其实Java还有很多其他的基础知识,在日常工作技术撕逼中也是经常被讨论的问题。深克隆与浅克隆在Java中创建对象有两种方式:一种是new操作符,它创建了一个新的对象,并把对应的各个字段初始化成默认值;另一种是用clone方法...

  • 御风而归 2023-01-05

    程序猿的日常——Java基础之抽象类与接口、枚举、泛型

    再次回顾这些基础内容,发现自己理解的又多了一点。对于一些之前很模糊的概念,渐渐的清晰起来。抽象类与接口抽象类通常是描述一些对象的通用方法和属性,并且默认实现一些功能,它不能被实例化。接口仅仅是描述一种方法的规约,即只能通过某...

  • 御风而归 2023-01-05

    Mac说——关闭SIP

    今天在安装keras的时候总是提示numpy无法安装,百度了下,说是新版本的os系统加入了spi机制。什么是SIP:系统集成保护(System Integrity Protection,SIP),为了防止恶意篡改系统内核程序...

  • 御风而归 2023-01-05

    程序猿的日常——HashMap的相关知识

    背景知识哈希冲突哈希是指通过某种方法把数据转变成特定的数值,数值根据mod对应到不同的单元上。比如在Java中,字符串就是通过每个字符的编码来计算、数字是本身对应的值等等,不过就算是再好的哈希方法,也有可能出现两个不同的对象...

  • 御风而归 2023-01-05

    JDK并发包常用的知识图

    并发包需要注意的知识点集合类的体系结构...

  • 御风而归 2023-01-05

    程序猿的日常——Java中的集合列表

    列表对于日常开发来说实在是太常见了,以至于很多开发者习惯性的用到数组,就来一个ArrayList,根本不做过多的思考。其实列表里面还是有很多玩法的,有时候玩不好,搞出来bug还得定位半天。所以这里就再啰嗦一下,整理下相关的内...

  • 御风而归 2023-01-05

    ThreadLocal从源码到应用

    最早接触到ThreadLocal是在阅读dianping的Cat-client,当时对它不是很理解,就搜索了一下,大概了解是一种解决线程安全问题的机制。现在再次阅读《实战java高并发程序设计》时,又重新对它有了更深一步的了...

  • 御风而归 2023-01-05

    Volatile的作用

    众所周知,volatile关键字可以让线程的修改立刻通知其他的线程,从而达到数据一致的作用。那么它具体涉及到哪些内容呢?关于缓存计算机最大的存储空间就是磁盘(硬盘),但是访问的速度也是最慢的,价格最便宜;再就是内存,容量更小...

  • 御风而归 2023-01-05

    通过两个小栗子来说说Java的sleep、wait、notify、notifyAll的用法

    线程是计算程序运行的最小载体,由于单个单核CPU的硬件水平发展到了一定的瓶颈期,因此就出现了多核多CPU的情况,直接就导致程序员多线程编程的复杂。由此可见线程对于高性能开发的重要性。那么线程在计算机中有好几种状态,他们之间是...

  • 御风而归 2023-01-05

    计算机网络基础回顾

    对于程序员来说,计算机网络的知识是很重要也很基础的。尤其是做web开发就要对http或者https很熟。有的时候涉及到域名,还会碰到跨域问题。这些其实都是计算机网络相关的知识,本篇就主要回顾下计算机网络中的重要内容:1 IP...

  • 御风而归 2023-01-05

    HBase跨地区机房的压测小程序——从开发到打包部署(图文版)

    今天做了一个跨地区机房的压测小程序,主要的思路就是基于事先准备好的rowkey文件,利用多线程模拟并发的rowkey查询,可以实现并发数的自由控制。主要是整个流程下来,遇到了点打包的坑,所以特意记录下。编写代码rowkey文...

  • 御风而归 2023-01-05

    Kafka的基本概念与安装指南(单机+集群同步)

    最近在搞spark streaming,很自然的前端对接的就是kafka。不过在kafka的使用中还是遇到一些问题,比如mirrormaker莫名其妙的丢失数据[原因稍后再说],消费数据offset错乱[之后介绍spark...

  • 御风而归 2023-01-05

    基于编辑距离来判断词语相似度方法(scala版)

    词语相似性比较,最容易想到的就是编辑距离,也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的,不过代码也很简单,我这边就用scala实现了一版。编辑距离编辑距离是指一个字符串改...

  • 御风而归 2023-01-05

    源码中的哲学——通过构建者模式创建SparkSession

    spark2.2在使用的时候使用的是SparkSession,这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码,简单的模拟了下,可以当作以后编码风格的参考:官方使用自己写的小例子,模拟一下:...

  • 御风而归 2023-01-05

    Maven打包排除某个资源或者目录

    最近在spark streaming本地调试的时候,引入了一些资源文件,打包的时候需要给排除掉。所以就考虑使用maven的方式详细参考官方文档:https://maven.apache.org/plugins/maven-j...

  • 御风而归 2023-01-05

    Spark监控官方文档学习笔记

    任务的监控和使用有几种方式监控spark应用:Web UI,指标和外部方法Web接口每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息:一系列调度的stage和taskRDD大小和内存...

  • 御风而归 2023-01-05

    《恶意》—— 读后总结

    这本小说,从案件剧情上来说,简单的不要不要的,可是背后的故事确是一波三折,把读者骗的来回转。小说整体采用了一种叫做POV, point of view 视点人物写作手法。之前看过辛夷坞的小说,是那种每个人都描述同一件事情,读...

  • 御风而归 2023-01-05

    Spark源码分析 之 Driver和Excutor是怎么跑起来的?(2.2.0版本)

    今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。更多内容参考:我的大数据之路...

  • 御风而归 2023-01-05

    Spark Client启动原理探索

    经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。在整体的流程图上是这样的:大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver...

  • 御风而归 2023-01-05

    Spark机器学习——模型选择与参数调优之交叉验证

    spark 模型选择与超参调优机器学习可以简单的归纳为 通过数据训练y = f(x 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。如何选择最优的模型,就是本篇的主要内容:模型验证的方法超参数的选...

  • 御风而归 2023-01-05

    推荐系统那点事儿

    从事推荐系统已经快一年了,遇到过很多的茫然不知所措,也踩过不少坑,索性把所有推荐的资料都汇总一下,希望给新人以指引,或者给老司机作为归纳总结如果电子书链接失效,可以私信我算法基础博客整理业界参考推荐文章书籍推荐算法基础对于推...

  • 御风而归 2023-01-04

    极大似然估计的理解与应用

    极大似然估计是概率论中一个很常用的估计方法,在机器学习中的逻辑回归中就是基于它计算的损失函数,因此还是很有必要复习一下它的相关概念的。背景先来看看几个小例子:猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被...

  • 御风而归 2023-01-04

    Spark DataFrame写入HBase的常用方式

    Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase...

  • 御风而归 2023-01-04

    Mac下IDE无法读取环境变量问题

    今天遇到一个问题,Idea无法读取~/.bash_profile下的配置文件。上网查了好久,都说是launchctl的问题。但是其实我这边是因为安装了zsh,导致环境标量失效。在~/.zshrc中添加:然后执行,source...

  • 御风而归 2023-01-04

    程序猿的日常——Mybatis现学现卖

    最近有一个小项目需求,需要用spring mvc + mybatis实现一个复杂的配置系统。其中遇到了很多不太常见的问题,在这里特意记录下:主要涉及的内容有事务多表删除插入并返回主键1 spring mvc + mybati...

  • 御风而归 2023-01-04

    如何在Java应用中提交Spark任务?

    最近看到有几个Github友关注了Streaming的监控工程——Teddy,所以思来想去还是优化下代码,不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提交。本博客内容基于Spark2.2版本~在阅读文章...

  • 御风而归 2023-01-04

    推荐系统指标评测——覆盖率与基尼系数的算法与应用

    评测指标是衡量推荐系统优劣的数据支持,目前应用广泛的有:点击率、转化率、精准率、召回率、F1值、覆盖率、多样性等等。不同的指标衡量的标准和目的是不一样的...今天就来介绍一下覆盖率和多样性是如何计算和应用的。更多推荐系统资源...

  • 御风而归 2023-01-04

    《菊与刀》—— 读后总结

    菊与刀从小就对日本的动漫很感兴趣,长大后,更是想多了解这个民族。不过国内洗脑的电视剧太多,总会蒙蔽双眼。很想客观的了解下,于是《菊与刀》就在各种场合出境,在学校的时候就已经加入了书单,直到最近才看完第一遍,感悟颇多。这本书在...

  • 御风而归 2023-01-04

    漫谈Java IO之基础篇

    Java的网络编程如果不是专门搞服务器性能开发或者消息分发,几乎可能涉及不到。但是它却是面试找工作必问的一个知识点,涵盖的知识体系也非常广泛,从Java底层IO原理到操作系统内核组成,再到网络TCP、UDP、HTTP的应用实...

  • 御风而归 2023-01-04

    Zookeeper学习笔记——1 单机版本环境搭建

    下载首先去官网下载:然后执行tar -zxvf 解压启动进入conf目录,拷贝zoo_simple.cfg成zoo.cfg,单机版本不用修改。直接执行脚本启动服务器: ./zkServer.sh start然后执行脚本启动客...

  • 御风而归 2023-01-04

    漫谈Java IO之普通IO流与BIO服务器

    今天来复习一下基础IO,也就是最普通的IO。网络IO的基本知识与概念普通IO以及BIO服务器NIO的使用与服务器Hello worldNetty的使用与服务器Hello world输入流与输出流Java的输入流和输出流,按照...

  • 御风而归 2023-01-03

    漫谈Java IO之 NIO那些事儿

    前面一篇中已经介绍了基本IO的使用以及最简单的阻塞服务器的例子,本篇就来介绍下NIO的相关内容,前面的分享可以参考目录:网络IO的基本知识与概念普通IO以及BIO服务器NIO的使用与服务器Hello worldNetty的使...

  • 御风而归 2023-01-03

    漫谈Java IO之 Netty与NIO服务器

    前面介绍了基本的网络模型以及IO与NIO,那么有了NIO来开发非阻塞服务器,大家就满足了吗?有了技术支持,就回去追求效率,因此就产生了很多NIO的框架对NIO进行封装——这就是大名鼎鼎的Netty。前几篇的内容,可以参考:网...

  • 御风而归 2023-01-03

    Java知识锦囊

    最近突然想回顾一下之前的文章,回顾复习一下,正好把觉得还不错的文章收录到这里,方便查阅2018-04-02 Java计数器之CountDownLatch、CyclicBarrier、Semaphore2018-03-30 N...

  • 御风而归 2023-01-03

    Java计数器之CountDownLatch、CyclicBarrier、Semaphore

    在Java里面有几种可以用于控制线程状态的方法,如CountDownLatch计数器、CyclicBarrier循环栅栏、Sempahore信号量。下面就分别演示下他们的使用方法:CountDownLatch可以实现多线程之...

  • 御风而归 2023-01-03

    《我是马拉拉》—— 读后总结

    其实最开始看到这本书,就是想了解下马拉拉到底是谁?为什么一个小女孩可以写自传?于是搜索可以下,大概知道是个诺贝尔和平奖,于是开始阅读本书,从书中了解了很多巴基斯坦过去几年的生活,从建国到印巴冲突,再到塔利班,也看到了战乱给民...

  • 御风而归 2023-01-03

    《虚无的十字架》—— 读后总结

    阅读这本书的时候,总有一个疑问——为什么叫这个名字?“虚无的十字架”是什么意思?阅读完,就能明白了....故事梗概抛开书中的故事线,单纯的从故事发生的主线来说,更能让人理解一点。广告公司的员工中原道正和妻子滨冈小夜子有一个女...

  • 御风而归 2023-01-03

    分布式理论——从ACID到CAP再到BASE

    在传统的数据中,有ACID四大原则,在分布式中也有对应的CAP理论和BASE理论,这些都是分布式理论的基础。更多内容参考:大数据学习之路ACID分别是Atomicity 原子性、Consistency 一致性、Isolati...

  • 御风而归 2023-01-03

    Zookeeper学习笔记——2 Shell和Java API的使用

    ZooKeeper的使用一般都接触不到,因为平时工作甚少直接使用ZK。但是通过手动操作一下ZK,还是能对其中的门道了解各一二。shell 常用命令help 查看所有支持的命令ls 查看路径下的所有节点create 创建节点创...

  • 御风而归 2023-01-03

    跟着ZooKeeper学Java——CountDownLatch和Join的使用

    在阅读ZooKeeper的源码时,看到这么一个片段,在单机模式启动的时候,会调用下面的方法,根据zoo.cfg的配置启动单机版本的服务器: //1 创建ZooKeeper服务器 //2 创建ZooKeeper的NIO线程 /...

  • 御风而归 2023-01-03

    Angular2入门体验

    好的工具往往使得开发应用更快更简单,而不是任何模块都手动开发。angualr cli就是一个支持 创建工程,添加文件,对各种任务如测试、打包、部署等迭代。本文的目的就是基于TypeScript开发构建一个angualr应用,...

  • 御风而归 2023-01-02

    《一个人的朝圣》—— 读后总结

    朝圣一词最初的意思是教徒朝拜圣地,通常也指一个人前往自己信仰的地方。而本书——《一个人的朝圣》则从不同的角度讲述了以为老人的自我救赎之路。故事情节销售出身的退休老人哈罗德有一天收到一封信,是二十年未见的异性好友奎尼的信,信中...

  • 御风而归 2023-01-02

    记一次线上事故的JVM内存学习

    今天线上的hadoop集群崩溃了,现象是namenode一直在GC,长时间无法正常服务。最后运维大神各种倒腾内存,GC稳定后,服务正常。虽说全程在打酱油,但是也跟着学习不少的东西。第一个问题:为什么会频繁GC有过JVM经验的...

  • 御风而归 2023-01-02

    Keras学习笔记——Hello Keras

    最近几年,随着AlphaGo的崛起,深度学习开始出现在各个领域,比如无人车、图像识别、物体检测、推荐系统、语音识别、聊天问答等等。因此具备深度学习的知识并能应用实践,已经成为很多开发者包括博主本人的下一个目标了。目前最流行的...

  • 御风而归 2023-01-02

    Structured Streaming教程(1) —— 基本概念与使用

    近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streamin...

  • 御风而归 2023-01-02

    Structured Streaming教程(2) —— 常用输入与输出

    上篇了解了一些基本的Structured Streaming的概念,知道了Structured Streaming其实是一个无下界的无限递增的DataFrame。基于这个DataFrame,我们可以做一些基本的select、...

  • 御风而归 2023-01-02

    Structured Streaming教程(3) —— 与Kafka的集成

    Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本。就在前一个月,我们才从0...

  • 御风而归 2023-01-02

    Spring Boot切换为APR模式

    Spring Boot内置了tomcat容器,直接运行Application就可以启动web服务器。在tomcat中提供了三种方式:BIO、NIO、APR。tomcat7以下的版本都是BIO,就是一个请求是一个独立的线程。不...

  • 御风而归 2023-01-02

    Spark踩坑——java.lang.AbstractMethodError

    今天新开发的Structured streaming部署到集群时,总是报这个错:百度了一下说是版本不一致导致的。于是重新检查各个jar包,发现spark-sql-kafka的版本是2.2,而spark的版本是2.3,修改sp...

  • 御风而归 2023-01-02

    CDH中如何升级Spark

    公司平时使用的CDH版本的hadoop生态,spark任务是基于yarn来管理的,而不是基于原生的spark master slave集群管理。因此任务的大致启动模式是:如果是Cluster模式:A节点启动Spark-sub...

  • 御风而归 2022-12-18

    机器学习&深度学习之路

    计划最近好好按步骤按阶段系统性的学习下机器学习和深度学习,希望能坚持下去。2019-01-05 基于TensorFlow的深度学习系列教程 2——常量Constant2019-01-03 深度学习Tensorflow生产环境...

  • 御风而归 2022-12-17

    git如何忽略已经加入版本控制的文件

    git移除已经追踪的文件有时候新增一个文件,会自动追加到git的版本控制当中,但是又不想提交到仓库。可以按照下面的步骤:查看管理状态:其中data.tg就是我不想提交的文件,但是现在已经进入到版本控制当中了。那么可以通过rm...

  • 御风而归 2022-12-17

    spark踩坑——dataframe写入hbase连接异常

    最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper,看下报错日志:可以观察到hbase-connect...

  • 御风而归 2022-12-17

    技术杂谈 之 室内导航

    这两年AI很火热,各种无人驾驶、机器人、无人机层出不穷,新零售也是AI的一个很热的方向。AI与新零售的结合现在也有不少案例了,比如京东X无人超市、超嗨的智能购物车等等。在大型百货商场或者超市,有一个很典型的场景就是室内导航,...

  • 御风而归 2022-12-17

    Spark MLlib 之 StringIndexer、IndexToString使用说明以及源码剖析

    最近在用Spark MLlib进行特征处理时,对于StringIndexer和IndexToString遇到了点问题,查阅官方文档也没有解决疑惑。无奈之下翻看源码才明白其中一二...这就给大家娓娓道来。更多内容参考我的大数据...

  • 御风而归 2022-12-17

    Spark MLlib 之 Vector向量深入浅出

    Spark MLlib里面提供了几种基本的数据类型,虽然大部分在调包的时候用不到,但是在自己写算法的时候,还是很需要了解的。MLlib支持单机版本的local vectors向量和martix矩阵,也支持集群版本的matri...

  • 御风而归 2022-12-17

    吴恩达机器学习笔记 —— 1 绪论:初识机器学习

    机器学习目前已经应用在很多领域,比如网页搜索、垃圾邮件过滤、点击率预测、生物信息、无人驾驶、无人机、手写体识别、自然语言处理、计算机视觉。更多内容参考 机器学习&深度学习什么是机器学习1 机器学习一些比较难以变成的能力——A...

  • 御风而归 2022-12-17

    Spark MLlib 之 aggregate和treeAggregate从原理到应用

    在阅读spark mllib源码的时候,发现一个出镜率很高的函数——aggregate和treeAggregate,比如matrix.columnSimilarities( 中。为了好好理解这两个方法的使用,于是整理了本篇内...

  • 御风而归 2022-12-17

    吴恩达机器学习笔记 —— 2 单变量线性回归

    第一章讲述了基本的机器学习的概念以及分类,这里从单变量的线性回归入手,吴恩达讲解了机器学习中的几个重要因素,如模型、损失函数、优化方法等更多内容参考 机器学习&深度学习首先以房价预测入手:房子的面积每平米的房价其中:m 为...

  • 御风而归 2022-12-17

    Spark MLlib 之 大规模数据集的相似度计算原理探索

    无论是ICF基于物品的协同过滤、UCF基于用户的协同过滤、基于内容的推荐,最基本的环节都是计算相似度。如果样本特征维度很高或者的维度很大,都会导致无法直接计算。设想一下100w*100w的二维矩阵,计算相似度怎么算?更多内容...

  • 御风而归 2022-12-15

    HBase官方文档 之 Region的相关知识

    HBase是以Region为最小的存储和负载单元(这里可不是HDFS的存储单元),因此Region的负载管理,关系到了数据读写的性能。先抛开Region如何切分不说,看看Region是如何分配到各个RegionServer的...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 3 线性回归回顾

    更多内容参考 机器学习&深度学习矩阵的表示矩阵的索引向量的表示矩阵的加法矩阵与实数的乘法矩阵的表达式矩阵与向量的乘法矩阵与矩阵的乘法矩阵特性——不满足交换律矩阵特性——满足结合律单位矩阵矩阵的逆矩阵的转置...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 5 多变量线性回归

    本篇主要讲的是多变量的线性回归,从表达式的构建到矩阵的表示方法,再到损失函数和梯度下降求解方法,再到特征的缩放标准化,梯度下降的自动收敛和学习率调整,特征的常用构造方法、多维融合、高次项、平方根,最后基于正规方程的求解。更多...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 7 Logistic回归

    本章主要讲解了逻辑回归相关的问题,比如什么是分类?逻辑回归如何定义损失函数?逻辑回归如何求最优解?如何理解决策边界?如何解决多分类的问题?更多内容参考 机器学习&深度学习有的时候我们遇到的问题并不是线性的问题,而是分类的问题...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 8 正则化

    本章讲述了机器学习中如何解决过拟合问题——正则化。讲述了正则化的作用以及在线性回归和逻辑回归是怎么参与到梯度优化中的。更多内容参考 机器学习&深度学习在训练过程中,在训练集中有时效果比较差,我们叫做欠拟合;有时候效果过于完美...

  • 御风而归 2022-12-15

    图像——基于深度学习和机器学习的深度学习笔记汇总

    python基础图像基础图像的主要用途:分类、目标检测、图像分割、图像描述、图像生成相关的组件:OpenCV、Tensorflow、Keras图像的预处理:平滑与去噪——高斯滤波、中值滤波、曲率驱动滤波图像的预处理:图像锐化...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 9 神经网络学习

    本章讲述了神经网络的起源与神经元模型,并且描述了前馈型神经网络的构造。更多内容参考 机器学习&深度学习在传统的线性回归或者逻辑回归中,如果特征很多,想要手动组合很多有效的特征是不现实的;而且处理这么大的特征数据量,计算上也很...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 10 神经网络参数的反向传播算法

    本篇讲述了神经网络的误差反向传播以及训练一个神经网络模型的流程更多内容参考 机器学习&深度学习神经网络可以理解为两个过程:信号的正向传播和误差的反向传播。在正向的传播过程中,计算方法为Sj=wijxi+bj,其中i是样本、j...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 11 应用机器学习的建议

    本篇讲述了在机器学习应用时,如何进行下一步的优化。如训练样本的切分验证?基于交叉验证的参数与特征选择?在训练集与验证集上的学习曲率变化?在高偏差或者高方差时如何进行下一步的优化,增加训练样本是否有效?更多内容参考 机器学习&...

  • 御风而归 2022-12-15

    吴恩达机器学习笔记 —— 12 机器学习系统设计

    本章主要围绕机器学习的推荐实践过程以及评测指标,一方面告诉我们如何优化我们的模型;另一方面告诉我们对于分类的算法,使用精确率和召回率或者F1值来衡量效果更佳。最后还强调了下,在大部分的机器学习中,训练样本对模型的准确率都有一...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 14 无监督学习

    本章讲述的是第一个无监督的机器学习算法,在无监督的算法中,样本数据只有特征向量,并没有标注的y值。比如聚类算法,它可以用在市场分类、社交网络分析、天体数据分析等等。更多内容参考 机器学习&深度学习在做聚类时,最简单的算法就是...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 19 应用举例:照片OCR(光学字符识别)

    本章讲述的是一个复杂的机器学习系统,通过它可以看到机器学习的系统是如何组装起来的;另外也说明了一个复杂的流水线系统如何定位瓶颈与分配资源。更多内容参考 机器学习&深度学习OCR的问题就是根据图片识别图片中的文字:这种OCR识...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 15 降维

    本章重点讲述了降维方法以及其中最主要的PCA主成分分析的原理、使用更多内容参考 机器学习&深度学习降维的作用:数据压缩与可视化降维的第一个作用就是进行数据的压缩,解决磁盘和计算的问题。比如把二维数据降维到一维:或者数据从三维...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 16 异常点检测

    本篇介绍了异常点检测相关的知识更多内容参考 机器学习&深度学习我感觉这篇整理的很好很用心,可以详细参考:什么是异常点检测?比如针对飞机的引擎做测试,x1代表温度、x2代表引擎的震动等等,希望判断新生产的引擎是否有问题。如果这...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 17 推荐系统

    本章讲述了推荐系统相关的知识,比如基于内容的推荐算法、基于协同过滤的推荐算法以及实践中遇到的问题。更多内容参考 机器学习&深度学习推荐系统是机器学习在工业界应用最广泛的方向,很多电子商务类、咨询类的平台都在做个性化推荐的工作...

  • 御风而归 2022-12-05

    我的AI之路 —— 从裸机搭建GPU版本的深度学习环境

    之前一直在CPU上跑深度学习,由于做的是NLP方向所以也能勉强忍受。最近在做图像的时候,实在是扛不住了...还好领导们的支持买个虚拟机先体验下。由于刚买的机器,环境都得自己摸索,瞎搞过很多次,也走过很多弯路,所以我就记录下从...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 18 大规模机器学习

    本章讲了梯度下降的几种方式:batch梯度下降、mini-batch梯度下降、随机梯度下降。也讲解了如何利用mapreduce或者多cpu的思想加速模型的训练。更多内容参考 机器学习&深度学习有的时候数据量会影响算法的结果,...

  • 御风而归 2022-12-05

    吴恩达机器学习笔记 —— 13 支持向量机

    本章讲述了SVM,相比于《统计学习方法》,从逻辑回归的角度更容易理解了。更多内容参考 机器学习&深度学习从逻辑回归来看,看损失值与Z的值的关系:代入原来的是指,可以化简公式:总结来说:如果y=1,我们希望z的值大于等于1,如...

  • 御风而归 2022-12-05

    我的AI之路 —— OCR文字识别快速体验版

    OCR的全称是Optical Character Recoginition,光学字符识别技术。目前应用于各个领域方向,甚至这些应用就在我们的身边,比如身份证的识别、交通路牌的识别、车牌的自动识别等等。本篇就先讲一下基于开源软...

  • 御风而归 2022-12-05

    python项目实现配置统一管理的方法

    一个比较大的项目总是会涉及到很多的参数,最好的方法就是在一个地方统一管理这些参数。最近看了不少的python项目,总结了两种很有意思的配置管理方法。第一种 基于easydict实现的配置管理首先需要安装numpy、easyd...

  • 御风而归 2022-12-02

    Java几种单例模式的实现与利弊

    饿汉式提前new出来实例了,并不是在第一次调用get方法时才实例化,没有进行延迟加载懒汉式——非线程安全版本多线程环境下无法保证单例效果,会多次执行 instance=new Singleton( ,需要考虑到多线程懒汉式—...

  • 御风而归 2022-12-02

    2017CS231n学习笔记——计算机视觉的概述

    本节课主要讲述了cs231n课程的背景和计算机视觉的历史,也主要介绍了目前很重要的一个计算机视觉数据集——IMAGENET。更多内容参考我的AI学习之路课程简介这门课程是由stanford大学计算机视觉李飞飞以及她的学生制作...

  • 御风而归 2022-12-02

    MSRA-TD5000数据集使用详解

    中文检测的数据集,目前最火的应该是清华的CTW,https://ctwdataset.github.io/ 但是它的数据集只存储在微云和google driver,微云空间受限不能完全保存,所以下载的时候很蛋疼。我这边就挑了...

  • 御风而归 2022-12-02

    《美团机器学习实践》—— 读后总结

    从9月23日开始整理思维导图,前前后后半个月左右,收获确实比第一次阅读要多一些,以后会尽量按这种方式阅读,提高效率。第一章 问题建模第二章 特征工程第三章 常用模型第四章 模型融合第五章 用户画像第六章 POI实体链接第七章...

  • 御风而归 2022-12-02

    《放学后》—— 读后总结

    这本书看了之后很上瘾,两三天就看完了,故事很反转,结局让人不知所措...故事梗概女子高中老师前岛最近发现有人想要谋杀他,幸好都躲过去了,比如差点在浴室被电死、差点被楼上掉落的花瓶砸死...直到有一天,前岛训练完射箭社后回到更...

  • 御风而归 2022-12-02

    程序猿的日常——工作中常用的Shell脚本

    工作当中总是会有很多常用的linux或者命令,这里就做一个总结文件远程拷贝如果想把文件从本机拷贝到远程,或者从远程下载文件到本地。# 把本地的jar拷贝到远程机器xxxip的/home/source目录下# 拷贝远程的文件到...

  • 御风而归 2022-12-02

    《Opencv 3 计算机视觉 python语言实现》· 第二遍 —— 读后笔记

    概览代码实战...

  • 御风而归 2022-12-02

    《影响力》—— 读后总结

    这本书在很久以前就想读了,一直到今天才读完,最大的感触就是:平时生活中容易陷入的陷阱在这里都做了科学的解释和论证。尤其是在买东西的时候,可以多一些谨慎,多买一些更有价值的东西,不能被别人的销售技巧给套住。粗略总结互惠:别人在...

  • 御风而归 2022-12-02

    《歪笑小说》—— 读后总结

    之前很少接触写作的人或者说周围很少有专职写作的人,因此没有想过作家的世界。通过这本书算是看到另一个陌生又残酷的世界,而这样的世界其实也存在于每个领域。出版社的角度对于出版社来说,最主要的目的其实还是为了赚钱,那么怎么赚钱呢?...

  • 御风而归 2022-11-30

    在Java Web中使用Spark MLlib训练的模型

    PMML是一种通用的配置文件,只要遵循标准的配置文件,就可以在Spark中训练机器学习模型,然后再web接口端去使用。目前应用最广的就是基于Jpmml来加载模型在javaweb中应用,这样就可以实现跨平台的机器学习应用了。训...

  • 御风而归 2022-11-30

    《增长黑客》—— 读后总结

    之前读到四分之三的时候,手机丢了,无奈放弃微信读书就没继续读;后来换了手机,终于把这本书给续上了。第一章 增长黑客的崛起第二章 创造正确的产品第三章 获取用户第四章 激发活跃第五章 提高留存第六章 增加收入第七章 病毒传播第...

  • 御风而归 2022-11-30

    《新参者》—— 读后总结

    “新参者”在日语中是新加入的人的意思,在这里指代两个人,一个是书中的死者三井峰子;一个是刑警加贺恭一郎。三井峰子刚刚来到人形町附近就被杀害、而加贺恭一郎因工作原因被降职到人形町,通过与当地居民的聊天接触,从家长里短的聊天中发...

  • 御风而归 2022-11-30

    《数据挖掘与数据化运营实战 思路、方法、技巧与应用》—— 读书笔记

    第一章 什么是数据化运营...

  • 御风而归 2022-11-30

    想要接触人工智能吗?先要学会如何阅读论文

    凭借着对算法和AI的向往,终于有机会接触到人工智能的领域。现在的主要工作就是在OCR文字识别,期间也看了不少的论文,从CTPN到Faster RCNN,再到EAST和FOTS。最开始因为刚接触这个领域,很多名词看不懂,论文阅...

  • 御风而归 2022-11-30

    基于TensorFlow的深度学习系列教程 1——Hello World!

    最近看到一份不错的深度学习资源——Stanford中的CS20SI:《TensorFlow for Deep Learning Research》,正好跟着学习一下TensorFlow的基础,还是收获颇丰,随手整理成博客随时...

  • 御风而归 2022-11-30

    Crontab和sudo中无法使用TensorFlow ImportError libcublas.so.9.0

    最近因为特殊的原因重新安装了python,但是引发了一个很严重的问题——TensorFlow不好使了。比如我下面这个执行文件test.py:得到的结果:直接使用Python可以执行,但是sudo或者crontab定时任务都无...

  • 御风而归 2022-11-30

    深度学习Tensorflow生产环境部署(上·环境准备篇)

    最近在研究Tensorflow Serving生产环境部署,尤其是在做服务器GPU环境部署时,遇到了不少坑。特意总结一下,当做前车之鉴。1 系统背景系统是ubuntu16.04或者显卡是Tesla的P40TensorFlow...

  • 御风而归 2022-11-30

    深度学习Tensorflow生产环境部署(下·模型部署篇)

    前一篇讲过环境的部署篇,这一次就讲讲从代码角度如何导出pb模型,如何进行服务调用。1 hello world篇部署完docker后,如果是cpu环境,可以直接拉取tensorflow/serving,如果是GPU环境则麻烦点...

1 2 3 4 5 67
返回顶部暗黑模式