中文啦

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
寂静杀戮

寂静杀戮

我,被困在了地球上,被困在了这个平凡,普通,没有任何奇迹的星球上。 这是弱者的幸福,却是强者的悲哀。 但现在,我终于踏入了新的世界,我不知道这里还是不是地球,但是至少在这里,武力和知识才是一切事物的最终法则。 而我的才能,也将得到尽情的展现,因为我唯一要做的,就是让自己变得更强。 我看见,我杀戮,我毁灭。...

我的剑气吞噬天地

我的剑气吞噬天地

王右丞一个没有灵根的凡人,偷了一把宝刀以后,阴差阳错地走上了一条修仙的路。杀妖邪、诛鬼怪,几度命悬一线后,他渐渐发现一切并不是意外,一场阴谋的旋涡在自己身上早...

重生之龙耀星辰

重生之龙耀星辰

一代魔帝惨遭手下背刺,渡劫失败,又遭五大门派围剿。就在其即将陨落之际,时空之泪相助,重生返回蓝星。且看魔帝守护珍视的一切,一路霸绝高歌,斩杀该杀之人,耀世星辰。......

敛君情

敛君情

不要只是我的侍卫,做我的皇后 【深情隐忍侍卫攻X钓系温润皇子受】 楚樽行X云尘 顶着将军府私生子的身份,楚樽行从没过过一天好日子。自小被送进宫里生死由命,他以为最终也只能落个惨死的下场,却没想到这竟是另一条生路 他明白与云尘身份有别,只好将自己的情意埋藏心底。唯一能做的便是不遗余力地提剑护好他家殿下,活一日,守一日 即便内力散尽经脉具毁,一片荒芜狼藉之下,仍旧小心护着那颗自小只对一人跳动的真心 “殿下,往后定要万事顺遂,一生自由。” “渡蛊是我心甘情愿,我只求殿下无恙。” — 楚樽行不开窍,那云尘便逼他开窍 他是自己认定的皇后,打小在心尖腾了块宝地给他,可不是让他这辈子只缄默站在自己身后的 “阿行。” “我不要你一人之下,我要你永远在这高堂之上,与我并肩。” “你信我,总有一天,我会带你将这锦绣河山游个遍。” — 酒后帘帐里红烛摇曳,云尘看着自家侍卫朝自己步步紧逼,半褪下衣物眼底含情,明知故问 “阿行想做什么?” “想欺君犯上。” — 强强互宠...

梁寒郡的日记

梁寒郡的日记

梁寒郡的日记情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,梁寒郡的日记-梁寒郡-小说旗免费提供梁寒郡的日记最新清爽干净的文字章节在线阅读和TXT下载。...

陛下实在太强硬了

陛下实在太强硬了

冒顿:“陛下,匈奴愿与大秦永结同好,和亲纳贡,可否永不起刀兵?”嬴政:“拿愺原作嫁妆,否则愺原大地必将血流成河。”阿育王:“始皇帝你不要欺人太甚,孔雀人民永不为奴。”嬴政:“朕很欣赏你的勇气,做大秦的走狗吧!”凯撒:“罗马人宁可站着死,绝不跪着生。”嬴政:“想多了,跪着也要死。”艳后:“政哥哥,我想给你生猴子。”嬴......