首页 » 软件开发 » 特征工程7种常用方法(特征算法数据方法工程)

特征工程7种常用方法(特征算法数据方法工程)

落叶飘零 2024-07-24 08:49:25 0

扫一扫用手机浏览

文章目录 [+]

简单说,特征工程是能够将数据像艺术一样展现的技术。
因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力;

本质上说,呈现给算法的数据应该能拥有基本数据的相关结构或属性 。
当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势;

事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果;

特征工程7种常用方法(特征算法数据方法工程) 软件开发
(图片来自网络侵删)

但是,对于特征工程中引用的新特征,需要验证它的确提高了预测的准确度,而不是加入了一个无用的特征,不然只会增加算法运算的复杂度。

二、常用方法

1、时间戳处理

时间戳通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。
但在很多的应用中,大量的信息是不需要的,因此我们在呈现时间的时候,试着保证你所提供的所有数据是你的模型所需要的,并且别忘了时区,加入你的数据源来自不同的地理数据源,别忘了利用时区将数据标准化

2、离散型变量处理

举一个简单的例子,由{红,黄,蓝}组成的离散型变量,最常用的方式是吧每个变量值转换成二元属性,即从{0,1}取一个值,也就是常说的独热编码(one-hot code)。

3、分箱/分区

有时候,将连续型变量转换成类别呈现更有意义,同时能够使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。
举个例子,我们要预测具有哪些特征的人会购买我们网店的商品,用户的年龄是一个连续的变量,我们可以将年龄分为15以下、15-24、25-34、35-44、45及以上。
而且,不是将这些类别分成2个点,你可以使用标量值,因为相近的年龄表现出相似的属性。

只有了解变量的领域知识的基础,确定属性能够划分成简洁的范围时分区才有意义,即所有的数值落入一个分区时能够呈现出共同的特征。
在实际的运用中,当你不想让你的模型总是尝试区分值之间是否太近时,分区能够避免出现过拟合。
例如,如果你感兴趣的是将一个城市作为总体,这时你可以将所有落入该城市的维度整合成一个整体。
分箱也能减小小错误的影响,通过将一个给定值划入到最近的块中。
如果划分范围的数量和所有可能值相近,或对你来说准确率很重要的话,此时分箱就不合适了。

4、交叉特征

交叉特征算是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。
当组合的特征要比单个特征更好时,这是一项非常有用的技术。
数学上来说,是对类别特征的所有值进行交叉相乘。

假如拥有一个特征A,A有两个可能值{A1,A2}。
拥有一个特征B,存在{B1,B2}等可能值。
然后,A&B之间的交叉特征如下:{(A1,B1),(A1,B2),(A2,B1),(A2,B2)},并且你可以给这些组合特征取任何名字。
但是需要明白每个组合特征其实代表着A和B各自信息协同作用。

5、特征选择

为了得到更好的模型,使用某些算法自动的选出原始特征的子集。
这个过程,你不会构建或修改你拥有的特征,但是会通过修建特征来达到减少噪声和冗余。

特征选择算法可能会用到评分方法来排名和选择特征,比如相关性或其他确定特征重要性的方法,更进一步的方法可能需要通过试错,来搜素出特征子集。

还有通过构建辅助模型的方法,逐步回归就是模型构造过程中自动执行特征选择算法的一个实例,还有像Lasso回归和岭回归等正则化方法也被归入到特征选择,通过加入额外的约束或者惩罚项加到已有模型(损失函数)上,以防止过拟合并提高泛化能力。

6、特征缩放

有时候,你可能会注意到某些特征比其他特征拥有高得多的跨度值。
举个例子,将一个人的收入和他的年龄进行比较,更具体的例子,如某些模型(像岭回归)要求你必须将特征值缩放到相同的范围值内。
通过特征缩放可以避免某些特征获得大小非常悬殊的权重值

7、特征提取

特征提取涉及到从原始属性中自动生成一些新的特征集的一系列算法,降维算法就属于这一类。
特征提取是一个自动将观测值降维到一个足够建模的小数据集的过程。
对于列表数据,可使用的方法包括一些投影方法,像主成分分析和无监督聚类算法。
对于图形数据,可能包括一些直线检测和边缘检测,对于不同领域有各自的方法。

特征提取的关键点在于这些方法是自动的(虽然可能需要从简单方法中设计和构建得到),还能够解决不受控制的高维数据的问题。
大部分的情况下,是将这些不同类型数据(如图,语言,视频等)存成数字格式来进行模拟观察

标签:

相关文章

语言中的借用,文化交融的桥梁

自古以来,人类社会的交流与发展离不开语言的传播。在漫长的历史长河中,各民族、各地区之间的文化相互碰撞、交融,产生了许多独特的语言现...

软件开发 2025-01-01 阅读1 评论0

机顶盒协议,守护数字生活的新卫士

随着科技的飞速发展,数字家庭逐渐走进千家万户。在这个时代,机顶盒成为了连接我们与丰富多彩的数字世界的重要桥梁。而机顶盒协议,作为保...

软件开发 2025-01-01 阅读1 评论0

语言基础在现代社会的重要性及方法步骤

语言是人类沟通的桥梁,是社会发展的基础。语言基础作为语言学习的基石,对于个人、社会乃至国家的发展具有重要意义。本文将从语言基础在现...

软件开发 2025-01-01 阅读2 评论0

粤语电影,传承文化,点亮时代之光

粤语电影,作为中国电影产业的一朵奇葩,以其独特的地域特色、丰富的文化内涵和鲜明的艺术风格,赢得了广大观众的喜爱。本文将从粤语电影的...

软件开发 2025-01-01 阅读1 评论0

苹果游戏语言,塑造未来娱乐体验的基石

随着科技的飞速发展,游戏产业逐渐成为全球娱乐市场的重要支柱。在我国,游戏产业更是蓬勃发展,吸引了无数玩家和投资者的目光。而在这其中...

软件开发 2025-01-01 阅读1 评论0