16

2018年度GtiHub开源项目TOP 25:数据科学&机器学习

本文作者 Pranav Dar 是 Analytics Vidhya 的编辑,对数据科学和机器学习有较深入的研究和简介,致力于为使用机器学习和人工智能推动人类进步找到新途径。2018 这一年中,作者在每个月都会发布一份开源项目月度推荐榜单,而本文则是对全年开源项目的盘点和总结。

前沿

关于托管代码、与团队成员合作以及充当展示个人写代码技能的「在线简历」,最好的平台是哪个?问及任何一位数据科学家,他们都会让你去 GitHub。近年来,GitHub 作为一个真正具有变革性的平台,已经改变了我们托管甚至写代码的方式。

但这还不是全部。此外,它还是一个学习平台。如果你问怎么学习的话,我可以给你一个暗示——开源项目!

世界领先的科技公司通过在 GitHub 上发布其热门算法的代码,对项目进行开源。2018 年,在 Google 和 Facebook 等公司的带领下,这类开源项目大幅增加。其中最好的那部分开源项目,写代码的研究者还提供了预训练模型,从而让你我这些人不必再浪费时间从头开始创建高难度的模型。 Continue reading

16

常用正则表达式

正则表达式,新手见它的感觉就是“这都什么玩意,乱七八糟的,完全不知所云”,但学会它就会体验那种一行代码抵数十上百行,效率飞起的感觉,简直不要太爽。今天小肆先把我自己收藏的一些正则表达式写法分享给大家,当然想深入学习如何写正则表达式,可以去w3c看看教程。
干货
一.校验数字

数字:

n位的数字: Continue reading

16

用Python爬取金融市场数据

一、写在前面

由于在平时的工作中,需要对某信托网的信托在售和资管在售数据进行统计分析,但是一条一条的输入,显然太过耗时耗力,于是萌生了写个爬虫的想法。

一门计算机语言,可以当做是在模仿人的目的或意图来进行一系列行为或动作,所以在写代码之前,首先要弄清楚你要干什么,如果是你,你每一步的动作是什么,然后将这一步步的动作通过代码传递给计算机,让计算机高效的帮你完成即可。

本文结合正则表达式和比较流行的beautifulsoup(bs4),对网页进行解析并提取数据,因此在正式进行之前,有必要简单介绍下正则表达式和bs4. Continue reading

10个Python库

Quote

1. BeautifulSoup

Beautiful Soup是一个可以从HTML,XML进行提取文件的Python库,日常我们使用爬虫进行数据抓取回来之后,往往需要进行数据解析。

使用它能让你开心愉快提取里面的爬回来的数据。

2. Arrow

用过datetime标准库的同学都知道,这个库每次需要import各种时间模块格式化,非常不友好,arrow直接接受各种时间(datetime,date,timestamp)类型转化为Arrow类型,然后进行各种格式化操作,非常方便。很是人性化,简直是居家旅行必备良药 Continue reading

必备!人工智能和数据科学的七大 Python 库

Quote

【导读】作者汇总了2018年针对数据科学家/AI的最佳库、repos、包和工具。本文对其进行了梳理,列举了人工智能和数据科学的七大Python库。

本文作者Favio Vázquez从2018年开始发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍最好的库、repos、packages以及工具。

一年结束,作者列出了2018年的7大最好的Python库,这些库确实地改进了研究人员的工作方式。 Continue reading

如何用Python进行数据分析?

Quote

1.为什么选择Python进行数据分析?

Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为“伪代码”,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。

c4760ab1e1de8a351a73d7509262ef11.jpg-wh_651x-s_4254360855

另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与最受欢迎的开源大数据平台Hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。 Continue reading

十二月份恶意软件之“十恶不赦”排行榜

Quote

时光荏苒,2018年瞬息而逝,在2018年的最后一个月份里,国外安全公司的研究人员发现, SmokeLoader在12月份跻身“十恶不赦”恶意软件名单。其作用主要用于加载其他恶意软件,如TrickbotBanker,AZORult Infostealer和PandaBanker,自2011年以来,研究人员已经关注此程序,在通过两次活动激增后,去年12月首次进入前10名。

尽管2018年所有加密货币的价格普遍下降,显现出了加密货币的泡沫属性,但恶意加密软件仍占前10名中名额的一半之多,占据了前4名。Coinhive 连续13 个月雄踞被统计恶意软件的第一位,全球近12%的组织受其影响。Emotet是一个用作恶意软件分销的高级木马,此次跃升至第五位,而Ramnit则是一种窃取登录凭据和其他敏感数据的银行木马,本月在第8位重回前10名。 Continue reading

15

程序员的快速开发框架:Github上10大优秀的开源后台控制面板

程序员的快速开发框架:Github上10大优秀的开源后台控制面板,开发框架,开源框架

e00d23507e9a44ade358230b1e1f3ac4.jpg-wh_651x-s_1785554554

Web 开发中几乎的平台都需要一个后台管理,但是从零开发一套后台控制面板并不容易,幸运的是有很多开源免费的后台控制面板可以给开发者使用,那么有哪些优秀的开源免费的控制面板呢?我在 Github 上收集了一些优秀的后台控制面板,并总结得出 Top 10。 Continue reading

15

原生JS复制文本到手机剪切板

复制文本到剪切板,兼容PC与WAP,复制文本到手机剪切板,兼容电脑与手机移动设备

方法一:

方法二: