Installing Rglpk on CentOS 7

Rglpk is an R library that links the GLPK package with R interface. This package is required by the igraph package to perform cluster optimization tasks. Due to some CRAN policy update, the embedded GLPK in igraph (and Rglpk) is removed, and users can not longer get GLPK installed with a simple R installation command.

So here is the solution from stackoverflow:

https://stackoverflow.com/questions/25114771/glpk-no-such-file-or-directory-error-when-trying-to-install-r-package

Install GLPK in a local directory:

wget http://ftp.gnu.org/gnu/glpk/glpk-4.54.tar.gz
tar xfzv glpk-4.54.tar.gz
mkdir GLPK
cd glpk-4.54
./configure --prefix=/home/<username>/GLPK
make
make install

Install Rglpk (0.6-3):

cd ~
wget http://cran.r-project.org/src/contrib/Rglpk_0.6-4.tar.gz
export LIBRARY_PATH=/home/<username>/GLPK/lib
export LD_LIBRARY_PATH=/home/<username>/GLPK/lib
export CPATH=/home/<username>/GLPK/include
R CMD INSTALL Rglpk_0.6-4.tar.gz

足球比赛预测

昨天读了一篇文章用文本分析来预测球员评分和推荐每周Fantasy Football阵容,这个模型已经实现在ESPN的Fantasy League里了。Fantasy的球员评分着重于一些硬性指标,比如得分犯规数量等等,与球队表现和对手强度并不完全挂钩,因此可以稍微准确的体现球队实力。

而预测比赛本身,似乎是个更难的问题。因为比起庞杂的进攻防守抢断数据,比分更加笼统,也更具有不确定性。再者,比赛的“物理现实”本身就具有极大的复杂性,就算我们知道每个球员的水平和平均得分,依旧难以预测整场的走势。2018年世界杯期间我写过一个比分模拟器,类似于FiveThirtyEight的球队强度SPI模型,原理是使用各国国家队1987-2017年的比赛数据,以本队“进攻值”和对手”防守值“的差拟合各自的柏松模型,估计进球数目。这个模型极其粗略,而且忽视了许多关联性,但是看起来已经很像回事了(虽然预测了英国夺冠很不合理,但是居然猜中了克罗地亚加时赛胜丹麦)。

今天想起这个问题,不知道以目前的机器学习工具,预测比分的工具有没有什么变化,看了眼至少2019年的论文还在用这类简单的数值模型,不知道准确性如何了

厕纸研究

此前注意到一个现象:厨房用纸的用量与纸的厚薄和单位面积强烈相关。由于价格并不是单纯地挂钩于纸的面积/厚薄,使用某些又大又薄的厨房纸实际上成本很高。

今天在咖啡厅忽然想到了一个相关的问题,既然厕纸的大小是确定的,而区别只在于厚薄和层数,那么作为一家餐厅/咖啡厅的运营者,应该选择单层还是双层的厕纸呢?

当然,这个问题比看起来复杂,因为运营者还要考虑到用户的舒适度,而购买厕纸的价格并非由层数决定而是由供需关系决定。市场已经解决了定价问题,但是不妨碍我好奇,厕纸层数与用量的关系是怎样的,如何设置一个实验来测试这个区别…

搜索了一圈并没有找到相关论文,甚至不知道这个问题归谁管(厕纸公司肯定有人专门研究这个,但是公共研究好像并没有)。直到我搜到了UPENN的两个本科生真的做了这个实验,把学校教学楼一些洗手间的厕纸从单层换成双层并测量了使用量(承重),发现双层厕纸用量更大一些,从价格上来说贵了百分之七十多。他们还测试了贴一个贴画写着“纸来自树木”看看呼唤大自然保护欲会不会减少用量,这个也没用。

所以结论是如果我开咖啡厅,可能会供应单层厕纸。

翻译:人工智能 – 革命还未开始 – Michael Jordan

Artificial Intelligence—The Revolution Hasn’t Happened Yet by Michael Jordan

https://hdsr.mitpress.mit.edu/pub/wot7mkc1/release/9

翻译:瀑布棕榈

人工智能(AI)是这个时代的禅咒,在技术专家,学者,记者,风险投资人口中一遍遍吟诵。就像许多其他从学界业界普及到日常用语的词汇一样,在这个词广泛使用的过程中也伴随着深刻的误读。但是这并不是一个典型的“普通人不懂科学家”的故事 – 在这个故事里,科学家兴许和普通人一样摸不着头脑。想象一下,我们的时代里,即将涌现出足以匹敌人类的硅基智能体,这是多么有趣 – 这个图景让我们心驰神往,同时又担惊害怕。而同时,不幸的是,这个图景让我们分了神。

对于这个时代,人们有很多种不同的叙事角度。我所要讲的故事包括了这几个关键词:人、计算机、数据、和生死攸关的决策,但是故事重点不在于“硅基智能体”这个图景。 十四年前我的爱人怀孕的时候,我们去做了超声波检查。诊室里有位遗传学家,她发现超声波影像里胎儿的心脏附近有一些白色的小点。“这些白点是唐氏三体综合症的影像特征“,她说,”您的孩子患病的风险增长到了二十分之一“。 接下来她告诉我们,如果想知道胎儿是否确实有唐氏症的基因畸变,需要做羊膜穿刺术。然而羊膜穿刺术是有很大风险的 – 手术致死的风险大约是三百分之一。作为一个统计学家,我决定找一找这些数字是从哪儿得来的。长话短说,我最终找到了十年之前在英国进行的一项统计分析。分析发现,超声波影像里的白点对应着钙化点,而钙化点确实是唐氏症的预兆。但是我也发现,我们接受检查的超声波图像显示器比这个英国研究里用到的更先进一些,每平方尺多了几百个像素。我回到遗传学家那,告诉她这些白点可能是假阳性(译者:即,检测阳性而实际阴性),和字面意义一样,是“白噪音”。 她说,“啊,这能解释最近几年检测出的唐氏症数量激增的缘由了,正好是几年前换了新机器。”

继续阅读“翻译:人工智能 – 革命还未开始 – Michael Jordan”