强的部落格 – 第18页 – 量化自我和极简主义的窝藏点

wordpress 数据库postgresql迁移至mysql

环境: Ubuntu 14.04, postgresql 9.3, mysql 5.5, wordpress 4.7.1

之前用wordpress 3.4.2和postgresql, pg4wp搭建一个个人博客网站，后来想升级时发现pg4wp从1.3.1之后再也没升级过，这个比较坑了，后续的wordpress都没法再升级上去。没办法，硬着头皮把postgresql替换成mysql。

#postgresql operations，从postgresql上导出数据
\copy wp_postmeta to ‘/home/jerry/postmeta.txt’;
\copy wp_posts ‘/home/jerry/posts.txt’;
\copy wp_links ‘/home/jerry/links.txt’;
\copy wp_terms ‘/home/jerry/terms.txt’;
\copy wp_term_relationships ‘/home/jerry/terms_relationships.txt’;
\copy wp_term_taxonomy ‘/home/jerry/terms_taxonomy.txt’;

#mysql operations，新建数据库wordpress，并导入之前的数据
CREATE DATABASE wordpress DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

delete from wp_postmeta;
delete from wp_posts;
delete from wp_links;
delete from wp_terms;
delete from wp_term_relationships;
delete from wp_term_taxonomy;

load data infile ‘/home/jerry/postmeta.txt’ into table wp_postmeta;
load data infile ‘/home/jerry/posts.txt’ into table wp_posts;
load data infile ‘/home/jerry/links.txt’ into table wp_links;
load data infile ‘/home/jerry/terms.txt’ into table wp_terms;
load data infile ‘/home/jerry/terms_relationships.txt’ into table wp_term_relationships;
load data infile ‘/home/jerry/terms_taxonomy.txt’ into table wp_term_taxonomy;

mysql 5.5 load data问题

环境: Ubuntu 14.04, mysql 5.5

使用mysql导入数据

load data infile ‘/home/jerry/aa.txt’ into table t1;

发现有两个问题：

mysql环境变量secure_file_priv，只有这个目录才能存放数据并导入到mysql内。查看路径 show variables like ‘%secure_file_priv%’; （但仍然无效）。设置其它路径，在/etc/mysql/my.conf上[mysqld]下面添加一行了secure-file-priv = “”，重启mysql，仍无效。
/etc/apparmor.d/usr.sbin.mysqld，这个mysql是用来设置文件的读写权限，在这个文件的底部添加如下两行。

/home/jerry/ r,
/home/jerry/* rw,

sudo /etc/init.d/apparmor reload 重新加载下

目前看来mysql的文件的权限设置这块非常严格。

编程感想

07年大学毕业，到现在快10年了。一直做数据相关的开发工作，感觉对一个系统的评估越来越集中在两条上。

1. 是否是分布式系统

可以避免种异常情况，提供可靠性和高扩展性

2. 自动化程度如何

减小人力的介入

如何将kafka的数据导入到Elastic

想到有三种方法：

1. logstash

2. kafka-connect-elasticsearch

3. elasticsearch-river-kafka-1.2.1-plugin

方法一：简单，只需启动一个代理程序

方法二：与confluent绑定紧，有些复杂

方法三：代码很久没更新，后续支持比较差

logstash使用如下：

input {
kafka {
zk_connect => “kafka:2181”
group_id => “logstash”
topic_id => “apache_logs”
consumer_threads => 16
}
}
output {
elasticsearch {
document_id => “%{my_uuid}”
}
}

https://www.elastic.co/blog/just-enough-kafka-for-the-elastic-stack-part2

Spark整合Elastic

环境: spark 1.6, ElasticSearch 1.6.1, elasticsearch-hadoop

通过 elasticsearch-hadoop可以将spark 处理后的数据保存在Elastic上，后续数据的检查和查询非常方便。

https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and-querying

https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html

https://spark-packages.org/package/elastic/elasticsearch-hadoop

awk过滤数据

awk -F”\\\\t” ‘$2==”mob” && $6>=1000{print $0}’ /home/hdp-guanggao/huangqiang/tab_stats/load_search_index_alert_daily_stat

2017-01-16 mob 1 NULL NULL 13830 0 0 5609 5743.577000000127 9931.434000000025
2017-01-16 mob 1 100 137 11010 11010 24841 739 955.905000000001 1511.187999999999
2017-01-16 mob 1 100 209 10756 10756 24192 759 890.9829000000002 1451.3469999999988
2017-01-16 mob 1 36 276 174784 27841 47541 1333 1073.7799999999966 1797.8559999999936
2017-01-16 mob 1 99 NULL 1044051 177367 380066 8369 7046.894000000293 11722.183999999928
2017-01-16 mob 1 99 0 63728 10888 23481 497 383.7400000000007 685.7949999999996
2017-01-16 mob 1 99 141 9287 1560 3351 68 49.469999999999985 75.745
2017-01-16 mob 1 99 99 9241 1552 3229 87 74.70999999999997 113.146

详细使用参考

http://502245466.blog.51cto.com/7559397/1288472

如何将多个pdf文件合并成一个

由于经常需要给各个老大发报表，需要将种pdf导出的报表合并成一个。在网上发现一款不错的软件cpdf，支持各个平台。使用如下：

cpdf 11.pdf 12.pdf 13.pdf 14.pdf 15.pdf -o out.pdf

具体详细的使用请参考文档

http://www.coherentpdf.com/usage-examples.html

Ubuntu 文本启动

环境：Ubuntu 14.04

sudo vi /etc/default/grub

修改

GRUB_CMDLINE_LINUX_DEFAULT=”quiet splash”
改成
GRUB_CMDLINE_LINUX_DEFAULT=”text”

sudo update-grub

sudo reboot

linux上使用flock来调用程序

在使用linux的crontab定时调用程序时会经常判断程序是否已经启用，之前是直接在程序中判断程序是否启动。后来找到一种比较简洁的方法flock，它是一种文件锁的方式。

[adadmin@s11 ~]$ flock
flock (util-linux-ng 2.17.2)
Usage: flock [-sxun][-w #] fd#
flock [-sxon][-w #] file [-c] command…
flock [-sxon][-w #] directory [-c] command…
-s –shared Get a shared lock
-x –exclusive Get an exclusive lock
-u –unlock Remove a lock
-n –nonblock Fail rather than wait
-w –timeout Wait for a limited amount of time
-o –close Close file descriptor before running command
-c –command Run a single command string through the shell
-h –help Display this text
-V –version Display version

使用如下：

先创建一个文件

touch test_flock.lock

调用如下（以python test_flock.py为示例)

flock -nx test_flock.lock python test_flock.py

spark mllib训练模型后如何做在线预测

最近在想一个问题，使用spark mllib训练后的模型如何做一个在线预测的服务？毕竟mllib只提供离线的训练和预测。想到大概有四种方法：

1. 使用spark streaming + kafka

直接使用spark streaming加载训练好的模型，然后通过从kafka上读取特征来预测数据，并将预测结果写回kafka中供客户端获取到。

2. spark + grpc

通过将spark mllib中的predict函数做成rpc service的形式，具体参考：

https://scalapb.github.io/grpc.html

3. spark + spray

通过spark mllib中的predict函数做restful的形式来预测。

4. spark + python flask

通过python调用spark mllib训练好的模型，借助flash提供接口

5. spark + python grpc

通过python grpc调用spark mllib训练好的模型，提供其它语言rpc接口

目前方法1, 4, 5是可行，方法2,3并没有实际实现的经验，还需再探索。