2020-05-17

ML Study Jams Vol.4 完了したから軽く感想

gcp

ML Study Jams Vol.4

developers-jp.googleblog.com

とりあえず対象のハンズオンを８つクリアした。

↓は対象外のも含む。

f:id:shuheilocale:20200517110619p:plain

f:id:shuheilocale:20200517110632p:plain

f:id:shuheilocale:20200517110643p:plain

４つでマグカップがもらえるが、８つ以上だと、過去のグッズ（Tシャツとバッグ）ももらえるのだ。

感想

以下はどっちかというとqwiklabsの感想になる。

有用か？

基本的には、文章読みながら理解して、ソースコードコピペしながら進めていくので、学ぶ姿勢がなければただの作業になる。ただし、一部は与えられた課題にたいして過去のハンズオンを参考に自分で考える必要があるものもある。学ぶ姿勢があれば有用だとは感じる。ただの作業にしても、4,5回同じことしてたら流石に覚えそうな気もする。

致命的な不具合

qwiklabsについては、ちょいちょいエラーが気になった。今回は8つクリアしたが、実際途中で諦めたのも２つあった。なぜかエラーで進めないなどがあるのだが、まあ無料だから仕方ないとして、 Dataprepのコースはやつは結構やばい↓

f:id:shuheilocale:20200517110921p:plain

個人的にやっておきたいもの

AutoMLでさくっと学習はやってみたい。業務で作ってるモデルよりこちらのほうがよければもうこれでいいんじゃね？って思ってしまう。ベンチマークとしてさくっと使いたい。

www.qwiklabs.com

2020-05-16

【GCP】Cloud DataprepのTransformerはデータ分析向けに心地良すぎた

gcp

Qwiqlabsの下記講義でgcpのサービスであるCloud Dataprepの使い方を学んだのだが、その中にあるTransofrmerと言うのがすごく良かった。

Dataprep: Qwik Start

次世代版エクセルというか、これをjupyterと組み合わせてインタラクティブにできたら最高だなあと思う。

デーブルデータをロードすると、各カラムに統計やtypeが表示される。 f:id:shuheilocale:20200516100917p:plain

これだけでデータ分析コンペはかなり嬉しいんじゃないか、pandas-profilingみたいなもんだ。

ヒストグラムはただの画像ではなく、グラフとして機能している。 f:id:shuheilocale:20200516101102p:plain

カーソルを合わせると、対象binの数値が表示さるのだ。すげえ。

カラムのヘッダから簡易的なフィルタリングも可能。 f:id:shuheilocale:20200516101205p:plain

対話型のGUIでぽちぽち条件を設定すると、自動的にクエリに変換される。 f:id:shuheilocale:20200516101239p:plain

こう言うの本当に嬉い。直感的に操作した後で微調整や繰り返しはコードでっていうことができる。 wangle言語というDSL（なのかな？）を用いれば、このようなクエリをコードで表現することも可能だ。

cloud.google.com

さらにそれらをデータ処理フローとして登録できる。他のテーブルデータとの結合も簡単。 f:id:shuheilocale:20200516101349p:plain

ネットをクソ適当に探したけど、まだそんなに知られてないのか日本語の文献が全然出てこない。見つけた資料としてはcourseraの動画があったので、見て欲しい。

www.coursera.org

2020-05-13

Qwiklabsが今なら無料

gcp

5/20までの申し込みで1カ月間無料 cloud.google.com

早速基礎を終わらせた。なんというかawsはgui上でぽちぽちするのが多かったけど gcpはコンソールつかってコマンドで作るのが基本ぽいな、もちろんguiでもできるんだろうけど。しかし最初は簡単だったのにいきなりk8sとかでてきてぶっ飛んだ。

一応自分が受けたいなと思ってお気に入りしたやつは↓

f:id:shuheilocale:20200513193438p:plain

全部は無理だろうけどいくつか受けてみよう。

ちなみにML Study Jamsも今受付中。

developers-jp.googleblog.com

コースがかぶってる気がするし、4コース受けるとマグカップもらえるから、 ML Study Jamsを優先してやたほうがよさそう。

2020-05-11

【LeetCode】Best Time to Buy and Sell Stock 解法

python LeetCode 競プロプログラミング

LeetCode - Best Time to Buy and Sell Stock

leetcode.com

自分的な解法はfinalである。 v1は5800ms、finalは120ms。 v1はスライス多様しすぎなへっぽこコード。 finalはsolutionに書かれていたものを理解したもの。

f:id:shuheilocale:20200511205514p:plain

ループを時系列に例えて、その際の最小値と最大利益を順次計算している。

ちなみにmaxProfitはsolution内の書き込みだが、よく理解していない。

class Solution:
    def maxProfit(self, prices: List[int]) -> int:
        
        if len(prices) <= 1:
            return 0

        d = [prices[i]-prices[i-1] for i in range(1,len(prices))]

        g = [0]*len(d)
        g[0] = d[0]

        for i in range(1,len(d)):
            g[i] = max(d[i], g[i-1] + d[i])

        return max(0,max(g))

        
    def final(self, prices):
        minprice = 9999999999 # sys.maxsize
        maxprofit = 0
        for price in prices:
            if price < minprice:
                minprice = price
            elif price - minprice > maxprofit:
                maxprofit = price - minprice
        
        return maxprofit
        
        
    def v1(self, prices):
        
        max_ = 0
        
        for i in range(0,len(prices)-1):
            v = prices[i]
            p = max(prices[i+1:]) - v
            #max_ = max([max_, p])
            max_ = max_ if max_ > p else p
            
        return max_

2020-05-11

【LeetCode】Two Sumの解法

LeetCode python 競プロプログラミング

LeetCode - Two Sum

leetcode.com

解法。自分の場合は最初はv1（ブルートフォース）。その次にv2（ハッシュ）、これで速度が100倍になった。で、コメントをみてv3,finalです。

finalの場合、target - nums[i]をifの中で計算しているようにしているが、ifがTrueになる確率の方が低いから、変数への代入のコストが少なくてすむのだろう。ちなみに enumerateを使おうが使わまいが、速度差はなかった。

あとは、towSum関数に直接コードかかないと30msくらい遅くなるが、これは備忘録として見やすいようにしているだけ。

class Solution:
    def twoSum(self, nums: List[int], target: int) -> List[int]:
        
        return self.final(nums, target)


    def v1(self, nums, target):
        
        for i, n1 in enumerate(nums):
            for j, n2 in enumerate(nums[i+1:]):
                if n1 + n2 == target:
                    return [i, i+1+j]
        return None
    
    def v2(self, nums, target):
        map_ = {}
        for i,v in enumerate(nums):
            map_[v] = i
            
        for i, v in enumerate(nums):
            complement = target - v
            if (complement in map_) and (map_[complement] != i):
                return [i, map_[complement]]
            
        return None
    
    def v3(self, nums, target):
        map_ = {}
        for i, v in enumerate(nums):
            complement = target - v
            if complement in map_:
                return [i, map_[complement]]
            map_[v] = i
            
        return None
    
    def final(self, nums, target):
        map_ = {}
        for i in range(len(nums)):
            if target - nums[i] in map_:
                return (map_[target - nums[i]], i)
            map_[nums[i]] = i
        return None

2020-05-11

【書評】Docker 書評というにはあまりにも失礼なくらいわからない

プログラミング本

Docker

作者:Adrian Mouat
発売日: 2016/08/17
メディア: 単行本（ソフトカバー）

業務でDockerを使うようになってきたので、ちゃんと体系的に知って起きたと思って手にとってみたが、まあむずい。

Ⅰ部　背景と基本

これこれ！こういうことをちゃんと体系的に知りたかったんだよねえ！！

Ⅱ部　Dockerのあるソフトウェアライフサイクル

お、おう。そうだな、こういうハイテクな使い方があるんだ、ふむふむ。

Ⅲ部　ツールとテクニック

・・・。

という具合である。

まあ今使うと言っても、リソースをスケールアウトしたいとか、いろんなコンテナを起動して連携したいとかいう場面はないのだ。ただ実験環境をクリーンにして、受け渡しやコード管理を楽にしたいという理由でDockerを使っているから、とりあえずI部の内容をちゃんと把握しておけば合格だと思っている。

この書籍の出版は2016年であって、もう4年くらい経ってるわけだから、ここで紹介されている内容だってだいぶ陳腐化されている可能性はある。書籍でのdocker バージョンは1.9（19じゃない）だし、オーケストレーションでswarmなんて使わないでしょ？しらんけど。なのであまり変わらないであろう「背景と基本」を抑えておけば、、、あとは必要な時に学習するのがよいのではなかろうか、と自分に言い聞かせる。

まあ3,600円するけど自分にとってその価値があるかというと、微妙ではある。というか、「お前にはまだ早い」と言わんばかりの内容であった。

個人的付箋

コンテナのポートを自動割り当て

-Pという引数を使うとDockerにホスト上の空いているポートを自動的にフォワードさせることができる。

$ ID=$(docker run -d -P nginx)
$ docker port $ID 80
0.0.0.0:32771
$ curl localhost:32771
<!DOCTYPE html>
<html>
…

コンテナ間でのデータの共有

コンテナ間でのデータの共有はdocker runで--volumes-from CONTAINERという引数をつかうことで実現できる。

$ docker run -it -h NEWCONTAINER --volumes-from container-test debian /bin/bash

これを使って複数コンテナ間でデータの共有をするためだけに作られた最小限なデータコンテナを用意するテクニックがある。

開発環境と実行環境の切替

cmd.shというファイルを作成する。

#/bin/bash
set -e

if [ "$ENV" = 'DEV' ]; then
  exec python "development.py"
else
  exec python "product.py"
fi

Dockerfileに

CMD["/cmd.sh"]

を追記して

$ docker run -e "ENV=DEV" -p 5000:5000 test-container

2020-05-11

【書評】みずほ銀行システム統合、苦闘の19年史　史上最大のITプロジェクト　

本

みずほ銀行システム統合、苦闘の19年史史上最大のITプロジェクト「3度目の正直」

作者:日経コンピュータ,山端宏実,岡部一詩,中田敦,大和田尚孝,谷島宣之
発売日: 2020/02/14
メディア: 単行本

これはやばそうな本が出たぞ。というワクワク感で買ったものの、 amazonの評価を見るとそうでもない感じだった。

www.amazon.co.jp

同じようなレビューが複数存在していて、なんか著者はみずほ銀行に忖度しているのかと思ってしまったが、とりあえず読んでみることにした。

結果的にはレビューの通り、罵詈雑言が飛び交うものでもなく、現場の荒れ果てた状況が語られるわけでもなく、どちらかというと、すごいシステムを作り上げたという評価に近いものであった。

本は３部構成になっており、１部が最近完成したMINORIというシステムについて、２部は東日本大震災直後のシステム障害について、３部は統合後の最初のシステム障害についてである。

２部、３部についてはいろいろ問題があって起こるべくして起きたと語っているものの、１部のMINORIについては、35万人月、4000億以上のコストをかけたすごいプロジェクトを成し遂げたんだ。という内容になっており、拍子抜けだった。

技術者であれば、人が増えることで一人あたりのパフォーマンスは下がることは経験的にわかるはずで、これだけの人数が携わっているならそれはもう想像しただけで恐ろしいと思うのだが、なぜかその苦難というのがあまり語られていない。過去の失敗から学び、大きな問題なく完成させたぞ、みうほは銀行の中でもリードしているのだ。みたいな。

まあ実態は違うんだろうけど、それでもまあここに語られていることが全てならば、予想していたよりもよいものができているんじゃない？と思ってしまう。