Textbearbetning i Linux
I denna artikel kommer vi att gå igenom hur man använder verktygen tr
, sed
och awk
för att modifiera en text. Den kommer att vara helt och hållet baserat
på exempel. Uppgiften kommer vara att snygga till en lista över Robert De
Niro-filmer.
Börja med att ladda hem listan till din dator. Det är en CSV fil och ser ut som nedan (de sista raderna):
2013, 11, "Killing Season"
2014, 9, "The Bag Man"
2015, 60, "Joy"
2015, 26, "Heist"
2015, 61, "The Intern"
2016, 11, "Dirty Grandpa"
Det vi ska åstadkomma är att ändra utseendet på listan så att den istället ser ut så här:
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Det vill säga filmens namn ska stå först, sedan årtalet separerat med ett bindestreck. Vi ska också plocka bort alla citattecken och Rotten Tomatoes-poängen.
tr
Det första verktyget vi kommer att använda här är tr
(för translate). Detta
är ett verktyg för att byta ut specifika tecken mot andra tecken, eller helt
enkelt för att ta bort tecken som vi ska göra i vårt fall.
För att byta ut tecken (eller översätta), används tr
på följande sätt:
$> echo "kalle" | tr 'a' '4'
k4lle
Här översatte vi a mot 4. Detta går även att översätta flera tecken samtidigt. Låt oss säga att vi vill översätta a mot 4, e mot 3 och l mot |. Då gör vi följande vis:
$> echo "kalle" | tr 'ael' '43|'
k4||3
För att ta bort tecken används flaggan -d
.
$> echo "kalle" | tr -d 'e'
kall
Nu när vi vet hur tr
fungerar kan vi testa att ta bort alla citattecken ur
listan.
$> cat deniro.csv | tr -d '"'
2013, 11, Killing Season
2014, 9, The Bag Man
2015, 60, Joy
2015, 26, Heist
2015, 61, The Intern
2016, 11, Dirty Grandpa
awk
awk
är ett verktyg och programspråk för att söka i och behandla texter. Här
kommer vi att använda awk
för att välja ut de fält vi är intresserade av i
listan. Men först ett exempel på hur awk
används. Vi kommer här att använda
/etc/passwd-filen som exempel.
De fem sista raderna i min /etc/passwd-fil ser ut som nedan. Här använder jag
tail
för att visa de fem sista raderna.
$> tail -n 5 /etc/passwd
sddm:x:123:129:Simple Desktop Display Manager:/var/lib/sddm:/bin/false
anna:x:1006:1007:Anna,,,:/home/anna:/bin/bash
fnatte:x:1007:1008::/home/fnatte:/bin/bash
nut:x:124:130::/var/lib/nut:/bin/false
pulse:x:112:118:PulseAudio daemon,,,:/var/run/pulse:/bin/false
Fälten i passwd-filen är åtskilda med ett kolon. Låt oss nu anta att vi endast
är intresserade av användarnamnet och hemkatalogen. Dessa är fält nummer 1
och 6. Det är nu awk
kommer in i bilden.
$> tail -n 5 /etc/passwd | awk -F ":" '{ print $1, $6 }'
sddm /var/lib/sddm
anna /home/anna
fnatte /home/fnatte
nut /var/lib/nut
pulse /var/run/pulse
Vi specificerade fältseparatorn med -F ":"
. Anges ingen fältseparator antas
att blanksteg separerar fälten.
Nu när vi vet hur awk
fungerar kan vi använda det för att välja ut filmens
namn och årtal från listan med De Niro-filmer. Årtalet är fält nummer 1, och
filmen är fält nummer 3. Här kommer vi således att skriva ut fält 3 före fält 1,
och mellan dem ska vi skriva ut ett bindestreck. Här måste vi också använda en
annan fältseparator. I listan används kommatecken för att separera fälten, så vi
anger detta med -F ","
. Nu lägger vi till awk
efter tr
med ännu en
rörledning.
$> cat deniro.csv | tr -d '"' | awk -F "," '{ print $3, "-", $1 }'
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Perfekt, bortsett från att det finns ett blanksteg framför varje rad. För att få
bort det kan vi använda sed
.
sed
sed
är istället ett verktyg för att redigera texter. Redigeringarna görs med
reguljära uttryck, så här får vi nytta av det vi lärt oss
från Reguljära uttryck, del 1
och Reguljära uttryck, del 2.
Här ska vi ta bort ett mellanslag som står som allra första tecken på varje
rad. Som vi kommer ihåg från artiklarna om reguljära uttryck markeras början på
en rad med ^
.
Med sed
kommer vi att använda funktionen s
för substitute. När vi skriver
reguljära uttryck för verktyg som sed
och vi
(och även för PHP) skrivs dessa
mellan två styck /
för att avgränsa uttrycket. Efter det sista snedstrecket
skriver man det som ska ersätta matchningen av det reguljära uttrycket.
Om vi återigen använder /etc/passwd-filen som exempel kan vi nu ersätta alla kolon med understreck.
$> tail -n 5 /etc/passwd | sed 's/:/_/g'
sddm_x_123_129_Simple Desktop Display Manager_/var/lib/sddm_/bin/false
anna_x_1006_1007_Anna,,,_/home/anna_/bin/bash
fnatte_x_1007_1008__/home/fnatte_/bin/bash
nut_x_124_130__/var/lib/nut_/bin/false
pulse_x_112_118_PulseAudio daemon,,,_/var/run/pulse_/bin/false
s
står alltså för substitue. Därefter kommer det reguljära uttrycket mellan
två snedstreck; i det här fallet är det bara ett kolon /:/
. Därefter kommer
understrecket som ska används istället för kolonet. Därefter avslutas hela
uttrycket med ett sista snedstreck. Det sista tecknet, g
, betyder global. Om
vi utelämnar g
kommer bara det första kolonet på varje rad att bytas ut mot
understreck.
Nu när vi vet hur sed
fungerar lägger vi till det i slutet av våra andra
kommandon med en ny rörledning. Eftersom vi här ska ta bort mellanslaget lämnar
vi ersättningen tom.
$> cat deniro.csv | tr -d '"' | awk -F "," '{ print $3, "-", $1 }' | sed 's/^ //'
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Och det hela fungerar perfekt! Vi har nu formaterat listan precis så som vi vill.
Textbearbetning har alltid varit en väsentlig del av UNIX – ända sedan AT&T Bell Labs tid. För den som är intresserad av historia rekommenderar jag följande två YouTube-klipp:
- AT&T Archives: The UNIX Operating System
- UNIX: Making Computers Easier To Use – AT&T Archives film from 1982, Bell Laboratories
Kommentarer
Kommentarsfältet är modererat. Det innebär att alla kommentarer granskas av ansvarig utgivare före publicering.
Du väljer själv om du vill ange ditt riktiga namn, en pseudonym eller vara helt anonym. Ingen registrering behövs.
Relaterade artiklar
-
Hämta data från API:er med cURL och jq
Med cURL och jq går det att extrahera data från API:er direkt från kommandoraden. Jq är en JSON-tolkare och beskrivs av utvecklarna som sed och awk för JSON.
-
Det nya Docker Compose
Sedan i mitten av förra året har det gamla Python-baserade
docker-compose
-kommandot sakta ersatts av det nyare Go-baseradedocker compose
. Det nya kommandot är ett plugin till Docker istället för ett fristående kommando som tidigare. -
Tvåfaktorsautentisering vid SSH-inloggning
Med hjälp av en PAM-modul går det att aktivera tvåfaktorsautentisering i Linux med exempelvis Google Authenticator-appen. Linuxsystemet kräver då både användarens lösenord samt ett engångslösenord. Det går även att kombinera en SSH-nyckel med ett engångslösenord.
-
Tjänster på användarnivå i Linux
I Linuxdistributioner med systemd går det att köra tjänster som vanliga användare. Med något som heter lingering går det dessutom att köra tjänster även om den aktuella användaren inte är inloggad.
-
Docker Desktop för Linux är här
Nu finns Docker Desktop även för Linux. Precis som Docker Desktop för macOS och Windows, finns även Kubernetes inkluderat i Linux-versionen. Man använder även ett VM för att köra containrarna.
Senaste nyheterna och inläggen
-
Poliser satte dit oskyldig
Två poliser dömdes i juni till vardera ett års fängelse av Lunds tingsrätt för att ha misshandlat och gripit en oskyldig man i hans bostad i Landskrona. Händelsen ägde rum en natt i mars förra året och spelades in av en övervakningskamera i mannens bostad.
-
Hämta data från API:er med cURL och jq
Med cURL och jq går det att extrahera data från API:er direkt från kommandoraden. Jq är en JSON-tolkare och beskrivs av utvecklarna som sed och awk för JSON.
-
Pythonmiljö i Docker
Ett vanligt användningsområde för Docker är att skapa och köra virtuella Pythonmiljöer. Med en Dockerfile och Docker Compose kan vi automatisera hela processen, från skapandet av miljön till exekveringen.
-
Retroloppis i Påarp
Idag var det retroloppis hos Andreas Nilsson i Påarp. På baksidan av huset fanns hundratals spel uppradade på långa bord. Trots friska vindar och sval temperatur var loppisen välbesökt.
-
Ny bok om Ansible
Till hösten släpper CyberInfo Sverige sin nya bok – Ansible från grunden. Boken riktar sig till alla som vill lära sig grunderna i Ansible. Den börjar med att sätta upp SSH-nycklar och köra enkla ad hoc-kommandon mot en värd. Därefter går vi vidare med att bygga egna playbooks och roller.
Utvalda artiklar
-
Poliser satte dit oskyldig
Två poliser dömdes i juni till vardera ett års fängelse av Lunds tingsrätt för att ha misshandlat och gripit en oskyldig man i hans bostad i Landskrona. Händelsen ägde rum en natt i mars förra året och spelades in av en övervakningskamera i mannens bostad.
-
Retroloppis i Påarp
Idag var det retroloppis hos Andreas Nilsson i Påarp. På baksidan av huset fanns hundratals spel uppradade på långa bord. Trots friska vindar och sval temperatur var loppisen välbesökt.
-
Stort deltagande på årets Gubbdata
I helgen var det Gubbdata i Lund – ett av Sveriges största demoparty. På plats fanns cirka ett hundra deltagare, alla med en passion för retrodatorer.
-
Kapad identitet
I mitten av september förra året blev Kristina utsatt för ett id-kapningsförsök. Någon hade ansökt om ett lån på 250 000 kr i hennes namn. Låneansökan gick ut till ett 20-tal banker.
-
Amiga-scenen lever än
I en villa mellan Ljungskile och Stenungsund den 27 november träffades de igen, ett gäng glada Amiga-entusiaster. Man träffas för att prata, titta på demos, spela och ha allmänt trevligt.
CyberInfo Sverige är ett IT- och medieföretag i nordvästra Skåne som tillhandahåller böcker, utbildningar, nyheter och konsulttjänster inom Linux, säkerhet och programmering.
CyberInfo Sverige är godkänd för F-skatt, är momsregistrerat och innehar
utgivningsbevis för webbplatsen www.cyberinfo.se.